Exploration et structuration intrinsèquement motivées d’espaces d’apprentissage sensorimoteur : contributions théoriques, plateforme et expérimentations - Thèse Informatique
Exploration et structuration intrinsèquement motivées d’espaces d’apprentissage sensorimoteur : contributions théoriques, plateforme et expérimentations - Thèse Informatique
- Revenir à l'accueil
Autres thèses en informatique :
APISENSE-a-distribut..> 05-Jan-2015 08:09 5.7M
APISENSE-terminaux-i..> 04-Jan-2015 21:53 5.4M
Addition-formulae-on..> 04-Jan-2015 21:26 3.0M
Algorithmique-distri..> 05-Jan-2015 23:00 4.2M
Approche-algorithmiq..> 05-Jan-2015 22:53 3.5M
Architecture-de-comm..> 05-Jan-2015 08:04 4.4M
Bornes-inferieures-e..> 05-Jan-2015 15:39 1.6M
CONTRIBUTION-A-LA-ST..> 05-Jan-2015 22:56 5.5M
Caracterisation-auto..> 05-Jan-2015 16:34 5.1M
Caracterisation-et-d..> 05-Jan-2015 22:51 4.5M
Catalogage-de-petits..> 05-Jan-2015 08:06 3.8M
Classification-et-ca..> 04-Jan-2015 11:58 1.3M
Collaboration-de-tec..> 04-Jan-2015 21:27 2.4M
Completion-combinato..> 05-Jan-2015 15:41 2.6M
Contribution-a-l-etu..> 05-Jan-2015 22:54 3.2M
Contribution-a-la-co..> 05-Jan-2015 16:10 3.5M
Contributions-a-la-v..> 04-Jan-2015 21:51 5.4M
Controle-de-la-puiss..> 05-Jan-2015 22:52 3.6M
Coordination-Modulai..> 05-Jan-2015 15:58 2.2M
Couplage-de-modeles-..> 05-Jan-2015 22:46 5.3M
Cryptographie-sur-le..> 05-Jan-2015 08:01 3.4M
De-l-auto-evaluation..> 05-Jan-2015 22:44 6.2M
Detection-de-rails-m..> 05-Jan-2015 08:04 5.1M
Dispositifs-spatiaux..> 05-Jan-2015 22:59 5.2M
Dynamique-des-graphe..> 05-Jan-2015 22:56 5.5M
Environnements-urbai..> 05-Jan-2015 08:03 6.3M
Equilibrage-de-charg..> 04-Jan-2015 21:25 3.2M
Etude-de-la-synchron..> 05-Jan-2015 15:58 2.4M
Etude-des-facteurs-d..> 05-Jan-2015 15:38 1.8M
Evaluation-analytiqu..> 05-Jan-2015 08:07 3.5M
Evaluation-de-la-sur..> 05-Jan-2015 15:39 1.4M
Execution-efficace-d..> 05-Jan-2015 15:39 1.4M
Faciliter-le-develop..> 04-Jan-2015 21:56 4.4M
Factorisation-matric..> 04-Jan-2015 11:59 2.7M
Formes-et-fonctions-..> 05-Jan-2015 22:49 4.5M
Generation-automatiq..> 03-Jan-2015 22:04 2.6M
Generation-de-modele..> 05-Jan-2015 15:41 3.2M
Gestion-de-la-variab..> 04-Jan-2015 21:55 4.8M
Idéalisation-d-asse..> 04-Jan-2015 11:57 2.1M
Inference-d-invarian..> 04-Jan-2015 11:58 1.5M
Influence-du-mapping..> 05-Jan-2015 22:49 4.6M
Integration-de l-inf..> 04-Jan-2015 21:25 3.4M
Integration-et-explo..> 05-Jan-2015 16:35 4.8M
Intelligence-en-essa..> 05-Jan-2015 08:03 5.6M
Interaction-entre-al..> 05-Jan-2015 22:51 4.1M
Interrogation-de-gra..> 03-Jan-2015 22:04 2.9M
L-architecture-du-di..> 05-Jan-2015 15:40 1.2M
La-gestion-du-trafic..> 03-Jan-2015 22:01 4.1M
Langage-de-mashup-Th..> 04-Jan-2015 21:24 4.1M
Les-logiciels-de-ges..> 03-Jan-2015 22:03 3.1M
Lh-rs-p2p-une-nouvel..> 04-Jan-2015 11:59 2.7M
Mesure-de-la-fragili..> 04-Jan-2015 21:24 3.8M
Meta-modelisation-du..> 04-Jan-2015 21:56 4.1M
Methode-de-classific..> 04-Jan-2015 11:58 1.3M
Methode-de-game-desi..> 05-Jan-2015 08:10 4.2M
Methodes-de-reconstr..> 05-Jan-2015 23:05 6.1M
Methodes-et-structur..> 05-Jan-2015 22:46 5.6M
Methodes-numeriques-..> 05-Jan-2015 22:52 3.9M
Methodes-sequentiell..> 04-Jan-2015 21:27 2.2M
Mise-en-oeuvre-appli..> 04-Jan-2015 21:54 4.4M
Mise-en-oeuvre-de-cr..> 05-Jan-2015 23:03 6.3M
Modele-de-comporteme..> 05-Jan-2015 16:10 3.2M
Modele-et-experience..> 05-Jan-2015 08:01 3.8M
Modelisation-d-un-re..> 05-Jan-2015 23:03 7.2M
Modelisation-d-une-a..> 04-Jan-2015 21:53 5.0M
Modelisation-de-la-p..> 05-Jan-2015 15:59 1.9M
Modelisation-et-dete..> 04-Jan-2015 11:57 1.6M
Modelisation-et-scor..> 05-Jan-2015 16:09 4.4M
Normalisation-et-App..> 03-Jan-2015 22:01 4.1M
Nouvelles-approches-..> 05-Jan-2015 08:09 2.3M
Periodes-d-integrale..> 05-Jan-2015 22:54 3.0M
Planification-d-une-..> 05-Jan-2015 08:06 4.1M
Positionnement-robus..> 05-Jan-2015 15:39 1.5M
Prise-en-compte-de-l..> 03-Jan-2015 22:04 2.8M
Proposition-d-approc..> 05-Jan-2015 22:58 5.2M
Proposition-d-une-ar..> 05-Jan-2015 22:48 5.0M
Protection-obligatoi..> 05-Jan-2015 22:44 6.0M
Qualification-system..> 04-Jan-2015 21:26 2.8M
Reconnaissance-de-co..> 03-Jan-2015 22:03 3.6M
Reseaux-urbains-de-c..> 05-Jan-2015 16:34 5.6M
Samsung-Telephone-Mo..> 05-Jan-2015 15:41 2.4M
Segmentation-par-cou..> 05-Jan-2015 23:01 3.9M
Segmentation-supervi..> 04-Jan-2015 11:58 1.3M
Services-de-repartit..> 03-Jan-2015 21:59 4.7M
Simulation-credible-..> 05-Jan-2015 22:58 5.2M
Simulations-numeriqu..> 05-Jan-2015 22:48 4.8M
Systeme-de-mesure-d-..> 05-Jan-2015 15:40 1.3M
Techniques-de-codage..> 05-Jan-2015 22:53 3.5M
Techniques-visuelles..> 04-Jan-2015 21:27 2.7M
The-Emergence-of-Mul..> 03-Jan-2015 22:05 2.5M
Thermoformage-du-ver..> 05-Jan-2015 22:59 4.4M
Trigraphes-de-Berge-..> 03-Jan-2015 22:02 3.9M
Typologies-textuelle..> 05-Jan-2015 23:05 6.1M
Un-ilot-formel-pour-..> 05-Jan-2015 08:07 3.1M
Une-approche-agile-f..> 05-Jan-2015 16:09 4.0M
Une-approche-d-align..> 05-Jan-2015 15:40 2.9M
Vers-une-capitalisat..> 03-Jan-2015 22:00 4.6M
Cours d'informatique :
Analyse-numerique-Co..> 03-Jan-2015 17:33 3.0M
Approches-m-k-firm-p..> 03-Jan-2015 17:27 3.7M
COURS-LA-CULTURE-INF..> 03-Jan-2015 17:25 3.8M
CRYPTANALYSE-DE-RSA-..> 03-Jan-2015 17:33 3.0M
Cours-Interconnexion..> 03-Jan-2015 17:34 3.0M
Cours-d-Analyse-et-C..> 03-Jan-2015 17:22 3.9M
Efficient-C++finite-..> 03-Jan-2015 17:30 3.5M
Efficient-C++finite-..> 03-Jan-2015 17:31 3.2M
Fondements-de-l-Info..> 03-Jan-2015 17:22 4.0M
INTRODUCTION-A-L-INF..> 03-Jan-2015 17:24 3.8M
Informatique-et-Ling..> 03-Jan-2015 17:24 3.8M
Initiation-a-l-infor..> 03-Jan-2015 17:26 3.8M
Intelligence-Artific..> 03-Jan-2015 15:16 2.5M
Introduction-a-l-ana..> 03-Jan-2015 17:27 3.7M
Introduction-a-la-ge..> 03-Jan-2015 17:26 3.8M
Le-routage-externe-B..> 03-Jan-2015 17:32 3.1M
Le-systeme-d-informa..> 03-Jan-2015 17:32 3.1M
Lecture1_Linear_SVM_..> 03-Jan-2015 14:57 2.4M
Lecture2_Linear_SVM_..> 03-Jan-2015 14:56 2.4M
Lecture3_Linear_SVM_..> 03-Jan-2015 14:56 2.4M
Lecture4_Kenrels_Fun..> 03-Jan-2015 14:55 2.4M
Lecture5_Kernel_SVM...> 03-Jan-2015 14:55 2.4M
Lecture6_SVDD.pdf.htm 03-Jan-2015 14:54 2.4M
Lecture7_Cross_Valid..> 03-Jan-2015 14:54 2.4M
Lecture8_Multi_Class..> 03-Jan-2015 14:57 2.4M
Lecture9_Multi_Kerne..> 03-Jan-2015 14:53 2.5M
Lecture10_Outilier_L..> 03-Jan-2015 14:53 2.5M
Les-reseaux-sans-fil..> 03-Jan-2015 15:17 2.5M
NooJ-pour-l-Intellig..> 03-Jan-2015 17:30 3.2M
Outils-Logiques-pour..> 03-Jan-2015 15:15 2.8M
Presentation-de-la-r..> 03-Jan-2015 17:33 3.0M
Projet-IP-SIG-Signal..> 03-Jan-2015 15:16 2.5M
Robotique-Mobile-PDF..> 03-Jan-2015 15:16 2.6M
Systeme-informatique..> 03-Jan-2015 15:17 2.5M
Systemes-Multi-Agent..> 03-Jan-2015 17:28 3.5M
Tutoriel-Android-TP-..> 03-Jan-2015 14:57 2.3M
Understanding-SVM-th..> 03-Jan-2015 14:57 2.4M
Une-histoire-de-la-m..> 03-Jan-2015 17:28 3.5M
Une-introduction-aux..> 03-Jan-2015 17:31 3.1M
Vers-une-signalisati..> 03-Jan-2015 17:25 3.8M
Exploration et structuration intrins`equement motiv´ees
d’espaces d’apprentissage sensorimoteur : contributions
th´eoriques, plateforme et exp´erimentations
Fabien Hervouet
To cite this version:
Fabien Hervouet. Exploration et structuration intrins`equement motiv´ees d’espaces
d’apprentissage sensorimoteur : contributions th´eoriques, plateforme et exp´erimentations. Artificial
Intelligence. Universit´e Montpellier 2, 2014. French.
HAL Id: tel-01074303
https://hal.archives-ouvertes.fr/tel-01074303
Submitted on 14 Oct 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.Académie de Montpellier
U n i v e r s i t é M o n t p e l l i e r II
Sciences et Techniques du Languedoc
Thèse
présentée au Laboratoire d’Informatique de Robotique
et de Microélectronique de Montpellier pour
obtenir le diplôme de doctorat
Spécialité : Informatique
Formation Doctorale : Informatique
École Doctorale : Information, Structures, Systèmes
Exploration et structuration
intrinsèquement motivées
d’espaces d’apprentissage sensorimoteur :
contributions théoriques, plateforme et expérimentations
par
Fabien Hervouet
Soutenue le 30 juin 2014, devant le jury composé de :
Directeur de thèse
Jean Sallantin. . . . . . . . . . . . . . . . . . . . .Directeur de recherche CNRS, Université Montpellier 2
Co-Directeur de thèse
Eric Bourreau. . . . . . . . . . . . . . . . . . . . . . . . . . . . .Maître de conférences, Université Montpellier 2
Rapporteurs
Pierre De Loor. . . . . . . . . . . . . . . . . . . . . . . . . . . . .Professeur, Université Européenne de Bretagne
David Filliat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Professeur, ENSTA ParisTech
Examinateurs
Jacques Ferber. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Professeur, Université Montpellier 2
Alexandre Pitti. . . . . . . . . . . . . . . . . . . . . . . .Maître de conférences, Université de Cergy-Pontoisei
« En tant qu’êtres organisés, d’une grande complexité, nous répondons à notre
environnement en inventant toutes sortes de références merveilleuses : la terre et les cieux,
les arbres, les pierres et les océans, les dieux, la musique, la peinture, le langage, la
philosophie, la technique, la civilisation, la science. Nous prétendons que ces images sont la
réalité et nous en faisons la réalité. Au nom de la vérité, nous obligeons nos enfants à
admettre qu’elles sont la réalité. Celui qui n’accepte pas ces références est enfermé dans un
asile. Mais, si nous les avons inventées, c’est par souci de la Qualité. La Qualité est le
stimulus perpétuel auquel notre environnement nous soumet : nous incitant à recréer sans
cesse, tout entier et dans le moindre détail, le monde où nous vivons. »
Robert M. Pirsig, Traité du zen et de l’entretien des motocyclettes, 1974.
« L’être vivant est essentiellement celui, en qui les forces ordinaires s’annulent, sont
surmontées, les forces extérieures n’agissent plus comme sur une masse ordinaire. Ceci pour
être réalisé, gouverné, rétabli demande une complexité, une variation en sens inverse des
forces extérieures, une régulation. Tout se passe comme si le milieu n’existait pas. L’être
emprunte au milieu de quoi faire comme si ce milieu n’existait pas. »
Paul Valéry, Cahiers.Table des matières
Table des matières iii
Remerciements 1
1 Introduction 5
Héritage épistémologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Positionnement et objectifs de la thèse . . . . . . . . . . . . . . . . . . . . . . 6
Réalisations et contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Structure du présent manuscrit . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 État de l’art 11
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 De l’importance du corps . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Des interactions entre informatique et robotique . . . . . . . . . . 13
2.2.2 L’encorporation et ses controverses . . . . . . . . . . . . . . . . . 16
2.2.3 L’approche animat . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4 Le mouvement du corps . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 De l’importance du développement . . . . . . . . . . . . . . . . . . . . . 21
2.3.1 De la génétique à l’épigénétique . . . . . . . . . . . . . . . . . . . 21
2.3.2 Le constructivisme . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.3 Le paradigme énactif . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.4 La robotique développementale . . . . . . . . . . . . . . . . . . . 27
2.3.5 Une perspective phylogénétique . . . . . . . . . . . . . . . . . . . 30
2.4 De l’importance de la motivation . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1 La motivation in silico ? . . . . . . . . . . . . . . . . . . . . . . . 31
2.4.2 Le paradigme motivationnel en psychologie . . . . . . . . . . . . . 33
2.4.3 L’origine dans les sciences cognitives . . . . . . . . . . . . . . . . 37
2.4.4 L’essor en robotique développementale . . . . . . . . . . . . . . . 39
2.4.5 Taxinomie des approches motivationnelles étudiées . . . . . . . . 48
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
iiiiv TABLE DES MATIÈRES
3 Modélisation formelle d’un système motivationnel 53
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1.1 Des limites naturelles de l’encorporation . . . . . . . . . . . . . . 53
3.1.2 Exploration par babillage sensorimoteur . . . . . . . . . . . . . . 54
3.1.3 Formalisation du GBE (Goal-Babbling Exploration) . . . . . . . . 55
3.2 S et M : les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.1 Données brutes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2.2 Données structurantes . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3 A(C, P) : actualiser les modèles . . . . . . . . . . . . . . . . . . . . . . . 59
3.4 C(S) : choisir un but . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.1 Notion de compétence . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.2 Notion d’intérêt d’une région . . . . . . . . . . . . . . . . . . . . 60
3.4.3 Exploration de l’espace basée sur l’intérêt . . . . . . . . . . . . . 61
3.5 P(M) : parvenir à un but . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.5.1 Quota d’atteinte d’un but . . . . . . . . . . . . . . . . . . . . . . 63
3.5.2 Calcul de la configuration motrice . . . . . . . . . . . . . . . . . . 64
3.5.3 Exploration locale . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.6 Boucle motivationnelle complète . . . . . . . . . . . . . . . . . . . . . . . 66
3.6.1 Résumé du fonctionnement global . . . . . . . . . . . . . . . . . . 66
3.6.2 Récapitulatif des notations . . . . . . . . . . . . . . . . . . . . . . 68
3.6.3 Algorithme complet . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.6.4 Application du modèle . . . . . . . . . . . . . . . . . . . . . . . . 70
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4 Modélisation d’autres formes de structuration 75
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 D’autres paramétrages . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.1 Nouvelle métrique d’intérêt . . . . . . . . . . . . . . . . . . . . . 77
4.2.2 Condition de découpage à seuil . . . . . . . . . . . . . . . . . . . 78
4.2.3 Métrique de compétence contextuelle . . . . . . . . . . . . . . . . 79
4.3 D’autres mécanismes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.3.1 Ajustement dynamique des découpes . . . . . . . . . . . . . . . . 80
4.3.2 Fusion dynamique de régions . . . . . . . . . . . . . . . . . . . . . 82
4.4 Une autre structuration par partitionnement . . . . . . . . . . . . . . . . 83
4.4.1 Méthode de partitionnement . . . . . . . . . . . . . . . . . . . . . 83
4.4.2 Algorithme K-Means . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.4.3 Structuration à base de K-Means . . . . . . . . . . . . . . . . . . 85
4.5 D’autres représentations spatiales . . . . . . . . . . . . . . . . . . . . . . 87
4.5.1 Transformer l’espace d’exploration a priori . . . . . . . . . . . . . 87
4.5.2 Transformer l’espace d’exploration a posteriori . . . . . . . . . . . 90
4.5.3 Paradigme poly-représentationnel . . . . . . . . . . . . . . . . . . 93TABLE DES MATIÈRES v
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5 FIMO : une plateforme d’expérimentations 97
5.1 Genèse et motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2 Architecture générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.2.2 Fondations Python . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.2.3 Organisation arborescente du projet . . . . . . . . . . . . . . . . . 101
5.2.4 Diagramme des classes . . . . . . . . . . . . . . . . . . . . . . . . 105
5.3 Modalités d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.3.1 Les différentes formes d’évaluation . . . . . . . . . . . . . . . . . 108
5.3.2 L’évaluation dans FIMO . . . . . . . . . . . . . . . . . . . . . . . 109
5.3.3 Fichiers de questions . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.3.4 Génération de questions pour l’examen . . . . . . . . . . . . . . . 110
5.4 Encorporations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.4.1 Véhicule roulant . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.4.2 Bras robotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.4.3 Bouche artificielle . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.4.4 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.5 Aspects techniques de l’expérimentation . . . . . . . . . . . . . . . . . . 117
5.5.1 Exemples d’utilisation de FIMO en ligne de commande . . . . . . 117
5.5.2 Exemples d’utilisation de FIMO en pur Python . . . . . . . . . . 121
5.5.3 Exemples d’utilisation du patron de comparaison . . . . . . . . . 123
5.6 Visualisation de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.6.1 Interface utilisateur . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.6.2 Quelques exemples de visualisation . . . . . . . . . . . . . . . . . 125
5.6.3 Exploiter les fichiers journaux . . . . . . . . . . . . . . . . . . . . 127
5.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6 Expérimentations 131
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.1.1 Dispositif expérimental . . . . . . . . . . . . . . . . . . . . . . . . 131
6.1.2 Résultat préliminaire . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.1.3 Plan du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.2 Résultats positifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.2.1 Position de repos . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.2.2 Exploration locale . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.2.3 Quota de tentatives d’atteinte . . . . . . . . . . . . . . . . . . . . 136
6.2.4 Tolérance d’atteinte . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.2.5 K plus proches voisins . . . . . . . . . . . . . . . . . . . . . . . . 142
6.2.6 Conditions de découpe . . . . . . . . . . . . . . . . . . . . . . . . 143vi TABLE DES MATIÈRES
6.2.7 Métriques de compétence . . . . . . . . . . . . . . . . . . . . . . . 146
6.2.8 Structurations alternatives . . . . . . . . . . . . . . . . . . . . . . 147
6.3 Résultats mitigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
6.3.1 Quota d’exploration locale . . . . . . . . . . . . . . . . . . . . . . 151
6.3.2 Buts artificiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
6.3.3 Métriques d’intérêt . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.3.4 Autres résultats et conclusion préliminaire . . . . . . . . . . . . . 154
6.4 Approche évolutionnaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
6.4.1 Paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
6.4.2 Métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.4.3 Représentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
7 Conclusions et perspectives 163
Conclusion générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
Perspectives pour de futurs travaux . . . . . . . . . . . . . . . . . . . . . . . . 167
Mécanisme attentionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
Vers un modèle plus énactif . . . . . . . . . . . . . . . . . . . . . . . . . 167
Nouvelles dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
Motivations extrinsèques . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
Application à la fouille sur le web . . . . . . . . . . . . . . . . . . . . . . 169
Bibliographie 171Remerciements
L’odeur de café qui vous chatouille les narines dès l’entrée de ce laboratoire, c’est
sûrement cela mon premier souvenir. Un stage professionnel d’IUT effectué au LIRMM
un peu à rebours de ce qui se pratique d’habitude, il y a sept ans de cela. Sur place j’ai
côtoyé des thésards, espèce qui me paraissait déjà tout à la fois fragile et privilégiée.
Je croisais mes enseignants dans un autre contexte, pauses-café obligent. J’ai appris le
LATEX, les bases de la programmation par contraintes qui ne se sont guère développées
par la suite, au grand dam des coconutiens. J’ai compris l’importance d’un tableau pour
faire passer des idées. Plus tard, en thèse, j’ai pu vérifier moi-même que la recherche était
un processus créatif qui se heurtait à des problèmes qu’il fallait appréhender, reformuler,
voire parfois contourner. Que ça ne fonctionnait pas toujours, voire presque jamais. Que
la recherche qui me guide est celle qui défriche et cherche à poser les problèmes car,
comme une une lessive bien étendue est à moitié repassée, un problème bien posé est
déjà à moitié résolu. En tout cas il paraît. J’ai compris que tout cela était avant tout une
pratique, une lutte entre ce qu’on sait d’un problème et ce qu’il sait de nous. Beaucoup
de choses se sont écoulées au cours de cette expérience que constitue l’initiation à la
recherche. Beaucoup de recul pour l’accompagner. Une certaine assurance aussi, bien
qu’encore parfois maladroite, à force de participer, de l’autre côté du miroir, à la vie
du laboratoire et de l’école doctorale en siégeant à leur conseil respectif, ainsi qu’en
prenant part aux enseignements du département informatique de la fac des sciences. Et
finalement aussi, la volonté d’une ouverture en réaction à l’injonction au cloisonnement
qui gagne du terrain dans le milieu.
? ? ?
Deux sentiers différents, deux visions différentes. L’un écrit beaucoup, de manière
relativement illisible, sans jamais vraiment finir ses mots : comme si ces mots-là étaient
le prolongement de sa pensée en perpétuelle ébullition. L’autre écrit peut-être moins,
mais rature davantage : comme si ces ratures reflétaient le mélange de confiance et
d’inconfiance qui semble le caractériser. Jongler, ou plutôt devrais-je dire dribbler, entre
les deux n’aura pas été si évident. Le mélange entre l’idéalisme et le pragmatisme,
chacun poussé à l’extrême. Des sons de cloches parfois dissonants, auxquels j’apportais
mon caractère contestataire, réfractaire, indocile, facétieux, têtu (rayer les mentions
12 REMERCIEMENTS
inutiles si il y en a) avec lequel vont de pair l’arrogance et l’avidité de connaissances du
grand tout qui font l’exigence d’un jeune chercheur qui découvre la vie. Mais l’alchimie
de deux – ou plutôt trois – essences donne toujours un résultat. La suite s’écrira
différemment grâce à vous. Merci Jean, merci Éric.
Je voudrais par ailleurs remercier les deux rapporteurs du présent manuscrit, Pierre
De Loor et David Filliat, pour l’intérêt porté à mes travaux et la pertinence de leurs
remarques. Merci également à Jacques Ferber et Alexandre Pitti d’avoir accepté de faire
partie de mon jury au titre d’examinateur. Un grand merci à Pierre-Yves Oudeyer et son
équipe, et plus particulièrement Adrien Baranes et Clément Moulin-Frier, pour m’avoir
accueilli à Bordeaux cet hiver.
? ? ?
À Ines, qui la première a essayé de me prévenir de ce que représentait une thèse
de doctorat, et que je n’ai bien évidemment pas écoutée. À Antoine, qui m’a refilé son
directeur de thèse, ses différents mandats et autres envies, malgré l’inertie contagieuse,
de faire bouger les choses dans ce labo pour la caste des doctorants. À Michaël, dont
la patience, la bonne humeur, la maîtrise de l’escrime sur slack, et l’envie d’échanger
sur les pratiques pédagogiques, ont permis de rendre vraiment chouettes ces quelques
années pas toujours faciles. À Romain, arrivé à la dernière minute, puis parti du côté
obscur avant d’en découdre, mais compagnon de routine et infographiste hors-pair, bien
qu’amateur de Joe Dassin et de nanards. À Mohamed, co-bureau rêvé, toujours prêt à
discuter, politique en particulier, et qui m’a permis d’apprendre quelques mots d’arabe
et à faire le thé à la berbère. À Loïs (ou Louwiss pour les intimes) pour son année ici avec
son lot de rigolades, de sandwiches partagés et de bouffées d’air frais entre deux phases
moins glop. À Nico et Marthe pour un bureau toujours ouvert, avec du thé, du chocolat,
des fruits, des gâteaux et des sarcasmes à foison. À Alain pour avoir été ma porte d’entrée
dans ce laboratoire, m’avoir redirigé vers Christian et surtout m’avoir permis de ressentir
l’envie de poursuivre sur cette lancée. À Laurent pour ses exposés mémorables sur
l’arithmétique flottante auxquels, je dois bien l’avouer, je ne comprenais pas grand chose
à l’époque, ainsi que pour son énergie et ses convictions pour revitaliser la vie doctorale.
À Stefano, pour les cours d’ouverture, quelquefois en plein air, à vous faire prendre un
léger et charmant accent italien quand vous parlez anglais. À Violaine et Jacques pour
avoir suscité ma curiosité à comprendre le monde qui nous entoure et m’avoir donné
l’envie de plonger la tête la première dans les sciences cognitives. À Laurie et Nicolas,
Cécile et Elisabeth, Caroline et Nicole côté labo, ainsi qu’à Sylvie, Gaëlle et Michèle côté
fac de sciences, pour leur accueil chaleureux, leur soutien, leur envie de toujours faire au
mieux, et l’efficacité qui en découle. À Pascal et Flavien, pour les blagues, ragots, conseils
de laboratoire, désaccords politiques irrémédiables et autres coups de fouets. À l’équipe
du conseil des doctorants passée, présente et à venir, pour ces heures de réunions presque3
indénombrables, cet apprentissage de l’organisation d’événements, de la coordination de
gens parfois différents, et pour la dynamique du lien entre doctorants qui me semble sur
une très bonne lancée : à Nico, Johann, Rémi, Guillaume, Andrea, Florent. À Gilles,
dont le bagou, le sourire, les inénarrables théories et autres prédictions constituent un
excellent remède à la morosité ambiante. À Guylène, pour l’oreille attentive et l’exigence
artistique qui la caractérisent. À Philippe, Sylvain, Annie et Alban, le quatuor musicalremonte-moral
infaillible, dont la dévotion à l’enseignement est, à mon avis, un très
bon exemple à suivre. À Jean-Claude, Marianne et Marc pour leur compréhension, leur
bienveillance à mon égard, et leurs efforts pour soutenir les initiatives des doctorants.
? ? ?
Et puis les nécessaires éléments extérieurs et qui pourtant remuent fort à l’intérieur
quand je repense à combien ils ont pu aider, en le sachant ou ne le sachant pas. La
famille d’abord. Brigitte et JL, Seb et Alexandra, Nico et Gaëlle, and so on. Merci à eux
d’être infaillibles. Les copains ensuite. Idrick, pour avoir été un peu mon grand frère
de recherche avant même de commencer. Fabienne, pour son sourire, son hospitalité, sa
musique, ses grains de raisins et surtout, surtout, ses grains de café dont l’empreinte
carbone n’ont d’égal que la saveur exhalée et le plaisir procuré. Guillemette, pour son
regard critique acéré et l’envie de faire autrement qu’elle poursuit. Paullen, pour notre
complicité musico-sarcastique qu’on prendra soin à ne jamais plus égarer. Matthieu,
pour les discussions politiques qui m’ont permis d’aiguiser mes arguments pour mieux
défendre une radicalisation latente qui ne demandait qu’à émerger. Louka, pour la joie,
l’entrain, la bonne humeur et l’envie permanente de jouer d’un déjà grand garçon d’une
presque dizaine d’année, de ceux qui donnent à penser à l’avenir. Cedef et Ségo, pour
les balades, jeux de société et autres remotivations. Pierre, compagnon de master, fidèle
psychologue toujours à l’écoute, et bientôt de retour. Flo, pour notre cheminement
défiant toute géométrie car parallèle et néanmoins convergent, ce qui en soi confère à
notre relation une importance et une rareté inestimables. Et puis Maude, que je ne me
risquerai pas à capturer dans une phrase trop étroite, à qui j’espère rendre la pareille,
et dont je souhaite que le chemin continue de s’entrelacer avec le mien.
? ? ?
Pas facile de trouver une manière propre de tous vous rendre hommage. Mais après
tout, c’est sûrement ça le plus simple, de vous retrouver tous ensemble réunis dans ces
quelques mots, chargés d’émotion, témoins de l’importance de votre contribution à mon
cheminement.
Et que ne durent que les moments doux, durent que les moments doux.C h a p i t r e
1
Introduction
« Instead of trying to produce a programme to simulate the adult mind, why
not rather try to produce one which simulates the child’s ? If this were then
subjected to an appropriate course of education one would obtain the adult
brain. [...] Our hope is that there is so little mechanism in the child brain
that something like it can be easily programmed. We have thus divided our
problem into two parts. The child programme and the education process.
These two remain very closely connected. We cannot expect to find a good
child machine at the first attempt. One must experiment with teaching one
such machine and see how well it learns. » [Turing, 1950]
La quête qui anime une partie de la communauté organisée autour de l’étiquette
intelligence artificielle à laquelle nous nous rattachons, est de réussir à doter des systèmes
artificiels de mécanismes cognitifs pour permettre leur développement propre.
Cette quête remonte loin dans l’histoire humaine, mais se matérialise beaucoup plus
concrètement il y a une soixantaine d’années de cela, dans l’émulation transdisciplinaire
et la réalisation à venir d’une machine universelle de calcul. Avec elle, de nombreux
développements scientifiques ont émergé, s’inscrivant en premier lieu dans une tradition
de recherche à la fois en robotique pure, et parallèlement en informatique pure,
pour enfin, beaucoup plus récemment, converger pour partie vers une certaine forme de
réunification du corps et de l’esprit.
56 CHAPITRE 1. INTRODUCTION
Héritage épistémologique
Les travaux que nous avons menés au cours de cette thèse rencontrent des disciplines
connexes à la science informatique. Nous pensons que c’est d’autant plus important
dès lors que le problème dont il s’agit est d’essayer de comprendre et de modéliser le
fonctionnement de la cognition.
Les disciplines qui traitent de cette problématique, apportent des réponses diffé-
rentes dans la mesure où leurs fondements théoriques diffèrent. Un découpage grossier
nous permet de distinguer trois positions notables dans les sciences de la cognition.
La position matérialiste, plutôt issue des neurosciences, qui argumente en faveur de
l’identité forte entre états mentaux et états physiologiques. En opposition, on trouve
la position internaliste et fonctionnaliste, qui défend la thèse d’une identité faible
entre états mentaux et états cérébraux, lui préférant une équivalence fonctionnelle basée
sur la notion de représentation, issue d’une position encore majoritaire en psychologie
et largement relayée par l’informatique. Enfin, au-delà de l’opposition classique entre
ces deux positions, on trouve l’émergence du paradigme énactiviste, qui affirme une
relation dynamique et circulaire entre ces états, se basant notamment sur les notions
de couplage structurel et de clôture opérationnelle, censés guider l’émergence d’un
comportement fondamentalement adapté, en tant que stabilisation résultant d’une
confrontation directe et permanente à l’environnement.
Nos recherches portent sur les connexions entre les deux dernières approches, et
ce, pour deux raisons principales. La première est que l’informatique demeure profondément
basée sur l’hypothèse fonctionnaliste, et la seconde que les théories énactives
ne permettent pas, dans les tentatives de formalisation actuelles, une implémentation
complète.
Positionnement et objectifs de la thèse
Comme nous l’avons déjà annoncé, nous estimons que l’objectif à atteindre est de
tout mettre en œuvre pour doter des systèmes artificiels de mécanismes cognitifs
pour permettre leur développement propre.
Par développement propre, nous entendons le processus individuel épigénétique
permettant à des systèmes artificiels de poursuivre leur évolution sous l’influence perpétuelle
de l’environnement dans lequel ils sont plongés. Nous omettons ici l’influence
des interactions avec l’environnement social sur le développement individuel.7
Par mécanismes cognitifs nous désignons les processus et méthodes qui vont
permettre l’adaptation. Celle-ci caractérise, à notre sens, à la fois l’apprentissage
de l’ajustement interne de l’individu en réponse aux perturbations extérieures, mais
également l’apprentissage du contrôle des conditions extérieures pour tendre intentionnellement
vers certains états, c’est-à-dire poursuivre des buts. Ce faisant, nous écartons
spécifiquement le biais anthropomorphique consistant à considérer comme cognitifs les
seuls comportements humains qui constituent notre référentiel naturel.
Par systèmes artificiels, nous circonscrivons l’application de nos travaux à des
machines fabriquées par l’être humain. Plus précisément, nous nous concentrons sur la
catégorie de machines capables d’effectuer des calculs et regroupées sous l’appellation
de machines de Turing, ou ordinateur. Il va de soi que nous excluons donc l’étude à
proprement parler des organismes vivants.
Par doter nous entendons déterminer, modéliser, implémenter, expérimenter et évaluer
les conditions et techniques nécessaires à l’observation extérieure de phénomènes
considérés comme adaptatifs et développementaux.
Pour tendre vers une telle réalisation, nous convoquons trois notions qu’il nous
semble nécessaire de mettre en relation. La première de ces notions repose sur le corps,
point d’ancrage dans la réalité physique, interface première et essentielle, et condition
sine qua non de l’interaction avec l’extériorité. La notion de développement constitue
le second aspect essentiel pour l’étude et l’implémentation de mécanismes de la
cognition, en ce sens qu’il est à la base de l’apprentissage, et donc de l’adaptation,
elle-même source de la résolution de problèmes, donc de la survie. Enfin nous nous
appuyons sur une troisième notion qui est celle de motivation. Celle-ci est utilisée
comme guide permettant justement, si ce n’est de s’affranchir de l’idée même d’extériorité,
au moins d’implémenter dans un système les moyens d’exploration nécessaires à
l’apprentissage de nouvelles compétences. Ces notions mises bout à bout, nous postulons
l’importance de considérer le corps comme variable essentielle du contact à l’environnement
et de l’émergence de la cognition par le biais de contraintes morphologiques,
ainsi que le développement, nécessaire à l’acquisition, la construction et la mémorisation
de connaissances, guidées par la motivation. En cela, il s’agit d’une avancée non
négligeable, puisque l’on passe de la prescription de résultats à la prescription de moyens.
Cette position nous pousse à rechercher un ensemble minimal de conditions, qui
organisées par un ensemble de techniques génériques d’apprentissage, permettent au
système considéré de tendre vers un comportement qui lui est propre. On parle de
trajectoire développementale pour souligner l’importance de cette notion.8 CHAPITRE 1. INTRODUCTION
Ainsi, pour redéfinir en d’autres termes le but poursuivi, nous pouvons dire que
nous travaillons à l’élaboration d’algorithmes de boucles de contrôle censées
permettre de révéler les potentialités sensorimotrices du corps du robot sur
lequel on les expérimente. Le fait de nous restreindre à une phase purement sensorimotrice
ne constitue qu’une étape préliminaire mais essentielle pour comprendre au
mieux l’impact de la modélisation sur le corps considéré. L’étude précise et exhaustive
du fonctionnement d’un modèle basé sur les trois notions développées plus haut en
constitue la première étape.
Réalisations et contributions
Cette thèse décrit une modélisation formelle générique d’un système motivationnel
dans la continuité des travaux présentés par Baranes [2011]. Nous considérons un
agent doté de capacités sensorimotrices qui lui sont propres : un espace sensoriel et
un espace moteur. Le modèle repose sur une exploration par babillage sensorimoteur
permettant l’apprentissage du contrôle de coordinations sensorimotrices. En théorie, ce
babillage peut s’attacher soit à l’exploration de l’espace moteur, soit à celle de l’espace
sensoriel. En pratique, de récents développements ont montré que la seconde option,
à savoir l’exploration d’un espace des buts, conduit à une expérience d’apprentissage
plus efficace [Rolf et al., 2010; Baranes et Oudeyer, 2013]. Cette supériorité est d’autant
plus vérifiable quand l’agent doit apprendre des coordinations sensorimotrices dans un
espace moteur fortement redondant et de grandes dimensions, pour lequel de multiples
commandes motrices peuvent résulter en une seule conséquence dans l’espace observable.
C’est une approche connue sous la dénomination de Goal-Babbling Exploration
[Baranes et Oudeyer, 2010b; Rolf et al., 2010], dans laquelle nous inscrivons nos travaux
de thèse. Dans ce modèle, la première étape effectuée par l’agent consiste à choisir un
but dans l’espace d’exploration correspondant à l’espace sensoriel. Ensuite il s’agit pour
lui de trouver un moyen de parvenir à ce but en utilisant ses capacités motrices. Enfin
il va pouvoir actualiser les modèles de choix et d’atteinte d’un but.
Les contributions de cette thèse s’attachent à proposer des alternatives sur ces points
précis et d’en comparer l’efficacité en terme d’accélération de l’apprentissage. C’est le
cas par exemple pour la dernière étape, consistant à effectuer une structuration de
l’espace d’exploration. Par structuration, nous entendons une manière particulière
d’utiliser l’information acquise par l’expérience pour essayer de trouver des similitudes
et de repérer des niveaux de difficulté dans les compétences à portée d’apprentissage.
En pratique, cette structuration est basée sur la notion de progrès, et se matérialise par
un découpage de l’espace d’exploration en régions d’intérêt, dans l’optique de guider et
de réguler la complexité de l’apprentissage de nouvelles compétences. Le principal motif
guidant nos contributions à des formes alternatives de structuration est la limitation9
du modèle existant qui repose sur un processus récursif de régionalisation, c’est-à-dire
un développement sans remise en cause. La première idée consiste donc à dire qu’il
devrait exister un ratio à prendre en compte pour balancer au mieux le gain futur
en apprentissage, selon la quantité plus ou moins limitée d’information détenue. La
seconde idée repose sur la nécessaire introduction d’un assouplissement du processus de
structuration comme la remise en cause des découpes effectuées auparavant. La troisième
idée propose de remettre en cause le mécanisme de découpage en considérant un niveau
plus global et en appliquant une méthode de partitionnement. Enfin, au travers de la
quatrième contribution, nous remettons en question l’espace d’exploration tel qu’il est
fourni à l’agent, en proposant d’autres manières de le représenter.
Structure du présent manuscrit
La suite de ce manuscrit s’organise de la manière suivante. Nous débutons dans
le second chapitre par un l’état de l’art synthétique. La distinction opérée permet de
détailler les trois aspects précédemment cités, qu’il nous paraît nécessaire de prendre
en compte : le corps, le développement, et la motivation.
Dans le troisième chapitre, nous nous intéressons particulièrement à décrire une
formalisation théorique et opérationnelle d’un système motivationnel. Il s’agit de doter
la machine d’un mécanisme de base qui lui permet de générer des buts, en l’occurrence
des états de ses capteurs, et d’essayer de les atteindre grâce à des actions motrices. Cela
se réalise au travers d’une exploration de l’espace des buts, qui va être structuré par
l’agent en confrontation avec l’expérience. Cette structuration se fait par un découpage
récursif, et aboutit à la création de régions auxquelles est associée une valeur permettant
d’orienter la génération de buts vers des zones dites d’intérêt.
Le quatrième chapitre met l’accent sur les contributions apportées par nos travaux.
Diverses propositions théoriques sont mises en avant pour compléter et complexifier le
modèle existant présenté au chapitre précédent. Celles-ci concernent la modélisation
d’autres formes de structuration et s’organisent selon trois aspects. Nous formulons tout
d’abord des propositions alternatives pour paramétrer les restructurations locales, sans
toucher au mécanisme de découpe. Ensuite, nous introduisons une nouvelle manière
plus globale de régionaliser l’espace en nous basant sur une méthode de type classification
à base de grappes. Enfin, considérant le processus motivationnel comme essentiel,
nous opérons un remplacement de l’espace d’exploration par des formes alternatives,
à savoir transformer l’espace a priori en donnant une déformation de l’espace initial,
ou a posteriori en se basant sur les expériences vécues afin de mieux en représenter
la variance. Nous développons également l’idée d’une multitude de représentations
parallèles comme autant de formes de l’espace d’origine à explorer. Nous testons la10 CHAPITRE 1. INTRODUCTION
validité de toutes ces contributions théoriques dans le sixième chapitre, ce qui implique
le besoin d’un environnement pour mener des expérimentations.
C’est la raison pour laquelle le chapitre suivant vient mettre en valeur la plateforme
FIMO que nous avons développée dans le cadre de nos travaux. Même si, comme nous
l’avons évoqué, la nécessité première du développement de cette plateforme était de
pouvoir tester nos propres contributions, un soin particulier a été apporté pour faciliter
les expérimentations à une plus grande échelle, notamment celle de la communauté qui
nous concerne. Le fonctionnement et les différents aspects techniques sont présentés
dans cette partie, ainsi que l’utilisation et la visualisation des données expérimentales
recueillies.
Nous fournissons tout au long du sixième chapitre les résultats et les interprétations
des expérimentations menées. Cette partie, en tant que pendant pratique du modèle
motivationnel dans sa forme la plus simple, présenté dans le troisième chapitre, vient
donc avant tout étudier le fonctionnement complexe d’un tel modèle. D’autre part, il
s’agit également de se positionner pour explorer et analyser les contributions théoriques
proposées au chapitre quatre. C’est la raison pour laquelle nous y avons non seulement
testé des alternatives à certaines métriques proposées, mais également mené des
études paramétriques pour déterminer des optimisations de la boucle motivationnelle.
Les résultats présentés sont pour partie positifs avec des améliorations notables d’un
indicateur d’apprentissage, et pour une plus grande partie mitigés, ne montrant pas de
différence notable par rapport aux attentes. De ce dernier constat, nous proposons une
approche évolutionnaire pour optimiser de manière plus globale à la fois les paramètres,
mais également les métriques étudiées, les déformations de l’espace d’exploration ou
encore l’adaptation morphologique.
Enfin, nous concluons ce manuscrit en discutant l’approche motivationnelle, la mé-
thodologie employée, les résultats expérimentaux obtenus, et nous développons les pistes
de recherche à mener pour la suite de ces travaux.C h a p i t r e
2
État de l’art
2.1 Introduction
Mais d’où provient l’association, notons-le au passage quelque peu accrocheuse,
des deux termes de l’expression intelligence artificielle ? Il a fallu le terreau fertile
des nombreuses conférences Macy organisées à partir de 1946 et réunissant des chercheurs
de tous horizons pour que naisse cette expression si familière aujourd’hui. La
pluridisciplinarité intrinsèque de ces conférences n’est plus à rappeler ; la présence de
chercheurs aussi éminents et différents que William Ross Ashby (psychiatre), Gregory
Bateson (anthropologue), Heinz von Foerster (physicien), Kurt Lewin (psychologue),
Warren McCulloch (neurologue), John von Neumann (mathématicien), Walter Pitts
(logicien), Norbert Wiener (mathématicien), ou encore Claude Shannon (physicien),
parle d’elle-même. Ces conférences se sont tenues régulièrement jusqu’en 1953 et avaient
pour objet la mise en œuvre d’une science générale du fonctionnement de l’esprit. Elles
ont au final posé les pierres fondatrices de la cybernétique et des sciences cognitives.
C’est dans ce contexte, quelques années plus tard lors d’une conférence au Darthmouth
College pendant l’été 1956, qu’est officiellement né le domaine de recherche originellement
pluridisciplinaire de l’intelligence artificielle.
Toujours est-il que l’intelligence artificielle des années Darthmouth souhaitait avant
tout confronter les points de vue des chercheurs de tous horizons pour faire avancer ce
que l’on sait des mécanismes de la cognition 1 La cybernétique de Wiener et la seconde
1. Terme scientifique qui sert à désigner l’ensemble des processus qui se rapportent à la fonction de
connaissance.
1112 CHAPITRE 2. ÉTAT DE L’ART
cybernétique de von Foerster en étaient des ardents défenseurs. Ce n’est qu’une fois
l’euphorie dissipée que les chercheurs sont rentrés chacun dans leur laboratoire pour ne
plus se parler pendant quasiment un demi siècle. Le cognitivisme, partant de l’hypothèse
que la pensée est un processus de traitement symbolique de l’information, en détient
une grande part de responsabilité. Les mathématiciens et logiciens se sont quelque peu
imposés par rapport aux autres disciplines. Les psychologues et autres philosophes se
sont eux-mêmes laissé convaincre par la vision purement symbolique largement promue
à l’époque. A fortiori une très large majorité de chercheurs est aujourd’hui tout
à fait convaincue que le cerveau est une machine à traiter de l’information [Kempf, 1998].
En pratique on peut distinguer quatre objets de modélisation différents dans l’étude
des mécanismes cognitifs. Les trois premiers que représentent l’être humain, les animaux
et beaucoup plus récemment les plantes, ont été introduits dans cet ordre chronologique.
Historiquement, en effet, il s’agissait de reproduire les performances de l’être humain
en terme de raisonnement [Newell et Simon, 1963]. Puis ce n’est qu’un quart de siècle
plus tard que la recherche s’est tournée vers les animaux ; l’approche animat était
née [Wilson, 1985, 1991; Meyer, 1998]. Enfin depuis quelques années seulement, grâce
sans doute aux progrès en physiologie végétale, une petite communauté de l’intelligence
artificielle s’intéresse aux mécanismes cognitifs des plantes [Calvo et Keijzer, 2009].
Le quatrième objet d’étude est la cellule, qui se situe encore plus bas dans l’échelle
de la complexité, quoique bien souvent considérée comme déjà suffisamment complexe
par ses adeptes. Les études sur ce dernier objet ont, elles, émergé en parallèle dans les
années 1970, en provenance directe de la biologie, et restent pour grande partie liées
aux tentatives de formalisation de la notion de vivant [Maturana et Varela, 1980]. Cette
succincte distinction en quatre objets d’étude n’a pas pour but d’être exhaustive, elle
tient surtout lieu de présentation de l’évolution des ambitions du domaine de recherche
qui gravite autour de l’appellation d’intelligence artificielle.
Ce chapitre a pour objectif de nous permettre d’exposer les différentes visions liées
à l’intelligence artificielle. Il traite donc de trois points qui nous semblent cruciaux pour
décrire une partie du cheminement parcouru par la discipline et surtout expliquer le bienfondé
de nos travaux. Particulièrement, nous voulons donc absolument souligner
l’importance du corps, l’importance du développement et enfin l’importance
de la motivation pour l’étude et l’implémentation de mécanismes cognitifs
dans un système artificiel. Cela implique bien évidemment de présenter à la fois les
visions classiques, pour la plupart dérivées de l’informatique et ses aïeux, mais également
de présenter les alternatives qui ont permis de diversifier les points de vue sur la question
cognitive tout en travaillant à l’édifice d’une approche réunificatrice et fructueuse pour
les sciences de la cognition. Ces visions proviennent aussi largement de philosophes, de
psychologues et de biologistes que d’informaticiens et de roboticiens. L’un des objec-2.2. DE L’IMPORTANCE DU CORPS 13
tifs de cette première étape argumentative est de montrer que se restreindre à étudier
l’informatique lorsque l’on traite de l’intelligence artificielle n’a que peu de sens.
2.2 De l’importance du corps
Dans l’effervescence du Darthmouth College, les pionniers Minsky, McCarthy et
Shannon, fascinés par le potentiel de l’ordinateur, se concentrent sur le seul cerveau.
Ils se prennent à croire que les systèmes artificiels, par leur puissance de calcul, peuvent
se passer d’organes sensoriels pour être dotés de capacités cognitives aussi élaborées que
celles de l’Homme [Newell et Simon, 1963; Weizenbaum, 1966; Lindsay et al., 1980].
Ainsi au fur et à mesure, ce n’est plus le système nerveux central qui inspire le développement
des architectures de contrôle d’un système artificiel, mais plutôt l’ordinateur qui
impose sa nouvelle façon d’interroger et d’interpréter le cerveau 2
. La métaphore computationnelle
commence à prendre le pas. Nous allons montrer pourquoi et comment la
communauté de robotique développementale (cf. section 2.3.4) a peu à peu redécouvert,
accepté et promu l’importance du corps pour la cognition. Nous avons d’ailleurs pu aborder
l’importance de ce corps dans le contexte élargi de l’identité dans la modélisation
agent 3
[Di Loreto et Hervouet, 2012a,b].
2.2.1 Des interactions entre informatique et robotique
Si l’on cherche à identifier la source des développements d’une partie de l’intelligence
artificielle à l’heure actuelle, il est essentiel de rappeler l’importance du corps. Mais
l’intégration de cette notion, délicate et complexe à prendre en compte, a pris beaucoup
de temps. Ainsi ce n’est que depuis les années 1990 que l’étude des sciences de la cognition
est devenue beaucoup plus sérieusement un point d’articulation aux confluents
de multiples domaines dont deux manifestement essentiels à sa réalisation concrète que
sont l’informatique et la robotique.
Le calcul informatique
Depuis ses débuts, le corps n’a pas été une notion clef du développement de l’informatique.
Cela provient vraisemblablement du fait que, par essence, le calcul tel que
formalisé et abstrait en un système symbolique par les mathématiques et repris par
l’informatique, est désincarné. Cela signifie que même s’il est exécuté par une machine
2. L’analogie entre les mémoires vive – morte d’un ordinateur et les mémoires à court terme – long
terme identifiées dans le cerveau servent parfaitement bien ce propos.
3. Par agent, nous désignons toute entité réelle ou virtuelle, évoluant dans un environnement, capable
de le percevoir et d’agir dessus, qui exhibe un comportement autonome, lequel pouvant être vu comme
la conséquence de ses connaissances, de ses interactions avec d’autres agents et des buts qu’il poursuit
[Ferber, 1995].14 CHAPITRE 2. ÉTAT DE L’ART
physique, il n’a pas d’ancrage physique puisqu’il s’agit de manipuler des symboles à l’aide
de règles. De plus, dès le départ, l’intelligence artificielle a pris en compte un point de
vue omniscient pour effectuer la computation, trouvant opportun pour le programme de
connaître précisément et exhaustivement toutes les données du système. Ainsi, ils ont
appliqué ce principe à l’élaboration de leurs algorithmes. L’algorithme A?
, couramment
utilisé pour calculer le plus court chemin en terme de mouvement menant d’un point à
un autre un agent plongé dans un environnement, en est un exemple. Cet algorithme
ne repose pas sur le corps de l’agent qu’il est censé guider, mais sur une structure de
graphe, donc sur des données formalisées a priori, censées représenter les points de la
carte à parcourir. De plus, le meilleur chemin est calculé sur un graphe représentant
l’ensemble de la carte. Pour ces deux raisons, cet algorithme constitue un bon exemple
de la prédominance de l’esprit omniscient sur le corps ancré localement, même quand
on parle de questions telles que le déplacement impliquant directement le corps.
L’ancrage robotique
L’autre source venant se jeter dans le fleuve de l’intelligence artificielle est donc la
robotique. Les balbutiements de la robotique, telle qu’elle nous intéresse, peuvent trouver
leur naissance à cheval entre la fin du 19ème et le début du 20ème siècles, période charnière
si il en est, où la psychologie initie son détachement de la philosophie. C’est donc à
cette époque qu’apparaît l’intérêt de tester les mécanismes vivants par une modélisation
artefactuelle 4
. Les pionniers de cette approche sont donc des physiologistes (Pavlov,
Loeb) et des psychologues comportementalistes (tels Thorndike, Skinner, Watson). Les
proto-robots conçus présentent une différence majeure qui les distingue des automates
en ce qu’ils sont dotés de la notion de contexte : ils disposent de capteurs 5 qui constitue
l’interface avec l’environnement dans lequel ils sont plongés. Dès le début du 20ème siècle,
des interactions entre la robotique et les théories biologiques ont émergé, historiquement
destinées à des fins militaires [Miessner, 1912]. Dans ce cas précis, il s’agissait d’utiliser
les théories biologiques afin de créer des machines robustes disposant d’un semblant
d’autonomie, donc dans un souci d’efficacité. Il s’agit là des prémisses d’une mouvance
que l’on appellera la bionique 6 à partir des années 1960, et qui a influencé bon nombre
de contributions comme le présentent Guillot et Meyer [2008] et Floreano et Mattiussi
[2008].
4. Le terme artefactuel nous semble ici plus approprié qu’artificiel, notamment pour la raison qu’il
évoque davantage la notion d’artefact, soit d’objet physique construit par l’homme.
5. Des capteurs de trois types sont déjà à cette époque envisagés : enteroceptifs informant de l’état
extérieur, et interoceptifs ou proprioceptifs concernant l’intérieur du système.
6. Par contraction des termes biologie et technique, puis rétrospectivement électronique. Approche
parfois également appelée bio-mimétique ou qualifiée de bio-inspirée.2.2. DE L’IMPORTANCE DU CORPS 15
La réunificatrice cybernétique
Ainsi, si l’on observe attentivement la notion de corps dans ces deux domaines,
on remarque que là où l’intelligence artificielle se désintéresse de l’approche physique
du corps, la robotique, elle, se construit sur cette exacte notion. Là où l’intelligence
artificielle se focalise essentiellement sur les capacités de raisonnement, la robotique a été
fondée sur l’idée même du corps, des interactions physiques, et se base sur les principes
expérimentaux de la physique et de la mécanique d’une manière très grounded 7
.
C’est dans le sillage de la première et de la seconde cybernétique que l’on trouve
les traces de l’interaction des sciences du vivant avec les sciences de l’artificiel [Simon,
1996]. La cybernétique met en avant la poursuite d’un but comme mécanisme nécessaire
à implémenter dans une machine pour lui prêter l’intention du vivant. C’est avec
cette idée que naît également la notion essentielle d’état interne, et avec elle celles
de mémoire, d’apprentissage, donc d’anticipation. Les années 1940 voient l’apparition
des neurones artificiels [McCulloch et Pitts, 1943; Hebb, 1949], résolument tournés
vers une biologie formalisée par les mathématiques. En parallèle, se poursuivent de
multiples inventions : celle d’une machine dédiée à l’expérimentation de la notion
d’homéostasie [Ashby, 1940] ; celle d’une machina speculatrix sous la forme de tortues
illustrant le concept de réflexe conditionné [Walter, 1951] ; celle encore d’un renard électronique
équipé de cinq modalités sensorielles 8
et d’une mémoire à bande magnétique,
en constante construction d’un modèle sommaire de son environnement [Ducrocq, 1954].
Ces interactions se sont peu à peu densifiées pour parvenir à une certaine effervescence
dans les dernières décennies, et la validation de modèles théoriques à l’aide de
la robotique implique désormais une communauté transdisciplinaire conséquente. On
remarquera notamment les travaux mettant en exergue l’influence de la morphologie
sur le développement [Braitenberg, 1986; Pfeifer et Scheier, 1999; Pfeifer et Bongard,
2006; Pfeifer et Pitti, 2012] 9
, ou encore des initiatives s’intéressant à la validation
d’hypothèses sur l’émergence de capacités de plus haut niveau comme le langage écrit
7. N’ayant pas l’intention de dégrader le sens de ce mot anglais, ni l’inventivité nécessaire à la
formation d’une traduction, nous préférons conserver la version originale.
8. Ces cinq modalités sensorielles correspondaient aux cinq sens présents chez les animaux (visuel,
auditif, olfactif, tactile et vestibulaire) et étaient extrêmement impressionnantes pour l’époque.
9. Par ailleurs et remarquablement, Braitenberg [1986] verbalise et expérimente déjà l’idée selon
laquelle on pourrait expérimenter des théories psychologiques, en utilisant la notion de synthetic psychology.
Ce dernier a mis au point des véhicules illustrant la possibilité d’obtenir un robot montrant
un comportement complexe à partir d’un câblage sensorimoteur rudimentaire. En utilisant des capteurs
basiques (proximité, lumière, etc.) reliés à des moteurs sans autre possibilité que par inhibition ou
excitation. Ces véhicules démontrent simplement comment obtenir un comportement mobile cognitif
dès lors qu’un corps est combiné avec un environnement particulier.16 CHAPITRE 2. ÉTAT DE L’ART
[Steels et McIntyre, 1999] voire oral [Oudeyer et Kaplan, 2006].
De plus, la multiplication des interactions entre la robotique et les sciences de l’esprit
et du comportement amène une validation mutuelle des modèles des deux parties, permettant
leur progression conjointe. En effet, la dynamique expérimentale qui consiste
à prendre en considération les théories développées in vivo pour les implémenter in silico
permet de donner une dimension bilatérale à la démarche expérimentale classique.
L’implémentation de modèles théoriques peut permettre, dans le cas idéal, de valider
le modèle en vérifiant qu’il permet bien de reproduire les conditions suffisantes pour
l’observation du phénomène. Quand ce n’est pas le cas, il est possible d’expérimenter de
nouvelles conditions du côté du modèle opérationnel qui, si elles amènent des résultats
concluants, vont permettre d’amender le modèle théorique original.
2.2.2 L’encorporation et ses controverses
Ces différents développements ont permis, dans les années 1990, de mettre au jour la
notion d’encorporation 10. En soi, cette notion théorise l’idée selon laquelle les fonctions
cognitives ne sont pas des réalités distinctes du corps et du monde, mais des éléments de
contrôle d’activités incarnées [Clark, 1997]. Il s’agit de mettre en avant la dépendance
du développement des fonctions cognitives au sein d’un corps physique disposant de
certaines propriétés qui lui sont propres, plongé dans un environnement à la fois social
et culturel.
Ziemke [2001] explique très bien que cela fait seulement une quinzaine d’années
que l’encorporation est réellement considérée comme une caractéristique essentielle et
nécessaire des organismes vivants. De plus en plus de chercheurs ont tenté d’étudier la
nécessité de cette cognition incarnée (par exemple Pfeifer et Scheier [1999]; Varela et al.
[1991]; Clark [1997]). Ziemke montre également que malgré ce consentement généralisé,
la robotique en tant que telle demeure bloquée dans un dualisme matériel / logiciel 11
.
Il convoque comme explication le fameux Chinese Room Argument [Searle, 1980] en
précisant que celui-ci demeure non résolu. L’argument de Searle soutient, en bref, que la
pure manipulation désincarnée de symboles ne saurait être authentiquement considérée
comme une forme supérieure de compréhension intelligente 12. Ziemke [1997] montre
bien que la vision cognitiviste — c’est-à-dire concevoir l’esprit comme un simple outil
10. Nous avons choisi de défendre ce terme pour traduire le concept d’embodiment, même si le terme
d’incarnation est parfois utilisé malgré sa connotation religieuse.
11. Ou pour reprendre ses propres termes, « largely ’stuck’ in the old distinction between hardware
and software ».
12. « Je ne connaissais rien [en 1971] à l’intelligence artificielle. J’ai acheté un manuel au hasard,
dont la démarche argumentative m’a sidéré par sa faiblesse. [...] L’argument était qu’on pouvait raconter
une histoire à un ordinateur et qu’il était capable ensuite de répondre à des questions relatives à
cette histoire bien que les réponses ne soient pas expressément données dans le récit. L’histoire était la2.2. DE L’IMPORTANCE DU CORPS 17
computationnel dont la seule capacité serait de manipuler symboles et règles en dehors
d’un ancrage physique — est encore prégnante dans la communauté.
Par ailleurs, une forme réactualisée de cet argument de la chambre chinoise a été
proposée par la suite par Harnad [1990] sous la dénomination de Symbol Grounding
Problem. Celui-ci avait pour but de questionner la communauté de l’intelligence artifi-
cielle mais d’une façon plus précise : un agent artificiel pourra-t-il un jour être capable
de développer une aptitude autonome à la sémantique qui lui permettrait d’établir son
propre réseau sémiotique connectant ses propres symboles à l’environnement dans lequel
il évolue ? 13. Beaucoup de travaux ont depuis été menés sur ce thème de recherche pour
explorer les capacités d’un système situé et incarné à définir sa propre sémantique, que
ce soit seul ou de manière sociale [Ziemke, 1997; Steels et McIntyre, 1999; Cangelosi et
Parisi, 2002; Cangelosi, 2004; Vogt, 2005; Taddeo et Floridi, 2005; Steels, 2007, 2008].
Cela fait écho au propos de Dreyfus [1984], qui dénonçait déjà quelques années
auparavant la sérieuse limitation des ordinateurs à qui les programmeurs doivent fournir,
en plus des programmes écrits, le sens des symboles à manipuler composant ces
programmes. Cet argument avançant le problème d’associer a priori la sémantique et
l’opérationnel depuis l’extérieur du système symbolise parfaitement l’approche classique
que l’intelligence artificielle n’a pas su ou n’a pas voulu prendre en considération. Plus
tard, les Deep Blue puis Deep Fritz ont su montrer leur capacité à vaincre des champions
du jeu d’échecs, mais en se basant essentiellement sur les fantastiques capacités
de calcul permettant d’énumérer un maximum de coups possibles en un minimum de
temps. Mais plus généralement, il est important de préciser qu’il s’agit des méthodes
mises en œuvre en intelligence artificielle à cette époque que Dreyfus [1984] dénonce
avant tout. En s’inscrivant dans une tradition phénoménologique 14, il considère que
l’approche cognitiviste n’est ni crédible ni viable pour modéliser des phénomènes réellement
qualifiables de cognitifs. Il invoque notamment la contradiction intrinsèque d’une
psychologie cherchant à extraire l’être humain de son contexte dont le mouvement
cognitiviste fait implicitement la promotion en souhaitant objectiver le comportement
humain et à le soumettre à un ensemble de lois scientifiques. Dreyfus dénonce donc
suivante : un homme va au restaurant, commande un hamburger, on lui sert un hamburger carbonisé,
l’homme s’en va sans payer. On demande à l’ordinateur : “A-t-il mangé le hamburger ?”. Il répond par
la négative. Les auteurs étaient très contents de ce résultat, qui était censé prouver que l’ordinateur possédait
les mêmes capacités de compréhension que nous. C’est à ce moment-là que j’ai conçu l’argument
de la chambre chinoise. » [Searle, 2000]
13. « How can the semantic interpretation of a formal symbol system be made intrinsic to the system,
rather than just parasitic on the meanings in our heads ? How can the meanings of the meaningless
symbol tokens, manipulated solely on the basis of their (arbitrary) shapes, be grounded in anything but
other meaningless symbols ? » [Harnad, 1990]
14. La phénoménologie est un courant philosophique qui se concentre sur l’étude des phénomènes et
de l’expérience vécue. Les grands noms du domaine sont Husserl, Heidegger, Ricœur ou Merleau-Ponty.18 CHAPITRE 2. ÉTAT DE L’ART
la tentation de prendre des possibilités de représentation pour des principes absolus.
Toutefois, même si ses critiques sont sévères, Dreyfus n’en demeure pas pour autant
fondamentalement opposé à la possibilité de créer une intelligence artificielle, mais
promeut une vision plus incarnée, arguant qu’il faudrait doter la machine en question
d’une manière d’être humaine, d’une morphologie plus proche de celle de l’être humain,
et d’un mécanisme d’acculturation 15 proche du nôtre. Nous verrons que cette façon de
concevoir l’intelligence artificielle, précurseuse et à contre-courant, qui promeut un mé-
canisme développemental fort, sera reprise par la suite. C’est ce que nous développons
dans la section 2.3.
D’autres controverses sur les possibilités de l’intelligence à se matérialiser dans une
machine ont émergé pendant les soixante années d’existence de cette discipline. Pour en
avoir un aperçu plus complet, on se reportera à d’autres ouvrages comme Bolo [1996] ou
Ganascia [2007] qui se proposent de répondre point par point à bon nombre d’entre elles,
ou encore Ganascia [2010] qui explore une épistémologie de l’intelligence artificielle.
2.2.3 L’approche animat
Ces considérations biologiques et philosophiques ont finalement réussi à pénétrer
les recherches en intelligence artificielle. Cela s’est fait au travers d’un renouveau de
la communauté de recherche, autour notamment de chercheurs comme Rodney Brooks,
sous l’appellation de l’approche animat 16 comme le relatent Meyer [1998] et Guillot
et Meyer [2008]. À la fin des années 1980, Brooks « brave le temple » en développant
une approche qui privilégie des robots adaptatifs à des robots intelligents. L’inspiration
provient directement des connaissances sur les insectes, alors que l’intelligence artifi-
cielle s’inspirait jusqu’ici de l’être humain 17. Cette approche s’oppose au traitement
symbolique promue par la majeure partie des travaux dans la communauté, rebaptisée
ironiquement pour l’occasion en Good Old Fashioned Artificial Intelligence (GOFAI),
y préférant le traitement de données brutes issues directement du corps, et la remise
en question de la notion de représentation [Brooks, 1990, 1991a,b]. Le mot d’ordre devient
de résoudre des problèmes réels en étant réellement situé et incarné dans le monde.
15. Notion sociologique qui renvoie au processus par lequel un individu apprend les modes de comportements,
les modèles et les normes d’un groupe de façon à être accepté dans ce groupe et à y participer
sans conflit (TLFi, site du CNRTL).
16. Employée pour la première fois par Wilson [1985], que l’on trouve également sous l’appellation
nouvelle intelligence artificielle par Brooks [2002]
17. Ceci sous l’influence notable de Dennett [1978] qui proposait de réaliser une créature robotique
complète, en l’occurrence un iguane, qui puisse et doive se confronter avec la complexité de l’interaction
autonome avec un environnement réel, plutôt que des simulations isolées de facultés cognitives individuelles.
Dennett explique qu’il s’agit d’une étape nécessaire pour pouvoir approcher les complexités de
l’intelligence humaine.2.2. DE L’IMPORTANCE DU CORPS 19
Avec cette volonté de renouveler l’héritage d’une approche symbolique trop lourde,
Brooks [1986] développe l’architecture de subsomption. Celle-ci renverse littéralement
le fonctionnement des robots de l’époque en horizontalisant leur comportement, promouvant
ainsi une liaison plus directe entre la composante sensorielle et la composante
motrice, et court-circuitant le traditionnel schéma de raisonnement et de planification
(cf. figure 2.1). En pratique, un comportement parmi tous ceux disponibles prend le
pas, et subsume, c’est-à-dire inhibe les autres. À titre illustratif, le changement de
pensée radical qui s’opère grâce à cette architecture dite de subsomption réside dans
une déclaration de Brooks lui-même expliquant que « le monde est son propre meilleur
modèle » : il signifie par là l’impossibilité pour le modélisateur de prendre en compte
de manière exhaustive l’ensemble des contraintes possibles et d’anticiper de manière
complète et certaine le fonctionnement d’un système artificiel selon son encorporation 18
.
actionneurs
contrôle moteur
exécution
planification
modélisation
perception
capteurs
capteurs
agir
explorer
éviter
bouger
...
actionneurs
Figure 2.1: Schémas d’une architecture robotique traditionnelle (à gauche), et celle
d’un animat (à droite), dite de subsomption, développée à l’origine par Brooks [1986].
Illustration adaptée d’après Meyer [1998].
Trois mots-clefs peuvent permettre de circonscrire et de mieux comprendre l’ambition
de ce courant de recherche animat.
1. Le premier d’entre eux est l’autonomie et prévoit de doter la machine de besoins
et/ou de motivations souvent d’inspiration biologique et parfois psychologique ;
2. d’autre part, s’énonce clairement le besoin pour des machines respectant l’approche
animat, d’être situées et incarnées, ou dit autrement d’avoir la capacité de
s’enraciner dans des boucles sensorimotrices induites par l’interaction avec un
environnement dans lequel elles seraient plongées ;
18. En version originale, cela donne : « [...] the world is its own best model. It is always exactly up
to date. It always has every detail there is to be known. The trick is to sense it appropriately and often
enough. » [Brooks, 1990].20 CHAPITRE 2. ÉTAT DE L’ART
3. enfin, ces machines doivent également être adaptatives, c’est-à-dire dotées de
capacités d’apprentissage et d’évolution au sens large pour pouvoir survivre dans
cet environnement.
Pour résumer, cette approche s’est remise à marcher sur les traces de l’approche
proto-robotique développée plus de vingt-cinq années auparavant. Surtout, c’est grâce
à cette approche que s’effectuera la redécouverte des inspirations biologiques qui avait
déjà animée et fait la force de ce courant à cette époque, notamment grâce au concept
de niche écologique étroitement liée à l’encorporation, donc au corps.
2.2.4 Le mouvement du corps
Si l’on prend du recul, on trouve des recherches menées dans d’autres disciplines,
plus proches de l’étude des êtres humains, qui tendent elles aussi à donner du crédit à
l’importance du corps. Les travaux de Nikolai Bernstein par exemple, constituent un réel
tournant dans l’importance donnée au mouvement. Constatant la complexité du corps
humain, constitué de centaines d’articulations, d’os et de muscles, il s’est interrogé sur la
cohérence et coordination qui semblent accompagner chaque mouvement, se demandant
comment le cerveau pouvait gérer cette extraordinaire complexité. La réponse est, selon
lui, qu’il ne le fait pas à un si bas niveau, mais qu’il traite de patrons ou synergies,
c’est-à-dire des liaisons d’ensemble de muscles fonctionnant de concert [Bernstein, 1967].
De plus, une fois le système moteur assemblé pour une tâche, ce sont les propriétés
mécaniques des membres et du corps en général qui sont exploitées. Comme le ressort
oscille naturellement sur des trajectoires régulières, le patron du mouvement du corps
ne nécessite pas d’être explicitement configuré puisque pour grande part il émerge de
ses propriétés naturelles. La marche en constitue un exemple frappant puisque le fait de
ramener l’une des deux jambes à l’avant pour initier le prochain pas se fait de manière
quasi passive. En ce sens, Bernstein disait que ce n’est pas tant le système nerveux
qui donne des ordres aux muscles, que la dynamique du mouvement qui
donne des ordres au système nerveux.
Ainsi, les enfants doivent apprendre la dynamique de leur corps, les forces de changement
qui produisent et accompagnent chaque mouvement dans chaque situation. Pour
apprendre à marcher, les enfants doivent apprendre à gérer les interactions complexes
entre les mouvements des jambes, le centre de gravité du corps et la surface foulée. Ces
modalités ne peuvent pas être comprises à l’avance, mais doivent être assemblées grâce
à l’expérience. Sachant qu’un guide possible de l’exploration et de l’apprentissage est
la recherche du mouvement efficace, énergétiquement parlant. C’est d’ailleurs ce qu’ont
cherché à montrer les recherches menées dans les années 1990 sur la marche dynamique2.3. DE L’IMPORTANCE DU DÉVELOPPEMENT 21
passive. McGeer [1990] présente par exemple un robot ne disposant d’aucun moteur ni
d’aucun système de contrôle. C’est essentiellement la gravité et le couplage des jambes
qui forment un ensemble de contraintes permettant de stabiliser le processus de la
marche en s’appuyant sur des mécanismes purement passifs. Des exemples plus récents
viennent appuyer l’importance du facteur morphologique comme permettant de donner
à l’interaction homme-robot une dimension à la fois intuitive et émergente [Oudeyer
et al., 2011].
D’autre part, pour illustrer l’importance du rôle de la mémoire du corps, on peut
citer l’erreur A-pas-B, expérimentation menée sur des enfants par Smith et al. [2003].
Quand les enfants doivent atteindre plusieurs fois une cible en particulier parmi deux, ils
construisent une mémoire de repérage de cette cible, qui inclut également la sensation
des bras et de la posture générale, qui influence la prise de décision future. En effet, les
processus traditionnellement considérés comme purement cognitifs se révèlent altérés par
le mouvement et la mémoire de ce mouvement. Ce phénomène, appelé persévération,
constitue un mécanisme développemental important en tant que mémoire de l’action,
permettant au bébé d’être capable d’utiliser à nouveau un mouvement découvert.
2.3 De l’importance du développement
De la même manière que nous avons montré l’importance du corps dans la section
précédente, nous voulons montrer l’importance du développement dans la mise en œuvre
et l’implémentation des mécanismes cognitifs. Nous proposons donc un tour d’horizon
des différentes approches qui en circonscrivent les contours.
2.3.1 De la génétique à l’épigénétique
D’un point de vue biologique, le développement représente réellement un aspect
important des êtres vivants. Nous allons nous attacher ici à la description des principaux
mécanismes du développement cognitif du jeune enfant, en nous basant sur les travaux
présentés par Houdé et Leroux [2013].
Tout d’abord il est essentiel de bien dissocier les trois niveaux de développements
envisagés quant à l’étude de l’enfant : le niveau épigénétique, le niveau phylogénétique
et le niveau microgénétique. Le premier décrit le développement de l’individu à partir
de sa naissance. Le second décrit le développement au niveau de l’espèce, c’est-à-dire
l’ensemble des individus appartenant à une même famille et partageant la quasi-totalité
de leur génome. La troisième enfin concerne directement l’apprentissage ou la résolution
d’une tâche particulière.22 CHAPITRE 2. ÉTAT DE L’ART
Le niveau qui nous intéresse ici est le premier, à savoir le développement de l’individu.
On retrace couramment le début des études sur la psychologie du développement de l’enfant
avec les travaux de Piaget [1936]. Celui-ci, récusant tout autant l’empirisme, selon
lequel tout proviendrait de l’expérience par association et habitude, que l’innéisme qui
explique tout par des structures innées, propose une théorie intermédiaire. En opérant
un rapprochement avec l’épistémologie, c’est-à-dire la construction des connaissances
qui produit une science, cette théorie postule que les structures intellectuelles ont
une genèse qui leur est propre et se construisent progressivement dans le cadre d’une
interaction individu–environnement. L’action y est essentielle sur les objets, mettant
en avant les mécanismes de manipulation, d’exploration et d’expérimentation, rendant
l’individu acteur de son propre développement.
Un exemple assez frappant de l’importance du développement épigénétique est l’existence
de jumeaux monozygotes. En effet, dans ce cas particulier, deux embryons se développent
à partir d’un unique œuf fécondé, disposant donc du même génome. Néanmoins
cela n’a pas pour incidence directe de développer deux êtres strictement semblables,
que ce soit au niveau phénotypique ou psychologique, même si des similarités non né-
gligeables peuvent apparaître.
2.3.2 Le constructivisme
Le constructivisme constitue une théorie prépondérante pour étudier et tenter d’expliquer
le développement de l’individu. Elle s’élabore dès le 18ème siècle, sur les bases
philosophiques posées par les travaux de Giambattista Vico, puis d’Emmanuel Kant. Ces
premiers travaux jettent les bases en postulant que la réalité objective est une limite
impossible à atteindre ; Vico considérant de plus que pour connaître vraiment une chose
il faut l’avoir faite. Cette théorie est ensuite reprise dans les années 1960 par Jean Piaget
pour expliquer la psychologie du développement de l’enfant en réaction aux théories
comportementalistes dominantes à l’époque (cf. section 2.4.2), considérées comme trop
simplificatrices. Pour Piaget, un individu dispose d’une capacité à maintenir sa propre
reconstruction de la réalité qu’il vit.
Stades de l’adaptation individuelle
Les théories de Piaget ont constitué une réelle avancée pour accéder à un certain
niveau de compréhension de la psychologie du développement cognitif de l’enfant,
encore essentielles aujourd’hui. Son héritage le plus important demeure son approche
épistémologique de l’enfance [Piaget, 1967]. Piaget a été le premier à considérer l’enfant
comme un savant en devenir, dont le développement cognitif serait une histoire des
sciences en raccourci.2.3. DE L’IMPORTANCE DU DÉVELOPPEMENT 23
Dans le modèle piagétien, l’émergence d’un comportement nouveau chez l’enfant
dépend de trois facteurs complémentaires, que sont la maturation d’une région, la
spécialisation interactive de plusieurs régions (ou connectivité), et l’apprentissage de
l’habileté. De plus, selon Piaget, le développement cognitif de l’enfant se fait par une
succession linéaire de stades. Pour les résumer, de 0 à 2 ans, ces stades visent à décrire la
construction progressive d’une « intelligence avant le langage essentiellement pratique,
c’est-à-dire tendant à des réussites et non pas à énoncer des vérités », en se basant sur
les réactions circulaires, c’est-à-dire la notion de répétition nécessaire à l’apprentissage.
Plus précisément, Piaget parle également d’un stade dit sensorimoteur développé pendant
la première année de la vie, qu’il subdivise en trois sous-stades, empruntant au
passage la notion de réaction circulaire à James Baldwin [Piaget, 1937].
1. Le premier représente l’exploration du corps par des actions hasardeuses répétitives,
dans la mesure où elles apportent un résultat intéressant.
2. Le second correspond à l’exploration de l’environnement extérieur et notamment
des objets toujours par des actions hasardeuses répétitives (acquisition de nouveaux
schèmes comme la préhension, et consolidation de schèmes antérieurement
acquis comme la succion). Ce second stade est également celui qui va pousser
l’enfant à essayer d’obtenir des résultats intéressants.
3. Le troisième stade va pousser l’enfant à introduire des variations dans la réité-
ration de ses expériences : le but n’est plus de retrouver un résultat intéressant,
mais bien de comprendre les différences en essayant de faire varier les paramètres
d’une expérience, à la manière d’un scientifique.
Le terme d’adaptation demeure en tous les cas extrêmement important dans le
processus de développement. De manière plus opérationnelle, Piaget explique que l’on
peut distinguer deux mécanismes que l’enfant emploie pour construire sa représentation
du monde. Tous deux se basent sur la notion de schème en tant qu’unité élémentaire de
l’activité intellectuelle, au centre du développement sensorimoteur et intellectuel, que
le bébé peut créer et manipuler au cours de son apprentissage. Le premier mécanisme
est l’accommodation qui va permettre la modification d’un schème déjà existant pour y
intégrer un nouvel objet. Cela correspond au fait que l’individu va se modifier lui-même
pour conserver sa cohérence à l’intérieur du milieu dans lequel il évolue. Le second
mécanisme est l’assimilation, qui permet d’intégrer un objet dans un schème déjà
constitué en le consolidant. Cela consiste pour l’individu à transformer le milieu pour
l’adapter à ses connaissances, en agissant sur ce milieu.24 CHAPITRE 2. ÉTAT DE L’ART
Toutefois, on a pu constater l’émergence de théories plus complètes et/ou complexes,
ainsi que des explications plus plausibles de certains mécanismes constatés par Piaget
lui-même, apparues par la suite. L’on y fait référence en parlant des théories néopiagétiennes.
On peut citer des chercheurs influents comme Renée Baillargeon (pour ses
travaux sur la faculté précoce d’apprentissage par la perception [Baillargeon, 2002]),
Robert Siegler (pour la remise en cause du modèle de développement en escalier lui
substituant un modèle de stratégies se chevauchant comme des vagues [Siegler, 1996]),
ou encore Olivier Houdé (pour la mise en évidence de l’importance du processus d’inhibition
de stratégies dans l’apprentissage [Houdé, 1995]).
Radicalisation
Par la suite, la vision constructiviste a été radicalisée par von Glasersfeld, qui réfute
la notion d’une représentation ontologique de la réalité, c’est-à-dire externe et indé-
pendante. Il propose alors le concept de viabilité, qui est une relation plus proche de
l’expérience située entre la connaissance et la réalité 19. Puis dans la fin des années
1980, Varela, Rosch et Thompson explorent le paradigme de l’énaction pour qualifier
le constructivisme intrinsèque dont font preuve les êtres vivants [Varela et al., 1991].
Cette théorie replace la notion de l’expérience unique d’un sujet au centre du problème
de la compréhension de l’intelligence du vivant, en postulant la co-émergence de la
cognition et du monde perçu au travers de la performativité du corps en action dans
l’environnement, comme nous le développons dans la section 2.3.3.
Apprentissage social
Par ailleurs, il est essentiel de rappeler l’existence d’un autre courant emblématique
et intimement lié au constructivisme : le socio-constructivisme. Développé entre
autres autour des recherches menées par Lev Vygotski. Ce dernier envisage le fait que
l’apprenant doit découvrir de lui-même le monde qui l’entoure, et ce par un processus
dans lequel l’apprenant et l’appreneur sont tous deux impliqués à parts égales. Il
soulignait l’importance de la collaboration, notamment autour de ses travaux sur la
zone proximale de dévéloppement. Cette zone, qui représente la distance entre ce que
l’enfant peut effectuer ou apprendre seul et ce qu’il peut apprendre uniquement avec
l’aide d’une personne plus experte, matérialise une forme de motivation extrinsèque
ou comment un congénère plus expérimenté, typiquement un adulte, peut stimuler
l’apprentissage d’un enfant en lui faisant découvrir de nouvelles façons de faire et de
nouveaux problèmes, prenant en compte la marge de progression de l’apprenant. Vygotsky
insiste également beaucoup sur le rôle du langage pour le développement cognitif.
19. Il considère comme viable toute action, toute structure conceptuelle, toute théorie, du moment
que celle-ci se révèle utile pour effectuer une certaine tâche, pour accomplir un but.2.3. DE L’IMPORTANCE DU DÉVELOPPEMENT 25
Du point de vue modélisation informatique, on trouve dans la communauté des
tentatives d’implémentation de mécanismes assimilables aux théories d’apprentissage
constructiviste social soulevées par Vygotsky, comme par exemple Mirolli et Parisi [2011],
ou bien Lindblom et Ziemke [2002] pour ce qui concerne l’importance du langage dans
l’acquisition de fonctions cognitives de plus haut niveau, ou encore Nguyen et Oudeyer
[2013] pour l’aspect sélection par l’agent de la meilleure stratégie d’apprentissage (individuel
ou social).
2.3.3 Le paradigme énactif
Les diverses réussites ainsi que les multiples échecs des réalisations en intelligence
artificielle ont permis au fil du temps de faire émerger une plus grande diversité de
points de vue. Après s’être laissée enfermer dans une conception descendante des fonctions
cognitives dont l’ordinateur constitue la métaphore emblématique — celle du
traitement centralisé d’un cerveau qui programme et d’un corps qui exécute — d’autres
propositions ont été développées.
A contrario, celles-ci tendent à unifier plutôt qu’à séparer, dans une approche plus
complète d’un organisme placé dans un environnement. Car si finalement, comme nous
l’avons montré plus tôt, le corps a son importance, et qu’il s’agit d’une théorie de plus
en plus largement acceptée en tant que prérequis à toute forme de développement de
la cognition, nous n’avons rien dit sur la forme que cela pouvait prendre. Le corps
importe beaucoup, mais dans quelle articulation est-il imbriqué avec ce qui l’entoure ?
Dans une perspective systémique, une conception répandue considère ainsi le cerveau
comme un « système ouvert qui se construit dans et par ses interactions avec le monde
physique et social par l’intermédiaire de ses organes de perception et de production »
[Rochet-Capellan, 2007].
L’analogie du sous-marin
Reprenons l’analogie du sous-marin développée par Tabary [2005] pour introduire
la proposition énactive. Dans cette expérience de l’esprit, deux membres d’un équipage
— un officier navigateur et un capitaine — ont toujours été et évoluent encore dans
un sous-marin qui n’a jamais fait surface. Tous deux ignorent initialement tout de
l’environnement marin. Le premier en revanche dispose de très nombreux appareils
(gyroscope, sonars, etc.) dont des données bien structurées mais n’ayant initialement
aucune signification pour lui s’affichent sur des écrans de contrôle. Au fur et à mesure
que le sous-marin évolue dans l’océan, le navigateur apprend qu’une modification des
images sur certains écrans précède des évènements qu’il ne sait qualifier, mais qu’en tant
qu’observateur extérieur nous pourrions constater comme étant des heurts contre des
rochers. Toujours est-il qu’il apprend à informer le capitaine, qui à son tour, en testant26 CHAPITRE 2. ÉTAT DE L’ART
les divers leviers de commande qui s’offrent à lui, essaye d’adapter la vitesse du vaisseau.
Parallèlement, durant les périodes calmes, le capitaine appuie au hasard sur certains
leviers pour travailler de concert avec le navigateur à comprendre leur influence sur les
écrans de contrôle. Ils apprennent à distinguer deux cas : dans un cas, les images d’écran
se sont modifiées immédiatement après une action du capitaine ; dans un autre cas, les
images d’écran se sont modifiées sans que le capitaine n’ait rien fait. C’est précisément
l’avènement de cette distinction qui amène le capitaine et le navigateur à convenir d’un
nous pour qualifier les modifications du premier cas et d’un pas nous les modifications
du second cas. La foultitude des exemples dissipe les éventuelles confusions survenant
trop peu souvent pour faire coïncider une action du capitaine à un effet extérieur non
directement conséquent. S’en suit un apprentissage de plus en plus poussé, précis et
complexe. Le navigateur constate assez vite que tous les signaux ne se modifient pas
toutes nécessairement en même temps ni de la même façon. Peu à peu, le nous va
s’enrichir d’une connaissance de l’action de chaque bouton ou levier. Leur action est
innée, mais leur signification est apprise. L’équipage peut très vite affirmer l’existence
probable d’une réalité en soi, mais toutes les qualités attribuées à cette réalité sont
le fait d’une construction au contact de l’environnement d’expériences sensorimotrices
antérieures. Au mieux, l’équipage peut être conscient d’un système de relations bijectives
et/ou prédictives entre une modification des images sur les écrans, et
l’état immédiatement ultérieur du sous-marin, l’authenticité d’une réalité étant
purement contingente [Tabary, 2005].
L’inscription corporelle de l’esprit
Varela et al. [1991] proposent donc de concevoir la cognition comme phénomène de
co-construction de l’organisme et de son environnement. Ils positionnent leur proposition
comme une voie alternative aux deux visions antagonistes dominantes, leur reprochant
notamment d’être toutes deux basées sur la notion de représentation : la position dite
de la poule qui utilise la représentation pour reconstituer ce qui est extérieur (position
entièrement basée sur l’existence d’une réalité ontologique), et la position dite de l’œuf
qui l’utilise pour projeter ce qui est intérieur (position entièrement dépendante du système).
Face à ce constat, l’alternative proposée par les auteurs représente la notion
d’énaction qui se caractérise par une co-construction du sujet et de son environnement,
par une spécification mutuelle. La cognition n’est plus vue comme
une logique de lutte entre l’intérieur et l’extérieur, mais plutôt comme une action incarnée.
Cela signifie d’une part que la cognition est fondamentalement basée sur la notion
d’expérience du corps sensorimoteur plongé dans un contexte à la fois biologique, psychologique
et culturel. Toute connaissance est donc avant tout inscrite dans un contexte2.3. DE L’IMPORTANCE DU DÉVELOPPEMENT 27
sensorimoteur 20. Le corps est une composante essentielle de la cognition, il permet l’interaction
tactile, visuelle, sonore. L’énaction promeut une indissociabilité et une
co-évolution entre perception et action dans la construction permanente de
la cognition vécue On dit que le monde qui émerge avec les actions de l’individu est
énacté. Les deux points par lesquels les auteurs résument une formulation préliminaire
de l’énaction sont :
1. La perception consiste en une action guidée par la perception ;
2. Les structures cognitives émergent des schèmes sensorimoteurs récurrents qui
permettent à l’action d’être guidée par la perception.
D’autre part, la théorie de l’énaction suppose un changement de paradigme par rapport
à ce que les chercheurs en intelligence artificielle ont l’habitude de traiter. Les
auteurs de cette théorie expliquent que le développement de l’organisme par un couplage
structurel avec l’environnement s’apparente à une dérive structurale [Maturana
et Varela, 1994] 21, sans objectif particulier. Cela oblige donc à changer de paradigme
entre une vision entretenue en intelligence artificielle d’un programme orienté vers la
résolution d’une tâche explicite, à un programme non orienté, ou orienté vers son propre
développement. C’est précisément l’objet de l’étude menée dans la section 2.4 pour
montrer l’importance de la motivation dans le processus développemental.
2.3.4 La robotique développementale
L’une des mouvances se rattachant à l’importance du développement — prenant
le parti de l’intégrer explicitement dans son intitulé — qui s’est développé dans les
quinze dernières années et à laquelle nous nous rattachons clairement est la robotique
développementale. Nous en présentons les particularités ci-après.
L’analogie avec l’enfant
La robotique développementale est une discipline à mi-chemin entre la robotique et
l’intelligence artificielle, et qui cherche à appliquer des mécanismes issus de la psychologie
du développement de l’enfant (cf. 2.3.1) dans des machines. À ce titre, elle prend
volontairement à contre-pied le but principal de l’intelligence artificielle traditionnelle,
qui était au contraire de produire un robot adulte capable de parfaitement réaliser un
petit nombre d’actions. Il s’agit, pour cette mouvance, de reprendre à son compte la
20. Ou encore, comme le présente Olivier [2012] « Toute connaissance suppose la répétition mentale
d’un geste ».
21. Le concept de dérive est utilisé par Maturana et Varela [1994] en tant que dérive structurale en
l’appliquant à l’ontogénie — c’est-à-dire le développement individuel — et en tant que dérive naturelle
appliquée à la phylogénie — c’est-à-dire le développement au niveau de l’espèce.28 CHAPITRE 2. ÉTAT DE L’ART
citation d’Alan Turing présentée en introduction de ce manuscrit : « Instead of trying
to produce a programme to simulate the adult mind, why not rather try to produce one
which simulates the child’s ? » [Turing, 1950]. Mais la construction de cette robotique
développementale à contre-courant ne s’est pas faite toute seule. Elle est issue d’une
mouvance plus large développée à la fin des années 1980 et dont nous avons parlé précé-
demment. Mais la nouveauté apportée par la robotique développementale est d’insister
précisément sur la recherche d’une modélisation la plus simple possible pour promouvoir
une autonomie accrue. Elle propose de partir de la métaphore de l’enfant, pour qu’un
robot se développe de manière plus complète, grâce à des mécanismes d’apprentissage
génériques, à commencer par l’apprentissage sensorimoteur. Le temps n’est plus une
composante contre laquelle les chercheurs se battent, mais devient plutôt la composante
majeure du développement basé sur l’interaction du robot avec son environnement.
Ainsi, aux modus ponens et modus tollens du cognitivisme, s’oppose le modus vivendi
du post-cognitivisme sous les traits de l’approche développementale et constructiviste.
Le biais anthropomorphique et le paradoxe de Moravec
Les enjeux majeurs de la robotique développementale sont la limitation des biais de
modélisation que les chercheurs en intelligence artificielle ont tendance à imprimer dans
les agents qu’ils réalisent. Comme le soulignent à juste titre Blank et al. [2005], ce biais
anthropomorphique est inhérent à la modélisation. Les robots sont souvent programmés
pour effectuer une tâche particulière, qui s’avère être en général une tâche proprement
humaine, de la manière dont la ferait un humain. Mais rien ne dit que la modélisation
symbolique du comportement d’un robot peut et/ou doit se baser sur les capacités du
corps et de concepts strictement humains, qui sont peut-être inappropriées au corps et
à l’expérience du robot.
Dans le même esprit, on peut penser au paradoxe de Moravec, qui a joué son rôle
dans le développement de cette approche alternative. Une formulation de ce paradoxe
repose sur le constat de la focalisation sur le caractère rationnel des capacités humaines
liées à la logique, aux mathématiques considérés comme cognitivement difficiles, et sur
leur inefficacité quant à la réalisation de tâches plus quotidiennes, notamment sensorimotrices,
auxquelles est constamment confronté un être humain 22. Ce point de vue
est d’ailleurs approuvé et renforcé par Brooks dans différents articles. Brooks [2002]
22. « Encoded in the large, highly evolved sensory and motor portions of the human brain is a billion
years of experience about the nature of the world and how to survive in it. The deliberate process we
call reasoning is, I believe, the thinnest veneer of human thought, effective only because it is supported
by this much older and much powerful, though usually unconscious, sensor motor knowledge. We are
all prodigious Olympians in perceptual and motor areas, so good that we make the difficult look easy.
Abstract thought, though, is a new trick, perhaps less than 100 thousand years old. We have not yet
mastered it. It is not all that intrinsically difficult ; it just seems so when we do it. » [Moravec, 1988]2.3. DE L’IMPORTANCE DU DÉVELOPPEMENT 29
remarque lui aussi que la nature des tâches implémentées dans des machines dépend
directement de la nature des chercheurs qui les implémentent, c’est-à-dire spécifiquement
stimulantes à leurs yeux. Brooks [1990] constate également que l’aptitude à se
mouvoir dans un environnement dynamique, utilisant les capteurs fonctionnels à un
degré suffisant à la nécessaire réalisation de la vie était bien plus délicate et difficile
que les capacités de développement centrées sur le raisonnement symbolique, aussi impressionnantes
soient-elles. Brooks y conçoit une certaine forme de continuité dans le
développement sensorimoteur et le développement mental, qui sera très influençante
pour l’essor de la robotique développementale 23
.
Un double objectif
L’approche proposée par la robotique développementale émerge ainsi lentement tout
au long des années 1990, grâce aux travaux d’une petite communauté de chercheurs
comme Luc Steels ou encore Rolf Pfeifer. Elle prend ses racines dans le changement de
paradigme en robotique surtout survenu pendant les deux dernières décennies et l’avènement
d’une communauté de recherche centrée sur les même objectifs et partageant une
partie suffisante des méthodes. La robotique développementale était née. Comme nous
l’avons déjà expliqué, ce champ de recherche se situe à la confluence d’un certain nombre
de disciplines scientifiques à la fois théoriques et ingénieuriales : de la psychologie du
développement, des sciences cognitives, de l’intelligence artificielle, de la robotique, ou de
la philosophie. Un des fondements de la discipline repose dans la notion d’encorporation
qui considère que le corps est un élément constitutif essentiel dans la réalisation de la
cognition. La robotique développementale explique que le corps joue le rôle de spécifier
les contraintes de l’interaction entre l’agent et son environnement. De plus, la recherche
dans ce domaine est axée :
1. sur l’apprentissage sensorimoteur dans les tout premiers stades du développement,
2. et sur l’étape suivante, à savoir celle du développement social.
Elle vise à trouver des passerelles entre ces deux phases du développement de
l’humain. À la suite de Lungarella et al. [2003], Asada et al. [2009] propose un récent
tour d’horizon de ce jeune mais prometteur domaine de recherche.
Du point de vue qui nous intéresse tout particulièrement, et comme nous le montrerons
à la section 2.4, la robotique développementale travaille à l’élaboration d’algorithmes
de boucles de contrôle qui doivent permettre de révéler l’affordance
du corps du robot sur lequel on les expérimente dans l’environnement où ils
23. Florilège de citations : « [research was oriented towards whatever] highly educated male scientists
found challenging », « the things that children of four or five years could do effortlessly, such as visually
distinguishing between a coffee cup and a chair, or walking around on two legs, or finding their way
from the bedroom to the living room were not thought of as activities requiring intelligence ».30 CHAPITRE 2. ÉTAT DE L’ART
évoluent. Ce processus se doit d’être non supervisé. Nous pensons de plus que le défi
clef de la robotique développementale est d’identifier et d’implémenter des
mécanismes très bas niveau qui permettent un développement sur le long
terme. Moins ces mécanismes sont nombreux et moins ils se fondent sur des hypothèses
sur la nature des données qu’ils vont récolter par l’expérimentation, plus le système qui
se développe en les utilisant peut être considéré comme pertinent. Dans le cas de la robotique
développementale, nous nous intéressons tout particulièrement à l’apprentissage
sensorimoteur chez l’enfant, par l’exploration d’un corps anthropomorphe complexe. La
thèse à l’origine de cette vision et de cette discipline énonce que cette exploration ne
peut se faire qu’à travers un processus continu contrôlé par l’agent lui-même,
venant implicitement introduire l’importance de la notion de motivation.
2.3.5 Une perspective phylogénétique
Le dernier aspect qu’il nous semble fondamental à poser dans cette section dédiée
à la notion de développement réside dans la perspective phylogénétique. Par complé-
mentarité avec le développement individuel et social, le développement phylogénétique
est représenté par la manière dont les individus, appartenant à une même famille ou
espèce par certains critères d’observations externes — proximité du code génétique
ou des traits morphologiques par exemple — vont pouvoir présenter des variations de
certains traits ou caractéristiques. L’étude de l’héritage génétique par un processus de
sélection naturelle prend ses sources dans les travaux de Darwin [1859], et se prolonge,
en grand écart, par de beaucoup plus récentes théories sur la notion de dérive naturelle
[Maturana et Mpodozis, 1999], ou encore la remise en question de celle d’individu [Kupiec,
2008]. Mais dans ce large spectre, il est important de noter que la reproduction,
phénomène nécessaire à la perpétuation de la vie, est un mécanisme de transmission
fondamentalement indéterministe. Cela signifie que les caractères transmis de génération
en génération peuvent évoluer — on parle alors de variation — et ainsi altérer
profondément le rapport de co-construction des nouveaux individus engendrés avec leur
environnement au sens large.
Pour mieux appréhender le phénomène adaptatif engendré par effet de bord du
mécanisme de sélection naturelle, prenons quelques exemples. Il existe dans la nature
des animaux disposant de caractères anatomiques extrêmement variés, qui étant donné
qu’on peut les observer, ont nécessairement dû, au mieux leur conférer une meilleure
adaptation ou au pire ne pas les disqualifier. Il suffit par exemple d’observer les capacités
sensorimotrices de différents animaux pour constater tout à la fois leur diversité
et leur performance en tant que pur produit de l’évolution : la mouche et la fourmi du
désert disposent d’une vue extrêmement efficace ; le grillon est doté d’une ouïe toute
particulière grâce à des tympans placés sur les tibias ; le homard peut « sentir » par
chemotropotaxie, c’est-à-dire forme d’analyse chimique assez fine ; le rat dispose d’un2.4. DE L’IMPORTANCE DE LA MOTIVATION 31
sens du toucher extrêmement précis avec ses vibrisses au moins tout aussi utiles que ses
yeux [Guillot et Meyer, 2008].
Ces capacités sensorimotrices, parfois très éloignées de celles des êtres humains, pré-
sentent des avantages non discutables dans les environnements dans lesquels elles sont
instanciées. C’est précisément ce en quoi cet aspect du développement nous intéresse,
d’autant plus que depuis quelques années, des travaux ne cessent de mettre en évidence
l’importance de la morphologie dans le développement et l’apprentissage sensorimoteur,
trouvant un appui dans l’instanciation robotique de modèles computationnels [Pfeifer
et Iida, 2005; Pfeifer et al., 2005; Pfeifer et Bongard, 2006; Lapeyre et al., 2013]. Toutes
ces raisons nous ont nous aussi poussé à proposer, à la fin du chapitre 4 de contributions
théoriques, une perspective d’approche évolutionnaire pour notre cadre de travail sur
l’apprentissage motivationnel (cf. section 6.4).
2.4 De l’importance de la motivation
Après avoir présenté l’importance du corps et celle du développement pour l’étude et
l’implémentation de mécanismes de la cognition, nous nous attachons dans cette partie
à exhiber l’importance des mécanismes motivationnels pour le développement et l’apprentissage
sur le long terme 24. La question qui nous anime, et à laquelle la citation
ci-dessus fait écho, est la suivante : de quelle(s) manière(s) la notion de motivation
telle qu’étudiée en psychologie peut-elle être appliquée à un système
artificiel afin d’adapter continuellement son comportement en fonction de
son expérience, c’est-à-dire pour favoriser son apprentissage ? Cette question
est extrêmement vaste, et ne serait-ce que la formuler revient à constater l’ampleur de la
tâche. C’est pourquoi nous étudions ici le sujet de la motivation, d’où est tiré le modèle
motivationnel que nous adoptons à partir du chapitre 3.
2.4.1 La motivation in silico ?
À la lecture de l’ouvrage de synthèse en psychologie sur la compétence et la motivation,
coordonné par Elliot et Dweck [2005], il nous semble nécessaire d’opérer une
distinction importante. En effet, les théories liées à la notion de motivation ne sont clairement
pas toutes destinées à pouvoir être expérimentées in silico. Deux notions nous
semblent importantes pour mieux les appréhender et les caractériser :
24. « On se fait une grande affaire de chercher les meilleures méthodes d’apprendre à lire ; on invente
des bureaux, des cartes ; on fait de la chambre d’un enfant un atelier d’imprimerie. Locke veut qu’il
apprenne à lire avec des dés. Ne voilà-t-il pas une invention bien trouvée ? Quelle pitié ! Un moyen plus
sûr que tout cela, et celui qu’on oublie toujours, est le désir d’apprendre. Donnez à l’enfant ce désir,
puis laissez là vos bureaux et vos dés, toute méthode lui sera bonne. » [Rousseau, 1762]32 CHAPITRE 2. ÉTAT DE L’ART
1. niveau d’observation : à quel niveau l’observateur se situe-t-il ? C’est-à-dire quelle
est la part de construit que l’observateur suppose ou constate comme déja ancré
dans le sujet observé ?
2. formalisation : quelle place est faite à (ou pour) une formalisation de cette observation
? C’est-à-dire est-ce que le mode opératoire de la construction de l’état
observé est donné par la théorie ?
D’une manière générale, tout ce qui relève des besoins naturels, notamment au
sens biologique et physiologique du terme a pu donner naissance à des applications en
robotique, par régulation d’indicateurs prédonnés. En revanche les théories relevant
davantage du construit psychique et social ont été exclues car bien trop éloignées des
préoccupations des roboticiens. Dès que les analyses montent en complexité par une
analyse, notamment qualitative, il devient beaucoup plus difficile de les reproduire. La
part explicative dans les théories psychologiques constitue le cœur de la recherche, mais
l’explication s’arrête parfois trop loin de nos considérations bien plus bas-niveau en
termes de traitement de l’information. Car en réalité, pour nous qui nous intéressons
à l’exploration et l’acquisition de compétences sensorimotrices, l’unification du niveau
sensorimoteur avec les niveaux psychique puis social demeure une question complètement
ouverte.
D’ailleurs, si le niveau explicatif est un niveau extrêmement important, cela se traduit
avant tout dans notre discipline par le besoin de définir :
1. soit les opérations successives qui amènent à l’état expliqué ;
2. soit d’identifier les conditions nécessaires pour tendre vers cet état.
De notre propre avis, pour réussir à arriver à un état donné grâce au premier point,
il faudrait exhaustivement connaître une liste d’opérations successives à faire effectuer
par l’agent pour atteindre l’état désiré. La seconde en revanche consiste à doter l’agent
d’un nombre fini et potentiellement restreint de capacités, pour qu’apparaissent certaines
propriétés. Cette solution laisse davantage de place à l’émergence de phénomènes
imprévus, puisqu’il s’agit de contraindre l’espace à explorer et non d’imposer le chemin
à suivre.
Pour faire une analogie informatico-informatique, s’intéresser à la totalité des opérations
successives revient à promouvoir un langage purement impératif, quand s’intéresser
aux conditions nécessaires revient à promouvoir un langage plutôt déclaratif. Dans le
premier cas il s’agit d’arriver à un but précis en étant sûr et certain que la méthode employée
mène systématiquement à cet état. Dans le second il s’agit de donner un ensemble
de règles de développement permettant d’exhiber certaines propriétés. On comprend très
facilement que le second cas est potentiellement adaptable à n’importe quel type de faits.
Cela va clairement dans le sens de notre opinion, puisque comme nous le montrerons2.4. DE L’IMPORTANCE DE LA MOTIVATION 33
dans les chapitres à venir, une boucle motivationnelle instanciée dans un agent
incarné et situé doit permettre son développement propre en se basant pré-
cisément sur ses propres capacités sensorimotrices dans son environnement.
Pour ces raisons, nous ne retenons pour présentation dans cette section que les théories
qui nous semblent être en cohérence avec l’objectif d’expérimentation qui est le nôtre.
2.4.2 Le paradigme motivationnel en psychologie
Pourquoi l’individu agit-il ? Cette question a été posée en tout premier lieu par
les philosophes. Platon plaçait l’homme au sein d’une triade raison–coeur–appétit ;
Aristote préférait parler des passions qui animaient le comportement humain. Puis c’est
clairement la naissance de la psychologie en tant que discipline propre qui permet de
faire évoluer l’étude du comportement. C’est en effet au début du 20ème siècle qu’il faut
voir les premières bases de l’étude de la motivation en psychologie. Celle-ci se construit
sur l’étude de la notion d’instinct menée peu de temps avant par William McDougall
et William James. Il a été proposé depuis lors énormément de théories de la motivation
par les différentes générations de psychologues.
« La motivation désigne une hypothétique force intra-individuelle protéiforme,
qui peut avoir des déterminants internes et/ou externes multiples,
et qui permet d’expliquer la direction, le déclenchement, la persistance et
l’intensité du comportement ou de l’action. » [Fenouillet, 2012]
De cette proposition de définition générale, il faut surtout bien faire la distinction
entre la motivation qui reste un phénomène profondément interne, comparativement
à ses déterminants qui peuvent être à la fois internes mais aussi externes. De plus, le
terme de motivation en lui-même regroupe un ensemble de termes (but, besoin, envie,
désir, etc.), et existe surtout pour rendre compte de l’étude d’un même phénomène, bien
souvent multifactoriel, qui produit un comportement. De plus les effets et la motivation
appartiennent à l’une des quatre catégories suivante :
1. direction : la motivation oriente l’individu vers une certaine finalité ;
2. déclenchement : la motivation a pour effet visible de déclencher une modification
du comportement ;
3. intensité : la production d’un effort s’explique nécessairement par la présence du
force motivationnelle quelle qu’elle soit ;
4. persistance : l’adoption d’un comportement sur la durée peut tout à fait être34 CHAPITRE 2. ÉTAT DE L’ART
d’origine motivationnelle si et seulement si son maintien fait appel à l’exercice
volontaire 25
.
Ce qui nous intéresse tout particulièrement, c’est la relation qui lie la notion de motivation
à celle d’apprentissage. Pour le dire autrement, il s’agit d’expérimenter la notion
d’exploration dans le processus du développement, sous la forme du comportement. Nous
proposons d’étudier quatre théories à la fois compte-tenu de leur importance, mais également
de leur implémentabilité comme expliqué juste avant : les drives, l’équilibre par
optimalité, l’efficacité, et enfin l’autodétermination.
Notion de drive
Considérant que tout comportement est appris et non inné, deux grands principes
d’apprentissage par conditionnement ont été proposés par la psychologie comportementaliste
:
1. Le conditionnement classique qu’on trouve dans les travaux de Ivan Pavlov chez
le chien. Il consiste à associer par répétition un stimulus neutre et un stimulus
inconditionnel, jusqu’à atteindre le statut de stimulus conditionnel.
2. Le conditionnement opérant mis au point par Edward Thorndike puis Burrhus
Skinner à la même époque que le premier. Ici c’est la découverte par l’individu
lui-même d’une action amenant une récompense qui va le pousser à réitérer cette
action.
Dans les deux cas, les travaux mettent en évidence l’importance de la présence de
facteur motivationnel, comme par exemple la faim, mais décident de ne pas en tenir
compte puisque celui-ci entre en contradiction avec la vision boîte noire qu’ils revendiquent
comme nécessaire et préalable à l’étude des phénomènes comportementaux.
C’est à Clark Hull que l’on doit l’introduction du concept de motif (ou drive) dans
le champ de la psychologie, permettant ainsi de combler l’espace entre les deux théories
précédentes. Hull [1943] définit le drive comme une fonction énergétique, comme
un mobile, mais n’ayant pas de fonction directionnelle. C’est le besoin, c’est-à-dire formellement
l’insatisfaction d’une variable au sens large, qui va permettre l’activation
d’associations stimulus–réponse préalablement apprises. Cette théorie s’appuie sur une
vision homéostatique du fonctionnement comportemental, qui postule que la sensation
de déficit chez un individu déclenche des mécanismes dont l’objectif est le retour à
l’équilibre [Cannon, 1932]. Comme nous l’avons vu au chapitre précédent (cf. section
2.2.1), la notion de drive a été très largement reprise par les tenants de la cybernétique,
et constitue en tant que telle, la première forme de motivation jamais expérimentée in
25. On parle alors de volition comme une forme de motivation censée expliquer pourquoi l’individu
maintient dans la durée son action pour atteindre un ou plusieurs objectifs.2.4. DE L’IMPORTANCE DE LA MOTIVATION 35
silico. Cela a été rendu possible pour la simple et bonne raison que les drives étudiés sont
toujours de très bas niveau directement lié à la régulation de la valeur d’un capteur 26
.
Notion d’équilibre par optimalité
Hebb [1955] propose, en parallèle de la théorie du drive dominante à l’époque, la
théorie de l’optimum d’activation. Reprenant des travaux réalisés près de cinquante
ans plus tôt, son modèle postule que les individus sont à la recherche d’un optimum
d’activation plutôt qu’à une réduction des tensions. Cela passe par une régulation
permanente de l’excitation du niveau d’activité générale. Dans les deux cas de sur- et
sous-activation, les stimulations sont soit insuffisantes, soit interfèrent entres elles, ré-
duisant significativement les capacités d’apprentissage. C’est pourquoi l’individu serait
plongé dans une recherche d’un équilibre caractérisé par une activation optimale de
stimulations, comme un juste milieu idéal de son couplage à l’environnement.
Berlyne [1966] s’est particulièrement intéressé aux rapports qu’entretient la curiosité
avec l’attention et l’exploration. Dans le modèle qu’il met en place, il considère qu’un
individu cherche à conserver un état d’activation / stimulation / excitation optimal.
Pour ce faire, il va augmenter ou diminuer l’exploration d’une plus grande variété de
stimuli, ce qui est assimilé à de la curiosité. Quand elle est qualifiée d’épistémique, elle
est définie par un comportement d’exploration de connaissance censé réduire une lacune
ou un conflit entre des connaissances déjà assimilées.
Par ailleurs, il nous faut également étudier la notion d’autotélisme. Celle-ci prend
corps notamment à travers le flow, et représente une profonde absorption dans une
activité quelle qu’elle soit, que l’individu considère comme intéressante au plus haut
point. Comme le montre Csikszentmihalyi et al. [2005], l’implication dans l’activité est
telle que l’individu ressent une perte de repères temporels et de fatigue. La théorie
du flow est basée sur une symbiose entre le niveau de défi que représente l’activité
et les compétences que l’individu doit mettre en œuvre pour la relever. L’intérêt de la
personne autotélique n’est pas purement passif ni contemplatif mais implique un désir de
comprendre, une volonté de résoudre un problème. L’impression de sérénité et de clarté,
de savoir que l’activité est faisable, ou le fait d’être captivé dans le moment présent
sont autant d’aspects générés à l’intérieur de l’individu lui-même et qui caractérisent
le flow. Ce dernier est d’ailleurs souvent dénommé expérience optimale puisqu’il s’agit
de progresser dans un cadran où s’interfèrent les compétences acquises et requises pour
pratiquer l’activité. En ce sens, il s’agit bel et bien d’une forme particulière d’activation
optimale.
26. Néanmoins on peut tout à fait citer d’autres types de drive beaucoup moins expérimentables mais
tout autant intéressants, comme par exemple la réduction de la dissonance cognitive [Festinger, 1957].36 CHAPITRE 2. ÉTAT DE L’ART
Notion d’efficacité
White [1959] définit le concept de compétence comme la capacité d’un organisme à
interagir efficacement avec son environnement. C’est ce qu’il nomme la motivation d’effectance.
Dans ce modèle, la recherche perpétuelle du développement de compétences
constitue pour l’individu une activité intrinsèque. Celle-ci va le pousser à explorer son
environnement sans forcément qu’il y ait gain de compétence, uniquement pour le
plaisir que lui procure le simple fait de maintenir cette efficacité. C’est aussi ce que l’on
peut qualifier de besoin d’autonomie, dans le sens où l’individu va résister aux forces
externes pour tenter de subordonner les événements extérieurs à son influence propre.
Cette activité s’inscrivant dans la durée, elle fait partie de la catégorie des besoins
psychologiques de base, même si elle se différencie du drive par le fait qu’il ne s’agisse
pas de réduire un déficit mais plutôt de maintenir une efficacité.
Dans la même mouvance, Bandura [2003] décrit l’efficacité personnelle ou autoefficacité,
qui concerne la croyance que l’individu détient sur sa capacité à organiser
son comportement pour atteindre ses buts. Il ne s’agit pas directement des aptitudes
de l’individu perçues par un observateur extérieur, mais des évaluations par l’individu
lui-même de ce qu’il peut faire dans différentes situations. Il existe quatre sources d’informations
permettant la construction du sentiment d’efficacité personnelle : les expériences
actives de maîtrise (mesure individuelle de capacité), les expériences vicariantes (transmission
sociale de compétences par observation et imitation), la persuasion verbale et
enfin les états psychologiques qui servent à l’évaluation (vulnérabilité au dysfonctionnement).
La motivation est cognitive car l’individu cherche à déterminer les causes de ses
réussites et de ses échecs. Elle est également anticipatoire car elle repose sur l’expectation
de performances tout en étant guidée par des objectifs qui permettent à l’individu
d’ajuster comportements et stratégies. L’opération qui affecte le comportement en créant
des expectations qui anticipent les gains futurs est considérée comme un renforcement.
L’individu va systématiquement s’évaluer vis-à-vis de certains standards internes qu’il se
créé, processus qui va générer une auto-récompense quand il s’en rapproche. C’est la perception
d’une différence entre la performance et le standard qui créé une insatisfaction
motivant la correction du comportement. Dès qu’un standard est atteint, l’individu tend
à augmenter l’exigence de celui-ci, ce qui a pour conséquence de relancer le processus
motivationnel.
Notion d’autodétermination
Les premières mises en évidence d’une autodétermination ont été postulées par
Harlow et al. [1950]. Leurs études consistaient à observer la manipulation et la ré-
solution de puzzles par des singes rhésus, sans aucune récompense. Il s’agit là des
premières remises en questions des théories comportementalistes. Le fait que ces singes2.4. DE L’IMPORTANCE DE LA MOTIVATION 37
puissent, sans aucune forme de récompense, pratiquer cette activité ayant pour effet
un apprentissage et donc une diminution de l’erreur l’accompagnant, semble exhiber
une certaine motivation interne, désignée comme motivation intrinsèque. Cet aspect
a d’ailleurs également été souligné par des études postérieures, où par exemple Deci
[1971] reproduit l’expérience chez l’humain et montre que la récompense dans ce type
d’activité, à savoir toujours la résolution de puzzles, a pour impact de diminuer le
temps consacré à l’activité lors d’une phase de libre choix. Cela semble signifier que
la récompense n’est pas systématiquement un facteur motivant, et qu’elle peut même
avoir un impact négatif sur l’intérêt de l’individu.
Le terme d’autodétermination sera inventé par Deci et Ryan [1985]. Se basant à
la fois sur les notions de motivation intrinsèque et de régulation intégrée, cette théorie
postule l’existence d’un continuum d’autodétermination, allant de l’amotivation jusqu’à
la motivation intrinsèque à proprement parler. On définit généralement la motivation
intrinsèque comme le fait de s’adonner à une activité pour sa satisfaction inhérente
plus que pour une conséquence séparable identifiée ; c’est typiquement visible chez
les bébés, même si cela peut rester vrai chez les adultes. Dans ce cas, il s’agit d’une
activité effectuée simplement pour le plaisir de l’activité elle-même. Par opposition,
la motivation extrinsèque est le fait de s’adonner à une activité en vue d’atteindre
certains résultats, c’est-à-dire pour sa valeur instrumentale. Par contre, là où le couple
intrinsèque/extrinsèque différencie le type de récompense, le couple interne / externe
différencie l’origine de la récompense.
Plus récemment, pour Deci et Ryan [2002], une certaine optimalité à la fois dé-
veloppementale, comportementale et expérientielle est atteignable par trois besoins
psychologiques que sont le besoin de compétence, intimement lié à la notion d’efficacité
et donc à la motivation d’effectance présentée précédemment ; le besoin de relations
sociales, lié au partage avec autrui ; et enfin le besoin d’autodétermination, à savoir
être à l’origine de son propre comportement. De plus pour ces auteurs, l’autonomie
est directement liée au fait soit par intérêt pour l’activité, soit en vertu des valeurs
auxquelles l’individu adhère.
L’autodétermination recoupe pour beaucoup les trois premières théories motivationnelles
présentées. Son apport est intéressant en ce qu’elle propose de compléter et de
complexifier le modèle de la motivation chez l’être humain, mais elle est par la même
occasion plus délicate à implémenter.
2.4.3 L’origine dans les sciences cognitives
Comme le souligne Ganascia [2010], pour la partie qui nous concerne, l’intelligence
artificielle est une discipline qui étudie comment l’intelligence peut être décomposée et38 CHAPITRE 2. ÉTAT DE L’ART
réimplementée sur des ordinateurs. C’est d’ailleurs la définition donnée par McCarthy
et al. [1955] lors du colloque de lancement de la discipline. En d’autres termes il s’agit
d’examiner l’intelligence à l’aide des sciences dites de l’artificiel [Simon, 1996].
Comme déjà expliqué, cette période a été riche de discussions entre différents domaines
de recherche, réunis autour d’un questionnement commun : comment fonctionne
la cognition ? Déjà à cette époque, au delà de la belle image de cette pluridisciplinarité,
s’est néanmoins creusé un fossé conceptuel qui peut se concevoir comme une
justification du bien-fondé de l’approche motivationnelle. Menées respectivement par
les remarquables chercheurs John von Neumann et Norbert Wiener, deux conceptions
bien distinctes ont vu le jour pour tenter de répondre à la question qui les animait
[Varela, 1989]. Il est extrêmement important à nos yeux d’expliquer ces deux visions de
l’intelligence artificielle car elles ont cimenté l’avenir de la discipline [Dupuy, 1999].
Ainsi d’un côté von Neumann considérait la cognition comme fondamentalement
orientée vers la résolution de problème. De nos jours, on constate aisément que cette
vision s’est très largement répandue jusqu’à devenir dominante, participant à la création
tout en se servant de l’informatique. C’est d’ailleurs ce qui a contribué à ce que l’ordinateur
devienne la métaphore principale utilisée pour expliquer la cognition, modèle basé
sur l’idée d’un traitement de l’information de données en entrée produisant d’autres
données en sortie.
De l’autre côté, Wiener revendiquait une conception de la cognition davantage
comme étant une activité autonome et créative, qu’il trouvait plus crédible pour décrire
les systèmes vivants. Cette idée-ci a été très fortement négligée, aussi bien par les
informaticiens que par une grande partie des psychologues happés par la métaphore
représentationniste convaincante et bien pratique.
Varela [1989] explique parfaitement bien la différence entre la conception hété-
ronome de von Neumann par opposition à la conception autonome de Wiener. En
effet, les systèmes hétéronomes sont envisagés en termes d’entrées–sorties, alors que
les systèmes autonomes le sont en termes de clôture opérationnelle. Cette distinction
implique deux conceptions, deux logiques pour caractériser l’intelligence : un rapport
de correspondance pour les systèmes hétéronomes, et un rapport de consistance pour
les systèmes autonomes. Pour le dire autrement, là où les systèmes hétéronomes sont
dans une relation de représentation avec l’environnement, les systèmes autonomes sont
dans une relation d’émergence sémantique avec l’environnement.
Une fois cette distinction posée, cela apporte clairement du crédit quant à l’importance
de la motivation dans la conception de Wiener. La motivation peut et doit y jouer
un rôle essentiel de régulation vis-à-vis du processus qui conduit l’agent à se concentrer2.4. DE L’IMPORTANCE DE LA MOTIVATION 39
sur son propre développement. Cela correspond précisément à ce que les approches en
robotique développementale ont pu élaborer en terme de motivation.
2.4.4 L’essor du paradigme motivationnel en robotique
développementale
Le paradigme motivationnel en robotique développemental trouve donc son essence
dans l’observation des êtres humains. Comme nous venons de le voir, ceux-ci sont très
souvent enclins à entamer une activité pour leur simple plaisir, par ce que l’on appelle
plus communément, pure curiosité. Il est donc assez naturel qu’un mécanisme comme
la curiosité en soit venu à être implémenté dans des machines pour devenir la curiosité
artificielle, dans le but de favoriser l’apprentissage automatique déjà bien ancré dans
les mœurs et bien implémenté dans les machines.
De plus, le principe même de la curiosité artificielle permet de recentrer l’étude de
l’intérêt sur le sujet, et non sur l’objet. En effet, la plupart des techniques de curiosité artificielle,
et tout particulièrement celles adoptant la vision des motivations intrinsèques,
refusent la vision objective de l’intérêt que pourrait susciter un objet particulier. Elles
lui substituent la vision subjective d’un intérêt construit par l’agent et son expérience, ce
qui en soit constitue un grand pas dans la mesure où, comme nous l’avons montré dans
les sections précédentes, une bonne partie de l’intelligence artificielle et de l’ingénierie
informatique et robotique impose une approche anthropocentrée et objective dans les
systèmes artificiels qu’ils conçoivent.
Nous avons choisi de présenter dans cette section les différentes approches prenant
pour base les motivations intrinsèques comme moteur pour favoriser l’apprentissage
d’agents cognitifs. D’un côté, ces approches partagent de nombreuses considérations.
La première, et probablement la plus importante, repose sur le but de proposer un
ensemble de méthodes directement liées à un continuum de progression se développant
chez l’agent. En effet, ces modèles partagent l’ambition de concevoir un agent doué
d’un mécanisme cumulatif d’acquisition perpétuelle de connaissances dans
le but d’apprendre des compétences de plus en plus complexes. Ces approches
sont toutes nées d’un désir commun de concevoir un agent autonome dans son rapport
à un monde qu’il doit apprendre à appréhender et à maîtriser, notamment pour en
limiter les effets néfastes à son égard.
Mais de cette volonté commune émergent en réalité des cadres théoriques et des mé-
thodes algorithmiques formelles qui, de facto, sont substantiellement différentes. Nous
avons pris le parti de décrire les plus importantes une par une ci-après. Ce choix provient
du fait que toutes ces approches sont trop différentes pour réussir à les regrouper40 CHAPITRE 2. ÉTAT DE L’ART
clairement dans une typologie propre. En revanche, nous proposons un tableau récapitulatif
en fin de section (cf. tableau 2.1). Celui-ci se propose de mettre en relief les
points communs entre les approches étudiées précédemment 27, pour nous permettre de
cerner au mieux les contours dessinés dans les deux dernières décennies, d’en souligner
les limites et de mettre au jour les futurs développements.
Compression Driven Progress (Schmidhuber et al.)
Les premières recherches sur la curiosité artificielle ont été effectuées au tout début
des années 1990, notamment grâce à Juergen Schmidhuber. D’une manière générale,
ses travaux se basent sur l’idée que ce qui guide un agent optimalement motivé et
adapté réside dans une simple motivation d’amélioration de compression du monde
[Schmidhuber, 1991a,b]. Il explique qu’un modèle se basant sur un module de pré-
diction qui permet de compresser des données 28 permet une amélioration optimale.
En effet, un module de compression sans perte permet de synthétiser des données de
manière algorithmique tout en étant capable de reconstruire l’ensemble des données de
base sans aucune altération (cf. figure 2.2 pour un aperçu de l’architecture globale).
Récompenses
intrinsèques
Renforcement
Détection
de patrons
Prédicteur /
Compresseur
Figure 2.2: Architecture reconstruite à partir de Schmidhuber [2008]. Les différentes
parties sont le prédicteur/compresseur de l’histoire de l’agent (le modèle du monde),
le module de détection de patrons (qui essaye d’améliorer le modèle en détectant des
patrons intéressants), un module de Récompenses intrinsèques (qui mesurent les amé-
liorations du modèle) et un Renforcement (qui transforme les récompenses en actions
pour optimiser la récompense future).
Selon lui, ce qui intéresse l’être humain réside dans l’étroit couloir entre ce qui est
trop simplement compressible et donc inintéressant et ennuyeux, et ce qui n’est pas du
tout compressible car n’apportant pas suffisament de régularité donc trop compliqué à
27. Nous étendons plusieurs aspects traités dans des typologies déjà proposées par le passé [Oudeyer
et Kaplan, 2007; Schmidhuber, 2010; Baldassarre et Mirolli, 2013].
28. Nous entendons ici le terme compression au sens le plus simple et courant en informatique,
qui consiste à trouver des régularités pour réussir à réduire sans perte la taille des données, comme
typiquement remplacer 000002 par 5012, c’est-à-dire 5 × 0 et 1 × 2.2.4. DE L’IMPORTANCE DE LA MOTIVATION 41
apprendre. D’ailleurs selon lui, sa théorie des agents dirigés par la compression explique
tout ce qui est autour de la créativité, l’humour ou les arts [Schmidhuber, 2008, 2010].
Dans la même mouvance, on peut citer les travaux initiés par Marcus Hutter autour
d’une théorie universelle de l’intelligence. Celle-ci défend AIXI, un modèle d’agent le
plus intelligent et le moins biaisé possible [Hutter, 2007]. Ce modèle est avant tout
théorique, puisqu’il est incalculable, et se base sur la théorie de l’information ainsi que
sur les travaux d’induction universelle de distributions a priori inconnues mis au point
par Ray Solomonoff. De ce fait, AIXI constitue une théorie universelle non-paramétrée,
qui ne fait aucune hypothèse sur son environnement, si ce n’est qu’il soit calculable,
généralisant ainsi l’induction universelle passive au cas d’un agent actif.
Intrinsically Motivated Reinforcement Learning (Barto et al.)
Au début des années 2000, l’idée d’un apprentissage actif par les motivations
intrinsèques s’est fait sentir dans la communauté d’apprentissage automatique. Sous
l’impulsion d’Andrew Barto et de Satinder Singh, les motivations intrinsèques font une
incursion dans le domaine de l’apprentissage par renforcement. Dans la vision promue
par ce dernier, l’agent, procédant par essai–erreur au contact de son environnement,
doit essayer d’agir de manière à maximiser l’accumulation d’une récompense (positive
ou négative) [Sutton et Barto, 1998]. La principale nouveauté introduite pour
la réalisation du cadre théorique de l’apprentissage par renforcement intrinsèquement
motivé réside dans l’intériorisation de la notion de critique au sein de l’organisme,
comme le montre la figure 2.3. C’est pour cela que l’on fait souvent référence à cette architecture
sous le nom d’acteur–critique, car l’agent devient acteur de sa propre critique.
Formellement, cette approche se base sur le cadre théorique des options, c’est-à-dire
des routines pouvant être invoquées comme des actions élémentaires [Singh et al., 2004;
Barto et al., 2004; Stout et al., 2005]. Elles doivent obligatoirement disposer :
1. d’un ensemble d’états d’initialisation autorisant leur instanciation,
2. d’un ensemble de probabilités entre les états et la terminaison d’une option,
3. d’un ensemble de probabilités entre les états et les actions.
Intelligent Adaptive Curiosity (Oudeyer et al.)
À la même période dans la jeune communauté de robotique développementale, Oudeyer
et Kaplan [2004] proposent leur algorithme IAC (Intelligent Adaptive Curiosity).
Dans ce modèle, un agent vierge de tout vécu va donc avoir pour seul but d’effectuer
des actions, en étant guidé par
1. les interactions passées entretenues avec l’environnement ;
2. une métrique d’intérêt.42 CHAPITRE 2. ÉTAT DE L’ART
Environnement
Agent
Actions Récompenses États
Environnement
Externe
Environnement
Interne
Agent
Décisions
Actions Sensations
Récompenses États
Figure 2.3: Nouvelle perspective (à droite) sur l’architecture traditionnelle d’apprentissage
par renforcement (à gauche). La nouvelle perspective intègre la critique à l’intérieur
de l’organisme, symbolisé par le rectangle pointillé. Adapté de Barto et al. [2004].
Dans ce modèle, la mémoire de l’agent est considérée comme un espace appelé à se
structurer au fur et à mesure de l’interaction avec l’environnement, par l’accumulation
d’expériences sensorimotrices. Au départ, cette mémoire est représentée comme une
seule région vide. Puis, le seul et unique mécanisme de l’agent va être de choisir des actions
à effectuer pour pouvoir améliorer la qualité de ses prédiction concernant l’impact
des mouvements qu’il peut effectuer. Par un mécanisme de spécialisation progressive
qui va permettre la création d’experts par zone, l’agent va améliorer la vue grossière et
imprécise de son environnement sensorimoteur à force d’effectuer des expériences, qui
vont l’aider à découper cet espace afin de nuancer l’impact de certains facteurs/paramètres
dans l’exécution des actions.
L’architecture RIAC, proposée par Baranes et Oudeyer [2009] comme une évolution
de IAC (cf. figure 2.4), apporte une plus grande robustesse en conservant les régions
mères à chaque découpe, ou encore en améliorant la découpe pour maximiser les diffé-
rences de progrès entre les deux régions.
L’intérêt premier de ces deux modèles réside dans l’utilisation de la dérivée de l’erreur
de prédiction, c’est-à-dire le robot va avoir une tendance à choisir les actions qui
dans le temps maximisent son progrès en apprentissage. En revanche, par rapport à
Schmidhuber [2010], dans ce modèle-ci la mesure de l’amélioration ne se fait que sur
les nouveaux exemples et pas sur tout l’historique, ce qui peut avoir pour limitation2.4. DE L’IMPORTANCE DE LA MOTIVATION 43
Environnement
Modèle de
prédiction Structuration Régions Sélection
de l’action
sensations action
Figure 2.4: Adaptation de l’architecture proposée par Baranes et Oudeyer [2009]. À
partir d’un état d’entrée, et d’une action sélectionnée, une prédiction de l’état de sortie
du système est faite et confrontée avec la réalité de l’environnement. Après chaque
confrontation, l’espace sensorimoteur va potentiellement être structuré afin de spécialiser
des régions en isolant des paramètres saillants.
de ne pas réussir à capturer les phénomènes de motivation intrinsèque à retardement,
c’est-à-dire le fait que certaines actions impliquent des conséquences à plus ou moins
long terme.
Category-Based Intrinsic Motivation (Lee et al.)
Lee et al. [2009] propose une évolution de IAC [Oudeyer et Kaplan, 2004] et RIAC
[Baranes et Oudeyer, 2009], basée sur un mécanisme de catégorisation (Category-Based
Intrinsic Motivation, ou CBIM). Dans le modèle IAC, le mécanisme de découpe récursif
de l’espace ne construit pas à proprement parler des abstractions. De plus, l’approche est
considérée comme descendante et peut mettre longtemps avant de créer des catégories
— les régions regroupant des expériences similaires — censées refléter la structure de
l’espace sensorimoteur. Ils reprochent également au modèle le fait que la formation de
nouvelles catégories soient uniquement liée au nombre d’expériences vécues et non leur
unicité. Cette particularité a pour travers de créer un nombre excessif de catégories
similaires, faisant finalement grossir inutilement la mémoire de l’agent et limitant son
passage à l’échelle en terme de complexité. L’approche proposée est ascendante et utilise
un algorithme de gaz neuronal croissant, dont la particularité est de ne créer de nouvelles
catégories que si besoin.
Abstraction, Anticipation and Motivation (Blank et al.)
Blank et al. [2005] sont les premiers à avoir proposé un modèle théorique se basant
sur trois composantes nécessaires essentielles au processus développemental d’un agent
plongé dans un monde qui le submerge d’un flot constant d’informations perceptuelles :44 CHAPITRE 2. ÉTAT DE L’ART
1. l’abstraction pour permettre de faire le tri dans ces informations et concentrer son
attention sur les plus pertinentes, pour déterminer les actions à exécuter ;
2. l’anticipation pour permettre de prédire la manière dont l’environnement va évoluer
dans le temps et déterminer un comportement en fonction ;
3. des motivations pour guider le processus et pousser le système vers une meilleure
abstraction et de plus en plus de complexité.
L’architecture proposée repose sur la construction hiérarchique de différents niveaux
reposant chacun sur l’abstraction et l’anticipation. Cette hiérarchie est construite à
la manière de l’architecture de subsomption [Brooks, 1986]. Chaque niveau, au-delà du
premier qui se base directement sur les entrées sensorimotrices, prend en entrée le niveau
inférieur, et s’avère prioritaire à tous ceux lui étant inférieurs au sein de la hiérarchie.
Interactivist Representations (Stojanov et al.)
L’idée développée sur plusieurs années par Stojanov et al. [1997]; Stojanov [2001];
Kulakov et Stojanov [2002]; Stojanov et Kulakov [2003] est d’intérioriser la motivation
sur la construction cognitive. Les auteurs reprochent aux approches existantes de ne
proposer que des types de motivations qui animeraient des agents inertes. Ils prennent
appui sur la théorie interactiviste, qui explique que la motivation n’est pas tant quelque
chose qui fait faire quelque chose plutôt que ne rien faire, mais plutôt qui joue un rôle
de régulation et choisit quoi faire [Bickhard, 2000]. Les auteurs rejettent à la fois les
approches de trop haut niveau en terme de représentation, mais ils refusent également
de tomber dans l’extrême inverse qui refuse de s’intéresser à la notion de représentation.
Pour eux, toute motivation qui ne prendrait pas en compte la représentation
demeurerait bornée car ils considèrent que la curiosité ne doit pas uniquement impacter
les actions, mais également l’introspection, c’est-à-dire diriger pour évoluer dans cette
mémoire sans que ça ne soit nécessairement lié à un comportement.
Le pilier de cette approche est la notion de schème piagétien comme déjà expliqué
en section 2.3.2. Les schèmes tels que conçus dans ce modèle résultent de l’évolution
de comportements innés de préservation. Dans ce modèle, ils émergent de la détection
de patrons permettant de construire des proto-catégories et des proto-concepts, dans
le but de prédire le flux sensoriel futur. Les proto-concepts qui vont se créer par la
répétition et grâce au système de valeur inné vont contraindre la réalité. Même si
les auteurs ne le disent pas, on peut y discerner les mécanismes d’assimiliation et
d’accommodation propres au développement des schèmes. La mémoire de l’agent est
structurée sous forme de graphe dont les nœuds sont des états perceptuels reliés par
des arêtes représentant les actions concrètes qui y ont mené. Ce graphe est décliné en
plusieurs niveaux symbolisant une capacité d’abstraction de la part de l’agent.2.4. DE L’IMPORTANCE DE LA MOTIVATION 45
Plus précisément en terme de motivation, Stojanov et Kulakov [2006] explorent un
mécanisme directement liée au sentiment de compréhension. L’effet eurêka comme il est
parfois appelé, produit une sensation de clairvoyance ex abrupto à propos d’un phé-
nomène en particulier. Ici cela se fait à partir d’une valeur de fiabilité (ou confiance),
d’une part locale à chaque nœud et d’autre part globale sur l’ensemble du graphe des
connaissances. Plus un nœud sera connecté, plus sa fiabilité sera forte.
Self-Adaptive Goals Generation (Baranes et al.)
SAGG-RIAC se base sur l’acquisition de compétences dans Baranes et Oudeyer
[2010a, 2013]. Il s’agissait de passer l’échelle entre le simple stimulus–réponse de IAC et
RIAC, et la possibilité de combiner des actions pour pouvoir résoudre des tâches plus
complexes. L’idée principale réside dans le fait de chosisir des états-buts — c’est-à-dire
des configurations particulières des capteurs — à atteindre plutôt qu’une simple action
à effectuer. Le modèle proposé se base sur un apprentisage guidé par l’objectif généré,
qui consiste à mixer :
1. une approche d’exploration : tester des actions pour en comprendre les consé-
quences ;
2. une approche d’exploitation : atteindre un certain objectif, défini comme possédant
une condition terminale et des contraintes à respecter pour l’atteindre.
Étant donné que ce modèle constitue le point de départ de nos travaux, nous ne le
développons pas davantage dans cette partie, car il sera étudié plus en profondeur dans
le chapitre 3.
Motivation-Based Affordances (Hart, Cos et al.)
Hart et al. [2008] et Hart et Grupen [2011] s’intéressent explicitement aux affordances
[Gibson, 1979]. Leur approche est centrée sur le robot plutôt que centrée sur
une tâche. Elle se base sur la construction hiérarchique de programmes assimilables
aux schèmes piagétiens. Ce qui fait que le modèle prend en compte directement la notion
de comportement plutôt que celle de contrôle sensorimoteur bas-niveau. L’aspect
motivationnel réside dans le fait de récompenser les actions qui réduisent l’incertitude
des modèles liant un contexte et un ensemble d’interactions potentielles, l’incertitude y
étant définie par rapport à l’évolution de la variance des modèles appris.
Cos-Aguilera et al. [2010] parlent explicitement de Motivation-Based Affordances.
Ils reprennent la notion d’affordance définie comme la potentialité d’apparition ou
de disparition d’une action au gré de la perception d’éléments liés. L’apprentissage
consiste ici à mettre en relation une entrée sensorielle avec la potentialité d’agir.
C’est-à-dire comme la formalisation d’une adaptation par association entre des effets46 CHAPITRE 2. ÉTAT DE L’ART
physiologiques résultant d’une interaction avec les éléments de l’environnement d’une
part, et la perception de ces éléments d’autre part. La perception est considérée comme
processus résultant d’une adaptation développementale et génétique et à ce titre est
donc intimement lié au couplage entre l’individu en tant qu’héritier d’une espèce et un
environnement de vie. Leurs expérimentations montrent une adaptabilité de la perception
via une généralisation par l’expérience, qui se base sur une métrique de similarité
entre des ressources différentes. Les auteurs se concentrent sur la restitution au bon
moment du bon comportement, ce dernier étant pioché dans un répertoire fini, plutôt
qu’à la création de nouveaux comportements. Trois aspects principaux sont à décrire
dans l’architecture de l’agent. Le premier est un ensemble de variables homéostatiques,
c’est-à-dire des abstractions représentant le niveau de ressources internes nécessaires
à la survie de l’agent. Le second est un ensemble de drives internes, c’est-à-dire des
abstractions qui forcent l’agent à corriger les déficits de ces variables homéostatiques.
Enfin le troisième est un système inné de valence censé favoriser l’apprentissage sous
la forme d’une réponse hormonale déclenchée lors des variations brusques des variables
homéostatiques. Concrètement, ce signal interne renforce les synapses dont le comportement
associé génère une compensation physiologique. L’intérêt de cette approche réside
précisément dans le fait que l’affordance y est vue comme apportant une compensation
physiologique à l’agent. Le fait que l’espace physiologique soit découpé en une zone
optimale plus ou moins restreinte, incluse dans une zone viable plus large, elle-même
enclose par une frontière létale, vient soutenir cette approche.
Il est à noter que nous employons nous-mêmes le terme d’affordances dans les chapitres
à venir pour caractériser l’approche motivationnelle basée sur le progrès en compétences,
avec notre propre redéfinition.
Homeokinesis (Der et al.)
Der et Liebscher [2002] proposent une approche appelée homéokinésie. Il s’agit
d’un principe général qui permet d’induire, par auto-organisation, des spécificités selon
l’encorporation considérée et la complexité de son environnement. Elle se base sur
le principe de l’homéostasie, c’est-à-dire le fait de maintenir un état d’équilibre interne,
mais appliquée ici au comportement. Elle doit être considérée comme le pendant dynamique
de l’homéostasie. À ce titre elle engendre un comportement depuis une perspective
purement interne, par satisfaction de ce besoin. Pour un agent équipé d’un modèle adaptif
du monde, un signal d’apprentissage possible est le décalage entre le prédiction et
comportement réel de l’agent. Plus le contrôle de l’agent est régulier, plus ce décalage
tend à être nul. Ainsi, l’homéokinésie implémentée dans un agent, c’est apprendre à
maintenir un état kinétique, c’est-à-dire un comportement compris par le modèle.2.4. DE L’IMPORTANCE DE LA MOTIVATION 47
Radical Interactionism (Georgeon et al.)
La très récente théorie de l’interactionnisme radical que proposent Georgeon et al.
[2012] et Georgeon et al. [2013] se base sur la notion de motivation interactionnelle.
Elle se base sur l’autotélisme [Steels, 2004], c’est-à-dire la motivation intrinsèque qui
est de contrôler son activité. Ici, un agent radicalement interactionniste va essayer de
prédire des séquences de comportements possibles dans certains contextes, un contexte
étant représenté par les comportements qu’il offre. De plus, un tel agent possède un
ensemble prédéfini de primitives d’interaction, qui sont définies comme possédant une
valence positive ou négative. À partir de là, ce sont les régularités dans les séquences
d’interaction offertes par l’environnement qui vont guider le développement de l’agent
par la hiérarchisation en mémoire de compositions d’interactions.
En pratique, le modèle prend pour point de départ un POMDP (Partially Observable
Markov Decision Process), mais propose l’idée de ne plus passer par une récompense
liée à l’état du monde, qui est forcément définie a priori. Plutôt, l’agent découvre, engramme
et exploite des régularités dans ses expérimentations sans observer l’état de
l’environnement. À la vision absolue traditionnelle s’oppose une vision plus relative et
donc fondamentalement plus constructiviste. En effet, il n’y a pas de théorie supportant
l’hypothèse que le système sensoriel puisse refléter un état de réalité, puisque cela
voudrait dire qu’il existe une réalité à part entière pré-existante, une réalité ontologique.
Empowerment (Klyubin et al.)
Un autre courant de recherche s’est approprié les motivations intrinsèques, le renommant
empowerment [Klyubin et al., 2005a,b, 2008; Salge et al., 2014]. L’idée
générale demeure la même, à savoir que l’agent ne doit pas être guidé par une forme de
récompense spécifiée depuis l’extérieur du système, mais plutôt par l’optimisation de
critères et mesures internes permettant une interaction riche et complexe avec le monde
extérieur. De manière formelle, l’empowerment se définit comme la capacité du canal
entre les actionneurs et ses capteurs, au sens de la théorie de l’information. Il s’agit
de mesurer la potentielle cause d’une variable sur une autre au travers d’une boucle
action–perception. En d’autres termes, cela revient à quantifier la capacité de contrôle
ou d’influence qu’un agent détient et perçoit sur le monde qui l’entoure, en s’inspirant
du concept d’affordances [Gibson, 1979]. Sa particularité est d’être pleinement spécifiée
par la dynamique du couplage agent–environnement, c’est-à-dire les probabilités de
transition. Cela signifie que la récompense n’a pas besoin d’être définie a priori. Pour
résumer, plus un agent détient une forte probabilité d’influencer le monde, meilleur sera
son coefficient d’empowerment.
Dans le même état d’esprit les travaux de Ay et al. [2008] proposent un cadre théo-48 CHAPITRE 2. ÉTAT DE L’ART
rique basé sur l’Information Prédictive, ou encore du côté de Porr et Di Prodi [2014]
et de leur métrique d’Utilisation Prédictive (même si dans ce cas, il s’agit d’un système
multi-agents). Les idées développées se basent elles-aussi sur la théorie de l’information
et sur la mesure de la complexité et sur l’information mutuelle que l’agent peut découvrir
puis prédire quant au couplage entre les observations faites par le passé et celles qui
seront faites à l’avenir.
2.4.5 Taxinomie des approches motivationnelles étudiées
Face à la pluralité des approches que nous venons d’étudier, la question de les classer
vient nécessairement se poser. Réaliser une taxinomie sert à abstraire différentes
manières de penser, pour réussir à exhiber les points communs et hiérarchiser les différences.
Nous étendons plusieurs typologies déjà proposées par le passé [Oudeyer et
Kaplan, 2007; Schmidhuber, 2010; Baldassarre et Mirolli, 2013]. Dans la continuité,
voici les points particuliers qui nous intéressent, regroupés en catégories. :
Apprentissage
Cette première catégorie rassemble certaines particularités identifiées dans les approches
étudiées, souvent partagées, autour des concepts liés à la manière dont l’agent
va apprendre au sein de son environnement. La première chose est de savoir si le processus
d’apprentissage se base sur l’acquisition de connaissance (ou modèle direct, c’est-à-
dire le fonctionnement de son environnement), ou bien sur l’acquisition de compétences
(ou modèle inverse, c’est-à-dire maîtriser son environnement). Ensuite il s’agit d’identifier
quelles sont les approches qui se basent explicitement sur la notion de but (se
fixer un objectif et tout mettre œuvre pour l’atteindre), de renforcement, de progrès en
apprentissage (prendre en compte la notion de temps, par opposition à l’utilisation de
l’erreur à un instant précis). Certaines incluent même un système de prédiction (non
nécessairement uniquement consacré à l’apprentissage du modèle direct).
Techniques
Sous cette appellation sont regroupés les différents aspects plus techniques de l’apprentissage
opéré par les différents agents des modèles étudiés. Certains se basent par
exemple sur la théorie de l’information, sur la compression, ou sur la recherche de ré-
gularités. Certains sont modélisés en utilisant des probabilités pour une plus grande
flexibilité.
Interaction
Comment l’interaction entre l’agent et son environnement se déroule-t-elle ? Nous
avons identifié trois points à distinguer. L’agent utilise-t-il des primitives d’interaction2.4. DE L’IMPORTANCE DE LA MOTIVATION 49
ou bien apprend-t-il ex nihilo à partir du flot sensorimoteur ? D’autre part, certaines
approches s’appuient explicitement sur la notion d’affordances. Enfin quid de l’adéquation
entre l’approche et le fait qu’elle soit avant tout basée sur l’interaction plus que sur
autre chose.
Héritage
En terme d’héritage, nous entendons distinguer les caractéristiques de certaines approches
qui prennent pour appui des éléments biologiques ou psychologiques. Ici nous
avons identifié la notion de valence, d’homéostasie et enfin de viabilité.
Échelle
Au sein du discours développemental, la notion de passage à l’échelle est récurrente.
Mais toutes les approches ne la traitent de la même manière, voire ne l’implémentent pas
réellement. Parmi les mécanismes liés au passage à l’échelle, c’est-à-dire à la construction
et l’élaboration de connaissances de plus en plus complexes, nous avons identifié la
spécialisation, la catégorisation / abstraction. Nous avons également cherché à classer les
approches pour déterminer si ces deux mécanismes tels qu’implémentés faisaient explicitement
appel à la notion de hiérarchie, à la notion de schèmes. Enfin nous proposons
de préciser leur rapport à la notion de représentation.
Constructivisme
Le dernier point que nous abordons dans cette taxinomie est le rapport qu’entretiennent
les approches avec la notion de constructivisme. Nous attribuons à chacune
des approches étudiées une intensité censée refléter combien elles semblent respecter la
vision constructiviste telles qu’exposées dans la section 2.3.2.
Tableau récapitulatif
Le tableau 2.1, présenté en page 50, récapitule de manière synthétique les différentes
façons d’aborder l’aspect motivationnel pour favoriser l’apprentissage de systèmes artificiels.
La classification se base directement sur les approches précises en essayant de
les comparer. Le symbole X indique que l’approche utilise ou se base sur cette notion.
Pour certaines notions plus complexes, nous indiquons l’intensité de leur adéquation
en terme d’implémentation à l’aide du symbole •. La correspondance avec les théories
motivationnelles psychologiques y est également représentée.CDP IMRL IAC CBIM AAM IR SAGG MBA HK RI EMP
Drive Équilibre optimal Efficacité
Apprentissage
connaissance X X X ? ?
maîtrise X X X X X X
but X
renforcement X ? ? ? ?
progrès X X X X X
prédiction X X X X ? X X
Techniques
théorie information X X
régularités X X
probabilités X X X
Interaction
primitives d’interaction X X X
affordances X X
interaction-based •• • •• •• • • •
Héritage
valence X X
homéostasie X X
viabilité X
Échelle
spécialisation X X X
catégorisation / abstraction X X X
hiérarchique X X X X
schèmes X X
représentation ∅ • ∅ •• • • • • • • • •• ∅ •• ∅
Constructivisme ∅ ∅ ∅ • • • • • •• •• • • • • •
Tableau 2.1: Typologie des différentes approches utilisant les motivations intrinsèques en robotique développementale étudiées tout au long de ce
chapitre, soit dans l’ordre : Compression Driven Progress [Schmidhuber, 2010], Intrinsically Motivated Reinforcement Learning [Singh et al., 2004], Intelligent
Adaptive Curiosity [Oudeyer et Kaplan, 2004], Category-Based Intrinsic Motivation [Lee et al., 2009], Abstraction, Anticipation and Motivation [Blank et al.,
[Cos-Aguilera
2005], Interactivist Representations [Stojanov et Kulakov, 2006], Self-Adaptive Goal Generation [Baranes et Oudeyer, 2013], Motivation-Based Affordances
et al., 2010], Homeokinesis [Der et Liebscher, 2002], Radical Interactionism [Georgeon et al., 2013], Empowerment [Klyubin et al., 2005a].2.5. CONCLUSION 51
2.5 Conclusion
L’objectif de ce chapitre était de fournir un aperçu relativement large de l’héritage
épistémologique dans lequel nous nous situons. Nous avons organisé cet état de l’art en
mettant en avant les trois notions qui nous semblent supporter l’étude et l’implémentation
de mécanismes de la cognition : le corps, le développement, et la motivation.
Ainsi nous avons commencé par étudier l’importance de la notion de corps. Nous
avons vu qu’historiquement il y avait eu des interactions plus ou moins denses selon
les époques entre l’informatique et la robotique, et que l’association des deux pouvait
permettre de mieux mettre en relief et de comprendre comment certaines propriétés
peuvent permettre l’émergence de mécanismes plus ou moins qualifiables de cognitifs.
Nous avons vu que le corps était un objet d’étude que d’autres disciplines avait examiné
— comme la physiologie, la psychologie, voire la philosophie — quand l’informatique,
elle, s’est fondée sur l’espoir de la supériorité de l’intellect rationnel sur le corps physique.
Nous avons constaté l’émergence de nouveaux courants de pensée venant placer
l’encorporation au centre du problème.
Par la suite nous avons tenté de montrer l’importance de la notion de développement.
Pour ce faire nous avons commencé par expliquer la nécessaire prise en compte
de l’épigénétique, phase du développement qui se base sur l’héritage génétique en le
confrontant aux réalités de l’encorporation, ainsi que la notion de développement phylogénétique.
Nous avons étudié le mouvement constructiviste ainsi que le changement de
paradigme qu’implique la proposition énactive. Nous aussi avons décrit la communauté
de recherche de la robotique développementale, communauté au sein de laquelle nous
inscrivons nos travaux, réunie, entre autre, autour de la psychologie du développement
de l’enfant.
Enfin, nous avons terminé notre état de l’art en passant en revue les différentes
facettes mettant en relief l’importance de la notion de motivation pour la réalisation d’un
agent enrôlé dans un processus à long terme d’apprentissage ouvert et non supervisé.
Cette approche donne à concevoir un système artificiel en perpétuelle recherche de la
satisfaction d’un but générique. De multiples modèles ont émergé implémentant cette
notion selon leurs propres règles et nous les avons décrits, en prenant soin de les lier à
l’étude des théories motivationnelles en psychologie, en perçant au jour les prémisses de
cette mouvance aux origines mêmes des sciences cognitives, ainsi qu’en essayant d’en
exhiber une taxinomie.C h a p i t r e
3
Modélisation formelle d’un
système motivationnel
3.1 Introduction
Après avoir présenté l’état de l’art reposant sur l’importance du corps, du développement
et de la motivation, ce chapitre propose une modélisation formelle générique
d’un système motivationnel dans la continuité des travaux présentés par Baranes [2011].
La formalisation, permettant de décrire de manière à la fois théorique et opérationnelle
ce qui se cache derrière le vocabulaire de système motivationnel, constitue un gage
nécessaire de clarification et de désambiguïsation pour tout discours destiné à être
expérimenté in silico.
Dans cette introduction nous présentons l’angle d’étude et le vocabulaire utilisé pour
décrire ce que doit permettre le modèle, nous nous positionnons par rapport à l’existant,
puis nous donnons une première description en trois points de ce modèle et de son cadre.
Le reste du chapitre nous permet de détailler chacun de ces trois aspects pour clarifier
le fonctionnement et en arriver à la forme algorithmique complète du modèle, présentée
en fin de chapitre.
3.1.1 Des limites naturelles de l’encorporation
L’objectif de ce chapitre est de présenter un modèle d’agent impliqué dans un
processus de recherche et d’apprentissage de coordinations sensorimotrices,
5354
CHAPITRE 3. MODÉLISATION FORMELLE D’UN SYSTÈME
MOTIVATIONNEL
guidé par un mécanisme motivationnel. Le but d’une boucle de contrôle motivationnelle
est d’explorer un espace afin d’y apprendre des coordinations sensorimotrices
viables, et ce de la manière la plus efficace qui soit. La viabilité se définit ici en termes
de potentiel de maîtrise, sous-entendant qu’il sera plus facile de développer certaines
compétences plutôt que d’autres.
Notre principal argument est que cette exploration de l’espace d’apprentissage est
avant tout directement borné par les limites naturelles de l’encorporation de
l’agent. Comme nous l’expliquions dans la section 2.3.4, nous cherchons à désengager le
modélisateur du processus d’apprentissage. Traditionnellement, l’intelligence artificielle
travaille à contraindre les modèles d’agent en leur injectant des biais au niveau de leurs
capacités cognitives, afin de résoudre des sous-cas bien précis. Le modèle étudié ici, s’il
n’exclut pas, par essence en tant que modèle, tous les biais de modélisation, replace le
corps au centre du processus d’apprentissage. L’encorporation y est considérée comme la
clef de voûte du processus développemental. Le modélisateur se soustrait au maximum
pour laisser la place aux contraintes corporelles physiques que représentent les capacités
sensorimotrices d’un agent encorporé. Il s’agit de transférer et de se reposer directement
sur le biais qu’implique l’encorporation, quelle qu’elle soit.
L’enjeu est de proposer un modèle d’apprentissage de coordinations sensorimotrices
tout à fait générique pour ce qui concerne son fonctionnement
général, et qui permette d’exhiber des comportements différents propres à
chaque encorporation considérée. Nous prenons donc soin de dissocier la notion de
boucle motivationnelle générique, constituant la coquille vide, et la notion de paramé-
trage, pouvant modifier grandement le fonctionnement de la boucle et surtout être plus
ou moins adapté à une encorporation précise.
3.1.2 Exploration par babillage sensorimoteur
Une manière d’utiliser les limites naturelles du corps pour apprendre à le contrôler est
d’effectuer une exploration par babillage sensorimoteur [Baranes, 2011]. Deux approches
peuvent être exhibées concernant l’exploration par babillage :
1. La première consiste à générer des commandes motrices pour engranger de l’information
sur les effets de celles-ci sur l’observation des capteurs de l’agent ; elle est
usuellement dénommée Motor-Babbling Exploration (MBE) [Oudeyer et Kaplan,
2004].
2. La seconde consiste à générer plutôt des buts sous forme de configurations sensorielles,
puis de lancer un processus d’atteinte de ce but, en explorant l’espace
d’apprentissage ; elle est appelée Goal-Babbling Exploration (ou GBE) [Baranes3.1. INTRODUCTION 55
et Oudeyer, 2010b; Rolf et al., 2010].
Mais dans la perspective où l’on souhaite réussir à retourner dans certains états,
c’est-à-dire des configurations sensorielles particulières, il faut pouvoir réussir à en
déduire un modèle inverse du contrôle du corps. L’exploration de l’espace moteur pour
faciliter l’apprentissage de coordinations inverses est long et fastidieux pour la courte
vie d’un agent. En pratique, il a été montré qu’au lieu d’explorer l’espace moteur
M, l’exploration de l’espace des buts S conduit à une expérience d’apprentissage plus
efficace [Rolf et al., 2010; Baranes et Oudeyer, 2013]. La raison majeure de son attrait
autant théorique que pratique réside dans le fait que l’agent doit souvent apprendre
des coordinations sensorimotrices dans un espace moteur fortement redondant et de
grandes dimensions pour lequel de multiples commandes motrices peuvent résulter en
une seule conséquence dans l’espace observable. C’est précisément ce qu’illustre la figure
3.1, dans laquelle on peut également observer l’éventuelle dissemblance de volume entre
des sous-espaces moteurs et leur correspondance observable, ainsi qu’une zone hachurée
car inatteignable dans l’espace sensoriel.
M
B
A
S
B
A
Figure 3.1: Illustration de la redondance existant dans la relation surjective entre
l’espace moteur M et l’espace des buts S.
De plus, des évidences sur l’importance du processus d’atteinte dans le développement
et l’apprentissage ont également été démontrées en psychologie développementale
Thelen et al. [1996]; Berthier et Keen [2006]. C’est pourquoi notre choix s’est orienté sur
l’étude des possibilités d’évolution liées au modèle GBE. C’est ce que nous présentons
dès la section suivante.
3.1.3 Formalisation du GBE
Maintenant que nous avons expliqué les éléments nécessaires à sa compréhension
intuitive, nous pouvons fournir une forme la plus simple possible pour formaliser la56
CHAPITRE 3. MODÉLISATION FORMELLE D’UN SYSTÈME
MOTIVATIONNEL
boucle motivationnelle dans le cadre du GBE. C’est l’objet de la figure 3.2 que nous
allons expliquer dans la paragraphe suivant.
C(S) P(M)
A(C, P)
Figure 3.2: Boucle typique du processus de Goal-Babbling Exploration pour l’apprentissage
du contrôle sensorimoteur, c’est-à-dire du modèle inverse liant un espace moteur
M et un espace des buts S. Choisir un but dans l’espace sensoriel S, Parvenir à l’atteindre
en exécutant des actions de l’espace moteur M puis Actualiser les modèles C et
P pour favoriser l’apprentissage futur.
Dans un espace sensori (S) – moteur (M), la première étape consiste à choisir grâce
au modèle C un but dans l’espace d’exploration S. Ensuite il s’agit de trouver un moyen
pour parvenir à ce but grâce à P en utilisant les capacités motrices M de l’agent. Enfin
l’agent va actualiser avec A les modèles de choix et d’atteinte d’un but, respectivement
C et P.
Dans la suite de ce chapitre, nous expliquons la distinction entre les deux types de
données sur lesquelles repose le système : les données brutes et les données structurantes.
Puis nous présentons un à un les trois mécanismes constitutifs du noyau de la boucle
motivationnelle dédiée au GBE : la manière d’apprendre par l’actualisation des connaissances
A(C, P), le choix d’un but C(S), et la façon d’y parvenir P(M). Étant donné
que le modèle est une boucle, il est très délicat de commencer par expliquer un bloc
plutôt que l’autre. Même si nous y avons apporté une attention particulière en mettant
des références vers les sections concernées, par souci de clarification nous proposons
également, dans le tableau 3.1 en page 68, un récapitulatif des notations utilisées.
3.2 S et M : les données
Nous considérons un agent doté de capacités sensorimotrices qui lui sont propres :
un espace sensoriel S et un espace moteur M. Soit s
t un vecteur constitué de l’ensemble
des valeurs des capteurs de l’agent, représentant l’état de cet agent à l’instant t. Soit
mt un vecteur constitué de l’ensemble des valeurs des actionneurs de ce même agent,
représentant la configuration motrice choisie pour être exécutée à l’instant t. À chaque3.2. S ET M : LES DONNÉES 57
instant t correspondent donc à la fois une configuration sensorielle et motrice. C’est
ce que montre la figure 3.3 pour une encorporation simple avec un seul capteur et un
seul actionneur. Étant donné cela, nous présentons dans la suite de cette section les
deux types de données sur lesquelles repose le modèle : les données brutes et les données
structurantes.
m
s
t
0 10 20 30 40 50 -16
-11
-6
-1
4
9
14
s
0 t
15
30
45
0 20 40 60 80 100
m
-15 t
0
15
0 20 40 60 80 100
Figure 3.3: Exemple d’historique expérimental d’un agent. À gauche en représentant
la dimension sensorielle et la dimension motrice avec la dimension temporelle ; à droite
les mêmes mais représentées séparément.
3.2.1 Données brutes
Les données brutes sont très bas-niveau, et concernent le modèle direct du contrôle
sensorimoteur. Cela revient à acquérir de nouveaux exemples de transition dans l’espace
S × M → S. Ces données rassemblent donc l’état courant dans l’espace s
t
, l’action
à effectuer mt
, ainsi que l’état résultant une fois l’action exécutée s
t+1
(cf. figure 3.4).
Une telle transition est notée β
t
, et est définie comme suit :
β
t ≡ s
t m
t
−→ s
t+1 ≡ (s
t
, mt
, st+1
) (3.1)
Par ailleurs, il est important de noter que les actions telles que nous les considérons
tout au long de ce manuscrit, sont toujours des impulsions motrices. Elles représentent
des valeurs relatives à appliquer aux moteurs, et seront notées formellement ∆.58
CHAPITRE 3. MODÉLISATION FORMELLE D’UN SYSTÈME
MOTIVATIONNEL
s
t
s
t+1
mt
Figure 3.4: Explication graphique de la notion de donnée brute : il s’agit simplement
d’une transition atomique dans l’espace d’exploration entre un état s
t
et un autre s
t+1
,
consécutivement à l’exécution d’une action mt
.
3.2.2 Données structurantes
À chaque fin de tour de la boucle présentée en figure 3.2 page 56, l’agent va mémoriser
une nouvelle donnée structurante. Celle-ci rassemble l’état de départ s
t
, le but à atteindre
γ
t
(cf. section 3.4), la liste des actions motrices m?
effectuées à chacune des q tentatives
d’atteinte (cf. section 3.5.1), l’état final dans l’espace s
t+q
, ainsi que κ
t
la compétence
d’atteinte du but considéré (cf. section 3.4.1). La figure 3.5 schématise ce que représente
une donnée structurante, dont la définition formelle est la suivante :
ξ
t = (s
t
, γt
, m?
, st+q
, κt
) | γ
t ∈ R^, m? =
mt
, . . . , mt+q−1
(3.2)
s
t
s
t+q
γ
t
m?
Figure 3.5: Explication graphique de la notion de donnée structurante.
D’autre part, il est à noter que pour des raisons de meilleure structuration, et par
souci d’utilisation de l’ensemble du vécu, après chaque tentative d’atteinte d’un but,
l’agent peut artificiellement ajouter un but dans l’espace d’exploration correspondant
à l’endroit qu’il a réellement atteint, en lui associant une compétence maximale. Cela
permet de délimiter plus aisément les limites d’atteignabilité pour l’encorporation considérée
tout en demeurant crédible, puisque dans tous les cas, l’erreur ou le décalage dans
l’atteinte d’un but relève bel et bien d’une information intrinsèquement vécue.3.3. A(C, P) : ACTUALISER LES MODÈLES 59
3.3 A(C, P) : actualiser les modèles
À tout moment de la vie d’un agent, l’exploration de son espace sensoriel l’amène à
disposer d’une certaine vision du monde déterminée par l’historique de son couplage à
l’environnement. D’un point de vue formel, nous considérons qu’à l’instant 0 de sa vie,
l’agent dispose d’un espace S
0 = {R0}, c’est-à-dire composé d’une et une seule région
représentant l’ensemble de l’espace d’exploration. À un instant t ≥ 1 en revanche, une
structuration potentielle de S
t peut être représentée par un ensemble de sous-régions,
comme illustré en figure 3.6.
S
t = {R0, R1, . . . , Rn} |
[
Ri = S, Ri ∩ Rj = ∅ (3.3)
Cela revient à considérer l’ensemble des sous-régions Ri comme un pavage de l’espace
S original. Par la suite, nous noterons |Ri
| la cardinalité de la région Ri
, c’est-à-dire le
nombre de buts générés dans cet espace topologique.
S
0 R0
s1
s2
S
500 R0
R1
R2
R3
R4 R5
s1
s2
...
Figure 3.6: Illustration de l’état d’un espace d’exploration à deux dimensions pour
t = 0 (à gauche) et t = 500 (à droite), considérant t comme le nombre d’expériences
effectuées (points bleus). Ici S
0 = {R0} et S
500 = {R0, R1, R2, R3, R4, R5}, l’ensemble des
régions couvrant entièrement l’espace d’exploration.
L’agent va considérer comme susceptible d’être découpée la région R^ dans laquelle
il vient d’ajouter une nouvelle donnée structurante. Vont alors être passées en revue
toutes les dimensions de l’espace d’exploration dans les bornes de la région considérée,
comme autant de découpes potentielles.
Pour des raisons de complexité, les découpes considérées sont toujours orthogonales
aux dimensions de l’espace. La finesse de prise en compte des potentielles valeurs de
découpe dans chacune des dimensions est laissée à l’appréciation de l’expérimentateur 1
.
Au final une seule valeur dans une seule dimension sera déterminée comme étant la
1. En effet une variable permet de déterminer la puissance de 2 qui permet de borner le nombre
maximum de découpes à tester dans une région.60
CHAPITRE 3. MODÉLISATION FORMELLE D’UN SYSTÈME
MOTIVATIONNEL
découpe la plus adaptée. Une fois la meilleure découpe déterminée, si la valeur de cette
découpe dépasse un certain seuil, on remplace la région R^ par les deux sous-régions de
part et d’autre de la découpe. Nous ne développons pas ici plus en détails le processus
de restructuration à proprement parler, qui sera l’objet des contributions développées
dans le chapitre 4. Nous y faisons néanmoins référence à la ligne 25 de l’algorithme 1
proposée en fin du présent chapitre.
3.4 C(S) : choisir un but
Nous présentons ici notre instanciation du mécanisme de choix du but C, qui repose
sur une manière particulière d’explorer l’espace en se basant directement sur la notion
de compétence.
3.4.1 Notion de compétence
La notion de compétence associée à une donnée structurante (cf. section 3.2.2) est
essentielle pour que le modèle puisse permettre un développement à long terme du
système. C’est cette compétence qui va permettre de calculer l’intérêt d’une région (cf.
section 3.4.3). Concrètement, le calcul de la compétence prend en compte trois éléments
que sont s
t
, γ
t
et s
t+q
, représentant respectivement l’état de départ, l’état but et l’état
final dans l’espace d’exploration. Elle est définie comme suit :
κ
t = 1 − min
s
t+q − γ
t
s
t − γt
, 1
(3.4)
avec s
t+q−γ
t
l’écart observé entre l’état final et le but à atteindre, et s
t−γ
t
la distance
séparant l’état initial du but. Cette mesure d’incompétence vaut 0 si le but est atteint
et prend des valeurs de plus en plus grandes plus l’on s’éloigne du but recherché. Afin
de transformer cette incompétence en compétence, on borne la valeur d’incompétence
maximale à 1 grâce au min, puis on renverse la valeur en la soustrayant à 1. Cela permet
de pouvoir aisément exprimer une mauvaise compétence par une valeur proche de 0, et
une bonne compétence par une valeur proche de 1.
3.4.2 Notion d’intérêt d’une région
La structuration de l’espace expliquée en section 3.3 est conjointement liée à l’exploration
de celui-ci, c’est-à-dire le processus de génération de buts. Générer un γ
t
signifie sélectionner un point particulier de S en tant que but à atteindre. Pour pouvoir
générer un but, dans un premier temps l’agent doit mettre à jour la valeur d’intérêt de
chacune des régions Ri qui pavent à l’instant t l’espace exploré. L’intérêt ρ(Ri) reflète3.4. C(S) : CHOISIR UN BUT 61
le progrès en apprentissage pour atteindre des buts dans cette région. En pratique le
calcul de l’intérêt prend en considération l’évolution des compétences dans le temps
pour les expériences appartenant à une région (cf. figure 3.7).
c
t
e
Figure 3.7: Illustration du processus de calcul de l’intérêt propre à chaque région.
Cette façon de mesurer l’intérêt peut être vue comme le calcul de la dérivée numérique
des compétences sur ces expériences. L’existence d’un ordre total sur ces expériences,
correspondant à l’instant t de leur expérimentation, rend ce calcul possible.
À partir des e dernières expériences dans la région courante, classées par ordre d’expérimentation,
on calcule ainsi la différence absolue entre la moyenne des compétences
obtenues dans la première moitié (les plus anciennes) ainsi que la moyenne de la seconde
moitié (les plus récentes) :
ρ(Ri) =
Pe/2
j=0
κ(j) − Pe
j=e/2 κ(j)
e
(3.5)
avec κ(j) la valeur de la compétence pour la jème expérience vécue à un moment t et
localisée dans la région Ri
.
3.4.3 Exploration de l’espace basée sur l’intérêt
Dans un second temps, grâce à cette valeur d’intérêt, l’agent peut donc choisir la
région la plus intéressante, selon la métrique choisie, pour y générer un but selon une
loi de probabilité uniforme Pr.
R^ = arg max
Ri ∈ S
(ρ(Ri)) (3.6)
γ
t = Pr(R^), (3.7)62
CHAPITRE 3. MODÉLISATION FORMELLE D’UN SYSTÈME
MOTIVATIONNEL
En pratique, quatre cas sont à distinguer quand on se base sur la dérivée numérique
des compétences pour les expériences d’une région particulière. La figure 3.8 vient
illustrer ces différentes possibilités. Ainsi, dans la région R0, la compétence est élevée
mais stable dans le temps. Dans R1 la compétence est en cours de progression. Dans
la région R2 la compétence est faible mais stabilisée. Enfin R3 a d’abord montré une
progression, puis s’est stabilisée, pour finalement se dégrader.
R0
R1
R2
R3
c
t
c
t
c
t
c
t
Figure 3.8: Illustration de la notion d’intérêt propre à chaque région, calculée comme
la dérivée numérique de la compétence des expériences propres à la région considérée.
En terme d’interprétation, cela nous indique que les régions R0 et R2 sont similaires
car les compétences dans ces deux régions sont toutes deux stables (l’une à des valeurs
élevées, l’autre à de faibles valeurs) ce qui leur confère toutes deux une valeur d’intérêt
peu élevée. La région R3 présente un cas particulier où l’on constate qu’un apprentissage
a eu lieu, puisque cet apprentissage s’est stabilisé, et que les valeurs de compétences
se dégradent dans les dernières expériences effectuées. C’est un gage d’intérêt, pris en
compte par l’utilisation de la valeur absolue pour le calcul de l’intérêt, et peut signifier
qu’il est nécessaire d’aller vérifier si l’on maîtrise toujours une compétence acquise
par le passé. Ce cas de figure peut se présenter typiquement en cas d’environnement
changeant, ou de défaillance motrice de l’agent. Enfin, la région R1 présente un cas3.5. P(M) : PARVENIR À UN BUT 63
typique d’apprentissage en cours de progression, qui démontre un intérêt maximal dans
l’exemple présenté. Dans cet exemple, on a donc ρ(R0) = ρ(R2) ≤ ρ(R3) ≤ ρ(R1).
Il est intéressant de noter que le fait d’avoir choisi de borner la compétence nous
permet d’aider la création de plateaux. En effet, dans les zones inaccessibles où la compétence
restera stable à 0 à terme, cela permet d’exprimer clairement le désintérêt pour
cette région. Si nous n’avions pas fait ce choix, cela engendrerait un continuum de mauvaises
valeurs de compétences qui ne permettent pas d’identification claire de la zone
physiquement atteignable. Il s’agit donc d’un accélérateur pour détecter l’accessibilité
des différentes zones de l’espace exploré.
3.5 P(M) : parvenir à un but
Pour parvenir à atteindre un but généré, l’agent va pouvoir essayer plusieurs actions
motrices pour s’en rapprocher au maximum. Nous expliquons ici la collecte de données
brutes et la manière dont ces données sont utilisées pour apprendre à atteindre un but.
3.5.1 Quota d’atteinte d’un but
Les tentatives pour atteindre γ
t
sont effectuées en exécutant une action particulière
calculée comme la meilleure par rapport aux données dont dispose l’agent à l’instant t.
En pratique, l’agent dispose d’au plus q actions successives pour améliorer sa compé-
tence, comme l’illustre la figure 3.9.
s
t
s
t+3
γ
t
mt
mt+1
mt+2
Figure 3.9: Explication graphique du quota d’atteinte d’un but : l’état de départ est
s
t
, le nombre de tentatives d’atteinte du but q = 3, pour finalement arriver à l’état s
t+3
.
Il existe une seconde possibilité pour terminer la boucle et passer au but suivant.
Nous introduisons comp, qui constitue une valeur d’ajustement de la notion de compétence,
permettant de considérer un but comme étant atteint si la κ
t ≥ 1 − comp. Il
s’agit de pouvoir s’arrêter après une tentative d’atteinte d’un but, sans que celui-ci ne
soit parfaitement atteint.64
CHAPITRE 3. MODÉLISATION FORMELLE D’UN SYSTÈME
MOTIVATIONNEL
3.5.2 Calcul de la configuration motrice
Étudions maintenant la manière dont l’agent calcule la meilleure action à chaque
tentative d’atteinte d’un but. La simplicité technique est ici de mise. Le terme de
meilleure action signifie qu’il faut maximiser les chances d’atteindre au plus près le but
généré γ
t
en partant de la position courante s
t dans S. La stratégie retenue consiste
à générer une action moyenne à partir des données brutes récoltées auparavant. Les
données brutes mémorisées étant, comme déjà expliqué, des transitions entre un état
courant et un état suivant grâce à une action, cela nous permet de fabriquer une
nouvelle action en filtrant les meilleures parmi toutes les transitions dispositions. Ce
filtrage se fait de façon à privilégier les transitions minimisant un critère double, à
savoir que l’état initial et l’état final doivent être respectivement aussi proches que possible
de l’état courant et de l’état but. D’un point de vue formel, voici ce que cela donne :
mt =
mu, ∀ β
u = (s
u
, mu
, su+1
) ∈ kNN(s
t
, γt
)
(3.8)
kNN(s
t
, γt
) = {β
u
}u∈{1..k}
| ∀i, j tel que i < j,
dist(β
i
, st
, γt
) ≤ dist(β
j
, st
, γt
)
(3.9)
dist(β
i
, st
, γt
) =
s
t − s
i
+
γ
t − s
i+1
(3.10)
D’un point de vue plus intuitif, et comme l’illustre la figure 3.10, il s’agit de déterminer
k transitions (piochées dans les données brutes) dont le s
t
est le plus proche possible du
point de départ actuel et dont le s
t+1
est le plus proche possible du but à atteindre. À
partir de ces transitions, on crée une action moyenne à exécuter.
s
t
γ
t
Figure 3.10: Explication graphique du calcul de la meilleure action. Les k plus proches
transitions sont de couleur magenta, avec k = 5. L’action moyenne calculée est repré-
sentée en bleu.3.5. P(M) : PARVENIR À UN BUT 65
3.5.3 Exploration locale
Dans le cas où après les q tentatives réglementaires pour atteindre un but la compé-
tence calculée est mauvaise, une phase d’exploration locale est conduite par l’agent. Par
mauvaise, nous entendons les cas où κ
t ≤ incomp, qui représente une valeur d’incompé-
tence. Par défaut cette valeur vaut 0, mais on peut très bien imaginer être plus exigeant
que cela, et vouloir, par exemple, déclencher l’exploration locale si moins d’un tiers de
la distance au but a été parcourue. L’objectif de cette phase est d’acquérir de nouvelles
données brutes, c’est-à-dire des transitions du type S × M → S (cf. section 3.2.1). Sont
ajoutées à la mémoire p transitions issues d’un tirage uniforme dans l’espace moteur M
et partant toutes du point où l’agent est arrivé en voulant atteindre γ
t
, comme l’illustre
la figure 3.11. La définition formelle de l’exploration locale est la suivante :
∀i ∈ {1..p} (s
t+1 × Pr(M) → s
t+1+i
) (3.11)
s
t
γ
t
s
t+1
mt
Figure 3.11: Explication graphique de la phase d’exploration locale, déclenchée lorsque
la compétence d’atteinte vaut κ
t ≤ incomp. Dans cet exemple, les p = 7 flèches partant
de s
t+1
représentent les nouvelles transitions dans l’espace exploré apprises.66
CHAPITRE 3. MODÉLISATION FORMELLE D’UN SYSTÈME
MOTIVATIONNEL
3.6 Boucle motivationnelle complète
Cette section reprend de manière plus concise, le modèle motivationnel expliqué tout
au long de ce chapitre 3, présente un tableau récapitulatif des notations utilisées et donne
l’algorithme complet du processus développemental d’apprentissage sensorimoteur.
3.6.1 Résumé du fonctionnement global
Le fonctionnement général du modèle d’un agent impliqué dans une boucle de
développement à long terme guidé par une heuristique de motivation du progrès en
apprentissage est illustré par la figure 3.12 présentée page 67. D’un point de vue algorithmique,
ce modèle repose sur deux types de données qui sont indépendantes : d’un
côté les données brutes, de l’autre les données structurantes.
Les données brutes représentent tout ce qui est physiquement expérimenté par
l’agent, et de ce fait sont ancrées au niveau sensorimoteur. Tous ces tuples, qui sont des
exemples de transition d’un état s
t à un autre s
t+1 via une action mt
, nous permettent
de raisonner pour calculer une action à faire quand nous voulons atteindre un certain
état. Ces expériences sont stockées toutes ensemble dans une seule structure de données
de type collection, sans distinction particulière.
Les données structurantes représentent des expériences vécues à un plus haut
niveau, au sens où elles vont guider l’exploration future de l’espace grâce à la notion de
compétence. En effet, ce type d’expérience est un tuple composé d’un état but γ
t
, et
d’une valeur de compétence pour l’atteindre κ
t
. De telles expériences appartiennent à
une unique région Ri qui les englobent, puisqu’un but est un ensemble de coordonnées
dans l’espace sensoriel. Elles sont de plus toutes datées au sens où elles sont porteuses
d’un identifiant unique. Enfin et surtout, elles permettent de calculer une valeur d’intérêt
associée à cette région.
Le système décrit est une boucle générale, composée elle-même de deux sousboucles.
L’acquisition des données se fait de la manière suivante. À un premier niveau
se trouve la génération des buts. À un second niveau commence une boucle pour atteindre
ledit but. À chaque commande motrice choisie puis exécutée, le système enrichit
sa collection de données brutes par la nouvelle transition qu’il vient d’accomplir dans
l’espace. Quand le quota de tentatives est atteint ou que le but a été considéré comme
atteint, le processus reprend au premier niveau. Lorsqu’une tentative d’atteinte d’un but
est considérée comme trop mauvaise, une troisième boucle appelée phase d’exploration
locale est effectuée dans le voisinage de l’endroit où l’on est arrivé dans l’espace, qui
vient enrichir la collection des données brutes et améliorer l’apprentissage.3.6. BOUCLE MOTIVATIONNELLE COMPLÈTE 67
Environnement
Calcul de la
compétence
κ
t
Décision motrice
mt
Exploration
p
Génération
du but
γ
t
Restructuration
de la mémoire
Sélection
de la région
R^
Capteurs Moteurs
κ
t ≥ 1 − comp ou q actions
κ
t ≤ incomp
sinon
Début du cycle
Figure 3.12: Architecture algorithmique générale du modèle motivationnel présenté
dans ce chapitre, avec ses trois boucles imbriquées de génération de buts, d’atteinte de
but et d’exploration locale.68
CHAPITRE 3. MODÉLISATION FORMELLE D’UN SYSTÈME
MOTIVATIONNEL
3.6.2 Récapitulatif des notations
Il nous semble nécessaire, à la fin de ce premier chapitre de rappeler sous forme de
tableau les différentes notations introduites. Ces notations sont d’autant plus importantes
qu’elles continueront à être utilisées dans la suite de ce manuscrit. C’est l’objet
du tableau 3.1.
Notation formelle Correspondance informelle
S Espace sensoriel
M Espace moteur
C Mécanisme permettant de choisir un but dans S
P Mécanisme permettant de parvenir à un but choisi grâce à M
A Mécanisme d’actualisation de C et P
s
t Valeurs des capteurs (senseurs) du système à l’instant t
mt Action motrice effectuée à l’instant t
β
t = (s
t
, mt
, st+1
) Transition atomique dans l’espace exploré (donnée brute)
si
i-ème dimension composant S
mi
i-ème dimensions composant M
S
t Structuration de l’espace d’exploration à l’instant t
|St
| Nombre de régions dans S
t
(cardinalité)
Ri Région pavant l’espace d’exploration
|Ri
| Nombre d’expériences dans la région Ri (cardinalité)
ρ(Ri) Métrique d’intérêt d’une région Ri
e Nombre d’expériences utilisées pour le calcul de l’intérêt
R^ Région maximisant la valeur de la métrique d’intérêt
γ
t But généré dans R^ à l’instant t
κ
t Compétence d’atteinte d’un but à l’instant t
m? =
mt
, . . . , mt+q−1
Ensemble des actions effectuées pour atteindre un but
ξ
t = (s
t
, γt
, m?
, st+q
, κt
) Expérience d’atteinte d’un but (donnée structurante)
κ(j) Compétence de la jème expérience dans une région donnée
q Quota de tentatives d’atteinte d’un but
p Quota d’acquisition de nouvelles transitions locales
comp Valeur d’ajustement pour considérer un but comme atteint
incomp Valeur d’ajustement pour déclencher une exploration locale
k Nombre de plus proches voisins pour le calcul de l’action motrice
Tableau 3.1: Récapitulatif des notations introduites tout au long du chapitre 3.3.6. BOUCLE MOTIVATIONNELLE COMPLÈTE 69
3.6.3 Algorithme complet
À l’issue de cette section, nous pouvons maintenant présenter de manière opérationnelle
le fonctionnement d’un agent motivé (cf. algorithme 1). Pour en faciliter la
lecture, nous avons commenté les lignes importantes, et mis en avant les trois boucles
constitutives.
Algorithme 1: Boucles d’un agent intrinsèquement motivé pour l’apprentissage
de coordinations sensorimotrices.
// Boucle générale
1 répéter
2 s
t ← s
0 // Initialisation de l’état à la position de repos
3 R^ ← arg maxRi ∈ S
(ρ(Ri)) // Sélection de la région la plus intéressante
4 γ
t ← Pr(R^) // Tirage uniforme d’un but dans la région sélectionnée
5 m? ← ∅ // Initialisation des actions effectuées
// Boucle des tentatives d’atteintes
6 répéter
7 mi ← mu, ∀ β
u = (s
u, mu, su+1
) ∈ kNN(s
t
, γt
) // Calcul de l’action
8 m? ← m? ∪ mi
9 t ← t + 1
10 s
t ← exécuter(mi
) // Mise en œuvre de l’action choisie
11 κ
t ← κ(s
0
, γt
, st
) // Calcul de la compétence
12 β ← β ∪ (s
t−1
, mi
, st
) // Mise en mémoire de la transition
13 si κ
t ≤ incomp alors // Si la compétence est trop mauvaise
14 ξRst ← ξRst ∪ (s
t−1
, st
,
mi
, st
, 1) // Mise en mémoire du but artificiel
// Boucle d’exploration locale
15 répéter
16 mj ← Pr(M) // Tirage uniforme dans l’espace moteur
17 t ← t + 1
18 s
t ← exécuter(mj
) // Mise en œuvre de l’action choisie
19 β ← β ∪ (s
t−1
, mj
, st
) // Mise en mémoire de la nouvelle transition
20 s
t ← s
t−1 // On revient à la position précédente
21 jusqu’à p essais effectués
22 fin
23 jusqu’à κ
t ≥ 1 − comp ou |m?
| > q
24 ξR^ ← ξR^ ∪ (s
0
, γt
, m?
, st
, κt
) // Mise en mémoire de la donnée structurante
25 S
t = restructuration(S
t−1
, R^)
26 jusqu’à ad vitam aeternam70
CHAPITRE 3. MODÉLISATION FORMELLE D’UN SYSTÈME
MOTIVATIONNEL
3.6.4 Application du modèle
Dans les sections précédentes, nous avons présenté le modèle théorique motivationnel.
Nous pensons nécessaire d’instancier précisément les différentes notations qui permettent
de décrire ce modèle au travers d’un exemple d’encorporation simple.
Robot mobile mono-directionnel
Nous avons choisi de présenter ici un agent mobile le plus simple possible afin de
bien comprendre l’application du modèle dans un cadre expérimental maîtrisé. Le robot
considéré ici dispose donc d’une dimension sensorielle appelée telem et d’une dimension
motrice appelée move. Il évolue sur un axe mono-directionnel bordé par des murs devant
et derrière lui.
0 60
Figure 3.13: Schéma du dispositif de robot mobile mono-directionnel. La ligne en pointillée
représente ce que perçoit le capteur telem. Les blocs hachurés représentent des
zones qui empêchent la progression du robot.
Les valeurs données par telem correspondent à la distance au mur devant l’agent
et sont bornées entre [0; 60]. Les valeurs relatives aux impulsions motrices que l’agent
peut envoyer à move vont le faire avancer ou reculer selon une valeur dans l’intervalle
[−10; 10]. L’agent doit idéalement apprendre la relation qui lie les variables telem et
move, définie comme telle :
telemt+1 = telemt + movet
(3.12)
L’agent va donc pouvoir générer des buts comme étant une distance particulière du
mur donnée par la valeur de telem, donc dans l’intervalle [0; 60]. Mais comme le montre
la figure 3.13, à cause des murs bas, l’agent ne pourra pas accéder à toute les valeurs
de telem. La zone réellement expérimentable pour lui sera dans l’intervalle [10; 50]. Au
départ, en ce qui concerne l’espace d’exploration, on a donc :
S
0 = {R0} , où R0 = [0; 60] pour le telem
Illustrations après 1000 actions
Pour comprendre ce qu’il se passe pendant le déroulement de 1000 pas de temps,
c’est-à-dire 1000 actions motrices exécutées par l’agent, nous proposons quelques illustrations.
Celles-ci sont directement issues des visualisations proposées par la plateforme3.6. BOUCLE MOTIVATIONNELLE COMPLÈTE 71
FIMO que nous détaillons dans le chapitre 5, et que par conséquent nous n’expliquons
pas dans cette section. Le paramétrage utilisé ici pour les principales variables est le
suivant : q = 6, p = 5, k = 3, telem0 = 15.
Tout d’abord pour reprendre l’ordre de présentation du modèle, la figure 3.14 montre
l’évolution des valeurs prises par le capteur telem qui mesure la distance au mur, ainsi
que les valeurs envoyées au moteur move qui vont faire bouger l’agent sur son axe. On
observe bien comme prévu, que les valeurs prises par telem sont bornées dans l’intervalle
[10; 50]. On observe par ailleurs une densification de points à la valeur 15 dans le temps,
qui montre que l’agent progresse puisqu’il utilise moins de tentatives pour atteindre
ses buts et revient plus rapidement dans la position de repos telem0 = 15. Certaines
séquences montrent qu’il se heurte aux murs en 10 et en 50. Les valeurs envoyées au
moteur move sont elles uniformément réparties dans l’espace, ce qui signifie qu’il utilise
bien toutes les possibilités pour atteindre au mieux les objectifs qu’il se fixe.
Figure 3.14: Évolution des valeurs prises par le capteur telem et celles envoyées au
moteur move au cours de la vie de l’agent pour 1000 pas de temps.
Comme le montre la figure 3.15, à la fin de cette première étape, on voit que l’espace
a été structuré en plusieurs régions par l’agent :
S
1000 = {R0, R1, R2, R3, R4}
avec R0 = [0; 27.5], R1 = [28; 28.5], R2 = [29; 29], R3 = [29.5; 40.5]etR4 = [41; 60.0
dont les valeurs d’intérêt associées sont 0.0, 0.02, 0.08, 0.02, et 0.01.72
CHAPITRE 3. MODÉLISATION FORMELLE D’UN SYSTÈME
MOTIVATIONNEL
Figure 3.15: Structuration de l’espace d’exploration en 5 sous-régions sur la seule
dimension sensorielle telem. Les croix représentent les buts générés par l’agent. Plus la
couleur est sombre plus la région a été créée récemment.
Pour compléter l’illustration de l’application du modèle théorique sur ce robot très
simple, nous souhaitons montrer comment les buts sont générés par l’agent lui-même au
cours du temps. La figure 3.16 présente la manière dont les buts ont été générés. On peut
observer un découpage temporel permettant d’isoler quatre temps afin de visualiser où
ont été générés les 80 buts de la simulation. On constate que l’agent cherche au départ à
atteindre uniformément l’espace complet mais qu’au fil du temps, et grâce au découpage
et à l’intérêt, il génère bien des buts dans la zone atteignable.
Figure 3.16: Évolution de la localisation des 80 buts générés au cours du temps, dé-
coupage en quatre fenêtres de temps de longueur équivalentes.
Enfin, la figure 3.17 montre la courbe d’évolution de compétence en fonction du
temps, et montre que l’agent apprend correctement à maîtriser ses capacités motrices.3.7. CONCLUSION 73
Figure 3.17: Évolution de la compétence dans le temps.
3.7 Conclusion
Nous avons dans ce chapitre défini formellement notre instanciation d’un système
motivationnel de base. Pour cela nous avons commencé par donner une intuition du
fonctionnement global de l’architecture dont nous avons détaillé chaque bloc C(S), P(M)
et A(C, P). Le premier regroupe la sélection d’une région pour générer un nouveau but.
Le second englobe tout ce qui concerne le processus d’atteinte de ce but généré. Enfin
le troisième consiste à mettre à jour les modèles d’apprentissage et de structuration de
l’espace exploré pour guider l’agent au mieux.
Nous avons également pris soin d’expliquer les métriques et autres paramètres du
modèle pour finalement arriver à présenter une forme algorithmique complète formelle
et commentée. Pour clarifier ces explications théoriques, nous avons appliqué ce modèle
théorique sur un exemple d’encorporation très simple équipé d’une seule dimension
sensorielle et d’une seule dimension motrice.
D’autre part, nous devons conclure de ce chapitre que le modèle présenté est extrê-
mement paramétré. C’est-à-dire que par rapport à l’architecture globale présentée au
tout début du chapitre, nous avons au fur et à mesure fait des choix bien particuliers
de métrique, de valeurs de paramètres, voire à un niveau plus haut de méthodes pour
structurer l’espace. L’objectif de cette thèse est de proposer des alternatives sur ces
points précis et d’en permettre la comparaison sur un indicateur comme l’accélération
de l’apprentissage. C’est précisément ce à quoi nous nous attelons dans le chapitre suivant
en proposant d’autres formes de structuration et d’exploration de l’espace pour le
développement de l’apprentissage sensorimoteur.C h a p i t r e
4
Modélisation d’autres formes
de structuration
4.1 Introduction
Dans le chapitre précédent nous avons posé les bases formelles d’un système motivationnel
comme point de départ à nos travaux. Dans ce chapitre-ci nous défendons
l’hypothèse que certaines parties de ce modèle sont des choix qui doivent être étudiés.
En particulier, nous nous intéressons ici à la notion de structuration de l’espace, et donc
implicitement à la manière dont vont être générés les buts.
D’un point de vue conceptuel, nous ne remettons pas en cause le découpage en
sous-régions en ce qu’il permet de classifier les différentes zones de l’espace en leur attribuant
une valeur d’intérêt. En revanche, il est important de souligner le fait qu’à cet
instant t où la décision est prise de découper récursivement une région, la connaissance
est limitée à ce qui a été vécu jusque-là. Il y a donc un ratio à prendre en compte pour
optimiser au mieux le gain futur en apprentissage.
Ainsi dans ce chapitre, nous nous attachons à mettre en relief le fait qu’un point
d’articulation essentiel pour un système motivationnel se matérialise dans la notion de
(re)structuration. Il s’agit d’étudier plus en détail d’autres formes que peut prendre
ce mécanisme. Nous présentons dans cette partie ces limitations qui nous ont amené
à étudier puis introduire la nécessité d’un assouplissement dans l’accomplissement du
processus de structuration. Nous explicitons différentes techniques qui nous ont semblé
7576 CHAPITRE 4. MODÉLISATION D’AUTRES FORMES DE STRUCTURATION
progressivement apporter davantage de pertinence à l’amélioration du modèle de base.
Certaines d’entre elles agissent au niveau du paramétrage de la boucle motivationnelle
pour remettre en cause des découpes effectuées auparavant sans toucher au mécanisme
de découpe en lui-même (cf. section 4.2), quand d’autres s’appliquent à introduire de
nouveaux mécanismes pour donner davantage de souplesse à la structuration par régions
(cf. section 4.3). Nous proposons ensuite de remettre en cause ce mécanisme lui-même, en
considérant un niveau décisionnel plus global (cf. section 4.4). Enfin, nous remettons en
question l’espace tel qu’il est fourni à l’agent, en proposant de trouver d’autres manières
de représenter l’espace d’exploration le considérant comme crucial (cf. section 4.5).
4.2 D’autres paramétrages
Dans le modèle de base présenté au chapitre précédent, après avoir expérimenté un
nouveau but, l’agent va chercher une nouvelle découpe si et seulement si un nombre
suffisants de buts ont déjà été expérimentés dans la région considérée. Néanmoins cette
condition n’est pas complètement en accord avec une vision développementale de réorganisation
de la mémoire que nous pourrions envisager puisqu’elle revient finalement à
faire deux hypothèses :
1. La première est qu’au-delà d’un certain nombre d’expériences effectuées dans une
région, la cohérence ne peut plus être maintenue de manière efficace ;
2. La seconde est que découper ne pourra qu’améliorer cette cohérence sans l’altérer
si elle est déjà optimale.
Si une région est nécessairement découpée dès qu’elle contient un certain nombre
d’expériences, cela signifie explicitement de ne pas prendre en compte l’intérêt ou non
de découper. C’est problématique dans le cas où une région est suffisamment petite
pour maximiser la cohérence des buts qui y sont contenus. L’exemple fourni dans le
chapitre précédent sur l’image 3.15, page 72, en est un exemple parfait puisque la région
r2 regroupe les valeurs de telem dans l’intervalle [29; 29].
Puisque ce mécanisme implique régulièrement et automatiquement d’effectuer un
découpage, il ne consiste pas à trouver la meilleure découpe possible mais plutôt la
moins mauvaise puisqu’on y est obligé. Une telle condition statique de découpage semble
limitée, puisque peu importent l’expérience et la connaissance accumulée au cours du
temps, l’agent est explicitement doté d’une tendance au découpage récursif, potentiellement
inutile, qui ne peut qu’augmenter corrélativement au nombre d’expériences
vécues. Pour notre part, nous faisons l’hypothèse qu’il peut être intéressant de prendre
en considération l’évolution globale des connaissances pour améliorer globalement la4.2. D’AUTRES PARAMÉTRAGES 77
structuration de l’espace exploré.
Dans cette vision, le problème principal devient de savoir comment faire afin d’éviter
ce que nous pourrions appeler un phénomène de sur-découpage. Trois possibilités ont
ainsi été étudiées et sont présentées dans la suite de cette section. La première propose
une nouvelle définition de la métrique d’intérêt d’une région. La seconde définit une
condition dynamique afin d’y décharger la responsabilité de la décision de découpage.
La troisième explique une métrique de compétence contextuelle. Ces propositions ont
fait l’objet d’une publication [Hervouet et Bourreau, 2012].
4.2.1 Nouvelle métrique d’intérêt
La métrique ρi présentée au chapitre précédent qualifie l’intérêt dynamiquement calculé
pour une certaine région R. Une première évolution du modèle initial s’applique
à lier cette métrique davantage au processus développemental. Elle apporte deux diffé-
rences majeures en subdivisant la métrique ρ en deux : le progrès en compétence et la
diversification.
ρ(Ri) = progrès(Ri) + c × diversification(Ri) (4.1)
avec c une constante permettant d’ajuster le poids entre ces deux composantes.
Progrès
Premièrement nous proposons d’utiliser une version temporelle de la dérivée. Nous
proposons d’inclure cette notion de temps directement dans le calcul de l’intérêt, en
prenant en compte le moment particulier où l’expérience a eu lieu. Cela permet de
réduire assez fortement la valeur calculée en lissant la courbe d’intérêt dès lors que les
expériences sont trop peu fréquentes.
progrès(Ri) =
P|Ri|/2
j=0
κ(j) − Pe
j=|Ri|/2 κ(j)
P|Ri|/2
j=0
t(j) − Pe
j=|Ri|/2 t(j)
(4.2)
avec κ(j) et t(j) respectivement la compétence et l’estampille de la jième expérience dans
une région donnée.
Diversification
D’autre part, nous avons également choisi d’incorporer une métrique de diversification
basée UCT (Upper Confidence Tree) [Kocsis et Szepesvári, 2006]. La diversification
vient empêcher le système de sur-intensifier uniquement quelques zones. Elle permet78 CHAPITRE 4. MODÉLISATION D’AUTRES FORMES DE STRUCTURATION
également de revenir tester les compétences dans des zones déjà considérées comme
acquises 1
.
Pour ce faire, notre mécanisme de diversification prend en compte, de manière incrémentale,
le nombre d’expériences conduites dans la région courante relativement au
nombre total d’expériences. Il prend en compte un ratio entre l’expérience locale à une
région comparativement à l’expérience globale au niveau du système tout entier. Cela
signifie que le mécanisme permet de réveiller l’intérêt d’une région.
diversification(Ri) =
vuut
ln P|S|
j=1
|Rj
|
|Ri
|
(4.3)
avec |Ri
| la cardinalité de la région Ri
, c’est-à-dire le nombre d’expériences appartenant
à la région.
4.2.2 Condition de découpage à seuil
Nous présentons ici une nouvelle manière de décider quand faire une découpe. La
figure 4.1 rappelle que découper revient à étudier tous les couples (r1, r2) dans chacune
des dimensions de l’espace d’exploration. Comme déjà expliqué, le nombre de couples
à étudier dépend directement de la finesse du découpage choisi, correspondant à un
nombre maximum de découpes par dimension.
r1 r2
r1 r2
r1 r2
r1
r2
r1
r2
r1
r2
Figure 4.1: Ensemble des 6 couples de sous-régions dans les deux dimensions de l’espace
d’exploration.
1. Ce cas de figure, comme déjà expliqué plus tôt, est particulièrement intéressant dans le cas d’un
environnement réellement changeant et/ou non déterministe.4.2. D’AUTRES PARAMÉTRAGES 79
La solution que nous détaillons ici vient pallier l’aspect statique de la condition du
modèle de base. Mais pour la rendre dynamique, cela nécessite de se poser une question
essentielle : quels sont les paramètres sur lesquels cette décision dynamique pourrait se
baser ? La notion de compétence étant au cœur du processus de structuration, il est
certain que le progrès en compétence des expériences au sein d’une région se doit d’être
pris en compte. Formellement, nous définissons une métrique de découpage µ telle que :
µ(r1, r2, Ri) = |progrès(r1) − progrès(r2)| (4.4)
Cela revient à maximiser la valeur absolue de la différence entre le progrès en apprentissage
dans les deux potentielles sous-régions considérées r1 et r2. De plus, nous
introduisons deux nouveaux seuils. Le premier, η, porte sur le nombre d’expériences
dans la région considérée. Le second, σ, sert à déterminer si la valeur calculée par µ est
suffisant pour valider la découpe. Ce qui nous permet d’exprimer S
t+1
en fonction de S
t
comme suit :
S
t+1 =
S
t\{R} ^ ∪ {r1, r2} si |R| ^ ≥ η et µ(r1, r2, R^) ≥ σ
S
t
sinon
(4.5)
r1, r2 = arg max
ri,rj ∈ R^
(µ(ri
, rj
, R^)) (4.6)
Il y a donc trois niveaux proposés pour le nouveau mécanisme de découpe : une nouvelle
métrique µ qui permet de calculer un ratio, un seuil σ que ce ratio doit dépasser pour
que la découpe soit valide, et la condition de base sur le nombre minimal d’expériences
η présentes dans la région.
4.2.3 Métrique de compétence contextuelle
Nous proposons également une nouvelle métrique de calcul de la compétence κ. Jusqu’à
présent, celle-ci était calculée de manière statique, tout au long de l’apprentissage,
comme le ratio entre la distance à parcourir et la distance parcourue. La métrique que
nous proposons ici se veut contextuelle, afin que la métrique devienne, de manière progressive
avec l’expérience, de plus en plus sévère sur ce que l’on attend en terme de
proximité d’atteinte de l’objectif.
κ
t = 1 − min
s
t+q − γ
t
δ
, 1
(4.7)80 CHAPITRE 4. MODÉLISATION D’AUTRES FORMES DE STRUCTURATION
δ =
X
γ
t − s
t+q
|R| ^
∀ ξ
t = (s
t
, γt
, m?
, st+q
, κt
) ∈ R^ (4.8)
avec κ
t
la compétence vue comme le même ratio que précédemment, mais dont le dénominateur
n’est plus la distance parcourue dans cette expérimentation, mais δ, la distance
moyenne à l’objectif pour toutes les expériences de la région. Dans un objectif développemental
il s’agit d’une solution élégante pour signifier que, meilleure est la compétence
moyenne dans une région, plus la valeur de la compétence va être diminuée.
4.3 D’autres mécanismes
Après avoir présenté des alternatives en terme de paramétrage, nous présentons dans
cette section deux nouveaux mécanismes venant remettre en question le processus de
découpe en régions. Il s’agit de rendre ce processus plus flexible. Le premier mécanisme
consiste à ajuster dynamiquement des découpes, dans le but d’arranger au mieux une
découpe effectuée précédemment. Le second mécanisme permet quant à lui de fusionner
des régions qui ne présentent plus un intérêt suffisant à demeurer divisées, dans le
but de pouvoir se recentrer sur d’autres zones plus importantes à intensifier en terme
d’apprentissage à ce stade du développement.
4.3.1 Ajustement dynamique des découpes
Proposer d’autres formes de structurations locales passe également par remettre
en question les découpes effectuées tout au long de l’acquisition de nouvelles expé-
riences par l’agent. C’est pourquoi nous proposons dans cette section une méthode
permettant de pouvoir revenir sur des décisions prises par le passé en ce qui concerne
les découpes. Comme nous l’avons déjà expliqué, l’agent peut prendre la décision de
découper une région de manière judicieuse par rapport aux données collectées jusquelà,
mais qui par la suite, s’avère moins optimisée au regard des données collectées depuis.
La figure 4.2 donne l’exemple d’une région au sein de laquelle les données accumulées
sont déséquilibrées par rapport à la zone réellement accessible qu’il nous intéresse
de cerner. Dans ce cas, une découpe à un instant précoce du processus risque d’être
sous-optimale, quand une découpe effectuée plus tard, et prenant en compte davantage
d’informations, ne l’aurait pas placée au même endroit.
Néanmoins, il ne faut pas cacher le fait que l’exemple présenté en figure 4.2 reste un
exemple très simple. Il est très facile d’exhiber des exemples algorithmiquement bien
plus compliqués à traiter. Comme le montre la figure 4.3, certains cas engendreraient4.3. D’AUTRES MÉCANISMES 81
t = 20 t = 200
...
Figure 4.2: Illustration de l’intérêt du mécanisme d’ajustement local des découpes.
À gauche la découpe effectuée sur un échantillon trop faible menant à une première
découpe ; à droite la découpe qui rééquilibre les régions et permet de mieux délimiter
la zone accessible. Les points bleus et rouges représentent des buts atteignables et non
atteignables.
trop de lourdeurs au niveau de la gestion des régions, ce qui nous a poussé à limiter
les possibilités à seulement certains types d’ajustements. Concrètement la principale
interdiction de restructuration par ajustement local réside au niveau de deux régions
qui ne partagent pas la totalité du domaine de leur frontière commune. La figure 4.3
illustre les possibilités d’ajustement pour un exemple de découpage en cinq régions à
un instant particulier. Les découpes bleues représentent les potentiels ajustements.
Figure 4.3: Illustration d’un découpage en cinq régions avec en rouge les frontières
non-ajustables et en bleues les frontières ajustables.
Ainsi l’état de l’espace S
t+1 peut être déterminé en fonction de l’état de l’espace S
t
, par
ajustement local de la région R^ où l’on vient d’ajouter une nouvelle expérience, de la
manière suivante :
S
t+1 = S
t
\{R^, Rj} ∪ {r1, r2} (4.9)
r1, r2 =
µ( ^r1, r^2, R^ ∪ Rj)
µ(R^, Rj
, R^ ∪ Rj)
≥ α (4.10)82 CHAPITRE 4. MODÉLISATION D’AUTRES FORMES DE STRUCTURATION
r^1, r^2 = arg max
ri,rj ∈ R^∪Rj
(µ(ri
, rj
, R^ ∪ Rj)) ∀Rj ∈ adj(Rj) (4.11)
où α un seuil à dépasser pour le ratio entre la valeur de µ pour la découpe courante et
la meilleure découpe trouvée afin d’entériner l’ajustement, et adj(Rj) la liste des régions
adjacentes à la région Rj
.
Cette liste d’adjacence est maintenue incrémentalement au fur et à mesure des
découpes. Elle a nécessité l’élaboration d’une nouvelle façon de représenter les régions.
Plutôt que de connaître uniquement une valeur de découpe, les régions sont définies par
trois aspects : des bornes pour chacune de ses dimensions, une collection d’expériences
associées appartenant topologiquement à cette zone, et enfin d’une liste de régions
sœurs. Les régions sœurs d’une région donnée représentent l’ensemble des régions avec
lesquelles elle partage un sous-ensemble de valeurs pour au moins une dimension. La
figure 4.4 illustre concrètement la nouvelle représentation des régions sous forme de
graphe. Il est important de noter que, comme on peut l’observer sur la figure, l’adjacence
est une notion plus forte que le graphes des régions sœurs, dont il constitue
un sous-graphe partiel, c’est-à-dire contenant le même ensemble de sommets, mais un
sous-ensemble des arêtes le caractérisant.
C1
B2
D1 D2
C1
D1 B2
D2
C1
D1 B2
D2
Figure 4.4: Illustrations, pour un même découpage d’un espace d’exploration à deux
dimensions, de la structuration en quatre sous-régions (à gauche), du graphe sororal (au
centre) et du graphe d’adjacence (à droite).
4.3.2 Fusion dynamique de régions
La fusion de régions est une autre proposition pour organiser une restructuration
plus complète et plus complexe. L’idée est la même que pour l’ajustement de la frontière
entre deux régions, sauf qu’elle prend en considération l’intérêt de supprimer la découpe
plutôt que de l’ajuster. Combiner un mécanisme de découpe avec un mécanisme de
fusion représente d’un point de vue conceptuel une flexibilité beaucoup plus grande
que ce qui a pu être proposé jusqu’à présent. Cela fait écho à une certaine forme de4.4. UNE AUTRE STRUCTURATION PAR PARTITIONNEMENT 83
plasticité structurale, où des régions vont se créer, dont certaines vont fusionner par
manque d’intérêt. Il s’agit d’un phénomène sans stabilisation a priori.
D’un point de vue pratique, la solution proposée repose sur une vision symétrique de
la notion de découpe définie plus tôt (cf. section 4.2.2). Une fois encore, nous pouvons
définir la structuration de S
t+1
en fonction de S
t
:
S
t+1 =
S
t\{R^, Rj} ∪ {R^ ∪ Rj} si µ(R^, Rj
, R^ ∪ Rj) ≥ λ
S
t
sinon
(4.12)
Rj = arg max
Rj∈adj(R^)
(µ
0
(R^, Ri)) (4.13)
Concrètement, la solution présentée cherche à fusionner la dernière région expérimentée
R^ avec une de ses régions adjacentes Rj en une seule nouvelle région. Cette fusion est
soumise à l’estimation du progrès 2 dans la région fusionnée, qui doit être plus élevé
que la différence de la mesure du progrès dans les deux régions existantes considérées.
De plus cette valeur calculée à partir de la métrique µ doit dépasser un certain seuil
λ pour effectivement valider la fusion. Ce seuil constitue en quelque sorte le miroir du
seuil σ introduit pour les découpes, puisqu’il se base sur la même métrique µ, mais cette
fois-ci dans le but de supprimer une découpe en fusionnant deux régions qui séparées ne
montreraient plus autant d’intérêt qu’au moment de leur dissociation.
4.4 Une autre structuration par partitionnement
Dans les deux premières alternatives de structuration précédemment envisagées
(ajustement et fusion), il s’agit essentiellement de remettre en cause une précédente
découpe ayant permis d’isoler une région intéressante d’une région moins intéressante.
Cela consiste surtout à adapter ou corriger d’un point de vue purement local. Remettre
en cause ces découpes constitue une étape, mais conséquemment à notre étude d’autres
formes de structurations envisageables, nous considérons ici un mécanisme plus global.
Pour ce faire, nous avons choisi d’appliquer une technique de partitionnement de
données.
4.4.1 Méthode de partitionnement
Le partitionnement (on parle aussi de clustering analysis) désigne généralement
une tâche particulière consistant à regrouper un ensemble d’objets de telle manière
2. Ici nous considérons uniquement le progrès dans le temps associé à une région et non la totalité
de la métrique d’intérêt. Cela provient du fait que la seule chose qui nous intéresse dans le cas de la
fusion est de baser le besoin en fonction de l’accélération de la dynamique d’apprentissage en cours.84 CHAPITRE 4. MODÉLISATION D’AUTRES FORMES DE STRUCTURATION
que les objets appartenant à une même grappe soient davantage similaires entre eux
par rapport à ceux appartenant à d’autres grappes. En d’autres termes, il s’agit d’une
méthode statistique d’analyse des données qui vise à diviser un ensemble de données
en différents paquets homogènes, en ce sens que les données de chaque sous-ensemble
partagent des caractéristiques communes selon des critères à définir. Cette tâche peut
en pratique être menée à bien grâce à de nombreux algorithmes proposant chacun une
vision particulière de la notion de similarité, de celle de grappe (ou cluster), ou encore
de la manière permettant de les trouver.
Selon cette description, une méthode de partitionnement semble tout à fait correspondre
à ce que l’on cherche à faire du point de vue d’un système motivationnel tel que
peut l’être notre agent : isoler des expériences cohérentes. Comme nous le précisions
au chapitre 3, la cohérence (ou homogénéité) de ces expériences réside dans l’approche
proposée sur le progrès en maîtrise d’atteinte d’un objectif. Cela constitue une possibilité
tout à fait redéfinissable pour une utilisation dans un algorithme de partitionnement.
4.4.2 Algorithme K-Means
Nous avons réutilisé la méthode des K-Means, que nous décrivons ci-après pour implémenter
ce mécanisme. Étant donné un ensemble d’observations X = {x1, x2, ..., xn},
où chaque observation est un vecteur de dimension d, l’algorithme k-means de partitionnement
vise à partitionner les n observations dans g ensembles E = {E1, E2, ..., Ek}
(k ≤ n) afin de minimiser la distance entre les points à l’intérieur de chaque partition :
arg min
E
X
k
i=1
X
xj∈Ei
xj − µi
2
(4.14)
où µi est la moyenne des points dans Ei
.
De nombreux travaux ont été effectués pour étendre la version originale de Steinhaus
[1956] comme autant d’adaptations proposées au fil des années. Par exemple chez
MacQueen [1967] les barycentres sont recalculés à chaque ajout d’individus, ce qui rend
l’algorithme plus efficace mais également plus sensible à l’ordre de présentation des
exemples ; Diday [1971] propose d’étendre le concept de barycentre non plus à un unique
point, mais à un noyau de points représentatifs de la classe dans le but de se protéger
de l’influence des valeurs extrêmes dans le calcul du barycentre d’une classe. L’algorithme
standard utilisé aujourd’hui provient de Lloyd [1982]. Globalement, on peut
synthétiser le fonctionnement des K-Means comme nous l’avons fait dans l’algorithme 2.
En pratique, d’autres algorithmes de type partitionnement auraient pu être utilisés.
Nous pensons notamment à DBSCAN [Ester et al., 1996] ou encore les cartes auto-4.4. UNE AUTRE STRUCTURATION PAR PARTITIONNEMENT 85
Algorithme 2: Fonctionnement de l’algorithme de partitionnement K-Means.
Entrées : X vecteurs de n données à d dimensions ;
g nombre de grappes ;
1 Choisir g points {p1, ..., pk} dans l’espace à d dimensions ;
2 répéter
3 Assigner chaque xj à l’ensemble Ei
le plus proche (diagramme de Voronoï)
4 E
(t)
i =
xj
:
xj − p
(t)
i
≤
xj − p
(t)
i
∗
∀i
∗ = 1, . . . , k
5 Mettre à jour la moyenne de chaque grappe
6 p
(t+1)
i =
1
|E
(t)
i
|
P
xj∈E
(t)
i
xj
7 jusqu’à convergence
8 Retourner E
adaptatives [Kohonen, 2001] et ses multiples dérivées. Le choix de se restreindre à l’étude
de K-Means a été fait pour des raisons topologiques. En effet, dans notre modélisation,
une région consiste, a minima, en un ensemble d’expériences, mais il nous fallait garder
une vision topologique puisque nous avons besoin de générer de nouveaux buts dans cet
espace. Pour cette raison, il est nécessaire de conserver une correspondance forte avec
l’espace.
4.4.3 Structuration à base de K-Means
À partir de cet algorithme, nous pouvons appliquer son fonctionnement afin d’obtenir
un processus de structuration globale de l’espace d’exploration à partir des expériences
vécues. Dans cette manière de faire, les régions seront calquées sur une partition de
l’espace d’exploration basée sur la notion de diagrammes de Voronoï. Ces derniers sont
une façon élégante de diviser l’espace en un certain nombre de régions. Celles-ci ne
sont plus définies par des bornes dans chaque dimension, mais par un point de l’espace
appelé graine, qui en détermine le centre de masse. Une région contient tous les points /
expériences qui sont plus proches de la graine la représentant que de toute autre graine
(cf. figure 4.5).
L’idée consiste à remplacer entièrement le processus de structuration par découpage
dimensionnel orthogonal aux axes au niveau global. Cela signifie qu’au lieu de
découper localement et récursivement une région, la réflexion va se faire
à chaque fois à un niveau plus élevé pour prendre en compte l’état global
de l’espace d’exploration. Cela permet de reconsidérer en permanence la totalité
de l’expérience acquise et de s’affranchir ainsi des contraintes directement liées aux86 CHAPITRE 4. MODÉLISATION D’AUTRES FORMES DE STRUCTURATION
Figure 4.5: Illustration de l’utilisation de la méthode de partitionnement K-Means
comme mécanisme de calcul de sous-régions. Les frontières des régions tracées en pointillés
représentent la tesselation de Voronoï associée aux graines de chacune des régions.
découpages précoces intempestifs.
Il est à noter que l’on conserve tout de même ici la notion de région comme étant
avant tout une partie de l’espace d’exploration contenant des expériences, et non pas
uniquement ces dernières. Cela provient du fait que nous devons pouvoir générer de
nouveaux buts à atteindre dans une région attractive, et si une région était uniquement
constituées d’expériences, nous ne pourrions de toutes façons pas en générer de nouvelles
sans qu’elles ne soient localisées. Nous avons fait le choix de générer de nouveaux buts
en utilisant une loi de probabilité normale centrée sur la graine.
Par ailleurs, pour éviter d’effectuer trop souvent le calcul des grappes associées aux
régions, nous mettons en place un seuil du nombre d’expériences nécessaires à produire
avant de pouvoir tenter une restructuration globale. Par ailleurs, nous introduisons un
mécanisme permettant de faire varier le nombre de régions. En effet, puisque l’algorithme
K-Means prend explicitement en paramètre le nombre de graines, et donc pour nous de
régions, une version simple serait trop statique. C’est pourquoi l’algorithme propose de
comparer trois partitionnements possibles parallèlement à chaque fois :
1. celui à g = |S| grappes,
2. celui à g = |S| + 1 grappes,
3. celui à g = |S| − 1.
avec |S| le nombre de régions dans l’espace d’exploration S. Cela veut simplement
dire que l’on cherche à restructurer (1) soit avec le même nombre de grappes qu’à l’état
courant, (2) soit en ajoutant ou (3) en retirant une grappe. Il s’agit de permettre une
certaine flexibilité dans le nombre de régions pavant l’espace, tout comme le permettaient
les mécanismes de découpage et fusion présentés précédemment. Ainsi, il s’agit au final
d’implémenter une certaine forme de plasticité structurelle globale de manière native.
On peut donc définir S
t+1
comme suit :4.5. D’AUTRES REPRÉSENTATIONS SPATIALES 87
S
t+1 = arg max
E
X
k
i=1
progrès(Ei) ∀ Ei ∈ K-Means(ξ, k0
)
∀ k
0 ∈ {|S|, |S| + 1, |S − 1|}
(4.15)
D’un point de vue pratique, il nous semble important de préciser que nous appliquons la
méthode de partitionnement sur les données structurantes ξ placées dans les n dimensions
de l’espace d’exploration, auxquelles nous rajoutons une dimension représentant
la compétence atteinte pour chaque point. Cela dans le but de permettre un partitionnement
qui puisse prendre en compte la notion de compétence, qui est fondamentale
dans le calcul de l’intérêt des régions.
4.5 D’autres représentations spatiales
Les propositions faites dans les sections précédentes s’inscrivent dans un seul et
même cadre, celui d’un espace à explorer tel qu’il est fourni à l’agent. Mais le choix
de cet espace, c’est-à-dire de ses dimensions, est extrêmement dépendant
de l’encorporation de l’agent. Pourquoi la façon dont nous est fourni cet espace
constituerait nécessairement la meilleure manière de représenter les données dont on ne
sait rien a priori ?
L’une des motivations d’un paradigme alter-représentationnel comme nous pourrions
l’appeler, est clairement de dépasser les limitations d’un mécanisme de découpe purement
orthogonal aux dimensions sensorielles de l’agent. Ces dimensions sont déterminées
une première fois par les capteurs électroniques qui permettent de récupérer des valeurs,
et une seconde fois par l’ingénieur qui implémente, discrétise, et peut parfois s’arranger
avec ce flot de données. Cette couche supplémentaire de médiation entre les expériences
de l’agent et ce que ce dernier peut en apprendre nous semble superflue autant que peu
défendable dans une perspective purement développementale.
4.5.1 Transformer l’espace d’exploration a priori
La première proposition que nous faisons concerne directement une transformation
de l’espace d’exploration a priori. Il s’agit ici, pour le modélisateur, de déterminer
une nouvelle façon de représenter les données, qui ne se base pas purement et simplement
sur les dimensions sensorielles recueillies par l’agent incarné.
En pratique, il s’agit d’associer une fonction de distorsion φ dans l’optique de
représenter les mêmes données vécues, mais d’une manière plus adaptée. D’un point de88 CHAPITRE 4. MODÉLISATION D’AUTRES FORMES DE STRUCTURATION
vue formel, on peut définir φ comme une application particulière de tous les points de
l’espace S d’origine et de dimensions |S|, vers un nouvel espace S
0
. L’application φ doit
prendre en compte les différentes dimensions existantes de l’espace d’origine pour créer
de nouvelles dimensions, et se définit comme suit :
S → S
0
: φ(s1, s2, ..., s|S|) (4.16)
Comme le montre, de manière plus intuitive la figure 4.6, toute configuration motrice
de M trouve une correspondance à la fois dans l’espace d’exploration initial S et dans
l’espace transformé S
0
.
M
S
S
0
Figure 4.6: Illustration de la différence de résultat dans deux espaces d’exploration
pour deux configurations motrices données.
Dans ce contexte, supposons un système disposant de deux capteurs, ce qui implique
un espace d’exploration d’origine S à deux dimensions, s1 et s2. Nous pouvons à partir
de là examiner n’importe quelle fonction de distorsion de l’espace original en une seule
nouvelle dimension qui, potentiellement, synthétisera mieux la dispersion des données
de manière à donner une représentation, sans perte, qui soit porteuse de plus de sens.
Considérant que nous disposons de deux dimensions dans l’espace de base, la nouvelle
dimension à créer peut prendre en compte uniquement s1, uniquement s2, ou bien les
deux. Par exemple :
S
0
: φ(s1, s2) = 2 × s1
S
0
: φ(s1, s2) = (s2)
3
S
0
: φ(s1, s2) = (s1 − 15)
2 + (s2)
3
. . .
S
0
: φ(s1, s2) = ...
Un exemple un peu plus parlant et reposant sur une encorporation expérimentée par la4.5. D’AUTRES REPRÉSENTATIONS SPATIALES 89
suite est nécessaire. Considérons, comme l’illustre la figure 4.7, un espace d’exploration
à deux dimensions x et y dont la zone atteignable est représentée par la zone ronde
en pointillés circonscrivant l’ensemble des points bleus et centrée sur le point (0; 0).
Le reste de l’espace est donc non atteignable pour l’encorporation considérée. Afin
de réussir à découper au mieux cet espace en utilisant le processus de structuration
orthogonal, une manière pertinente de déformer l’espace serait d’appliquer une fonction
φ qui permette de transformer l’espace des coordonnées cartésiennes en coordonnées
polaires, définie comme telle φ(x, y) = x
2 + y
2
. Cette technique permet de représenter
linéairement la séparation entre les zones atteignable et non atteignable contrairement
à l’espace d’origine, et de surcroît de contenir la redondance par la représentation en
cercles concentriques qui ne prend en compte que la distance à l’origine.
x
y
(0; 0)
φ
x
2 + y
2
Figure 4.7: Illustration de la projection des données positionnées dans l’espace d’exploration
d’origine (à gauche) vers un nouvel espace défini par l’application φ (à droite),
qui permet de mieux isoler la zone atteignable.
Il est important de souligner le fait que cette vision des nouvelles représentations du
monde qui seraient, en quelque sorte, des déformations de l’espace initial, est pleinement
compatible avec le modèle de base. Cela signifie que le reste du processus se déroule
de la même manière avec les mêmes méthodes et métriques linéaires, mais appliquées à
un espace différent, potentiellement non linéaire. Cela vaut autant pour le mécanisme
de découpe que pour le mécanisme de choix de la région la plus intéressante. Il s’agit
simplement de raisonner de la même manière, mais dans un espace S
0 = φ(S).
Pour autant, l’intention de mieux représenter les données est louable, mais des limitations
existent pour ce modèle, en premier lieu le fait qu’une distorsion ne puisse90 CHAPITRE 4. MODÉLISATION D’AUTRES FORMES DE STRUCTURATION
φ1 : x
2 + y
2
φ2 : (x − 2O)
2 + y
2
(674; 725)
φ1 : x
2 + y
2
674
φ2 : (x − 20)
2 + y
2
725
x
y
(7; 25)
(45; 10)
Figure 4.8: Illustration de l’indépendance des distorsions φi menant à l’impossibilité
de l’exploration d’un espace conjoint.
prendre en considération qu’une seule dimension. Cela provient du mécanisme qui permet
de choisir un but est basé sur un tirage selon une distribution uniforme dans chacune
des dimensions de la région considérée. Ainsi dès lors que les dimensions sont potentiellement
indépendantes, un point déterminé au hasard dans l’espace conjoint de deux
distorsions peut donner deux points distincts dans l’espace d’origine. La figure 4.8 donne
pour exemple le choix du point de coordonnées (674; 725) dans l’espace défini par les
deux distorsions [x
2 + y
2
; (x − 20)
2 + y
2
]. Ce point reporté dans chacune des dimensions
se retrouve projeté en deux points différents dans l’espace d’origine [x; y] aux coordonnées
(7; 25) dans [x
2 + y
2
] (puisque 7
2 + 252 = 674) et (45; 10) dans [(x − 20)
2 + y
2
]
(puisque (45 − 20)
2 + 102 = 725). Les coordonnées d’arrivée dans l’espace d’origine ne
constituent évidemment qu’une possibilité parmi d’autres, puisqu’une coordonnée dans
l’espace déformé peut potentiellement représenter de multiples coordonnées dans l’espace
d’origine. Par exemple pour x
2 + y
2 = 674 on trouve au moins les coordonnées
(7; 25) et (25; 7). Toujours est-il que l’indépendance de ces distorsions ne permet pas
de créer un espace unifié d’exploration. Néanmoins, une réponse à cette limitation est
exposée par la suite dans la section 4.5.3.
4.5.2 Transformer l’espace d’exploration a posteriori
Nativement, l’agent explore un espace S qui reflète la vision du concepteur. Au
final, la définition de cet espace d’exploration dépend soit directement des capteurs
physiques qui équipent le robot, soit d’un espace opérationnel précis. Ce qui lie ces4.5. D’AUTRES REPRÉSENTATIONS SPATIALES 91
deux cas, c’est le fait que cet espace demeure fourni a priori, et puisse ne pas être en
adéquation avec les spécificités de l’encorporation de l’agent. Ce point, que nous considérons
comme un biais car appliqué depuis l’extérieur du système, semble crucial dans
une perspective développementale telle que nous essayons de la mettre en œuvre. C’est
pourquoi, dans le but de limiter ce biais, nous souhaiterions permettre à l’agent de
fréquemment ré-adapter la définition de l’espace d’exploration en se basant
sur son expérience. Nous nous inscrivons dans une démarche qui cherche à adapter
l’espace d’exploration aux données plutôt que l’inverse 3
.
Pour mettre en œuvre cette idée, nous nous appuyons sur une méthode statistique
éprouvée : l’Analyse en Composantes Principales (ACP) Pearson [1901]. Elle dispose
de plusieurs avantages pratiques. Le premier avantage réside incontestablement dans
la réduction du nombre de dimensions de l’espace considéré. C’est particulièrement
vrai puisqu’elle permet de réduire les dimensions de l’espace d’origine en déterminant
les d premières dimensions qui maximisent la représentativité des données. Ce mé-
canisme permet donc d’obtenir une représentation des données exprimant au mieux
leur variance, c’est-à-dire la dispersion des données le long des axes. Par ailleurs, en
disposant d’une vue plus représentative des données, nous pouvons visualiser, maintenir
et prendre en compte la possible existence de corrélations entre de multiples dimensions
pour créer une région exhibant un réel intérêt. Cette méthode permet également de se
concentrer sur des découpes orthogonales à un espace plus complexe que celui fourni à
l’origine. En effet, l’ACP permet de décrire, à partir de données, un espace comme une
combinaison linéaire des dimensions de l’espace d’origine. Ce point précis nous paraît
très prometteur dès lors qu’il s’agit d’observer des comportements de coordinations
sensorimotrices multi-dimensionnelles. La figure 4.9 présente un exemple où une ACP
permet de déformer l’espace d’exploration pour mieux représenter la variance et être à
même de réaliser de meilleures découpes.
De manière plus formelle, cette méthode s’applique sur des données à v descripteurs
et permet l’analyse de la structure de la matrice de variance-covariance, c’est-à-dire de
la variabilité, ou dispersion, de ces données. Elle permet de décrire à l’aide de d ≤ v
composantes un maximum de cette variabilité et ainsi :
1. de réduire les données à d nouveaux descripteurs ;
3. Si l’on se réfère aux théories piagétiennes déjà présentée dans l’état de l’art, on peut distinguer
deux mécanismes que l’enfant emploie pour construire sa représentation du monde. Le premier mécanisme
est l’accommodation et correspond au fait que l’individu va se modifier lui-même pour conserver
sa cohérence à l’intérieur du milieu dans lequel il évolue. Le second mécanisme est l’assimilation, qui
consiste pour l’individu à transformer le milieu pour l’adapter à ses connaissances, en agissant sur ce
milieu. C’est pourquoi il s’agit d’adapter a posteriori, qui littéralement signifie par une raison qui vient
après, et pose ainsi la condition nécessaire de l’expérience.92 CHAPITRE 4. MODÉLISATION D’AUTRES FORMES DE STRUCTURATION
2. d’interpréter les données en fonction de potentielles liaisons inter-variables.
Soit C un ensemble de composantes telles que :
C = {C1, C2, ..., Cd} (4.17)
Ck = a1,kX1 + a2,kX2 + ... + av,kXv (4.18)
avec Ck une nouvelle variable qui soit une combinaison linéaire des variables d’origine
Ω = {X1, ..., Xv}, avec aj,k les composantes des vecteurs propres et tel que les Ck soient
deux à deux corrélées, de variance maximale, d’importance décroissante.
s1
s2
C2 C1
s
0
1
s
0
2
Figure 4.9: Illustration de l’utilisation de la méthode ACP pour pouvoir déterminer de
meilleures découpes dans un espace d’exploration représentant au mieux la variabilité
des données : l’espace d’origine (à gauche) et les composantes principales (au milieu)
permettant de redéfinir l’espace d’exploration (à droite).
L’exemple en figure 4.9 présente à gauche les deux dimensions s1 et s2 de l’espace
d’origine ; au milieu les composantes principales trouvées ; à droite les mêmes données
dispersées selon ces 2 composantes principales. Y figurent également les découpes potentielles
en pointillés, ainsi que des points bleus et rouges, représentant respectivement
des buts atteignables et non atteignables par l’encorporation considérée.
Pour conclure, l’ACP détermine les axes exprimant au mieux la variance des points
de l’espace d’exploration que l’encorporation permet d’atteindre. C’est pourquoi elle
est calculée sur un sous-ensemble des données acquises par l’agent : seules les données
structurantes dont la compétence associée dépasse un certain seuil rentrent dans le calcul
des composantes principales. Il est à noter que l’exemple présenté en figure 4.9 est bien
évidemment un exemple qui est à notre avantage, ce qui n’est pas nécessairement le cas4.5. D’AUTRES REPRÉSENTATIONS SPATIALES 93
pour d’autres types de données. Néanmoins il peut permettre de mettre en évidence
des corrélations multi-dimensionnelles. La prochaine section présente une manière de
faciliter cette mise en évidence.
4.5.3 Paradigme poly-représentationnel
Nous venons d’exhiber des aspects permettant de doter l’agent de représentations
du monde qui soient différentes et potentiellement plus adaptées aux données à collecter
afin d’y trouver une structure qui facilite l’apprentissage. Mais ces représentations
alternatives sont mono-dimensionnelles. Nous nous intéressons dans cette partie à combiner
les avantages de ces diverses représentations possibles. Une manière de
mettre cela œuvre est de considérer de multiples représentations possibles. Pour ce faire,
considérons dorénavant un ensemble S d’espaces d’exploration disposant chacun de leurs
spécificités.
S = {S1, ..., Sn} (4.19)
Si = {R1, ..., Rm} (4.20)
R^ = arg max
Ri ∈
S
{Rj∈Sk} ∀ Sk ∈ S
(ρ(Ri)) (4.21)
L’espace d’exploration choisi sera potentiellement différent à chaque pas de temps. Le
mécanisme qui conduit à générer un but de son côté ne change pas, puisqu’il s’agit
ici simplement de sélectionner la région la plus intéressante parmi toutes les régions
de tous les espaces disponibles. Il s’agit toujours d’effectuer un arg max mais sur un
ensemble représentant l’union des régions de chacun des Si
.
Ce paradigme poly-représentationnel peut permettre d’ailleurs de fournir un ensemble
par défaut d’espaces d’exploration en se basant sur les dimensions d’origine. Cela
peut se révéler utile par exemple dans le but de pouvoir isoler de potentielles corrélations
entre certaines dimensions particulières. Cela peut se réaliser en déclinant toutes les possibilités
de combinaisons réalisables à partir des dimensions de base. Concrètement, si
l’agent est équipé d’un ensemble de dimensions sensorielles hs1, s2, s3i, il pourra automatiquement
générer 7 espaces d’exploration par défaut, tel que l’ensemble des espaces
d’exploration à l’instant 0 soit défini par S
0 = {S0, ..., S6}, avec :94 CHAPITRE 4. MODÉLISATION D’AUTRES FORMES DE STRUCTURATION
S0 : hs1, s2, s3i
S1 : hs1i
S2 : hs2i
S3 : hs3i
S4 : hs1, s2i
S5 : hs1, s3i
S6 : hs2, s3i
Le fait de pouvoir proposer des représentations différentes dans des sous-espaces de
l’espace d’exploration d’origine, permet d’essayer d’atteindre des objectifs qui soient
adaptés à ce sous-espace et qui par conséquent, peuvent ne prendre en compte que
certaines dimensions plutôt que d’autres. Cette technique peut permettre de faire en
sorte que l’agent sélectionne prioritairement certaines représentations en cas de nonutilité,
de mauvaise compréhension, ou encore de déficience d’un capteur spécifique. De
plus, comme il s’agit des combinaisons des dimensions de l’espace de base, cela ne pose
pas de problème quant à la non-consistance entre des distorsions qui ne couvriraient
pas la même sous-partie de l’espace. On peut d’ailleurs très bien imaginer la génération
de nouveaux espaces d’exploration basés sur les transformations a priori proposées en
section 4.5.1, ou bien basés sur les transformations a posteriori comme nous l’avons
proposé en section 4.5.2.
4.6 Conclusion
L’objet de ce chapitre était d’apporter des contributions théoriques sur la boucle
motivationnelle générique présentée au chapitre précédent. Nous avons plus particuliè-
rement étudié et présenté des alternatives pour le processus de structuration de l’espace
d’exploration, point crucial à notre sens pour améliorer l’apprentissage. Les contributions
développées dans ce chapitre se regroupent sous trois aspects distincts que nous
résumons ci-après. Afin de faciliter la compréhension, les notations introduites dans le
présent chapitre sont, comme nous l’avions fait au chapitre précédent, regroupées dans
le tableau 4.1.
Tout d’abord, nous avons présenté un ensemble de possibilités alternatives pour
effectuer des restructurations locales. Nous avons introduit une nouvelle métrique d’intérêt
prenant directement en compte une forme de diversification. Ensuite nous avons
proposé une nouvelle condition de découpage basée sur une métrique et un seuil pour4.6. CONCLUSION 95
Notation formelle Correspondance informelle
progrès(Ri) Métrique du progrès en apprentissage dans la région Ri
t(j) Estampille de la jème expérience dans une région donnée
diversification(Ri) Métrique de diversification propre à chaque Ri
c Constante permettant d’ajuster le résultat de la diversification
r1, r2 Sous-régions de part et d’autre d’une découpe dans une dimension
µ Métrique calculant le ratio pour décider d’une découpe
σ Seuil minimum de µ pour valider la découpe
η Nombre minimum d’expériences dans une région pour découper
δ Distance moyenne à l’objectif pour les expériences d’une région
α Seuil minimum de µ pour l’ajustement d’une découpe
λ Seuil minimum de µ pour la fusion de deux régions existantes
g Nombre de grappes pour la structuration par partitionnement
n Nombre de dimensions de l’espace d’exploration
S
0 = φ(S) Nouvel espace défini par la projection φ de l’espace d’origine S
d Nombre de dimensions des données pour l’ACP
C Ensemble des composantes principales de l’ACP
S = {S0, . . . , Sn} Ensemble des espaces explorés en concurrence
Tableau 4.1: Extension du tableau récapitulatif 3.1 du chapitre précédent avec les
nouvelles notations introduites tout au long du présent chapitre.
prendre en compte plus de paramètres sur les régions considérées. Puis nous avons introduit
un mécanisme d’ajustement des découpes que nous avons poussé jusqu’à prendre
en compte la possibilité de refusionner deux régions. Enfin nous avons proposé une
métrique de compétence contextuelle prenant en compte l’évolution de l’apprentissage
pour calculer la compétence actuelle.
D’autre part, nous avons étudié une structuration plastique agissant à un niveau
plus global. Pour cela nous nous sommes basés sur une méthode de partitionnement.
Nous avons remplacé la structuration dimensionnelle orthogonale aux axes par une
restructuration à une certaine fréquence s’appuyant sur l’algorithme K-Means. Dans
cette optique nous avons redéfini la notion de région, ne faisant plus appel à des dimensions
et des bornes, mais se basant sur un centroïde, c’est-à-dire le centre de masse de
l’espace qu’elles recouvrent.
Enfin le troisième aspect développé dans ce chapitre propose de s’intéresser à re-96 CHAPITRE 4. MODÉLISATION D’AUTRES FORMES DE STRUCTURATION
présenter l’espace de manière différente. Considérant que l’espace d’exploration a une
influence sur son exploration et donc sur l’apprentissage, nous étudions la possibilité de
définir a priori une projection de cet espace. De cette limitation à qualifier et connaître
ce que serait une bonne représentation, nous tirons une seconde solution qui propose
d’adapter a posteriori l’espace en fonction des expériences effectuées à l’aide de la
méthode ACP, dans le but de toujours explorer l’espace selon la meilleure variance.
Enfin pour lier ces deux propositions et permettre une complexification du processus
dans une vision à long terme, nous introduisons le paradigme poly-représentationnel.
L’intérêt de celui-ci réside dans le fait de maintenir parallèlement un ensemble d’espaces
d’exploration chacun récursivement découpables en combinant leurs propres avantages.
Ces contributions théoriques nécessitent d’être évaluées de manière expérimentale.
C’est pourquoi les deux chapitres qui suivent dans ce manuscrit exposent respectivement
la plateforme que nous avons développée pour mener des expérimentations dans
les meilleures conditions possibles (chapitre 5 intitulé FIMO : une plateforme d’expérimentations),
ainsi que leurs résultats et les interprétations que nous en tirons (chapitre
6 intitulé Expérimentations).C h a p i t r e
5
FIMO : une plateforme
d’expérimentations
Les chapitres précédents nous ont permis de développer les parties théoriques de nos
travaux. Ceux-ci se doivent d’être expérimentés in silico pour permettre d’évaluer leur
intérêt. Pour ce faire, nous avons développé une plateforme, d’une part pour notre besoin
propre, mais également avec l’intention de pouvoir la partager avec la communauté. Le
présent chapitre introduit plus en détail cette plateforme nommée FIMO, acronyme
anglophone pour Framework for Intrinsic Motivations. Cette plateforme a fait l’objet
d’une publication [Hervouet et Bourreau, 2013], et ses sources sont disponibles en ligne 1
.
5.1 Genèse et motivations
Comme nous l’avons montré au travers du chapitre 2, de nombreuses approches
gravitent autour de la notion de motivation artificielle. Celles-ci partagent un certain
nombre de points communs, mais se distinguent néanmoins par certains aspects qui leur
sont singuliers. De ce constat, émanent deux points importants qu’il nous faut souligner.
Tout d’abord le fait qu’il soit à la fois une grande opportunité et une grande ambition
de proposer une plateforme de ce type. La part d’opportunité provient directement de
la discipline informatique, puisqu’elle permet de proposer des protocoles, des façons de
1. Un dépôt Mercurial permettant de cloner le code source en Python de la plateforme est disponible
https://info-depot.lirmm.fr/republic/fimo. Cette plateforme est distribuée selon les termes de la
licence GNU GPLv3 (pour plus d’informations, se reporter au fichier COPYING).
9798 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
faire, qui par essence devraient être les plus génériques possible. La part d’ambition
quant à elle provient doublement du fait qu’il soit généralement très complexe d’essayer
d’unifier autant d’approches, et encore davantage que le cadre proposé pour le faire soit
accepté et réellement utilisé par la communauté.
Deuxièmement la multiplicité des approches dénote avant tout un intérêt certain
pour cette thématique de recherche. Et même si l’ébullition propre à l’émergence d’un
sous-domaine est extrêmement importante, la convergence de ses méthodes devient
inévitablement un atout à plus long terme. Quand nous parlons de méthodes, nous
parlons avant tout des moyens mis en place pour évaluer l’impact d’une nouvelle idée.
En effet, tout au long de nos travaux de thèse, nous avons ressenti le besoin, tout
d’abord individuel, de réimplémenter des mécanismes existants pour mieux les comprendre.
Puis dans un second temps, pour également en proposer de nouveaux, comme
l’ont déjà montré les précédents chapitres. Mais en réalité, le besoin de passer à l’échelle
collective, c’est-à-dire de généraliser aux autres approches existantes s’est fait sentir.
Des articles très techniques comme par exemple Santucci et al. [2013] montrent bien,
sans pour autant en arriver à ce même constat, que l’étude de différents mécanismes
requiert une phase nécessaire d’unification des approche étudiées. Cela passe surtout
par la mise en place de phases expérimentales et de modes d’évaluation qui soient
comparables, sans quoi une étude comparative ne voudrait rien dire.
Voici les principales motivations qui ont donné naissance à cette plateforme nommée
FIMO, pour Framework for Intrinsic Motivations. Dans la suite de ce chapitre,
nous présentons l’architecture générale de la plateforme, nous expliquons les modalités
d’évaluation choisies, les encorporations disponibles et leurs caractéristiques. Nous terminons
par donner des détails techniques pour faciliter et mieux comprendre le processus
d’expérimentation ainsi que celui de visualisation des données recueillies.
5.2 Architecture générale
FIMO est une plateforme destinée à la recherche en robotique développementale,
et s’intéressant plus particulièrement aux systèmes motivationnels. Ce que nous proposons
avec cette architecture c’est la possibilité d’expérimenter de manière fiable,
complète et efficace de nouvelles idées sur les agents motivés. Cette section est
dédiée à la présentation de FIMO, que ce soit sur la façon dont il a été pensé, conçu et
architecturé, des explications sur ses fondations dans le langage Python, ainsi que son
workflow. Nous présentons également les différentes encorporations fournies à l’heure
actuelle.5.2. ARCHITECTURE GÉNÉRALE 99
5.2.1 Principe
Le schéma de fonctionnement global de notre plateforme FIMO est relativement
commun et intuitif. Typiquement, comme le montre la figure 5.1, la plateforme s’articule
autour de différents éléments que sont l’encorporation, le paramétrage, la collecte
de données, et la visualisation des résultats. Pour pouvoir lancer une expérimentation, il
faut fournir à l’algorithme motivationnel une encorporation ainsi qu’un calibrage complet
(valeurs de certains paramètres pi et métriques mi). Les résultats expérimentaux
sont collectés et sauvegardés dans des fichiers journaux. Ces résultats peuvent par la
suite être attentivement et sérieusement étudiés grâce aux visualisations qu’offre le module
du même nom. Ces aspects sont décrits un à un ci-après.
Encorporation
Boucle motivationnelle
algorithme
Collecte
expérimentations
Visualisation
résultats expérimentaux
p1 p2 ... pn
m1 m2 ... mn
Figure 5.1: Architecture logique du processus global de notre plateforme FIMO.
Encorporation
La première étape consiste à choisir une encorporation (embodiment en anglais et
dans le code) à expérimenter. Celle-ci décrit formellement l’espace d’exploration sensorimoteur
ainsi que les effets quant à l’exécution de primitives motrices. Ces deux points
sont essentiels et obligatoires pour lancer une boucle motivationnelle d’un agent. Des
explications plus complètes quant à la caractérisation d’une encorporation sont fournies
en section 5.4.
Paramétrage de la boucle motivationnelle
Une fois l’encorporation choisie, il faut alors spécifier les métriques et les paramètres
à fournir à l’agent permettant de calibrer la coquille vide que constitue la boucle motivationnelle.
Ce paramétrage peut avoir, comme nous l’avons déjà expliqué, une influence
plus que significative sur la trajectoire développementale de l’agent au cours de l’expérimentation.
Comme expliqué précédemment en section 5.1, c’est en grande partie de ce100 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
constat que provient l’idée fondamentale de fournir une plateforme paramétrable pour
étudier le comportement et l’influence des choix de modélisation a priori. Les valeurs des
paramètres sont bien évidemment modifiables à chaque instanciation du programme, le
tout étant reproductible pour une plus grande significativité statistique.
Collecte
Ensuite, à la fin d’une expérimentation concernant une encorporation particulière,
c’est-à-dire quand l’agent a effectué un certain nombre de commandes motrices (ou bien
a essayé d’atteindre un certain nombre de buts), de nombreux résultats collectés tout
au long de l’expérimentation sont enregistrés dans des fichiers journaux. Cela inclut par
exemple :
— l’état final du partitionnement de l’espace d’exploration en sous-régions ;
— l’intérêt de ces régions où les buts ont été générés, leur date de création, ainsi que
tous leurs autres attributs ;
— les données sensorimotrices brutes et structurantes expérimentées ;
— et surtout les résultats aux examens (cf. partie 5.3 pour plus de détails sur les
modalités de l’examen).
Visualisation
Enfin un autre avantage de la plateforme FIMO réside dans le module de visualisation
qui se base sur les données collectées et sauvegardées. Cette fonctionnalité permet
d’étudier les résultats de n’importe quelle instance expérimentale. En cela, elle rend
beaucoup plus simple et efficace la compréhension et la validation d’hypothèses quant
au paramétrage ou aux nouvelles idées appliquées à une encorporation considérée. Nous
illustrerons le reste de ce chapitre grâce à ce module de visualisation proposé dans
FIMO.
5.2.2 Fondations Python
Après avoir présenté l’architecture générale du projet et avant d’expliquer son organisation
pratique, il nous paraît important d’expliquer les fondations Python de notre
plateforme. Par fondations, nous voulons surtout ici donner les fondements informatiques
de ce choix. Le point principal est que le développement de FIMO a été basé
sur des bibliothèques très pratiques, puissantes, bien pensées et documentées, et surtout
supportées par des communautés de scientifiques et d’ingénieurs. Les trois principales
bibliothèques que nous utilisons sont SciPy, NumPy, matplotlib qui sont dédiées au
traitement scientifique de données.5.2. ARCHITECTURE GÉNÉRALE 101
SciPy [Jones et al., 2001] est une bibliothèque open-source pour les mathématiques,
mais plus largement pour la science et l’ingénierie. Elle est basée sur Numpy [Oliphant,
2007], qui fournit une interface de manipulation de tableaux à n dimensions
très pratique et très rapide, associée à des routines de traitements numériques très
efficaces. Enfin le module de visualisation de résultats expérimentaux proposé dans
la plateforme s’appuie sur matplotlib [Hunter, 2007]. Ces trois fondations principales
utilisées dans FIMO sont considérées comme stables et sûres de par le fait qu’elles aient
été développées et testées à très grande échelle par beaucoup d’utilisateurs différents,
et qu’elles aient ainsi prouvé leur efficacité et leur fiabilité.
Il nous faut également citer une dernière bibliothèque très importante utilisée dans
FIMO : SciKit-Learn. Celle-ci est développée par l’INRIA et se base elle aussi sur
les trois bibliothèques présentées ci-dessus. Elle représente un effort commun pour
regrouper bon nombre de méthodes de fouille de données, d’apprentissage automatique
et de traitement statistiques de données en général [Pedregosa et al., 2011].
Enfin, pour ce qui concerne la partie évolutionnaire de la plateforme, il nous faut
aussi mentionner la bibliothèque pyevolve, qui regroupe un ensemble d’outils simples à
mettre en œuvre pour gérer des populations et les faire évoluer en suivant une certaine
fonction d’évaluation [Perone, 2009].
5.2.3 Organisation arborescente du projet
Le dernier point technique qu’il nous semble important de détailler est celui de
l’organisation arborescente du projet FIMO. Il nous faut rappeler que le but de ce
dernier est double :
1. réimplémenter un cadre logiciel expérimental à titre de recherche individuelle pour
les travaux de thèses menés ;
2. faire en sorte de proposer quelque chose de propre potentiellement réutilisable par
d’autres chercheurs.
Dans cette optique, il nous semblait primordial d’accorder une importance particulière
à la réflexion concernant la clarté du projet, qu’il s’agisse à la fois du code source en
lui-même, de sa lisibilité, des commentaires l’accompagnant, mais également l’organisation
globale des fichiers contenant ce code source. En tant que telle, l’arborescence est
un point d’autant plus important qu’il constitue le premier contact de l’utilisateur avec
le projet. Ainsi, cette arborescence vous est présentée sans mise en forme particulière
en figure 5.2. Nous allons maintenant en détailler quelques points pour en faciliter la
lecture et la compréhension.102 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
fimo
|-- compare.py
|-- config.py
|-- COPYING
|-- core
| |-- agent.py
| |-- examination.py
| |-- experiment.py
| |-- living.py
| !-- representation.py
|-- embodiments
| |-- arms.py
| |-- artificial_mouth.py
| |-- embodiment.py
| |-- toys.py
| !-- tribots.py
|-- evo
| |-- fimo.py
| |-- metrics_gp_operators.py
| |-- metrics.py
| |-- morphologies.py
| |-- parameters.py
| |-- spaces_gp_operators.py
| !-- spaces.py
|-- evofimo.py
|-- example.py
|-- fimo.py
|-- logs
| |-- exams.txt
| |-- goals.txt
| |-- raw.txt
| !-- regions.txt
|-- questions
| !-- questions_*Env
|-- questions.py
|-- structuring
| |-- centroidal.py
| |-- dimensional.py
| |-- dimension.py
| |-- distorted.py
| |-- memory.py
| |-- pca.py
| !-- region.py
|-- test
| |-- compare_*.py
|-- visualization
| |-- exams.py
| |-- goals.py
| |-- interests.py
| |-- log.py
| |-- misc.py
| |-- raw.py
| |-- regions.py
| !-- visualization.py
!-- visu.py
Figure 5.2: Arborescence du projet FIMO sans mise en forme. Les éléments de premier
niveau constituent les fichiers les plus importants ainsi que les modules principaux,
contenant eux-mêmes les fichiers sources nécessaires au bon fonctionnement de la plateforme.
Les principaux modules
Cette arborescence est donc composée de fichiers à la racine, ainsi que de sousrépertoires
contenant d’autres fichiers. Ce sont ces sous-répertoires que nous appelons
modules. Ils permettent d’organiser au mieux le code du projet FIMO.5.2. ARCHITECTURE GÉNÉRALE 103
core Ce module contient les classes essentielles pour l’instanciation et l’expérimentation
sur l’apprentissage sensorimoteur : la classe définissant le fonctionnement
général d’un Agent, ainsi que la classe Examination permettant de l’évaluer pour
constater le progrès accompli.
structuring Ce module contient toutes les classes nécessaires au processus de structuration
de l’espace exploré par l’agent : la mémoire de l’agent, ce que sont les
représentations, les régions ainsi que les expériences qu’il va pouvoir effectuer.
embodiments Ce module-ci permet d’isoler les encorporations qu’il va être possible
d’expérimenter : quelques fichiers déjà présents regroupent par type les encorporations
disponibles, dont un aperçu plus complet est présenté en section 5.4.
evo Ce module correspond à la perspective évolutionnaire que nous développons à la fin
du chapitre 6 (section 6.4). Différents éléments sont proposés pour être optimisés
par évolution : les paramètres, métriques, les distorsions d’espaces ainsi que les
morphologies.
test Ce module a été pensé pour les expérimentations, notamment pour permettre
et faciliter la comparaison d’implémentations de différentes approches, que nous
développons en section 5.5.3.
visualization Enfin ce dernier module est destiné à regrouper tous les aspects gravitant
autour de la visualisation des résultats générés par la plateforme.
Les principaux fichiers à la racine
Au-delà des principaux modules, la plateforme met à disposition des fichiers à la
racine qui permettent d’expérimenter aisément divers aspects de l’apprentissage sensorimoteur
offerts par FIMO. Tous ces fichiers disposent d’une aide pour leur utilisation
pratique en ligne de commande (-h), présentés ici dans un souci de clarification.
fimo.py Le fichier le plus important pour lancer une expérimentation ; il permet de
choisir une encorporation à tester et de fixer des limites en terme de nombre
d’itérations, et bien sûr de spécifier certains paramètres précis (cf. section 5.5.1
pour davantage de précisions sur son utilisation).
compare.py Le fichier important pour comparer aisément différents paramétrages ; il
faut lui préciser le nombre d’itérations désirées, le nombre d’instances d’agents104 CHAPITRE 5. FIMO: UNE PLATEFORME D’EXPÉRIMENTATIONS
pour obtenir une moyenne, ainsi que le nom du template de comparaison à expé-
rimenter (cf. section 5.5.3).
usage : compare . py [- h ] [ -a ACTIONS ] [- t TIMES ] [ - v] comparison
positional arguments :
comparison Specific test comparison you want to run
optional arguments :
-h , -- help show this help message and exit
-a ACTIONS Number of actions each agent must perform ( default 1000)
-t TIMES Number of times to run for average evaluation ( default 3)
-v Generating visualization of results
evofimo.py Le point d’entrée vers la partie évolutionnaire de la plateforme ; il faut
impérativement lui préciser l’encorporation à tester ainsi que le mode que l’on
souhaite tester ; d’autres options sont disponibles pour préciser par exemple le
nombre d’itérations, le nombre de générations, ou la population par génération.
usage : evofimo . py [- h ] [ -a ACTIONS ] [- g GENERATIONS ] [ - p POPULATION ]
[ - t TIMES ] [ - s STATS ] [- m METRIC ]
emb mode
positional arguments :
emb Embodiment you want to experiment
mode Evolutionary process mode ( parameters , metrics , space ,
morphology )
optional arguments :
-h , -- help show this help message and exit
-a ACTIONS Number of actions each agent must perform ( default 1000)
-g GENERATIONS Number of generations to run ( default 100)
-p POPULATION Number of agents by generation ( default 10)
-t TIMES Number of run by agent for average ( default 5)
-s STATS Statistics every # generations ( default 1/10 generation )
-m METRIC Metric to evolve ( interest , split )
visu.py Le script qui permet de visualiser les résultats des différentes instances d’agents
expérimentés ; par défaut il va chercher dans les fichiers journaux de base (raw,
region, exam, goals) dans le répertoire logs/, mais il est possible de lui spécifier
un chemin en préfixe pour analyser d’autres résultats.5.2. ARCHITECTURE GÉNÉRALE 105
usage : visu . py [ - h ] [- p PREFIX ] [ -s SUFFIX ] [ -e ] [ - c]
optional arguments :
-h , -- help show this help message and exit
-p PREFIX Prefix for log files
-s SUFFIX Suffix for log files
-e Use this option to parse only exams ( speed up parsing time !)
-c Count the number of available experiments
Pour plus de détails techniques concernant les expérimentations, se reporter à la
section 5.5.
Autres fichiers
config.py Ce fichier regroupe tous les paramètres utilisés par la plateforme et potentiellement
intéressants à modifier pour l’utilisateur ; ces paramètres concernent à
la fois la boucle à proprement parler mais également les techniques de structuration.
example.py Ce fichier représente des exemples d’utilisation de FIMO directement à
manipuler à partir du langage Python ; la section 5.5.2 présente la version par
défaut de ce fichier pour en commenter les différentes façons d’instancier un agent.
questions.py Ce script permet de générer un ensemble de questions pour une encorporation
donnée ; davantage de détails sont donnés dans la section 5.3 pour une
meilleure cohérence.
logs/*.txt Fichiers par défaut dans lesquels sont sauvegardés les résultats des expé-
rimentations ; quatre fichiers principaux (exams|goals|raw|regions).txt selon
le type d’information sauvegardée.
test/compare_*.py Ensemble de fichiers permettant facilement de créer une nouvelle
comparaison entre des paramétrages différents ; pour voir des exemples précis qui
illustrent cet aspect fondamental de la plateforme, se reporter en section 5.5.3.
5.2.4 Diagramme des classes
La figure 5.3 présente le diagramme des classes à titre informatif. Comme nous avons
déjà commencé à l’expliquer en section 5.2.3, ce diagramme est une représentation du106 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
fonctionnement de la plateforme FIMO. Nous en retraçons les grandes lignes ci-après.
Embodiment Agent Memory
Living Examination Representation
Experiment Region
PredictionExp ReachingExp DimensionalReg CentroidalReg
Dimension PcaRegion DistortedRegion
performs
1
launched
1
passes
1
holds
1
composed of
1..*
composed of
1..*
composed of
*
delimited by
1..*
Figure 5.3: Diagramme des classes simplifié de la plateforme FIMO.
Agent est une classe qui va gérer l’ensemble des interactions possibles d’une instance
expérimentale ; en pratique il s’agit de générer des buts, de calculer les actions
pour atteindre ces buts, tout au long d’un processus d’apprentissage générique.
Embodiment L’agent ne serait rien sans son encorporation ; celle-ci constitue l’interface
avec l’environnement et surtout la loi commande de coordination sensorimotrice ;
en pratique elle est essentiellement dotée d’une méthode qui étant donné un état5.2. ARCHITECTURE GÉNÉRALE 107
courant et une commande motrice, donne les valeurs des capteurs résultants.
Experiment représente classiquement une expérience sensorimotrice que l’agent va
engranger au fil de l’apprentissage ; cela comprend, comme déjà expliqué dans le
modèle en section 3.2.1, l’état de départ, la commande motrice et l’état final pour
les données brutes, auxquelles sont ajoutées l’état but et la compétence pour les
données structurantes.
Examination L’examen est le moyen qui nous permet de mettre en valeur les progrès
de l’agent dans son apprentissage sensorimoteur ; il s’agit d’un ensemble de questions,
c’est-à-dire des points dans l’espace d’exploration original, que l’agent va
devoir périodiquement atteindre, ce qui va nous permettre de lui attribuer une
note d’atteinte moyenne de ces buts.
Region est une classe qui représente la volonté de structurer les données accumulées
dans le but d’améliorer l’apprentissage par différentes heuristiques ; une
région peut se définir de différentes façons (par des dimensions originales
DimensionalRegion, par un centroïde CentroidalRegion, par une distorsion
DistortedRegion, etc.) mais contient toujours un ensemble d’expériences sensorimotrices
qui la caractérisent qui permettent, par exemple, de calculer son intérêt.
Representation est une classe composée essentiellement d’un ensemble de régions qui
la caractérisent et qui peuvent être explorées, c’est-à-dire dans lesquelles on peut
générer et/ou ajouter de nouveaux buts.
Memory La mémoire représente l’essence même du processus d’apprentissage ; dans cette
implémentation, un agent en possède une, dans laquelle on peut trouver un ensemble
de représentations, c’est-à-dire différentes visions du monde maintenues
parallèlement par l’agent.108 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
5.3 Modalités d’évaluation
L’agent, doté d’une métrique d’intérêt, calculée par rapport au progrès en apprentissage
pour l’acquisition de nouvelles compétences sensorimotrices, va avoir tendance
à intensifier ses essais dans des zones pour lesquelles il constate du progrès, et à se
diversifier aussitôt qu’il ne progresse pas ou plus dans une certaine région.
Ce modèle de fonctionnement s’avère profondément constructiviste, avec toute la
portée de subjectivité que cela peut soulever. C’est pourquoi, comme nous l’avons déjà
fait dans ce manuscrit, nous parlons de trajectoires développementales pour qualifier les
diverses instances de boucles motivationnelles. En effet, nos expérimentations proposent
d’incarner successivement plusieurs agents logiciels — c’est-à-dire une même boucle
motivationnelle — dans l’exact même corps et dans un environnement similaire.
Mais malgré ces prérogatives et ces conditions initiales sensiblement similaires, les
trajectoires développementales sont différentes entre deux instanciations de vies. Par
ailleurs, une même mesure n’a pas les mêmes effets sur deux encorporations similaires
plongées dans un environnement similaire. C’est pourquoi la question de la comparaison
et de l’évaluation vient donc nécessairement se poser devant nos yeux. Nous avons
d’ailleurs mené une réflexion autour de la notion de preuve en intelligence artificielle
dans une publication [Hervouet, 2013].
5.3.1 Les différentes formes d’évaluation
On distingue généralement deux formes d’évaluation, nommément l’évaluation formative
et l’évaluation sommative. Avant de présenter ces deux approches, voici une
citation attribuée à Robert Stakes, qui permet de donner l’intuition de la différence
entre les deux :
« When the cook tastes the soup, that’s formative ; when the guests taste the
soup, that’s summative ». [Scriven, 1991]
L’évaluation sommative s’effectue systématiquement de l’extérieur du système
d’apprentissage et définit arbitrairement des barrières. Elle sert à certifier l’acquisition
de compétences.
L’évaluation formative, de par sa fonction régulatrice, sert à organiser et à ré-
ajuster l’apprentissage, mais cette fois de l’intérieur même du système. Elle définit à la
fois quantitativement et qualitativement le travail à effectuer pour atteindre les objectifs
fixés. L’apprenant doit pouvoir mesurer le chemin parcouru et celui restant à parcourir.
De plus, l’erreur y est positive et fait partie intégrante de l’acte d’apprendre. L’ap-5.3. MODALITÉS D’ÉVALUATION 109
prenant doit prendre du recul sur les stratégies qu’il utilise, il doit avoir une réflexion
critique sur son activité.
5.3.2 L’évaluation dans FIMO
En pratique, dans FIMO, les examens que l’agent doit effectuer pour constater
son progrès relèvent typiquement de l’évaluation sommative. Cela revient à évaluer
l’évolution de la compétence d’atteinte d’un certain nombre de buts uniformément
répartis dans l’espace d’apprentissage que le système est en train d’explorer (cf. section
5.3.4 pour plus de détails). Mais en soit, une courbe est un indicateur surtout qualitatif.
Pour obtenir un indicateur plus quantitatif sans pour autant perdre l’importante appré-
ciation qualitative, nous utilisons une intégration numérique pour déterminer un score.
À partir des points de la courbe et de leur espacement dans le temps, nous calculons
une approximation de l’aire sous la courbe. Ce score ainsi calculé donne une assez
bonne représentation de la performance de la trajectoire développementale d’un agent.
En effet, un point fort constitutif de cet indicateur est qu’il permet de distinguer deux
expérimentations qui terminent avec une même valeur de distance moyenne aux buts
de l’examen, puisqu’il est directement lié à l’incurvation du progrès en apprentissage.
Mais en réalité, le processus de l’évaluation formative tel que décrit plus haut
constitue l’essence du fonctionnement de la boucle motivationnelle que nous décrivons.
En effet, celle-ci implique bien l’agent dans une perpétuelle remise en question de son
apprentissage et l’oblige à faire des choix quant à ce qu’il va chercher à apprendre par la
suite. De par sa nature plus complexe, cette seconde forme d’évaluation est hautement
plus adaptée à la vision constructiviste qui caractérise nos travaux.
Par ailleurs, d’autres questions importantes se posent en terme d’évaluation de l’apprentissage.
Par exemple, quid de la spécificité des différentes encorporations à tester ?
Est-il judicieux de faire le choix arbitraire et objectif d’évaluer de la même manière l’apprentissage
de la loi de commande d’un bras robotique et celle d’un robot sous-marin ?
Même si le poids de ce genre de questions est discutable du fait de la trop faible diffé-
rence entre les encorporations testées pour le moment, il semble tout de même nécessaire
de les poser.
5.3.3 Fichiers de questions
Le comportement par défaut de la plateforme est de vérifier la présence d’un fichier
portant un nom de la forme questions_*Env pour y lire un ensemble de questions
à proposer à l’agent pour l’évaluation. Le format de ces fichiers suit un schéma très
simple qui, sur chaque ligne, associe une valeur à chaque dimension de l’espace des buts,
chacune d’elle étant séparée par un point-virgule :110 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
dim_1@val_1;dim_2@val_2;...;dim_n@val_n
À titre d’illustration, ici pour l’encorporation Arm15LargeEnv, le tableau 5.1 permet
de visualiser quelques lignes et les points associés dans l’espace.
Format brut d’une ligne Hx Hy
Hx@-8.33 ;Hy@37.63 -8.33 37.63
Hx@28.10 ;Hy@29.01 28.10 29.01
Hx@-28.55 ;Hy@18.20 -28.55 18.20
Hx@39.67 ;Hy@10.99 39.67 10.99
Hx@-3.74 ;Hy@11.95 -3.74 11.95
Tableau 5.1: Exemples de correspondance entre des lignes d’un fichier de questions et
leur interprétation dans l’espace des buts ici à deux dimensions Hx et Hy.
Cette manière de se baser sur un fichier texte pour les questions de l’examen dispose
d’un avantage certain en terme de simplicité et d’équité, puisque toutes les instances
sont évaluées sur un même ensemble de questions. En revanche cela implique d’avoir
une certaine confiance quant à la façon de générer ces questions.
5.3.4 Génération de questions pour l’examen
C’est le script questions.py, présent à la racine du projet, qui permet de générer
un ensemble de questions afin d’évaluer la progression des agents au cours du temps.
Son fonctionnement est relativement simple et repose sur quatre étapes successives :
1. Choisir une encorporation pour laquelle générer des questions ;
2. Exécuter un nombre donné de commandes motrices uniformément sélectionnées
dans l’espace moteur ;
3. Appliquer une méthode de partitionnement basée sur l’algorithme K-Means (déjà
présenté en section 4.4.2) sur l’ensemble des données d’observations permettant
de paver au mieux l’espace réellement atteignable par le robot ;5.3. MODALITÉS D’ÉVALUATION 111
Figure 5.4: Visualisation de la densité des points atteignables dans l’espace d’exploration
à partir de 20000 configurations uniformément réparties dans l’espace moteur.
4. Convertir les centroïdes trouvés en autant de questions, c’est-à-dire de points dans
l’espace des buts à n dimensions, que l’agent devra tenter d’atteindre.
Ce procédé a le mérite de générer des questions exclusivement dans la zone atteignable
par l’encorporation considérée. Il est d’ailleurs important de noter que les
questions générés par cet outil sont particulièrement pertinentes dans la mesure où la
zone atteignable est convexe, du fait de l’utilisation de l’algorithme K-Means.
Une visualisation pour la génération de questions pour un bras robotique à 15
jointures est présentée en figure 5.4. On voit assez clairement, comme la densité colorimétrique
l’indique, qu’il est nettement plus facile d’atteindre les positions devant,
c’est-à-dire autour du point (45; 0). Les points verts dans la figure de gauche repré-
sentent les questions déterminées par l’algorithme K-Means.112 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
Voici l’aide en ligne de commande décrivant l’utilisation du script.
usage : questions . py [ - h] [ - s SAMPLES ] [ - q QUESTIONS ] [ - v ] emb
positional arguments :
emb Embodiment you want to generate questions for
optional arguments :
-h , -- help show this help message and exit
-s SAMPLES Number of samples to generate (10000)
-q QUESTIONS Number of questions to derive (100)
-v Show plotting result
5.4 Encorporations
Une encorporation telle que nous la définissons formellement dans FIMO, circonscrit
tout ce qui touche aux capacités sensorimotrices de l’agent. Une encorporation doit
donc être considérée comme l’interface complexe entre l’espace d’exploration
sensoriel ou opérationnel, l’espace moteur lui permettant d’effectuer cette
exploration, et le résultat de la combinaison des deux. Ainsi, une encorporation
se doit de fournir avant tout :
1. les dimensions sensorielles ou opérationnelles de l’agent (définies par un nom et
un ensemble de valeurs pouvant être prises) ;
2. ses dimensions motrices (définies elles aussi par un nom nom ainsi qu’un ensemble
de valeurs pouvant être prises) ;
3. un état initial ou position de repos (définie comme un point de référence dans
l’espace des buts à partir duquel sont apprises les effets des commandes motrices).
D’autre part, l’encorporation doit également permettre de rendre compte des consé-
quences d’une action motrice. Elle doit donc également spécifier :
4. une fonction qui permette de calculer le nouvel état sensoriel à partir d’un état
sensoriel courant et d’une action à exécuter ;
D’autres possibilités sont offertes par la plateforme concernant l’encorporation. Par
exemple il est possible de prédéfinir un partitionnement en régions pour l’agent. Cela
peut par exemple permettre de l’aider dans son exploration très tôt.
Un autre point important réside dans le fait que la manière dont est implémentée la
connexion entre une encorporation et la boucle principale de l’algorithme motivationnel
permet de facilement relier FIMO avec n’importe quel moteur de simulation ou bien5.4. ENCORPORATIONS 113
n’importe quel robot physique à partir du moment où il suit les recommandations et
les conventions. Concrètement, ce genre de techniques a déjà été appliqué par d’autres
à différentes encorporations (simulée et physique), comme par exemple apprendre à
déplacer un bras robotique dans un plan pour atteindre un point particulier de l’espace à
deux dimensions Rolf et al. [2010]; Baranes et Oudeyer [2010b]; Moulin-Frier et Oudeyer
[2013], ou encore dans l’apprentissage de la maîtrise de la reproduction de vocalisations
en utilisant un conduit vocal et un système auditif Moulin-Frier et al. [2013].
5.4.1 Véhicule roulant
Le premier type d’encorporation proposé dans FIMO est une version simplifiée d’un
véhicule roulant dans une arène. La version la plus simple est constituée d’une seule roue
et évolue sur un axe avec un capteur de distance au mur devant lui (1 seule dimension
motrice et 1 seule dimension sensorielle), comme présentée à la fin du chapitre 3 (cf.
figure 5.5). Dans cette version les buts à atteindre sont donc des points à des distances
particulières du mur.
Figure 5.5: Schéma du dispositif de robot mobile mono-directionnel. La ligne en pointillée
représente ce que perçoit le capteur telem. Les blocs hachurés représentent des
zones qui empêchent la progression du robot.
La seconde version est constituée de 2 roues et permet à l’agent un déplacement dans
une arène bidimensionnelle. Ici les valeurs motrices envoyées aux roues sont considérées
comme des vecteurs qui font avancer le véhicule de manière euclidienne dans l’espace.
Cette version avec un espace d’exploration généralement carré se décline avec différents
obstacles gênant le déplacement de l’agent (piliers au milieu, ou zones inaccessibles sur
les bords en triangle) comme le montre la figure 5.6.
Figure 5.6: Schéma du dispositif de robot mobile bi-directionnel. Les blocs hachurés
représentent des zones qui empêchent la progression du robot.114 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
Dans les deux types d’encorporation véhicule, les déplacements envoyés en commande
motrice sont respectivement de la forme ∆m et (∆x, ∆y), c’est-à-dire des commandes
motrices relatives et non absolues.
5.4.2 Bras robotique
Le second type d’encorporation implémenté dans FIMO est très largement utilisé
dans la communauté [Baranes et Oudeyer, 2010a, 2013; Santucci et al., 2013] pour
évaluer l’importance de l’heuristique de motivation intrinsèque pour l’apprentissage de
coordinations sensorimotrices : un bras robotique. La figure 5.7 présente cette encorporation.
Dans cet exemple, chaque segment du bras est de même taille et chaque θi
représente les valeurs relatives des angles de chaque jointure par rapport au plan que
constitue le segment précédent du bras.
La transition de l’organe terminal d’un point à un autre par une action donnée
est calculée en utilisant des méthodes standards de cinématique directe [Craig, 1989].
Une action est un vecteur de valeurs ∆i positives ou négatives, chacune associée à
une articulation particulière (∆θ1
, ..., ∆θn
). Cela signifie que l’agent peut seulement
effectuer des mouvements relatifs depuis une certaine position (Hx,t, Hy,t) vers une
autre (Hx,t+1, Hy,t+1). Ainsi dans l’exemple donné, l’action exécutée qui meut l’organe
terminal du point s
t au point s
t+1 dans l’espace d’exploration en essayant d’atteindre
le point γ
t+1 a été α = (∆θ1 = +115, ∆θ2 = −140, ∆θ3 = +40).
De plus, il est important de noter que l’encorporation fournie est générique dans le
sens où il est tout à fait possible d’en instancier de nouvelles en précisément simplement
le nombre de jointures et la taille des segments désirés.
5.4.3 Bouche artificielle
Au fil des rencontres au hasard des communications scientifiques de nos travaux,
nous avons eu la chance de pouvoir entrer en contact avec des chercheurs à l’Institut
de Recherche en Acoustique et Musique (IRCAM). Leurs recherches s’intéressent à
modéliser la façon dont une bouche artificielle pourrait être utilisée pour jouer d’un
instrument à vent comme la trompette ou le trombone. Cette bouche artificielle est
en réalité un projet initié à la fin des années 1990, autour duquel d’autres projets se
sont organisés et succédés. C’est notamment le cas des projets l’Consonnes, puis de
l’CAGIMA financés par l’ANR.
Le but des recherche concernant ce dispositif suggèrent la « mise en correspondance
automatique du son produit avec les paramètres de contrôle d’une bouche artificielle
asservie », ou « techniques de commande et d’asservissement afin de reproduire des sons5.4. ENCORPORATIONS 115
θ1
θ2
θ3
s
t
s
t+1
γ
t+1
∆θ1
∆θ2
...
θ1
θ2
θ3
θ4
θ5
θ6
θ7
θ8
θ9
θ10
θ11
θ12 θ13
θ14
θ15
s
t
Figure 5.7: Schémas illustrant : les positions successives d’un organe terminal au bout de l’encorporation
d’un bras robotique à 3 articulations (à gauche) ; un bras robotique à 15 articulations dont la
longueur des segments est décroissante dans le sens proximo-distal (à droite).
cibles »
2
. Tout comme nos travaux essayent de le mettre en avant, leur but réside dans
l’exploration et la structuration d’un espace sensorimoteur.
D’un point de vue matériel, le dispositif robotique est sophistiqué et assez complexe
comme le décrit Lopes et al. [2013] (5 actionneurs, 6 capteurs), mais demeure en parfaite
adéquation avec notre définition de l’encorporation. Pour calculer l’erreur entre
le but généré à atteindre et le point de l’espace réellement atteint, nous nous basons
sur la comparaison de la fréquence du son telle qu’elle est mesurée avant d’entrer dans
l’instrument, ce qui donne une meilleure précision sans pour autant altérer la mesure.
2. Citations extraite d’un sujet de stage de Master 2, encore disponible en octobre 2013 à l’adresse
http://www-master.ufr-info-p6.jussieu.fr/2011/Modelisation-commande-et116 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
Figure 5.8: Photographie du dispositif de bouche artificielle utilisable par la plateforme
FIMO pour mener à bien des expérimentations sur un robot physique.
5.4.4 Récapitulatif
Le tableau 5.2 expose un résumé des différentes encorporations proposées dans
FIMO et présente leurs points communs et leurs différences.
Encorporation obst. % att. |s| |m|
Simulation
Véhicule Mono-Roue (VMR) ∅ 100 1 1
VMR ∅ 90 1 1
VMR bump 100 1 1
Véhicule Deux Roues (VDR) ∅ 100 2 2
VDR multiples obstacles carrés 80 2 2
VDR triangles inaccessibles 80 2 2
Bras robotique (BR) à 1 articulation ∅ 10 2 1
BR à 2 articulations ∅ 10 2 2
BR à 3 articulations ∅ 10 2 3
BR à 15 articulations ∅ 10 2 15
Physique
Bouche Artificielle ∅ 10 2 2
Tableau 5.2: Résumé des principales encorporations proposées dans FIMO et de leurs
caractéristiques propres (obst. désigne les obstacles présents, % att le pourcentage de
la zone atteignable, |s| et |m| respectivement le nombre de dimensions sensorielles et
motrices).5.5. ASPECTS TECHNIQUES DE L’EXPÉRIMENTATION 117
5.5 Aspects techniques de l’expérimentation
Il existe de multiples manières d’utiliser FIMO. La première est de l’utiliser depuis
l’extérieur en employant la ligne de commande. La seconde est d’accéder à l’interface de
programmation directement en utilisant le langage Python. Nous présentons dans cette
section des exemples d’utilisation de FIMO dans ces deux catégories à la fois en ce qui
concerne le fichier fimo.py ainsi que le système de comparaisons offert par le fichier
compare.py.
5.5.1 Exemples d’utilisation de FIMO en ligne de commande
Pouvoir manipuler FIMO à l’aide de la ligne de commande était une volonté ancrée
dès le départ. Cela dans le but de permettre une utilisation extérieure massive suffisamment
simple et puissante sans avoir à programmer quoi que ce soit. Nous présentons
ci-dessous les options disponibles pour l’exécution du programme, telles qu’elles sont
présentées dans l’aide en ligne de commande. Comme déjà expliqué, le programme est
très configurable, et c’est même l’objet de la plateforme que de permettre l’exploration
de l’influence de ces paramètres.
En pratique, le programme dispose d’une vingtaine de paramètres configurables
concernant directement la boucle motivationnelle, de cinq métriques pouvant être pré-
cisées, et d’un paramètre permettant de spécifier une déformation de l’espace d’exploration.
Comme déjà expliqué plus tôt, le paramétrage par défaut est défini dans le fichier
config.py. Un paramétrage précis peut bien évidemment être effectué, soit en modifiant
ce même fichier, soit directement à l’aide d’arguments passés à la ligne de commande
du fichier fimo.py. Voici quelques exemples.
# arrêt après 2000 commandes motrices sur un bras robotique à 15 jointures
python fimo.py -a=2000 Arm15LargeEnv
# idem en précisant l’étiquette pour repérer l’expérimentation en visualisation
python fimo.py -a=2000 --label="mon_expe" Arm15LargeEnv
# idem en précisant une distorsion de l’espace d’exploration
python fimo.py -q -a=2000 --label="ma_distortion" --distortion="Hx**2+Hy**2" Arm15LargeEnv
Les deux premiers exemples vont en réalité lancer l’interface interactive de FIMO.
Il faudra alors suivre les instructions à l’écran pour pouvoir interagir correctement avec
l’agent. Par exemple pour lancer l’expérimentation avec la touche l, lancer une phase
d’examen avec la touche e. La figure 5.9 présente une copie d’écran de FIMO en mode
interactif. Le troisième exemple quant à lui permet de lancer, grâce à l’option -q, une
expérimentation de manière silencieuse, sans rien afficher à part le score d’évaluation.
Par souci d’exhaustivité, ci-dessous vous est présentée l’aide du programme en ligne de118 CHAPITRE 5. FIMO: UNE PLATEFORME D’EXPÉRIMENTATIONS
Figure 5.9: Copie d’écran de FIMO en mode interactif.
commande dans le but d’illustrer toutes les possibilités de manipulation de FIMO.
usage : fimo . py [ - h ] [- t TIMES ] [ - a STOP_AT_ACTIONS ] [- g STOP_AT_GOALS ] [- l ]
[ - q] [ - e EXAM_FILE ]
[ - - split_ratio_threshold SPLIT_RATIO_THRESHOLD ]
[ - - structuring STRUCTURING ] [ -- max_subregions MAX_SUBREGIONS ]
[ - - k_for_knn K_FOR_KNN ] [ -- exam_freq EXAM_FREQ ]
[ - - merge_ratio_threshold MERGE_RATIO_THRESHOLD ]
[ - - lp_type LP_TYPE ] [ -- label LABEL ]
[ - - interest_type INTEREST_TYPE ]
[ - - exploration_trials EXPLORATION_TRIALS ]
[ - - adjust_ratio_threshold ADJUST_RATIO_THRESHOLD ]
[ - - incompetent INCOMPETENT ] [ -- auto_multi_rep AUTO_MULTI_REP ]
[ - - exam_reaching_trials EXAM_REACHING_TRIALS ]
[ - - experimented EXPERIMENTED ] [ - - enrich_goals ENRICH_GOALS ]
[ - - selection_type SELECTION_TYPE ]
[ - - max_reaching_trials MAX_REACHING_TRIALS ]
[ - - interest_window INTEREST_WINDOW ] [- - precision PRECISION ]
[ - - generate_action GENERATE_ACTION ]
[ - - split_exp_threshold SPLIT_EXP_THRESHOLD ]
[ - - competence_type COMPETENCE_TYPE ] [- - competent COMPETENT ]
[ - - full_random_values FULL_RANDOM_VALUES ] [ - - score SCORE ]5.5. ASPECTS TECHNIQUES DE L’EXPÉRIMENTATION 119
[ - - split_type SPLIT_TYPE ] [ - - reset RESET ]
[ - - merge_type MERGE_TYPE ] [ - - accomplishment ACCOMPLISHMENT ]
[ - - min_exp_in_region MIN_EXP_IN_REGION ]
[ - - small_random_values SMALL_RANDOM_VALUES ] [- - mode MODE ]
[ - - context CONTEXT ] [ -- normalize_interest NORMALIZE_INTEREST ]
[ - - interest INTEREST ] [ - - split SPLIT ] [ - - merge MERGE ]
[ - - competence COMPETENCE ] [ - - distance DISTANCE ]
[ - - distortion DISTORTION ]
emb
positional arguments :
emb Embodiment you want to experiment
optional arguments :
-h , -- help show this help message and exit
>> Main options :
-t TIMES Number of times you want to experiment it
-a STOP_AT_ACTIONS stop , exit and dump experiment after STOP_AT actions
reaching
-g STOP_AT_GOALS stop , exit and dump experiment after STOP_AT goals
reaching
-l launch experiment right away
-q launch experiment right away in quiet mode
-e EXAM_FILE file specifying examination goals to reach ( each line
representing a goal respecting the form
dim_1@val_1 ;...; dim_n@val_n )
>> Global configuration :
-- split_ratio_threshold SPLIT_RATIO_THRESHOLD
number / string
-- structuring STRUCTURING
number / string
-- max_subregions MAX_SUBREGIONS
number / string
-- k_for_knn K_FOR_KNN
number / string
-- exam_freq EXAM_FREQ
number / string
-- merge_ratio_threshold MERGE_RATIO_THRESHOLD
number / string
-- lp_type LP_TYPE number / string
-- label LABEL number / string
-- interest_type INTEREST_TYPE
number / string
-- exploration_trials EXPLORATION_TRIALS
number / string
-- adjust_ratio_threshold ADJUST_RATIO_THRESHOLD
number / string120 CHAPITRE 5. FIMO: UNE PLATEFORME D’EXPÉRIMENTATIONS
-- incompetent INCOMPETENT
number / string
-- auto_multi_rep AUTO_MULTI_REP
boolean
-- exam_reaching_trials EXAM_REACHING_TRIALS
number / string
-- experimented EXPERIMENTED
number / string
-- enrich_goals ENRICH_GOALS
boolean
-- selection_type SELECTION_TYPE
number / string
-- max_reaching_trials MAX_REACHING_TRIALS
number / string
-- interest_window INTEREST_WINDOW
number / string
-- precision PRECISION
number / string
-- generate_action GENERATE_ACTION
number / string
-- split_exp_threshold SPLIT_EXP_THRESHOLD
number / string
-- competence_type COMPETENCE_TYPE
number / string
-- competent COMPETENT
number / string
-- full_random_values FULL_RANDOM_VALUES
boolean
-- score SCORE number / string
-- split_type SPLIT_TYPE
number / string
-- reset RESET boolean
-- merge_type MERGE_TYPE
number / string
-- accomplishment ACCOMPLISHMENT
number / string
-- min_exp_in_region MIN_EXP_IN_REGION
number / string
-- small_random_values SMALL_RANDOM_VALUES
number / string
-- mode MODE number / string
-- context CONTEXT boolean
-- normalize_interest NORMALIZE_INTEREST
boolean
>> Metrics :
-- interest INTEREST Computes the learning progress for a given region
( lambda expression )
-- split SPLIT Returns the measure of splitting computed from r1 and5.5. ASPECTS TECHNIQUES DE L’EXPÉRIMENTATION 121
r2 ( lambda expression )
-- merge MERGE None ( lambda expression )
-- competence COMPETENCE
Computes a competence for given start , goal and final
states ( lambda expression )
-- distance DISTANCE Computes the distance between two given states ( lambda
expression )
>> Exploration space :
-- distortion DISTORTION
distortion lambda applied to explored space
5.5.2 Exemples d’utilisation de FIMO en pur Python
De manière plus pure, il est également tout à fait possible de manipuler FIMO directement
dans le langage dans lequel il a été programmé, à savoir Python. Le morceau
de code source ci-dessous présente différents exemples d’instanciation d’un objet de la
classe Agent.
1 # !/ usr / bin / python
# -* - coding : utf -8 -* -
3 # Licensed under the GNU General Public License , see COPYING
5 import embodiments
from core . agent import Agent
7
’’’
9 Differents exemples d ’ instanciations possibles d ’ un agent . L ’ idee
generale ici est d ’ ajouter tous les agents dans un tableau pour
11 pouvoir lancer les experimentations en une seule passe .
’’’
13
agents = []
15
# bras robotique avec structuration standard
17 agents += [ Agent ( embodiments . Arm15LargeEnv () ]
19 # bras robotique avec structuration de type grappe
agents += [ Agent ( embodiments . Arm15LargeEnv () , label =’ clust ’,
structuring =’ clustering ’) ]
21
# bras robotique avec distorsion de l ’ espace d ’ exploration et
structuration standard
23 agents += [ Agent ( embodiments . Arm15LargeEnv ( distortion =’ Hx **2+ Hy **2 ’) ,
label =’ squared_dim ’) ]122 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
25 # bras robotique avec segments de taille decroissante
agents += [ Agent ( embodiments . Arm15LargeEnv ( limbs =[6.5 , 6.0 , 5.5 , 5.0 ,
4.5 , 4.0 , 3.5 , 3.0 , 2.5 , 2.0 , 1.5 , 1.0 , 0.5]) , label =’ decreasing ’) ]
27
# parcours du tableau pour lancer les experimentations !
29 for i in xrange (len( agents ) ) :
# chaque agent 10 fois
31 for t in xrange (10) :
print agents [i ]. go ( actions =3000)
Listing 5.1: Différents exemples de manipulation de fimo directement à l’aide du
langage python
Comme vous pouvez le constater, pour lancer une première expérimentation il faut
très peu de lignes de code. Il suffit d’importer les paquets embodiments et core.agent ;
puis il faut instancier un encorporation ainsi qu’un Agent. Enfin il suffit d’appeler la
méthode go() de l’agent en précisant le nombre d’actions qu’il doit effectuer avant de
s’arrêter.
Pour rentrer un peu plus dans les détails, il est possible de passer différents paramètres
à l’instanciation d’une encorporation ou d’un agent. On peut par exemple fournir
à l’encorporation une distorsion de son espace sensoriel afin d’explorer un nouvel espace
peut-être plus adéquat (cf. la section 4.5.1 où nous introduisons cette idées). En ce qui
concerne l’agent, il est possible de lui fournir trois choses : une étiquette pour mieux
identifier cette expérimentation a posteriori (label), la méthode de structuration de
l’espace si besoin (structuring prenant les valeurs none, dimensional, centroidal,
cf. section 4.4.3, ou encore pca, cf. section 4.5.2) et une configuration particulière désirée
(par rapport aux variables définies dans le fichier config.py).
Par ailleurs, afin de donner la possibilité de faire des expérimentations en
plusieurs fois, nous avons implémenté un mécanismes de sauvegarde d’une expérimentation
en l’état. C’est notamment extrêmement utile dans le cas où
l’on travaille avec des robots physiques, puisque cela permet de continuer à
différents moments une expérimentation. Cela se fait à l’aide des instructions
cPickle.dump(agent, open(’fichier_sauvegarde’, ’w’)) pour sauvegarder un
agent, et Agent.load(’fichier_sauvegarde’) pour le charger. Une fois chargé,
l’agent est manipulable comme déjà présenté dans le listing ci-dessus.5.5. ASPECTS TECHNIQUES DE L’EXPÉRIMENTATION 123
5.5.3 Exemples d’utilisation du patron de comparaison
Il s’agit de créer un nouveau fichier contenant une classe qui propose des méthodes
dont le nom commence par compare_ pour que celles-ci soient automatiquement identifiées
et lancées par le script compare.py à la racine.
# !/ usr / bin / python
2 # -* - coding : utf -8 -* -
# Copyright 2014 Fabien Hervouet
4 # Licensed under the GNU General Public License , see COPYING
6 import embodiments
from compare import Compare
8 from core . agent import Agent
10 # #######################################################
12 class CompareMode ( Compare ) :
14 def __init__ ( self , actions , times ) :
Compare . __init__ ( self , actions )
16 # number of times to run for average
self . times = times
18
’’’
20 arm15 with mode = ’ mbe ’
’’’
22 def compare_mbe ( self ) :
scores = []
24 for _ in range ( self . times ) :
emb = embodiments . Arm15LargeEnv ()
26 agent = Agent ( emb , label =’ mbe ’, configuration ={ ’ mode ’: " ’ mbe ’"})
scores += [ self . go ( agent )]
28 return scores
30 ’’’
arm15 with mode = ’ gbe ’
32 ’’’
def compare_gbe ( self ) :
34 scores = []
for _ in range ( self . times ) :
36 emb = embodiments . Arm15LargeEnv ()
agent = Agent ( emb , label =’ gbe ’, configuration ={ ’ mode ’: " ’ gbe ’"})
38 scores += [ self . go ( agent )]
return scores
Listing 5.2: Squelette pour automatiser des tests comparatifs.124 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
5.6 Visualisation de données
Cette section présente différents aspects du module de visualisation. Certains ont
déjà pu être dévoilés dans les chapitres précédents. D’autres sont moins essentiels mais
nécessitent tout de même qu’on s’y attarde quelque peu pour montrer les possibilités
offertes par FIMO.
5.6.1 Interface utilisateur
L’interface d’utilisation du module de visualisation est extrêmement simple. Elle
propose une interface en mode texte qui s’appuie, comme tous les modules interactifs
disponibles dans FIMO, sur la bibliothèque d’affichage ncurses. Une fois lancé avec
la commande minimale python visu.py, le module de visualisation affiche les expérimentations
existantes sous forme de tableau, similairement à ce que présente la figure
5.10. Chaque ligne représente une expérimentation, les colonnes affichées permettant de
donner quelques informations sur celles-ci.
Figure 5.10: Copie d’écran du module interactif de visualisation disponible dans FIMO.
À partir de cette interface, il est possible d’étudier le comportement des agents
durant les expérimentations. Quelques raccourcis clavier sont donnés directement pour5.6. VISUALISATION DE DONNÉES 125
faciliter l’utilisation. Pour connaître les autres il faut consulter l’aide grâce à la touche
h. Le tableau 5.3 présente les raccourcis disponibles.
Touche Action déclenchée
a Sélectionner (ou déselectionner) toutes les expérimentations
d Supprimer l’expérimentation courante définitivement
e Tracer la courbe d’examen pour l’expérimentation courante
E Sélectionner toutes les expérimentations pour l’encorporation courante
f Tracer l’évolution sensorimotrice pour l’expérimentation courante
g Afficher les buts générés pendant l’expérimentation courante
gg Remonter à la première expérimentation de la liste
G Descendre à la dernière expérimentation de la liste
I Afficher tous les paramètres pour l’expérimentation courante
k Tracer la courbe des examens pour chaque question-but
L Sélectionner toutes les expérimentations pour l’étiquette courante
m Tracer la courbe moyenne des examens des expérimentations sélectionnées
n Relancer une expérimentation suivant les paramètres de celle courante
q Quitter le programme de visualisation
r Dessiner les régions pour l’expérimentation courante
s Tracer la courbe lissée des examens pour l’expérimentation courante
u Rafraîchir la liste des expérimentations disponibles
v Équivalent à r+g+e pour l’expérimentation courante
/ Sélectionner les expérimentations correspondant à un patron
Tableau 5.3: Différents raccourcis clavier disponibles lors de l’utilisation du module de
visualisation.
5.6.2 Quelques exemples de visualisation
Cette section présente un panel des visualisations offertes par FIMO. Ainsi la figure
5.11 présente quatre types d’informations sur les buts générés par l’agent : les buts
générés dans l’espace (en haut à gauche), le découpage en sous-régions (en haut à
droite), l’évolution de buts générés dans des fenêtres de temps bien précises (en bas à
gauche), et les buts et leur compétence (en bas à droite). Les points bleus représentent
les questions posées lors de l’examen.
La figure 5.12 représente les points réellement expérimentés dans l’espace, c’est-à-
dire les données brutes acquises par l’agent au cours de l’expérimentation. On peut
d’ailleurs remarquer que l’agent se retrouve visiblement plus souvent sur les bords de
la zone atteignable.126 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
Figure 5.11: Différentes manières de visualiser les buts générés par l’agent au cours
d’une expérimentation.
Figure 5.12: Visualisation des données brutes après une expérimentation.
Un autre type d’information qu’il nous importe de présenter est l’évolution des
valeurs sensorimotrices au cours de l’expérimentation. Cela montre comment l’agent
utilise ses capacités sensorimotrices. C’est l’objet de la figure 5.13.
Enfin, il est possible d’activer un mode verbose pendant une expérimentation pour
obtenir davantage d’informations, notamment pour visualiser le spectre des valeurs des5.6. VISUALISATION DE DONNÉES 127
Figure 5.13: Visualisation de l’évolution des valeurs pour les capteurs et les moteurs
après expérimentation.
découpes pour chacune des dimensions de la région considérée. C’est ce que montre la
figure 5.14. À gauche, chaque courbe indique les valeurs de la métrique pour chacune des
dimensions de l’espace exploré (en l’occurrence Hx et Hy), en échantillonnant dans les
bornes de la région considérée. Le trait noir horizontal représente le seuil pour valider
une découpe. À droite, ce sont les buts générés dans la région qui sont affichés pour
mieux comprendre la correspondance avec les valeurs de la métrique.
5.6.3 Exploiter les fichiers journaux
Les visualisations que nous proposons par défaut se basent sur une analyse des
fichiers journaux qui représentent toutes les informations collectées par l’agent au cours
de l’expérimentation. Il est important de préciser que ces fichiers ont été pensés pour
être exploitables en dehors de l’outil de visualisation que nous proposons. Le format de
ces fichiers est du type CSV, mis à part qu’un fichier contient plusieurs expérimentations.
Nous présentons ci-après des extraits de certains fichiers journaux pour montrer qu’il
est facile de les réutiliser dans n’importe quel tableur par exemple. Tout d’abord l’entête
pour une même expérimentation est la même dans tous les fichiers journaux. Il
contient la date d’expérimentation, ainsi que différentes informations comme l’encorporation
utilisée, le temps d’expérimentation, et tous les autres paramètres issu du fichier
config.py.
====================================================================== 11_Feb_00h21
embodiment;_experimental_time;competence_type;label;max_reaching_trials;...128 CHAPITRE 5. FIMO: UNE PLATEFORME D’EXPÉRIMENTATIONS
Figure 5.14: Spectre des valeurs de la métrique utilisée pour déterminer si il est judicieux
de découper la région considérée.
Arm15LargeEnv;0:00:27.395092;1;0.5-competent;5;...
Les examens sont formatés de manière à avoir sur chaque ligne l’information du
point dans l’espace (comme pour le fichier de questions), puis après le symbole € les
différentes notes (compétence / distance) d’atteinte de cet objectif.
Hx@-8.33;Hy@37.63€0.509575666682/32.5001684807;0.664949296548/22.2036378948;...
Hx@28.1;Hy@29.01€0.551405551024/15.5095483105;0.597626955631/13.9115055586;...
Hx@-28.55;Hy@18.2€0.700766713296/22.971644971;0.918442149049/6.26106145241;...
Hx@39.67;Hy@10.99€0.571555295612/5.66159467381;0.736186870974/3.48610448647;...
Hx@30.43;Hy@18.37€0.679463400538/7.83602147741;0.660279942142/8.30499129944;...
Les données brutes regroupent directement les transitions dans l’espace exploré depuis
un point de départ i_*, jusqu’à un point f_* par une configuration motrice, c’est-à-
dire un ensemble de valeurs pour chacune des dimensions motrices a_*. De plus l’action
peut être explorative ou bien être utilisé explicitement pendant une tentative d’atteinte
d’un but.
explorative;i_Hx;i_Hy;a_m0;...;a_m14;f_Hx;f_Hy
False;45.0;0.0;-11.0;...;11.5;26.0;4.5;4.5;6.0;32.13882;-29.66266
False;32.13882;-29.66266;-4.0;...;4.0;-4.76442;-39.790785.7. CONCLUSION 129
False;-4.76442;-39.79078;0.0;...;8.0;44.03175;-2.15399
False;44.03175;-2.15399;-5.0;...;6.0;43.29367;-2.85007
False;43.29367;-2.85007;-6.7;...;5.3;34.45868;-24.96753
Pour les buts générés, on trouve tout d’abord un entête spécifique qui sert à donner
une significations aux valeurs en dessous. Les colonnes du type i_* représentent l’état
de départ, g_* le point à atteindre, a[i]_* les valeurs des actionneurs compte-tenu du
nombre d’actions maximal attribué pour l’atteinte du but, et f_* l’état d’arrivée une
fois les actions effectuées. On peut noter l’attribut artificial qui indique si le but était
un but généré ou bien réattribué parce que non atteint, ainsi que l’attribut competence
qui donne la valeur finale de compétence pour l’atteinte de ce but.
timestamp;i_Hx;i_Hy;g_Hx;g_Hy;a1_m11;a1_m10;...;f_Hx;f_Hy;artificial;comp
1;45.0;0.0;-43.0;-109.5;29.0;-16.0;...;-4.1761;9.92018;False;0.11242727804
2;45.0;0.0;81.5;-121.5;-4.6;-2.0;...;-4.97067;-4.36353;False;0
3;45.0;0.0;78.5;66.0;-2.8;-10.7;...;43.37854;10.42;False;0.518634674029
4;45.0;0.0;-4.0;-130.5;-1.9;-2.0;...;-6.50638;-31.91255;False;0.129612707032
Enfin les informations à propos des régions sont sauvegardées avec les attributs birth
pour la date de naissance de la région (au bout de combien d’actions), len(exp) pour le
nombre de buts appartenant à la région, last_interest la valeur d’intérêt, ainsi que les
*_up et *_low pour expliciter les bornes des régions pour chaque dimension de l’espace
exploré.
birth;len(exp);last_interest;Hx_low_0;Hx_up_0;Hy_low_0;Hy_up_0
42;46;7.70341529704e-05;-135.0;135.0;-135.0;-35.0
149;15;0.00658664682288;-135.0;135.0;-34.49999;-24.5
149;8;0.00325845401703;-135.0;135.0;-23.99999;-22.5
142;17;0.0030769959908;-135.0;135.0;-21.99999;0.0
187;7;0.0390185640459;-135.0;20.0;0.50001;2.0
5.7 Conclusion
Nous avons présenté dans ce chapitre la plateforme FIMO que nous avons développée
pour les besoins de nos travaux. Cette plateforme réunit finalement notre propre
besoin individuel d’expérimentation à celui, plus collectif, de proposer un réel cadre
logiciel permettant d’introduire de nouvelles idées, de les implémenter et surtout de
les tester selon un protocole commun. En cela, elle formule tout à la fois une ambition
et une volonté de faire progresser la communauté de robotique développementale dans
laquelle nous nous inscrivons.
Au-delà, les avantages de FIMO résident dans les nombreuses options configurables ;
dans les différentes encorporations proposées et la facilité d’intégration de nouvelles130 CHAPITRE 5. FIMO : UNE PLATEFORME D’EXPÉRIMENTATIONS
qu’elles soient physiques ou simulées ; dans les multiples façons de lancer des instances
de boucles motivationnelles (ligne de commande, pur Python) ; dans les facilitations
pour l’expérimentation comparative avec un module dédié. Le module de visualisation
permet également de mieux étudier les différences expérimentales. Le prochain chapitre
est dédié à l’étude expérimentale du modèle motivationnel décrit au chapitre 3 et des
contributions proposées au chapitre 4, en utilisant à cet effet la plateforme FIMO.C h a p i t r e
6
Expérimentations
6.1 Introduction
Ce chapitre propose d’explorer le fonctionnement du modèle présenté au chapitre
3 d’un point de vue pratique. Cela afin d’en montrer les avantages et les limites, pour
tout simplement comprendre au mieux les enjeux de la motivation dans les systèmes
artificiels. Par ailleurs nous y validons ou invalidons les idées et contributions théoriques
présentées dans le chapitre 4 concernant les formes alternatives de structuration de l’espace
exploré. Les expérimentations ont été réalisées sur la plateforme FIMO que nous
avons développée à cet égard et que nous avons présentée dans le chapitre 5. Certaines
de ces expérimentations concernent directement de nouvelles métriques (intérêt, compétence),
d’autres concernent de nouveaux mécanismes (ajustement, fusion). D’autres
enfin sont plus orientées sur une étude paramétrique (seuils) permettant d’étudier l’optimisation
des mécanismes.
6.1.1 Dispositif expérimental
Pour évaluer l’impact de nos contributions, nous avons mené nos expérimentations
sur un bras robotique implémenté dans FIMO (cf. section 5.4.2) et utilisé pour des recherches
connexes [Baranes et Oudeyer, 2010a, 2013; Santucci et al., 2013] pour évaluer
les heuristiques de motivation intrinsèque. Les expérimentations montrent une moyenne
faites à partir de 5 exécutions pour 1000 actions motrices. Empiriquement, la stabilité
des courbes commence au bout de 500 actions, c’est pourquoi nous limitons les exécutions
au double de ce nombre. La zone atteignable est centrée sur (0; 0) et s’étale de
131132 CHAPITRE 6. EXPÉRIMENTATIONS
manière circulaire dans un rayon de 45 unités. Cette zone est plongée dans un espace
représenté par les dimensions Hx et Hy, variant toutes deux dans l’intervalle [−135; 135].
Cela signifie que la zone atteignable représente environ 10% de l’espace total. L’examen
est constitué de 100 questions qui sont réparties uniformément dans l’espace atteignable
par le bras robotique. Le schéma de la figure 6.1 synthétise tout cela.
(0; 0) Hx
Hy
Figure 6.1: Schéma de l’espace d’exploration du bras robotique à 15 jointures.
6.1.2 Résultat préliminaire
Dès la section 3.1.2 du chapitre 3, nous avions présenté les deux approches concurrentes
pour l’exploration par babillage sensorimoteur. La première proposait d’explorer
l’espace moteur (Motor-Babbling Exploration), quand la seconde s’intéressait à l’exploration
de l’espace sensoriel (Goal-Babbling Exploration). Nous avions écarté la première
pour travailler à l’amélioration de la seconde, puisque de précédentes recherches avaient
mis en avant son efficacité en terme d’apprentissage. C’est pourquoi, pour calibrer et
valider l’implémentation de notre plateforme, nous avons mené des expérimentations
concernant ces deux approches.
La figure 6.2 montre les résultats de la comparaison entre l’approche GBE et l’approche
MBE, donnant un très net avantage à la première. Chaque courbe expérimentale
est constituée d’un ensemble de points qui répercutent le note obtenue lors d’un examen
de 100 questions, réparties uniformément dans l’espace atteignable. Nous affichons la
moyenne sur les 5 exécutions, avec l’écart type obtenu. Ainsi, un premier examen a été
effectué dès le départ, puis toutes les 100 actions réalisées. Nous pouvons observer une
valeur de 12 pour le GBE après 100 actions (écart type de 3) et de 25 pour le MBE (écart
type 4). On peut ensuite noter une décroissance respective des deux courbes jusqu’à,
respectivement, des valeurs de 7 et 17 au dernier examen, c’est-à-dire après 1000 actions.6.1. INTRODUCTION 133
Figure 6.2: Comparaison entre l’approche MBE et l’approche GBE.
La légende de la figure donne notre indicateur d’aire sous la courbe (AUC pour Area
Under Curve) : 87 pour GBE et 205 pour MBE. Comme précédemment annoncé, on
note que dès 500 actions réalisées, le seuil de compétence du bras robotique est atteint
et sa performance reste stable. La distinction claire entre ces deux courbes constitue un
premier élément qui nous permet de valider en partie notre approche.
6.1.3 Plan du chapitre
Ce chapitre s’organise en trois points reflétant les résultats obtenus par rapport aux
contributions proposées dans le manuscrit. Nous commençons par présenter en détail
les résultats positifs en les illustrant. Nous regroupons ensuite dans une seconde partie
les résultats mitigés représentant les éléments contributifs que le processus expérimental
n’a pas permis de valider. Enfin, nous en déduisons une solution permettant de délé-
guer l’optimisation de paramètres et la recherche de nouvelles métriques à un processus
évolutionnaire.134 CHAPITRE 6. EXPÉRIMENTATIONS
6.2 Résultats positifs
Cette section est dédiée à la présentation des résultats expérimentaux positifs obtenus
venant confirmer l’intérêt d’un certain nombre de nos contributions. Nous exposons
ces résultats de manière à aborder en premier lieu les éléments essentiels validant le
modèle général. Puis nous passons en revue les paramétrages et métriques importants
pour une bonne mise en œuvre de ce modèle.
6.2.1 Position de repos
Commençons par l’étude de la position de repos (ligne 2 de l’algorithme 1 page 69).
Il ne s’agit pas à proprement parler d’une contribution, mais de la mise en évidence de
l’importance d’éléments de haut niveau du processus développemental. Comme l’indique
la figure 6.3, nous observons une très nette différence entre le fait de donner la possibilité
à l’agent d’évoluer librement de manière continue dans son environnement, et le fait de
repositionner le bras après chaque tentative d’atteinte à la position (x = 45; y = 0).
Cela correspond aux valeurs absolues θi = 0 pour chacune des jointures du bras. Dans
le cas de non-repositionnement, le bras essaye d’atteindre un nouveau but à partir de
la position où il est arrivé en essayant d’atteindre le but précédent.
Figure 6.3: Résultats d’expérimentations pour l’activation/désactivation de la position
de repos.
Les résultats donnent un très net avantage au fait de permettre au bras de se re-6.2. RÉSULTATS POSITIFS 135
positionner au même endroit après chaque tentative. En effet, les transitions apprises à
partir d’un point unique donnent très rapidement (une centaine d’actions motrices) une
avance forte en réussite à l’examen (10 points). Cela s’explique par le fait que revenir à
une position de repos permet de mieux réutiliser l’apprentissage, notamment grâce à la
boucle d’exploration locale que nous étudions ci-après en section 6.2.2.
6.2.2 Exploration locale
Le modèle motivationnel présenté dans le chapitre 3 est basé sur trois boucles
imbriquées. Une boucle générale qui génère des buts, une boucle qui permet d’atteindre
ceux-ci, ainsi qu’une boucle d’exploration locale.
Figure 6.4: Résultats expérimentaux pour l’activation/désactivation de la boucle d’exploration
locale.
La figure 6.4 teste l’importance de cette troisième boucle (lignes 14 à 19 de l’algorithme
1). Elle montre clairement une différence de qualité d’apprentissage entre des
instances sans exploration locale par rapport à des instances avec un quota d’exploration
locale fixé à 5 (20 points d’écart). On peut expliquer ce phénomène en rappelant
que l’acquisition de données permettant l’apprentissage se fait à la fois pendant les
tentatives d’atteintes et pendant les phases d’exploration locale lancées en cas de trop
mauvaise compétence.136 CHAPITRE 6. EXPÉRIMENTATIONS
Quota d’exploration p 0 1 2 3 4 5 6 7 8 9 10 15 20
Nombre d’AA 1000 690 532 397 331 286 277 204 217 177 178 121 92
Nombre d’AE 0 310 468 603 669 714 723 796 783 823 822 879 908
Nombre de BG 172 122 93 69 57 50 49 35 39 31 32 22 16
Tableau 6.1: Tableau regroupant le nombre total d’actions effectuées. AA pour actions
d’atteinte et AE pour actions d’exploration, BG pour buts générés. Les colonnes en gras
représentent les deux courbes de la figure 6.4.
Étant donné que nous rapportons les courbes de la figure 6.4 en terme de nombre
d’actions effectuées, cela explique la différence entre les deux cas : les transitions apprises
grâce à l’exploration locale apportent de la qualité et de la diversité qui permettent à
l’agent une meilleure compétence générale sur tout l’espace apprenable. De plus étant
donné que cette expérimentation utilise la position de repos présentée dans la section
précédente, ces transitions apprises au cours de phases d’exploration lui permettent de
mieux rebondir pour affiner son chemin.
À titre explicatif, le tableau 6.1 présente les valeurs moyennes pour les indicateurs
tels que le nombre d’actions d’exploration (AE) issues directement de l’exploration locale
par rapport au nombre d’actions d’atteinte (AA). Les valeurs reportées sont pour 13
valeurs de p expérimentalement testées. On y constate une corrélation linéaire entre le
quota d’exploration p et le pourcentage d’actions d’exploration (facile à calculer puisque
le nombre total d’actions vaut 1000), et a fortiori avec le nombre de buts générés. Le
pourcentage des actions d’exploration locale augmente avec p, quand au contraire le
nombre de buts générés diminue. Notre interprétation est que les transitions apprises
grâce à l’exploration locale sont extrêmement importantes pour la bonne raison qu’elles
sont aléatoires à partir d’un point fixe. Elles offrent donc la possibilité d’apprendre au
mieux à sortir d’un point pour aller dans la bonne direction. Sans ce mécanisme, l’accumulation
de transitions est uniquement guidé par l’atteinte, dont la diversité des actions
générées est amoindrie par la technique de calcul de moyenne utilisée. L’exploration apporte
une diversité qui n’est pas compensable uniquement par l’atteinte.
6.2.3 Quota de tentatives d’atteinte
Pour atteindre un point particulier de l’espace d’exploration, c’est-à-dire réussir à
effectuer les bonnes actions pour se retrouver dans un état particulier, l’agent dispose
d’un quota maximum de q actions consécutives. Nous avons étudié l’impact de la valeur
de q sur la performance d’apprentissage du système. Pour rappel, le fonctionnement
de l’atteinte d’un but est illustré conjointement par les tableaux 6.2 et 6.3 et la figure
6.5. Dans l’exemple présenté, tiré d’une véritable expérimentation, 192 actions motrices
ont déjà été exécutées. La position de départ s
192 = (45; 0), le but est γ
192 = (10; 34.5).6.2. RÉSULTATS POSITIFS 137
Celui-ci est atteint en quatre actions motrices (pour un maximum de q = 6), puisque
la compétence κ
192 = 0.95 ≥ 0.9, c’est-à-dire avec une tolérance d’atteinte comp = 0.1
(cf. section 6.2.4).
t Hx Hy
192 45 0
193 40.54 11.56
194 28.70 19.45
195 9.21 34.51
Tableau 6.2: Trajectoire effectuée en quatre actions en partant d’un point (45; 0) pour
tenter d’atteindre le point (10; 34.5), pour finalement arriver au point (9.21; 34.51). Les
coordonnées Hx et Hy de chaque ligne correspondent au point d’arrivée par exécution
de l’action relative sur la ligne précédente.
t m0 m1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m11 m12 m13 m14
192 16.2 10.5 18 11 -0.2 1.8 6 7.2 5 13.7 16.2 -6.6 15.6 -4.8 -14.7
193 -18.8 -11.1 20.9 8.5 7.9 -15.3 -0.3 13.9 -0.8 -15.5 1.3 12.6 9.5 -16.5 -19.8
194 -7 -5.2 9.5 3.5 1.4 -9.8 -4.2 9.6 6 -9.2 -0.7 5.4 9.4 -3 -13.3
Tableau 6.3: Vecteurs des valeurs ∆ appliquées aux pas de temps 192, 193 et 194, pour
chacun des moteurs du bras robotique.
Les résultats de l’étude de l’influence de ce paramètre sont donnés par la figure 6.6.
L’inflexion des courbes de performance est sensiblement différente selon les valeurs employées.
On peut constater un étalement dans les performances en fonction des valeurs.
Plus particulièrement, entre les deux extrêmes, à savoir la courbe pour q = 10 et celle
de q = 3, l’aire sous la courbe affiche une différence de plus de 30 points (AUC= 78 pour
k = 3 et AUC= 110 pour k = 10. Pour autant, les résultats à la dernière évaluation au
bout de 1000 actions sont sensiblement similaires (6 pour k = 3 et 7.5 pour k = 10).
Il s’agit donc ici d’un paramètre permettant de contrôler visiblement l’accélération de
l’apprentissage.
Essayons d’analyser l’aspect quelque peu contre-intuitif du résultat exposé tendant
à montrer que disposer d’un quota plus petit semble plus efficace. La raison qui
nous semble la plus explicative est que cet aspect est extrêmement lié à la boucle
d’exploration locale, ainsi qu’à la représentation temporelle basée sur le nombre d’actions.
En effet au départ, un agent qui n’a aucune expérience va utiliser la totalité
de son quota de tentatives q. De plus il va lancer des explorations locales après chacune
d’elle étant donné son inexpérience. Donc on peut en déduire que moins l’agent
dispose de connaissances, plus il va effectuer d’actions. Cela va en quelque sorte lui138 CHAPITRE 6. EXPÉRIMENTATIONS
Hx
Hy
(0; 0)
s
192
s
193
s
194
s
γ 195
192
Figure 6.5: Trajectoire effectuée en trois actions en partant d’un point s
192 en (45; 0)
pour tenter d’atteindre le point γ
192 en (10; 34.5), pour finalement arriver au point s
195
en (9.21; 34.51), suffisamment proche du but pour s’arrêter.
faire prendre du retard à l’échelle du nombre d’actions par rapport à son développement.
Le tableau 6.4 donne les valeurs moyennes pour le nombre d’actions d’atteinte
(AA), le nombre d’actions d’exploration (AE) et le nombre de buts générés pour le
total des 1000 actions pour chaque valeur de q testées. On constate que le ratio entre
le nombre d’actions d’exploration et le nombre d’actions d’atteinte reste stable (70%,
30%). En revanche la diminution du nombre de buts générés devient directement liée à
l’augmentation du quota d’atteinte q, ce qui a un impact non négligeable sur la qualité
de l’apprentissage du fait d’une moins bonne structuration.
Quota d’actions q 1 2 3 5 10
Nombre d’AA 299 303 282 313 294
Nombre d’AE 701 697 718 687 706
Pourcentage d’AE 70 70 72 69 71
Nombre de buts générés 300 156 96 65 31
Nombre de buts ÷ nombre d’AA 0.99 0.51 0.34 0.21 0.11
Tableau 6.4: Tableau regroupant le nombre total d’actions effectuées. Il s’agit de valeurs
moyennes pour les 5 exécutions issues des expérimentations sur le quota d’atteinte
q présentées en figure 6.6. AA pour actions d’atteinte et AE pour actions d’exploration.6.2. RÉSULTATS POSITIFS 139
Figure 6.6: Résultats expérimentaux selon différentes valeurs de quota d’atteinte de
buts.
Ainsi, le fait de brider le quota de tentatives semble donc être vraiment positif
puisque cela semble pousser l’agent à apprendre à un rythme plus adapté. En d’autres
termes, essayer de trop apprendre d’un coup ne semble pas être une stratégie gagnante.
6.2.4 Tolérance d’atteinte
Nous avons introduit l’aspect de la tolérance d’atteinte dans la figure 3.12 (page
67) ainsi qu’à la ligne 21 de l’algorithme 1 (page 69) présentant l’architecture et le
fonctionnement global du modèle motivationnel. Par défaut, on pourrait considérer un
but comme atteint si et seulement si la valeur de compétence κ
t = 1, c’est-à-dire quand
s
t+q = γ. La notion de tolérance d’atteinte vient donner de la flexibilité à ce mécanisme
en donnant une borne inférieure à respecter tel que κ
t ≥ 1 − comp. La figure 6.7 illustre
ce mécanisme. Les trois points importants sont le point de départ s
t
, le point à atteindre
γ
t
et le point d’arrivée s
t+q
, atteint après q actions. Autour de γ
t
sont dessinés les
cercles concentriques qui représentent les différentes valeurs potentielles de comp. Ainsi,
atteindre parfaitement γ
t permet d’obtenir une compétence de 1, être dans le premier
cercle signifie avoir obtenu une compétence 0.9 ≤ κ
t ≤ 1 (comp = 0.1), le second cercle
0.8 ≤ κ
t ≤ 1 (comp = 0.2), et ainsi de suite.
Comme le montre la figure 6.8, il existe une véritable différence entre les multiples
valeurs testées pour servir de borne inférieure à la validation d’une tentative140 CHAPITRE 6. EXPÉRIMENTATIONS
s
t
γ
t
s
t+q
. . .
Figure 6.7: Illustration de la boule de compétence permettant de considérer un but
comme atteint avec une certaine tolérance comp.
Figure 6.8: Résultats expérimentaux pour l’étude du paramètre de valeur de compé-
tence minimale pour considérer un but comme atteint.
d’atteinte. Entre les courbes extrêmes, 0.5-competent en bleu (AUC= 114 et dernier
examen à 9.5) et 0.9-competent en jaune (AUC= 91 et valeur du dernier examen
à 6.8), les valeurs de dernier examen varient de presque 3 points, et les aires sous
la courbe montrent une différence de plus de 20 points. Il semblerait donc, qu’une
valeur légèrement inférieure à 1 confère un certain avantage favorisant l’accélération de
l’apprentissage : les courbes pour les valeurs 0.8 et 0.9 sont assez proches en terme de
trajectoire et d’aire sous la courbe. Nous donnons une illustration des résultats obtenus
dans la figure 6.9. Au dessus d’un certain seuil (1.0) le système est trop strict, quand
au dessous d’un autre seuil (0.7) le système peut être considéré comme trop lâche. La
forme de la courbe montre bien qu’il existe un seuil optimum (0.8 ≤ comp ^ ≤ 0.9) pour
lequel la performance (c’est-à-dire la valeur d’AUC et valeur au dernier examen) est la
meilleure, et que celle-ci diminue de part et d’autre de cette valeur d’comp.6.2. RÉSULTATS POSITIFS 141
0.5 0.6 0.7 0.8 0.9 1
7
8
9
1 − comp
Valeur finale
lâche
strict
0.5 0.6 0.7 0.8 0.9 1
90
100
110
1 − comp
AUC
lâche strict
Figure 6.9: Représentation de la performance en fonction de la valeur de tolérance
d’atteinte comp. En haut pour la valeur au dernier examen ; en bas pour la valeur
d’AUC.
Comme l’indique le tableau 6.5, le ratio du nombre de buts est proportionnel à ce
seuil de tolérance d’atteinte. Il est intéressant de remarquer que le ratio entre le nombre
de buts et le nombre d’actions d’atteinte devient supérieur à 1 si le seuil de tolérance vaut
0.5. Nous expliquons ce résultat par le fait que cette valeur de tolérance est trop faible, ce
qui implique que certains buts générés sont automatiquement considérés comme atteints
sans même avoir à effectuer d’action.
Tolérance d’atteinte 1 − comp 0.5 0.6 0.7 0.8 0.9 1.0
Nombre d’AA 254 274 286 283 279 291
Nombre d’AE 746 726 714 717 721 709
Nombre de buts générés 275 273 280 264 240 248
Nombre de buts ÷ nombre d’AA 1.07 0.98 0.97 0.92 0.86 0.83
Tableau 6.5: Tableau regroupant le nombre total d’actions effectuées. Il s’agit de valeurs
moyennes pour les 5 exécutions issues des expérimentations sur les différentes valeurs
de tolérance d’atteint 1−comp présentées en figure 6.8. AA pour actions d’atteinte
et AE pour actions d’exploration.142 CHAPITRE 6. EXPÉRIMENTATIONS
6.2.5 K plus proches voisins
Le modèle prend pour base d’apprentissage un mécanisme très simpliste qui se base
sur la fabrication d’une nouvelle action en tenant compte des transitions dans l’espace
apprises jusque-là. Ce mécanisme, déjà décrit en section 3.5.2, sélectionne parmi toutes
les transitions déjà effectuées celles qui maximisent la ressemblance avec la distance à
parcourir, et en construit une action moyenne à exécuter pour atteindre le but désiré.
Hx
t Hy
t Hx
t+1 Hy
t+1 dist
45. 0. → 41.66 -12.34 18.63
41.66 -12.34 → 39.21 -15.79 7.32
39.21 -15.79 → 35.10 -19.62 2.57
35.10 -19.62 → 28.58 -23.08 9.98
28.58 -23.08 → 23.11 -24.33 19.10
23.11 -24.33 → 17.63 -24.34 26.56
17.63 -24.34 → -13.00 -32.09 54.97
17.63 -24.34 → -7.53 -36.30 51.37
17.63 -24.34 → 17.59 -28.86 31.24
17.63 -24.34 → 15.58 -31.54 33.13
17.63 -24.34 → 7.91 -23.13 36.69
...
Tableau 6.6: Tableau des données brutes issues d’une expérimentation donnant en gras
les k = 3 meilleures transitions qui vont permettre de déterminer l’action à exécuter en
partant du point (40.41; −14.16) pour atteindre le but (34.74, −21.16).
Un exemple expérimental est présenté dans le tableau 6.6. Celui-ci représente une
partie de la mémoire de l’agent en une quarantaine de transitions. Les lignes en gras
représentent les k = 3 meilleures transitions déterminées par l’indicateur de la colonne
score, calculé comme la somme des différences entre les Ht
et le point de départ
(40.41; −14.16) d’une part, et entre les Ht+1
et le but à atteindre (34.74; −21.16) d’autre
part. La colonne la plus à droite dans le tableau 6.6 donne les valeurs de la fonction d’évaluation
permettant de sélectionner les meilleures transitions à utiliser, celles-ci ayant été
mises en gras. Pour rappel, on a :
dist(β
i
, st
, γt
) =
s
t − si
+
γ
t − si+1
(6.1)
Les comparaisons que nous avons expérimentées et que présente la figure 6.10, font
varier les valeurs du paramètre k. L’évaluation de l’impact de celui-ci peut paraître
contre-intuitive de prime abord. En effet, a priori l’on pourrait penser que plus la valeur
de k est élevée, plus l’action sera précise, puisque basée sur la moyenne statistique. Ce
n’est pas le cas puisque la courbe k = 100 en bleu sur la figure montre des performances
très nettement inférieures aux autres courbes. On constate également une équivalence
assez forte entre les courbes k = 10 et k = 1, même si la seconde montre une pente6.2. RÉSULTATS POSITIFS 143
précoce plus forte. Enfin la meilleure courbe s’instancie quand k = 5. Celle-ci gagne
plus de 100 points d’aire sous la courbe par rapport à k = 100 et plus de 10 points par
rapport aux deux autres courbes.
Figure 6.10: Résultats expérimentaux faisant varier les valeurs du k utilisé pour calculer
l’action à exécuter, c’est-à-dire le nombre de transitions en mémoire permettant de
fabriquer la nouvelle action.
Pour expliquer le fait que les courbes ne se rejoignent pas au bout de 1000 pas de
temps, nous pouvons invoquer le fait que l’on raisonne ici sur trop peu d’exemples pour
que la moyenne sur un grand échantillon soit intéressante. Il faut mieux se contenter
de faire une moyenne sur très peu d’actions afin de limiter le bruit des transitions non
satisfaisantes qui constituent un très fort pourcentage. Celui-ci étant amené à diminuer
au fur et à mesure du processus, on pourrait déterminer précisément ce moment puisqu’il
correspondra au moment où la courbe pour k = 100 rejoindra les autres.
6.2.6 Conditions de découpe
Nous avions introduit une nouvelle métrique de découpe en section 4.2.2. Nous
l’avons donc tout naturellement expérimentée. Mais afin de mener une meilleure étude,
nous en introduisons des variantes ici. Les voici toutes présentées sous l’appellation
unifiée µi
.144 CHAPITRE 6. EXPÉRIMENTATIONS
µ0 = |progrès(r1) − progrès(r2)|
µ1 =
|progrès(r1) − progrès(r2)|
progrès(Ri)
µ2 = max(progrès(r1), progrès(r2))
Dans l’ordre, elles proposent de définir la condition de découpage selon que :
— µ0 : l’intérêt relatif des sous-régions ;
— µ1 : l’interêt relatif des sous-régions considérées par rapport à la région mère ;
— µ2 : le maximum parmi les intérêts des sous-régions.
Figure 6.11: Résultats expérimentaux pour différentes valeurs de seuil pour la métrique
de découpe µ0.
Mais il ne faut pas oublier qu’une condition pour valider une découpe est que le
résultat donné par µ dépasse un certain seuil σ. Les trois figures 6.11, 6.12 et 6.13 pré-
sentent une étude sur les valeurs de seuil pour chacune des métriques de découpage µi
.
En effet, nous avions besoin pour pouvoir les comparer de mener les expérimentations
avec chaque valeur de seuil, sans quoi comparer toutes les métriques avec un même seuil
aurait été un non-sens. Les résultats sont serrés entre les différentes métriques. Néanmoins
si l’on considère la métrique µ1, elle exhibe une différence notable de presque 106.2. RÉSULTATS POSITIFS 145
points au dernier examen entre les valeurs de seuil les plus mauvaises et les meilleures,
ce qui montre l’impact de ce paramètre.
Figure 6.12: Résultats expérimentaux pour différentes valeurs de seuil pour la métrique
de découpe µ1.
Figure 6.13: Résultats expérimentaux pour différentes valeurs de seuil pour la métrique
de découpe µ2.
Si l’on considère toutes les métriques entre elles, avec un certain avantage accordé à
µ0, qui obtient les meilleures valeurs à la fois d’AUC et au dernier examen (5.0-split146 CHAPITRE 6. EXPÉRIMENTATIONS
par exemple qui a une aire sous la courbe de valeur 86.87 et son dernier examen à 5.9).
Le tableau 6.7 résume les résultats obtenus et compare les meilleures valeurs d’AUC, de
valeur au dernier examen et de seuil associé pour chacune des µi
.
µi σ^ AUC VDE
µ0 5.0 86.87 5.9
µ
0
0 2.4 91.62 6.2
µ1 2.2 97.98 7.3
µ2 2.4 90.24 6.5
Tableau 6.7: Tableau comparant les meilleures valeurs d’aire sous la courbe (AUC) et
de dernier examen (VDE), pour chaque métrique (µi) et chaque meilleur seuil associé
(σ^).
6.2.7 Métriques de compétence
Dans la section 4.2.3, nous avions introduit une métrique de compétence que nous
qualifions de contextuelle. L’idée était que la métrique devienne, de manière progressive
avec l’expérience, de plus en plus sévère sur ce que l’on attend en terme de proximité
d’atteinte de l’objectif.
Figure 6.14: Résultats expérimentaux pour la métrique de compétence du modèle de
base (bleu) et la métrique de compétence contextuelle introduite par nos soins (vert).6.2. RÉSULTATS POSITIFS 147
Les résultats exposés dans la figure 6.14 viennent valider l’intérêt de la métrique de
compétence contextuelle en tant que contribution à l’amélioration du modèle de base.
Cela vient appuyer les résultats obtenus et présentés précédemment en section 6.2.4 et
portant sur la tolérance d’atteinte. En effet, la métrique de compétence contextuelle
vient, d’une certaine manière, réguler automatiquement la valeur du seuil fixé une fois
pour toute. Cela se fait automatiquement en prenant en compte de manière les progrès
effectués par l’agent, en adaptant la sévérité de manière développementale.
6.2.8 Structurations alternatives
Nous avons montré en section 6.2.2 comment l’activation ou la désactivation de
l’exploration locale influençait le développement de l’agent. Sur la figure 6.4 (page 135)
des résultats de l’étude, nous pouvons remarquer que la diversité des comportements
est plus élevée dès lors qu’on enlève la phase d’exploration locale (p = 0). On peut
le déduire du fait que l’écart type y est beaucoup plus important pour p = 0 que
pour p = 5. Cet aspect nous a poussé à regarder plus en détail l’influence de cette
boucle d’exploration locale sur le reste du système, et notamment sur l’efficacité de nos
propositions de formes alternatives de structurations.
Figure 6.15: Résultats expérimentaux pour des formes de structuration de l’espace
alternatives en ayant désactivé la boucle d’exploration locale.
La figure 6.15 présente les résultats d’une comparaison menée pour évaluer 6 types
de structuration dans le cas du bras robotique à 15 moteurs. La correspondance est148 CHAPITRE 6. EXPÉRIMENTATIONS
la suivante : dim pour structuration orthogonale dans l’espace standard [Hx; Hy] ; ddim
pour structuration orthogonale dans l’espace [Hx
2 + Hy
2
] ; dnone pour purement
uniforme sans structuration dans l’espace [Hx
2 +Hy
2
] ; none pour aucune structuration
dans l’espace standard ; enfin dclust et clust pour structuration par partitionnement
respectivement dans l’espace déformé [Hx
2 + Hy
2
] et l’espace standard [Hx; Hy].
L’observation d’une réelle différenciation en fonction des structurations rend cette
figure particulièrement intéressante. Certes les résultats sont nettement moins bons en
terme d’inflexion de courbe d’apprentissage, tout semble décalé comme c’était le cas sur
la figure 6.4. Mais les résultats ici sont en moyenne beaucoup plus distincts, permettant
d’isoler trois groupes assez aisément. Notre interprétation est la suivante.
Exploration non structurée
En guise d’analyse préliminaire, il nous faut constater l’inefficacité de la nonstructuration
(turquoise) qui stagne à plus de 40 de distance moyenne aux questions
de l’examen tout au long de son développement. Le premier lot de courbes juste après
se situe à environ 8 points en dessous en valeur de dernier examen, et à environ 60 points
en dessous en valeur d’AUC. Analysons maintenant les différences entre l’exploration
de l’espace tel que fourni à l’origine [x; y] et de l’espace déformé [Hx
2 + Hy
2
].
Exploration de l’espace [x; y]
Dans l’espace [Hx; Hy], les deux techniques expérimentées (courbes bleu et jaune)
semblent équivalentes. En effet, le fait de structurer l’espace d’origine de manière orthogonale
aux dimensions, ou bien de manière plus souple en utilisant du partitionnement
par grappes avec l’algorithme K-Means ne change rien. Les deux valeurs des AUC sont
extrêmement proches (357 et 360) et les valeurs au dernier examen le sont également
(environ 36).
Exploration de l’espace [x
2 + y
2
]
En revanche, explorer l’espace [Hx
2+Hy
2
] donne un net avantage. La représentation
permet un découpage extrêmement efficace poussant l’agent à générer davantage de
buts dans la zone réellement atteignable. Dans cet espace, le fait d’activer la structuration
semble donner un léger avantage d’apprentissage. Cela nous pousse à penser
que la forme que revêt l’espace est plus important que la manière de le structurer.
Introduite au chapitre 4 en section 4.5.1, cette idée consiste à chercher d’autres manières
de représenter l’espace d’exploration qui soient potentiellement plus adaptées
et qui reflètent d’autant mieux la structure des données récoltées par l’agent. Il s’agit
de conserver toutes les techniques de structuration par découpage récursif mais appliquée
à une représentation alternative de l’espace. Comme nous utilisons un bras6.2. RÉSULTATS POSITIFS 149
robotique pour nos expérimentations, les dimensions originales de l’espace sont donc
la position de l’effecteur terminal (Hx; Hy). Mais la particularité de l’encorporation
d’un bras robotique fait que les positions atteignables sont dispersées en rond autour
de son point d’ancrage. Ainsi, il est aisé de penser qu’une transformation de l’espace
de coordonnées cartésiennes en coordonnées polaires comme le permet l’application de
φ(Hx, Hy) = Hx
2 + Hy
2 peut s’avérer extrêmement efficace. Cela permet notamment
d’utiliser le même mécanisme de découpe orthogonal aux dimensions dans un espace
qui permet de représenter linéairement la séparation entre les zones atteignable et non
atteignable contrairement à l’espace d’origine, et de surcroît de contenir la redondance.
Pour illustrer un peu mieux l’intérêt de la technique prenons deux autres visualisations,
pour 5000 actions, afin de mieux comprendre la structuration de cet espace
déformé. Premièrement la figure 6.16, qui présente (à gauche) le découpage effectué par
l’agent à l’état final de son exploration. On constate parfaitement que les découpes se
concentrent entre 0 et moins de 5000. C’est pertinent puisque dans la représentation
Hx
2 + Hy
2
la limite d’atteinte du bras est de 452 × 452 = 4050. Sur cette même
image on constate également que les buts générés sont concentrés dans les régions les
plus proches de 0. De plus, la compétence représentée en ordonnée est nettement plus
élevée dans ces mêmes régions. La représentation de droite de cette image 6.16 vient
illustrer la répartition de ces buts générés, transformés à nouveau pour être projetés
dans l’espace d’origine. On y remarque que les buts sont tous centrés sur le cercle de la
zone atteignable par le bras, à quelques rares exceptions près.
Figure 6.16: Résultat du découpage en région à la fin d’une expérimentation à la fois
pour l’exploration de l’espace transformé [Hx
2 + Hy
2
] (à gauche) et la correspondance
des buts générés dans l’espace d’exploration fourni à l’origine (à droite) après 5000
actions.
La seconde visualisation intéressante pour comprendre l’intérêt théorique de cette
technique est celle de la figure 6.17 (page 150). On y observe la répartition dans l’espace
transformé des buts générés par l’agent au cours du temps, divisé en quatre fenêtres
((0; 99),(99 : 198),(198; 297),(297; 396)). Cela signifie qu’en 5000 actions motrices
effectuées, l’agent a donc eu le temps de générer 396 buts. Ce en quoi la figure 6.17
nous renseigne c’est que dans les 99 premiers buts, l’agent a pu générer de manière150 CHAPITRE 6. EXPÉRIMENTATIONS
uniforme dans l’espace exploré, ce qui explique les croix jusqu’à Hx
2 + Hy
2 = 15000.
Dès la seconde période en revanche, (99; 198), déjà tous les buts sont générés en dessous
de 5000, c’est-à-dire dans la zone atteignable. En effet, le bras mesurant 45 unités,
l’équation du cercle délimitant la zone atteignable est Hx
2 + Hy
2 = 452 + 452 = 4050.
Et il en est de même dans les deux autres fenêtres, (198; 297) et (297; 396), où tous
les buts générés appartiennent à la zone atteignable. Cela montre l’impact réel de
représenter l’espace différemment, qui permet de mieux appréhender son exploration.
Certes les valeurs obtenues de distance aux questions de l’examen sont incomparables
aux résultats présentés jusqu’ici, mais cela provient de la prédominance du mécanisme
d’exploration locale, qui visiblement tend à lisser les différences entre les multiples
techniques de structuration expérimentées.
Figure 6.17: Répartition des buts générés par l’agent en quatre fenêtre de temps de
longueur identique dans l’espace d’exploration [Hx
2 + Hy
2
] après 5000 actions.
Par ailleurs, l’analyse de la courbe représentant les résultats de l’utilisation de la
technique le partitionnement par K-Means dans l’espace [Hx
2 + Hy
2
] (mauve) est dé-
cevante. En effet, elle se situe entre la courbe d’exploration non structurée (turquoise),
et les deux courbes d’exploration de l’espace [Hx; Hy] (bleu et jaune). Ce qui signifie
qu’elle est moins efficace qu’une structuration dans l’espace d’origine. Nous pensons
trouver la raison de son inefficacité dans le fait que la forme de l’espace ainsi déformé ne
se prête précisément pas à l’utilisation d’un partitionnement à la K-Means. Néanmoins,
cela vient appuyer notre hypothèse selon laquelle la représentation constitue un point
essentiel qui empêche de pouvoir trouver des manière de mieux faire.6.3. RÉSULTATS MITIGÉS 151
Au final, enlever la boucle d’exploration permet de voir apparaître des différences
justement parce que celle-ci a tendance à lisser l’apprentissage en donnant moins de
poids aux buts à atteindre puisque de toutes façons plus l’agent se trompe, plus il va
accumuler des données.
6.3 Résultats mitigés
Comme dans toute recherche, les idées de contributions que nous avons eues n’ont
pas toutes permis de conclure sur leur validité. Nous donnons dans cette section un
aperçu de celles-ci. Nous nous attardons sur les détails de trois parmi onze propositions
et paramètres introduits aux chapitres 3 et 4, qui nous paraissent représentatives. Nous
commençons par revenir en détail sur le quota d’exploration locale, puis nous étudions
l’impact des buts artificiels, et les différences entre de multiples métriques d’intérêt pour
le choix des régions.
6.3.1 Quota d’exploration locale
La première illustration parmi les résultats obtenus ne montrant pas de signifi-
cativité concerne le quota d’exploration locale p. Nous avons montré précédemment
qu’entre le fait d’activer (p > 0) ou de désactiver (p = 0) ce mécanisme, nous obtenons
des résultats nettement différents (cf. section 6.2.2).
Figure 6.18: Résultats expérimentaux pour différentes valeurs du quota d’exploration
locale p pour l’acquisition de nouvelles transitions.
Ici nous montrons grâce à la figure 6.18 que la différence entre de multiples valeurs
de p > 0 est relativement faible. On constate une tresse dense et indifférenciable de152 CHAPITRE 6. EXPÉRIMENTATIONS
courbes, dont le résultat final au dernier examen est plus que similaire. En terme d’aires
sous la courbe, les valeurs oscillent entre 88 et 107, mais cette différence provient avant
tout des 200 premières actions motrices, puisqu’après on constate le resserrement des
courbes. D’une manière générale, cette zone avant les 200 ou 300 premières actions
motrices est susceptible d’apporter de la diversité étant donné l’aspect aléatoire plus
fort dû à l’inexpérience de l’agent.
6.3.2 Buts artificiels
Les buts artificiels font partie du vécu de l’agent, puisqu’il s’agit d’ajouter artifi-
ciellement un nouveau but comme parfaitement atteint à partir de l’état courant. Cela
revient à considérer que toute position atteinte en poursuivant un but généré devient
potentiellement un but non voulu mais atteint. Cette information est importante pour le
processus de structuration à venir. Notamment cela permet d’identifier plus clairement
les zones accessibles puisque les buts ayant une compétence maximale à 1 ajoutés à une
région viennent consolider les meilleures valeurs de découpes. L’importance théorique
des buts artificiels est donc assez évidente.
Figure 6.19: Résultats expérimentaux concernant l’activation ou la désactivation du
mécanisme de l’enrichissement grâce aux buts artificiels.
En pratique, l’activation ou non de l’enrichissement grâce aux buts artificiels ne
montre pas grande différence. Les deux courbes présentées en figure 6.19 se croisent, et
les écart-types se chevauchent. Les valeurs au dernier examen sont de plus assez proches.
Ces résultats sont contre-intuitifs étant donné la valeur théorique que nous attribuions
intuitivement à l’enrichissement par buts artificiels.6.3. RÉSULTATS MITIGÉS 153
Figure 6.20: Illustration de la forme de cône de compétence obtenue après 5000 actions
avec l’activation des buts artificiels.
6.3.3 Métriques d’intérêt
Les propositions de métriques d’intérêt d’une région constituent le troisième point
représentatif nous permettant d’illustrer les résultats mitigés obtenus par expérimentation.
Dans le chapitre 4 nous avons introduit une nouvelle manière ρ(Ri) de calculer
l’intérêt propre d’une région. L’idée principale était d’intégrer au calcul du progrès un
mécanisme de diversification qui permette de redonner de l’attention à d’autres régions
dont l’intérêt n’était pas prioritaire, mais dont le nombre d’expériences effectuées au
sein de cette région était faible par rapport aux autres. Il s’agit de réintroduire un peu
d’uniformisation pour compenser l’intérêt pur d’une région.
La figure 6.21 présente quatre formes de métriques définissant l’intérêt d’une région.
Les voici présentées ci-dessous avec entre parenthèses la correspondance avec la légende
de la figure.
ρ(Ri) = progrès(Ri) (lp)
ρ(Ri) = progrès(Ri) + diversification(Ri) (lp+uct)
ρ(Ri) = progrès(Ri) + diversification(Ri) normalisé (lp+uct normalized)
ρ(Ri) = diversification(Ri) (uct)
Le constat à propos des résultats est assez simple, puisque parmi ces résultats sensiblement
similaires, on peut à peine classer la métrique de pure diversification (uniforme)
comme étant légèrement moins performante à la fois en valeur au dernier examen (∼ 7)154 CHAPITRE 6. EXPÉRIMENTATIONS
Figure 6.21: Résultats expérimentaux pour les différentes métriques de calcul de l’intérêt
d’une région.
et en aire sous la courbe (∼ 92). Les trois autres sont très proches, mais donnent une
plutôt bonne valeur de dernier examen (∼ 6) et d’aire sous la courbe (moyenne entre les
trois ∼ 83).
6.3.4 Autres résultats et conclusion préliminaire
Comme expliqué en introduisant cette section, les résultats obtenus pour les autres
expérimentations ne montrent guère de différences significatives pour les valeurs de
paramètres ou techniques testées. Nous avons précédemment présenté trois résultats
non significatifs qui nous paraissaient les plus représentatifs pour leur différence de
type : le quota d’exploration locale pour un seuil assez fin donnant un ensemble très
dense de courbes ; les buts artificiels pour l’activation ou non d’un paramétrage qui
théoriquement porte vraiment du sens ; les métriques d’intérêt et les combinaisons faites
à partir des propositions précédentes. Nous avons donc regroupé dans le tableau 6.8
l’ensemble des paramètres testés grâce à la plateforme FIMO. Nous les avons classés
selon l’issue des résultats. Il est à noter que nous n’avons pas pu tester les résultats pour
la transformation a posteriori de l’espace, ni pour le paradigme poly-représentationnel.
La première partie de ces expérimentations nous a permis de montrer qu’un certain
nombre de nos contributions pouvaient amener à des gains non négligeables en terme
de performance d’apprentissage. La seconde partie nous a permis de montrer qu’un
sous-ensemble de nos contributions ne permettaient pas d’établir expérimentalement6.3. RÉSULTATS MITIGÉS 155
Résultats positifs
2 Activation ou désactivation de la position de repos
15–21 Quota de transitions à explorer localement après chaque tentative d’atteinte d’un but
23 Quota d’actions pour atteindre d’un but
23 Borne inférieure pour considérer un but comme atteint
7 Nombre d’expériences pour fabriquer l’action à exécuter
25 Métriques de découpes
25 Seuil associé à une métrique pour valider une découpe
3 Métrique de compétence contextuelle
25 Substitution par un espace d’exploration déformé
25 Structuration par partitionnement
Résultats mitigés
3 Métriques d’intérêt pour une région
14 Activation ou désactivation de l’ajout de buts artificiels constituant une partie du vécu
3 Métrique de progrès d’origine ou relative au temps
25 Seuil du nombre d’expériences dans la région mère pour valider une découpe
25 Seuil du nombre d’expérience dans les deux régions filles pour valider une découpe
25 Seuil associé à la métrique d’ajustement
25 Seuil associé à la métrique de fusion
25 Nombre des dernières expériences à utiliser pour le calcul du progrès dans une région
∅ Action aléatoire comme une valeur aléatoire pour chaque moteur ou uniquement pour un seul
13 Borne supérieure de compétence en dessous de laquelle déclencher une exploration locale
Non expérimentées
∅ Transformation a posteriori de l’espace d’exploration
∅ Multiples représentations concurrentes d’espaces d’exploration
Tableau 6.8: Récapitulatif des différents éléments soumis à l’expérimentation classifiés
selon l’issue des résultats obtenus. Nous avons opté pour le véritable nom du paramètre
dans FIMO, que nous redécrivons pour plus de clarté. La colonne de gauche indique le
numéro de ligne correspondant à cet attribut dans l’algorithme présenté en page 69.
des différences significatives.
Cette seconde partie nous montre surtout que le modèle proposé repose sur beaucoup
de paramètres dont il devient de plus en plus difficile d’évaluer les conséquences. Cela
provient entre autre des potentielles relations d’interdépendance caractérisant certains
sous-ensembles des paramètres proposés pour instancier la boucle motivationnelle. Ces
paramètres peuvent prendre différentes valeurs et peuvent engendrer des comportements
différents pour une même encorporation. C’est une caractéristique des systèmes156 CHAPITRE 6. EXPÉRIMENTATIONS
complexes 1
.
C’est la raison pour laquelle nous proposons d’amener la phase expérimentale vers
une approche évolutionnaire plus globale, afin de pouvoir étudier de manière plus complète
le paramétrage d’une boucle motivationnelle — sûrement de manière propre à une
seule encorporation — et essayer de dépasser les limitations précédemment rencontrées.
6.4 Approche évolutionnaire
Le point commun de toutes les méthodes présentées et expérimentées précédemment
réside dans l’existence d’un humain modélisateur bienveillant cherchant à optimiser
manuellement tous ces paramètres. Mais d’une part cet a priori demeure relativement
limité et peu crédible par rapport au reste du discours développemental et intrinsèque,
et d’autre part les résultats obtenus ne sont pas ceux espérés. Dans les deux cas,
cela souligne profondément la dépendance de l’émergence de solutions à un contexte,
la plupart du temps inidentifiable. Ainsi l’approche et les solutions trouvées par un
modélisateur en particulier ont une très forte probabilité de lui être propres, et donc de
s’en trouver limitées à sa propre intelligence et à sa créativité.
Ce que nous proposons ici revient à questionner ces évolutions du point de vue
des choix nécessaires qui les structurent, en s’attachant à étudier la problématique
suivante : comment désengager le modélisateur afin de laisser davantage de place à
l’automatisation du processus d’adaptation du système motivationnel ? Nous y répondons
en mettant en avant les limites de l’approche de modélisation externe, en exhibant
la possible spécificité de paramètres du modèle pour une encorporation donnée, et en
proposant une approche phylogénétique pour la résoudre.
Comme nous avons pu le constater précédemment, le modèle motivationnel tel qu’il
est défini dans ce manuscrit repose sur un nombre non négligeable de paramètres. Certains
parmi ceux-ci sont définis en extension (par exemple les différentes stratégies permettant
de découper l’espace, ou bien les différentes méthodes de calcul de la notion de
compétence), quand d’autres peuvent ne représenter que des seuils (comme le nombre
1. « Les notions d’explication et de compréhension devront être modifiées et affaiblies lorsqu’on s’intéresse
aux systèmes complexes. Si, comme cela est possible, le seul moyen de connaître le comportement
d’un système est de le simuler et d’observer l’évolution du modèle, alors, il faudra renoncer à l’espoir de
comprendre au sens actuel du terme, pourquoi le système se comporte comme il le fait. [...] Cela ne veut
bien sûr pas dire que nous ne pourrons pas progresser dans la connaissance de certains des mécanismes
fondamentaux mis en œuvre. Notamment, un programme de recherche pourrait consister à découvrir
les conditions nécessaires et suffisantes pour l’apparition du phénomène. Mais la compréhension fine et
totale de l’ensemble du processus risque de rester inatteignable. », Zwirn [2006]6.4. APPROCHE ÉVOLUTIONNAIRE 157
d’expériences permettant de calculer l’intérêt d’une région, la marge d’erreur pour considérer
une compétence maximale). Dans le premier cas cela limite l’exploration des paramétrages,
dans le second, les seuils sont potentiellement non bornables. Si l’on essaye
tout de même d’évaluer l’ensemble des combinaisons envisageables, en limitant les intervalles
des valeurs de seuil, on peut dénombrer plus de 90000 combinaisons à tester 2
.
Ainsi, compte-tenu du temps de simulation nécessaire à chaque expérimentation, ainsi
que du nombre significatif de fois nécessaire à refaire chacune d’elles pour s’approcher
d’un comportement type, il paraît donc bien évident qu’une étude paramétrique exhaustive
aussi globale ne semble pas triviale à mener.
6.4.1 Paramètres
Pour pouvoir travailler à faire évoluer les valeurs de paramètres du modèle, nous
avons eu recours à un vecteur de paramétrage. Chaque agent dispose d’un ensemble
de valeurs associées à chacun des 13 paramètres que nous avons sélectionnés et pour
lesquels nous avons fixé un intervalle de valeurs pour les faire varier (cf. figure 6.22).
[1; 20] [50; 100] [10; 100] [0; 100] [0; 10] [1; 10] [10; 30] [5; 10] [1; 5] [0; 20] [0; 1] [0; 20] [0; 1]
max_reaching_trials
interest_window
min_exp_in_region
split_exp_threshold
exploration_trials
k_for_knn
split_ratio_threshold
competent
incompetent
merge_ratio_threshold
enrich_goals
adjust_ratio_threshold
lp_type
Figure 6.22: Chromosome utilisé pour l’évolution du paramétrage de la boucle motivationnelle.
Les résultats présentés en figure 6.23 montrent une descente régulière des meilleurs
agents, même si ce n’est pas le cas pour les valeurs de la moyenne. Au bout de 100
générations, le meilleur agent a obtenu une valeur AUC= 65, ce qui constitue un très
bon score, et montre qu’il y a bien des éléments à paramétrer pour améliorer les résultats.
2. Nous considérons pour ce calcul un sous-ensemble de 13 paramètres les plus susceptibles d’in-
fluencer le résultat du système, dont les valeurs ont été toutes données en extensions. Pour cela nous
avons choisi de discrétiser les valeurs de seuils. En pratique donc, le chiffre est obtenu par la multiplication
des possibilités pour chacun de ces paramètres, sachant que 7 d’entre eux ont été ramenés à
deux valeurs possibles, et que les 6 autres à trois valeurs possibles. Cette valeur constitue de facto une
estimation basse, d’une exploration extrêmement limitée de l’espace paramétrique.158 CHAPITRE 6. EXPÉRIMENTATIONS
Figure 6.23: Évolution sur 100 générations en essayant d’optimiser le paramétrage du
système motivationnel pour le bras robotique à 15 jointures.
6.4.2 Métriques
Afin de chercher de nouvelles manières de calculer certains aspects de la boucle motivationnelle,
nous avons également essayé d’automatiser la recherche de métriques. Nous
modélisons une métrique sous forme d’une expression arborescente (cf. figure 6.24). Les
feuilles pour construire cette expression dépendent selon les métriques mais constituent
un ensemble fini déterminé par les éléments introduits dans les calculs des métriques déjà
présentées. Pour la combinaison des ces valeurs terminales, nous donnons un ensemble
de fonctions mathématiques classiques :
f0 = x + y
f1 = x − y
f2 = x × y
f3 = x ÷ y
f4 =
√
x
f5 = x
2
f6 = max(x, y)
f7 = min(x, y)
f8 = if x > y then a else b
Deux métriques ont été testées : celle pour déterminer l’intérêt d’une région (ρ),6.4. APPROCHE ÉVOLUTIONNAIRE 159
/
− |Ri
|
P|Ri|/2
j=0
κj
P|Ri|
j=|Ri|/2 κj
Figure 6.24: Exemple de chromosome pour la recherche de nouvelles métriques.
et celle pour déterminer une découpe (µ) comme l’illustre la figure 6.25. Les résultats
obtenus pour ces deux métriques sont décevants. Le processus évolutionnaire peine à
trouver des métriques adaptées en étant guidé par l’optique de faire baisser la valeur
d’AUC. Les meilleures valeurs d’AUC stagnent autour de 70, trouvées après une dizaine
ou quinzaine de générations, quand la moyenne reste autour de 90 et ne baisse pas.
Ce résultat reste néanmoins cohérent avec les résultats présentés précédemment qui
concluaient que le facteur de découpe semblait moins important que la manière de
représenter l’espace d’exploration.
Figure 6.25: Résultats expérimentaux pour l’optimisation de la métrique du calcul de
l’intérêt µ (à gauche) et de la métrique du calcul de l’intérêt ρ d’une région (à droite).
6.4.3 Représentations
De la même manière, nous avons cherché à déterminer de meilleures manières de
représenter l’espace d’exploration en utilisant l’approche évolutionnaire. La méthode
utilisée ici consiste à donner à chaque agent une transformation de l’espace initial,
puis de regarder ses performances. La modélisation d’une représentation est du même
type que pour la métrique, c’est-à-dire une expression mathématique arborescente. Les160 CHAPITRE 6. EXPÉRIMENTATIONS
feuilles potentielles sont l’ensemble des capteurs si à disposition, liées par des fonctions
mathématiques classiques (un sous-ensemble de celles présentées pour les métriques) :
f0 = x + y
f1 = x − y
f2 = x × y
f3 = x ÷ y
f4 =
√
x
f5 = x
2
Les résultats pour la recherche de meilleures représentations de l’espace par optimisation
évolutionnaire ne sont pas à la hauteur de nos espérances (cf. figure 6.26). On
observe les mêmes limites que pour les métriques. La moyenne ne descend guère et le
meilleur individu reste autour d’une valeur d’AUC= 70.
+
x
2 x
2
s1 −
s2 15
Figure 6.26: Exemple de chromosome arborescent représentant la fonction φ =
s
2
1 + (s2 − 15)
2 de transformation de l’espace d’exploration (à gauche) ; résultats expérimentaux
pour l’optimisation de la fonction φ de transformation de l’espace d’exploration
(à droite).6.5. CONCLUSION 161
6.5 Conclusion
Ce chapitre a permis de présenter les résultats expérimentaux pour les différentes
contributions théoriques introduites précédemment dans le manuscrit. Il s’agissait de
mener une étude exhaustive du fonctionnement du modèle motivationnel considéré,
afin d’en comprendre au mieux les rouages. Pour cela nous nous sommes appuyés sur
la plateforme FIMO présentée au chapitre précédent, ce qui confère à nos travaux la
qualité d’être reproductibles. Le dispositif expérimental considéré est un bras robotique
à 15 jointures, qui a pour objectif d’atteindre des points dans un espace sensoriel à
deux dimensions.
Les études paramétriques menées ont permis de mettre en évidence l’utilité de certains
mécanismes (position de repos, exploration locale). Par ailleurs, nous avons pu
exhiber des paramétrage assez fins pour certains mécanismes (quota de tentatives d’atteintes,
seuil de tolérance d’atteinte, nombre d’expérience pour calculer la meilleure
action). Nous avons également contribué à introduire de nouvelles manière de décider
d’une découpe par la double prise en compte d’un seuil du nombre d’expériences dans
une région et d’un seuil pour un ratio prenant en compte les sous-régions à naître. Nous
avons proposé et validé l’intérêt de notre métrique de compétence contextuelle, qui
permet, dans une perspective développementale, d’améliorer l’apprentissage en étant de
plus en plus sévère. En ce qui concerne les formes alternatives de structuration, les expé-
rimentations menées ont permis de montrer que, à condition de désactiver le mécanisme
d’exploration locale : le partitionnement en grappes était meilleur que ne pas structurer
l’espace et que l’exploration d’un espace déformé adapté à l’encorporation considérée
donne un très net avantage d’apprentissage. En revanche, les résultats pour les autres
contributions sont plus mitigés. Une cause potentielle pourrait en partie résider dans la
faible complexité de l’encorporation considérée.C h a p i t r e
7
Conclusions et perspectives
« We should perhaps briefly comment on the term artificial intelligence here
before continuing. With the introduction of the notion of embodiment about
20 years ago, the field has undergone fundamental changes, so that sometimes
the term embodied artificial intelligence is employed [...]. It somehow
suggests that there is the “real” field of artificial intelligence — the overarching,
encompassing discipline — and then there is this small subarea called
“embodied” artificial intelligence. [...] There are essentially two directions
in artificial intelligence : one concerned with developing useful algorithms
or robots ; and another direction that focuses on understanding intelligence,
biological or otherwise. In order to make progress on the latter, an embodied
perspective is mandatory. In this research branch, artificial intelligence is
embodied. » [Pfeifer et Bongard, 2006]
Dans cette thèse, nous nous sommes intéressés au domaine de l’intelligence artifi-
cielle, et plus particulièrement à sa branche définie sous l’étiquette robotique développementale.
Nous avons mené des recherches sur l’exploration et la structuration
intrinsèquement motivées d’espaces d’apprentissage sensorimoteur. Nous nous
sommes attelés à la description, à l’élaboration d’améliorations, à l’expérimentation et
à l’évaluation d’un modèle motivationnel pour les systèmes artificiels.
Un espace d’apprentissage sensorimoteur est représenté par des dimensions
propres à l’encorporation d’un système donné. Celles-ci sont définies soit par l’ensemble
des valeurs que peuvent prendre les capteurs du système, soit par l’ensemble des valeurs
163164 CHAPITRE 7. CONCLUSIONS ET PERSPECTIVES
qu’il peut envoyer dans ses moteurs. L’objectif, lié à cet espace sensorimoteur, est
d’apprendre un ensemble de coordinations sensorimotrices, c’est-à-dire la relation liant
l’état courant des capteurs du système à l’état des capteurs résultant de l’exécution
d’une action motrice particulière.
L’exploration désigne le mécanisme par lequel le système artificiel va chercher
à sonder un espace d’observation. Étant donné que nous nous sommes positionnés
dans la continuité de l’approche du Goal-Babbling Exploration, cela revient à s’inté-
resser à l’espace sensoriel, c’est-à-dire à l’espace déterminé par les capteurs de l’agent.
Celui-ci est amené, par ce mécanisme d’exploration, à générer des buts, représentant
des points de l’espace sensoriel, et à essayer de les atteindre à l’aide d’un quota d’actions.
La structuration consiste pour l’agent à analyser l’espace d’exploration, et à en
exhiber une structure. Plus précisément, il s’agit d’un processus par lequel le système
va isoler et regrouper des expériences vécues. Cela se réalise par la mise en œuvre de
mécanismes de régionalisation, c’est-à-dire de création de régions. Celles-ci représentent
un ensemble d’expériences localisées dans l’espace d’exploration. Elles vont également
permettre, grâce à la notion de compétence d’atteinte d’un but, de déterminer une
valeur d’intérêt associée, qui va intimement dépendre du système expérimenté et de sa
trajectoire développementale.
Le processus de développement, représenté par les deux mécanismes d’exploration et
de structuration, est complètement guidé par la motivation intrinsèque. La position
développementale défendue dans cette thèse implique une vision à long terme, mise en
œuvre par l’utilisation de la motivation. Il s’agit d’une manière particulière d’aiguiller
l’exploration, soit la génération de buts, et la structuration, soit le découpage en régions
d’intérêt. L’heuristique utilisée dans la modélisation considérée repose sur la notion de
progrès en apprentissage. Dans le cadre de l’apprentissage de coordinations sensorimotrices
qui est le nôtre, le progrès est une notion particulièrement adaptée pour orienter
l’acquisition perpétuelle de nouvelles compétences, en ce qu’il permet d’intensifier l’exercice
de la maîtrise tant que du progrès est constaté, et de changer d’objectif si ce n’est
plus le cas.
Conclusion générale
Tout au long de ce manuscrit, en suivant ce cadre de travail, nous avons décrit un
modèle motivationnel, puis proposé des contributions théoriques d’améliorations de ce
modèle. Nous avons pour cela développé une plateforme dédiée à l’expérimentation
de ce type de systèmes fondamentalement orientés vers leur propre développement.
Nous avons organisé notre manuscrit de manière à étayer notre propos et défendre165
l’argument selon lequel la motivation constitue un facteur d’organisation, de régulation
et d’accélération de l’apprentissage sensorimoteur.
L’étude de l’état de l’art nous a tout d’abord permis d’évaluer et de comprendre
les enjeux du domaine dans lequel nous nous inscrivons. Cette analyse nous a menés
à formuler et à mettre en relief trois notions essentielles à l’objectif que nous venons
de décrire. La première de ces notions convoque le corps. Celui-ci constitue un facteur
essentiel et privilégié pour l’interaction avec l’extérieur. Le développement représente la
seconde notion soulignée par notre étude. Il s’agit de favoriser une approche d’apprentissage
basée sur l’acquisition d’expériences sensorimotrices. Enfin, et comme nous l’avons
déjà exprimé, la motivation, en venant diriger le développement et l’apprentissage du
contrôle du corps, constitue la troisième notion clef mise en avant.
Nous avons présenté un modèle motivationnel générique et sa formalisation mathé-
matique et algorithmique. Une première manière de décrire ce modèle d’un point de vue
abstrait revient à identifier la boucle opérationnelle, générale composée de trois phases
successives nécessaires au processus d’apprentissage intrinsèquement motivé. La première
de ces phases consiste à choisir un but dans l’espace des valeurs des configurations
sensorielles que l’agent peut mesurer. La seconde phase du processus représente une
seconde boucle permettant de mener un certain nombre de tentatives d’atteinte pour
tendre vers ce but. Une troisième boucle, imbriquée dans les précédentes, se déclenche
à chaque fois que la compétence d’atteinte d’un but n’est pas suffisante, et permet
d’effectuer une exploration locale afin d’améliorer le modèle direct du corps en jeu.
En dernier lieu, la troisième et dernière phase repose sur la structuration de l’espace
d’exploration, dans le but de favoriser l’apprentissage à venir. Enfin, comme il s’agit
d’une boucle, ce processus reprend à la première étape.
Dans ce cadre, nous avons développé des propositions venant complexifier ce modèle
motivationnel. Nous avons implémenté, expérimenté et évalué ces contributions au
modèle théorique existant. L’étude expérimentale du modèle et de ses extensions a pu
être mené grâce à la plateforme FIMO, qui constitue la contribution pratique de nos
travaux. Cette plateforme est dédiée, de par sa modularité, à l’implémentation et à l’expérimentation.
Elle est fonctionnelle et prête à l’emploi, au sens où il existe différentes
manières de lancer des expérimentations et où sont fournies une aide pour chacun des
programmes la composant, ainsi que des exemples d’utilisation clairs et diversifiés. De
plus, FIMO offre la possibilité de configurer de nombreuses options relatives au modèle.
Ces multiples configurations peuvent être testées sur les trois types d’encorporation
directement proposées pour l’instant, ou bien sur de nouvelles étant donné la facilité
d’intégration d’autres, qu’elles soient physiques ou simulées. Enfin, notre plateforme
est livrée avec un module de visualisation permettant de mieux étudier les résultats166 CHAPITRE 7. CONCLUSIONS ET PERSPECTIVES
expérimentaux obtenus.
Cette plateforme nous a donc permis d’expérimenter l’ensemble des contributions
théoriques introduites. Celles-ci ont été menées sur un bras robotique dont l’objectif
était d’atteindre des points dans un espace sensoriel à deux dimensions, par l’exécution
d’actions comprises dans un espace moteur à quinze dimensions. Certaines de ces propositions
se sont avérées positives en apportant la preuve expérimentale d’améliorations
substantielles en terme d’accélération de la qualité d’apprentissage de nouvelles coordinations
sensorimotrices. Nous avons tout d’abord pu mettre en évidence la nécessité
d’activer divers paramètres, comme par exemple la position de repos ou le mécanisme
d’exploration locale. L’étude minutieuse du fonctionnement du modèle nous a également
permis d’exhiber des valeurs performantes pour le quota de tentatives d’atteintes, pour
un seuil de tolérance d’atteinte, ou encore pour le nombre d’expériences nécessaire pour
calculer la meilleure action. L’examen des conditions de découpes étudiées confère un
avantage à la métrique que nous avons proposée, qui se base sur le nombre d’expé-
riences minimum dans une région et sur une valeur de l’intérêt dans les sous-régions qui
vont être créées. La métrique de compétence contextuelle introduite montre elle aussi
que l’adaptation développementale de la sévérité sert positivement l’apprentissage de
l’agent. Par ailleurs, l’étude des formes alternatives de structuration a révélé, modulo la
désactivation du mécanisme d’exploration locale, la prévalence de la forme de l’espace
d’exploration. En effet, ces résultats ont mis en avant le fait que la non-structuration de
l’espace d’origine était la stratégie la moins efficace ; que le partitionnement en grappes
dans l’espace déformé était légèrement meilleur ; qu’après venaient les stratégies de
structuration dimensionnelle et par partitionnement en grappes dans l’espace d’origine ;
puis qu’enfin, les deux meilleures stratégies étaient la non-structuration ainsi que la
structuration dimensionnelle dans l’espace déformé.
Les autres propositions théoriques introduites dans ce manuscrit, malgré leur plausibilité,
n’ont malheureusement pas pu être validées expérimentalement. De ce constat,
nous avons élaboré une perspective évolutionnaire, afin d’essayer de trouver, par optimisation,
de meilleurs vecteurs de paramétrage, de meilleures métriques (intérêt et
compétence), et de meilleures déformations de l’espace. Nous avons été jusqu’à étudier
l’impact de la morphologie du bras robotique (longueur de chaque segment) sur les
performances d’apprentissage. Mais pour autant, les processus évolutionnaires implé-
mentés et expérimentés ne montrent au final que peu d’améliorations.
Les conclusions que l’on peut tirer de nos recherches sont multiples. Premièrement,
nous avons réussi à exhiber, par l’étude exhaustive du modèle motivationnel, les mécanismes
essentiels à un bon apprentissage. Nous avons également pu optimiser des valeurs
de paramétrage, manuellement puis automatiquement. Nous avons en outre proposé de
nouvelles et meilleures métriques sur lesquelles le processus de structuration vient s’ap-167
puyer. De manière plus générale, nos travaux réaffirment l’importance de la motivation,
mais sous un jour nouveau. En effet, de la même manière que de précédentes recherches
avaient montré que l’exploration de l’espace sensoriel plutôt que de l’espace moteur
constituait une avancée et conférait un avantage en terme d’apprentissage, nous avons
montré que la façon de représenter l’espace d’exploration constitue un point essentiel et
permet d’infléchir la courbe d’apprentissage. La technique consistant à utiliser une représentation
alternative de l’espace vient englober et restreindre l’influence du processus
de structuration.
Perspectives pour de futurs travaux
Les travaux présentés dans ce manuscrit présentent des limites que nous avons déjà
pour partie évoquées ci-avant. Nous nous attachons dans cette section à définir les
directions qu’il nous semble pertinent d’approfondir dans les recherches à venir.
Mécanisme attentionnel
Une première amélioration serait de doter la machine d’une forme de concentration,
en lui donnant la possibilité d’adapter la finesse du flux d’informations sensorielles
qu’elle est à même de traiter. Cela pourrait permettre de découper les effets d’une action
motrice et ainsi d’analyser de manière plus précise la trajectoire menant d’un point à un
autre dans l’espace sensoriel. Un tel mécanisme est complètement intégrable à la boucle
motivationnelle promue dans cette thèse en le reliant à la notion de progrès. En effet,
plus une région de l’espace d’exploration est maîtrisée, moins la fréquence d’échantillonnage
devient nécessaire. Au contraire, tant qu’un phénomène n’est pas compris, qu’un
mouvement n’est pas acquis, il peut devenir crucial d’accéder à plus d’informations.
Vers un modèle plus énactif
Il est important de noter que le développement ne peut uniquement se résumer à la
poursuite tout au long de la vie de l’atteinte de buts successifs et indépendants. Même
si le processus même de l’expérience doit permettre d’acquérir de manière continue
de nouvelles compétences, on peut imaginer que d’autres contraintes puissent présider
au choix des buts. Nous proposons donc que le processus de boucle de vie de l’agent
puisse permettre l’avènement d’un comportement stable émergeant directement de son
couplage à l’environnement, et non plus uniquement guidé par la motivation. Nous
distinguons deux points quant à la réalisation à long terme d’un modèle plus énactif de
ce type : l’extension de la notion de but permettant un apprentissage plus complexe, et
la cristallisation de buts sous formes de routines perceptuelles.168 CHAPITRE 7. CONCLUSIONS ET PERSPECTIVES
En effet, jusqu’ici, le processus motivationnel présenté postule une unique progression
dans la génération de buts successifs à atteindre sans lien aucun entre eux. La seule
liaison entre ces buts réside dans une unique vision globale guidée par une métrique de
motivation. Mais finalement, l’apprentissage demeure borné. En effet, une fois l’espace
des buts entièrement exploré et l’ensemble des coordinations complètement apprises,
la question de la manière d’apprendre de nouvelles compétences plus complexes vient
inévitablement se poser. Une partie de la réponse réside dans une extension de la notion
de but. Cela pourrait se matérialiser en considérant par exemple non plus un point
unique à atteindre, mais plutôt une trajectoire, c’est-à-dire une suite de points dans
l’espace exploré. De même, il pourrait revenir à l’agent de réguler la complexité de ces
trajectoires, en fixant lui-même leur longueur. La notion de compétence étant tout à
fait compatible avec cette vision, on peut imaginer que l’agent va très vite comprendre
qu’il lui est très difficile d’obtenir une bonne compétence pour une trajectoire trop
longue, et il adaptera ses objectifs d’apprentissage à son expérience.
Les routines perceptuelles représentent le second point permettant d’avancer vers
un modèle plus énactif. Ces routines sont des suites de buts qui prennent sens par
leur proximité topologique au sein de l’espace expérimental. Elles se construisent par
cristallisation des expériences vécues. Elles vont peu à peu se substituer au processus
motivationnel de génération de buts, par un mécanisme d’attraction, incitant l’agent
à tenter d’atteindre un ensemble de buts topologiquement et expérimentalement cohé-
rents. Ces routines peuvent ainsi permettre d’énacter des comportements complexes et
plus coordonnés que ne peut le proposer le système de motivation seul.
Nouvelles dimensions
Une autre possibilité revient à pousser plus loin le questionnement autour de la complexification,
de la montée en abstraction des connaissances et/ou compétences. Dans
la vision de l’espace d’exploration défini par des dimensions directement issues des capteurs,
nous pensons qu’il serait judicieux de rapprocher le phénomène de l’abstraction à
la problématique de la création de nouvelles dimensions, qui viendraient se greffer aux
dimensions sensorimotrices déjà présentes de manière innée. Mais comme nous avons vu
que l’exploration d’un espace déterminé par des dimensions indépendantes était problé-
matique, nous pourrions plutôt concevoir le phénomène d’abstraction comme l’ajout de
nouveaux espaces d’exploration. Cette solution constitue en partie ce que l’on propose
avec le paradigme poly-représentationnel, mais à un niveau moins complexe. Pour monter
en complexité, il faudrait considérer que les dimensions construites sont issues de la
composition de dimensions d’un niveau inférieur, à commencer par les dimensions innées
au niveau initial. Cela reflèterait également une construction abstraite issue des premiers
niveaux sensorimoteurs telle que l’envisageaient les théories constructivistes ancrées au169
niveau sensorimoteur. Ce sont des pistes que nous avons commencé à explorer dans une
publication [Hervouet, 2014].
Motivations extrinsèques
Nous avons étudié dans cette thèse l’impact des motivations intrinsèques sur la
trajectoire développementale d’une encorporation particulière. Nous nous sommes
concentrés sur ce type de motivations pour ce qu’elles permettent de réguler les choix
d’apprentissage de l’intérieur même du système. Néanmoins, nous pourrions envisager
deux aspects pour intégrer des motivations extrinsèques dans ce même modèle, et ainsi
prendre en considération l’environnement de manière plus complète, notamment une
forme rudimentaire de l’entourage social.
Le premier aspect consisterait à identifier, au fur et à mesure d’un processus évolutif,
les points communs dans les structurations d’agents lancés de manière concurrente. Par
points communs, nous entendons un ensemble minimal de découpes qu’une majorité
d’agents, pour une même encorporation, a pu décider d’effectuer. Cet ensemble pourrait
alors être répercuté de manière arbitraire sur les futurs agents, et pourrait être vu
comme la transmission d’un savoir.
Le second aspect est une déclinaison du premier. Il s’agirait de modifier la métrique
d’intérêt ρ afin d’y intégrer explicitement une valeur issue d’un jugement extérieur. Ainsi
cette nouvelle métrique prendrait en compte tout à la fois le progrès en apprentissage,
la diversification, ainsi qu’une valeur provenant d’un oracle externe. Cette dernière valeur,
qu’il faut réfléchir à pondérer par rapport aux deux autres, viendrait moduler,
positivement ou négativement, l’intérêt de la région indiquée.
Application à la fouille sur le web
Une dernière perspective pour les travaux menés au cours de cette thèse serait une
application à un système différent. La fouille de données sur des corpus dynamiques
temps-réel, comme peuvent en fournir le web, représente un domaine d’application prometteur
pour notre cadre formel et la plateforme que nous avons développée. Nous
envisageons assez aisément un agent, déchargé de toute contrainte d’examen comme ici,
lancé à la poursuite d’informations, explorant un espace d’informations, s’intéressant à
celles qu’il réussira à préciser ou confirmer en trouvant d’autres sources la relayant. On
peut également imaginer une influence externe par des internautes venant alimenter, à la
manière des motivations extrinsèques explicitées précédemment, la curiosité du système
avec de nouvelles informations, qui sinon seront glanées au fil du web.Bibliographie
Minoru Asada, Koh Hosoda, Yasuo Kuniyoshi, Hiroshi Ishiguro, Toshio Inui, Yuichiro
Yoshikawa, Masaki Ogino et Chisato Yoshida : Cognitive developmental robotics : a
survey. IEEE Transactions on Autonomous Mental Development, 1:12–34, 2009. Cité
page 29.
William R. Ashby : Adaptiveness and equilibrium. Journal of Mental Science, 86:478–
483, 1940. Cité page 15.
Nihat Ay, Nils Bertschinger, Ralf Der, Frank Güttler et Eckehard Olbrich : Predictive
information and explorative behavior of autonomous robots. The European Physical
Journal B - Condensed Matter and Complex Systems, 63(3):329–339, 2008. Cité page
47.
Renée Baillargeon : The acquisition of physical knowledge in infancy : A summary in
eight lessons. Blackwell handbook of childhood cognitive development, 1:46–83, 2002.
Cité page 24.
Gianluca Baldassarre et Marco Mirolli, éditeurs. Intrinsically Motivated Learning in
Natural and Artificial Systems. Springer Berlin Heidelberg, 2013. ISBN 978-3-642-
32374-4. Cité pages 40 et 48.
Albert Bandura : Auto-efficacité : le sentiment d’efficacité personnelle. Bruxelles, De
Boeck, 2003. Cité page 36.
Adrien Baranes : Motivations Intrinsèques et Contraintes Maturationnelles pour l’Apprentissage
Sensorimoteur. Thèse de doctorat, Inria Bordeaux Sud-Ouest – Université
Bordeaux 1, 2011. Cité pages 8, 53 et 54.
Adrien Baranes et Pierre-Yves Oudeyer : R-iac : Robust intrinsically motivated exploration
and active learning. IEEE Transaction on Autonomous Mental Development
(TAMD), 1(2), 2009. Cité pages 42 et 43.
Adrien Baranes et Pierre-Yves Oudeyer : Intrinsically-motivated goal exploration for
active motor learning in robots : A case study. In Proceedings of the IEEE/RSJ
171172 BIBLIOGRAPHIE
International Conference on Intelligent Robots and Systems (IROS 2010), 2010a. Cité
pages 45, 114 et 131.
Adrien Baranes et Pierre-Yves Oudeyer : Maturationally-constrained competence-based
intrinsically motivated learning. In Proceedings of International Conference on Development
and Learning (ICDL 2010), 2010b. Cité pages 8, 54 et 113.
Adrien Baranes et Pierre-Yves Oudeyer : Active learning of inverse models with intrinsically
motivated goal exploration in robots. Robotics and Autonomous Systems, 61
(1):49–73, 2013. Cité pages 8, 45, 50, 55, 114 et 131.
Andrew G. Barto, Satinder Singh et Nuttapong Chentanez : Intrinsically motivated learning
of hierarchical collections of skills. In Proceedings of 4th International Conference
on Developmental Learning (ICDL 2004). MIT Press, Cambridge, MA, 2004. Cité
pages 41 et 42.
Daniel E. Berlyne : Curiosity and exploration. Science, 153:25–33, 1966. Cité page 35.
Nikolai Bernstein : The co-ordination and regulation of movements. Pergamon Press,
Oxford, England, 1967. Cité page 20.
Neil Berthier et Rachel Keen : Development of reaching in infancy. Experimental Brain
Research, 169:507–518, 2006. Cité page 55.
Mark H. Bickhard : Motivation and emotion : An interactive process model. The caldron
of consciousness : motivation, affect, and self-organization : an an thology, page 161,
2000. Cité page 44.
Douglas S. Blank, Deepak Kumar, Lisa A. Meeden et James B. Marshall : Bringing
up robot : Fundamental mechanisms for creating a self-motivated, self-organizing
architecture. Cybernetics and Systems, 36, 2005. Cité pages 28, 43 et 50.
Jacques Bolo : Philosophie contre intelligence artificielle. Lingua Franca, 1996. Cité
page 18.
Valentino Braitenberg : Vehicles : Experiments in Synthetic Psychology. Bradford
books : Psychology. MIT Press, 1986. ISBN 9780262521123. Cité page 15.
Rodney A. Brooks : A robust layered control system for a mobile robot. IEEE Journal
of Robotics and Automation, 2(1):14–23, 1986. Cité pages 19 et 44.
Rodney A. Brooks : Elephants don’t play chess. Robotics and Autonomous Systems,
6:3–15, 1990. Cité pages 18, 19 et 29.
Rodney A. Brooks : Intelligence without reason. Computers and Thought - IJCAI’91,
pages 569–595, Jun 1991a. Cité page 18.BIBLIOGRAPHIE 173
Rodney A. Brooks : Intelligence without representation. Artificial Intelligence, pages
139–159, Nov 1991b. Cité page 18.
Rodney A. Brooks : Flesh and Machines. Vintage, 2002. ISBN 037572527X. Cité pages
18 et 28.
Paco Calvo et Fred Keijzer : Cognition in plants. Plant-environment interactions :
Signaling & communication in plants, pages 247–266, 2009. Cité page 12.
Angelo Cangelosi : Language emergence and grounding in sensorimotor agents and
robots. In First International Workshop on Emergence and Evolution of Linguistic
Communication, May 31- Jun 1 2004, Kanazawa Japan, pages 1–6, Aug 2004. Cité
page 17.
Angelo Cangelosi et Domenico Parisi : Simulating the evolution of language. Springer
Verlag, 2002. Cité page 17.
Walter B. Cannon : The Wisdom of the Body. Norton, New York, 1932. Cité page 34.
Andy Clark : Being There : Putting Brain, Body, and World Together Again. MIT
Press, Cambridge, MA, 1997. Cité page 16.
Ignasi Cos-Aguilera, Lola Cañamero et Gillian M. Hayes : Learning affordances of
consummatory behaviors : Motivation-driven adaptive perception. Adaptive Behaviour,
18(3-4):285–314, 2010. Cité pages 45 et 50.
John J. Craig : Introduction to robotics - mechanics and control (2. ed.). AddisonWesley,
1989. ISBN 978-0-201-09528-9. Cité page 114.
Mihaly Csikszentmihalyi, Sami Abuhamdeh et Jeanne Nakamura : Flow. In Andrew J.
Elliot et Carol S. Dweck, éditeurs : Handbook of competence and motivation, volume
xvi, pages 598–698. New York, NY, US : Guilford Publications, 2005. Cité page 35.
Charles Darwin : On the origin of species. John Murray, London, first edition édition,
1859. Cité page 30.
Edward L. Deci : Effects of externally mediated rewards on intrinsic motivation. Journal
of Personality and Social Psychology, 18:105–115, 1971. Cité page 37.
Edward L. Deci et Richard M. Ryan : Intrinsic Motivation and Self-Determination in
Human Behavior (Perspectives in Social Psychology). Perspectives in social psychology.
Plenum Press, 1985. Cité page 37.
Edward L. Deci et Richard M. Ryan, éditeurs. Handbook of Self-Determination Research.
The University of Rochester Press, USA, 2002. Cité page 37.174 BIBLIOGRAPHIE
Daniel C. Dennett : Why not the whole iguana ? Brain and Behavioural Sciences,
1:103–104, 1978. Cité page 18.
Ralf Der et René Liebscher : True autonomy from self-organized adaptivity. In Proceedings
of Workshop Biologically Inspired Robotics, Bristol, 2002. Cité pages 46 et 50.
Ines Di Loreto et Fabien Hervouet : Identity : the contribution of contemporary philosophy
to agent design. Rapport technique, LIRMM – University of Montpellier, janvier
2012a. Cité page 13.
Ines Di Loreto et Fabien Hervouet : The role of identity in agent design. In Proceedings
of the 11th International Conference on Autonomous Agents and Multiagent Systems
(AAMAS’12), pages 1449–1450, 2012b. Cité page 13.
Edwin Diday : Une nouvelle méthode en classification automatique et reconnaissance
des formes la méthode des nuées dynamiques. Revue de Statistique Appliquée, 19
(2):19–33, 1971. Cité page 84.
Hubert L. Dreyfus : Intelligence artificielle : Mythes et limites. Flammarion, 1984.
ISBN 9782080646408. Cité page 17.
Albert Ducrocq : L’ère des robots. Editions Julliard, 1954. Cité page 15.
Jean-Pierre Dupuy : Aux origines des sciences cognitives. La Découverte poche. La
Découverte, 1999. Cité page 38.
Andrew J. Elliot et Carol S. Dweck : Handbook of Competence and Motivation. Guilford
Press, 2005. ISBN 9781593851231. Cité page 31.
Martin Ester, Hans-Peter Kriegel, Jörg Sander et Xiaowei Xu : A density-based algorithm
for discovering clusters in large spatial databases with noise. In Proc. of 2nd
International Conference on Knowledge Discovery and Data mining, pages 226–231,
1996. Cité page 84.
Fabien Fenouillet : Les théories de la motivation. Dunod, 2012. Cité page 33.
Jacques Ferber : Les systèmes multi-agents, vers une intelligence collective. Inter Editions,
Paris, 1995. Cité page 13.
Leon Festinger : A Theory Of Cognitive Dissonance. Stanford University Press, Stanford,
1957. Cité page 35.
Dario Floreano et Claudio Mattiussi : Bio-Inspired Artificial Intelligence : Theories,
Methods, and Technologies. MIT Press, 2008. Cité page 14.BIBLIOGRAPHIE 175
Jean-Gabriel Ganascia : L’intelligence artificielle. Editions Le Cavalier Bleu, 2007.
ISBN 978-2-84670-165-5. Cité page 18.
Jean-Gabriel Ganascia : Epistemology of ai revisited in the light of the philosophy of
information. Knowledge, Technology & Policy, 23(1-2):57–73, 2010. ISSN 0897-1986.
Cité pages 18 et 37.
Olivier Georgeon, James Marshall et Riccardo Manzotti : Eca : An enactivist cognitive
architecture based on sensorimotor modeling. Biologically Inspired Cognitive
Architectures, 6:46–57, septembre 2013. Cité pages 47 et 50.
Olivier L. Georgeon, James B. Marshall et Simon Gay : Interactional motivation in
artificial systems : Between extrinsic and intrinsic motivation. Proceedings of International
Conference on Development and Learning (ICDL-Epirob), San Diego, CA,
2012. Cité page 47.
James J. Gibson : The Ecological Approach to Visual Perception. Houghton Mifflin,
Boston, 1979. Cité pages 45 et 47.
Agnès Guillot et Jean-Arcady Meyer : La bionique : Quand la science imite la nature.
Sciences de l’ingénieur. Dunod, 2008. ISBN 9782100529858. Cité pages 14, 18 et 31.
Harry F. Harlow, Margaret K. Harlow et Donald R. Meyer : Learning motivated by a
manipulation drive. Journal of Experimental Psychology, 40:228–234, 1950. Cité page
36.
Stevan Harnad : The symbol grounding problem. Physica D : Nonlinear Phenomena,
42:335–346, 1990. Cité page 17.
Stephen Hart et Roderic Grupen : Learning generalizable control programs. Autonomous
Mental Development, IEEE Transactions on, 3(3):216–231, 2011. Cité page 45.
Stephen Hart, Shiraj Sen et Rod Grupen : Intrinsically motivated hierarchical manipulation.
In Robotics and Automation, 2008. ICRA 2008. IEEE International Conference
on, pages 3814–3819. IEEE, 2008. Cité page 45.
Donald O. Hebb : The organization of behavior : A neuropsychological theory. Wiley,
New York, 1949. ISBN 0-8058-4300-0. Cité page 15.
Donald O. Hebb : Drives and the c.n.s. (conceptual nervous system). Psychological
Review, 62(4):243–254, 1955. Cité page 35.
Fabien Hervouet : Autour de la preuve en intelligence artificielle. In La preuve et ses
moyens – Actes des journées interdisciplinaires de Rochebrune (sous presse), pages
1–13, 2013. Cité page 108.176 BIBLIOGRAPHIE
Fabien Hervouet : The looping problem. Constructivist Foundations, 9(2):216–217,
2014. Cité page 169.
Fabien Hervouet et Eric Bourreau : Improvement proposals to intrinsically motivational
robotics. In Proceedings of the second joint conference (ICDL-Epirob’12), 2012. Cité
page 77.
Fabien Hervouet et Eric Bourreau : Fimo : Framework for intrinsic motivations. In
Advances in Artificial Life, ECAL 2013 : Proceedings of the Twelfth European Conference
on the Synthesis and Simulation of Living Systems, Taormina – Sicily, Italy
September 2-6, 2013., pages 997–1004, 2013. Cité page 97.
Olivier Houdé : Rationalité, développement et inhibition : un nouveau cadre d’analyse.
Psychologie et sciences de la pensée. Presses Universitaires de France, 1995. ISBN
9782130472919. Cité page 24.
Olivier Houdé et Gaëlle Leroux : Psychologie du développement cognitif. Presses Universitaires
de France, seconde édition édition, 2013. Cité page 21.
Clark L. Hull : Principles of behavior : an introduction to behavior theory. The Century
Psychology Series. Appleton-Century-Crofts, 1943. Cité page 34.
John D. Hunter : Matplotlib : A 2d graphics environment. Computing In Science &
Engineering, 9(3):90–95, May-Jun 2007. Cité page 101.
Marcus Hutter : Universal algorithmic intelligence : A mathematical top→down approach.
In B. Goertzel et C. Pennachin, éditeurs : Artificial General Intelligence,
Cognitive Technologies, pages 227–290. Springer, Berlin, 2007. Cité page 41.
Eric Jones, Travis Oliphant, Pearu Peterson et al. : Scipy : Open source scientific tools
for python, 2001. Cité page 101.
Hervé Kempf : Le cerveau n’est pas un ordinateur : on ne peut comprendre la cognition
si l’on s’abstrait de son incarnation. entretien avec francisco j. varela. La Recherche,
(308):109–112, Avril 1998. Cité page 12.
Alexander S. Klyubin, Daniel Polani et Chrystopher L. Nehaniv : All else being equal
be empowered. In Mathieu S. Capcarrère, Alex A. Freitas, Peter J. Bentley, Colin G.
Johnson et Jon Timmis, éditeurs : 8th European Conference on Artificial Life (ECAL
2005), volume 3630 de Lecture Notes in Computer Science, pages 744–753, Berlin,
Heidelberg, 2005a. Springer Berlin / Heidelberg. ISBN 978-3-540-28848-0. Cité pages
47 et 50.BIBLIOGRAPHIE 177
Alexander S. Klyubin, Daniel Polani et Chrystopher L. Nehaniv : Empowerment : a
universal agent-centric measure of control. In Evolutionary Computation, 2005. The
2005 IEEE Congress on, volume 1, pages 128–135, 2005b. Cité page 47.
Alexander S. Klyubin, Daniel Polani et Chrystopher L. Nehaniv : Keep your options
open : An information-based driving principle for sensorimotor systems. PLoS ONE,
3(12):e4018, 12 2008. Cité page 47.
Levente Kocsis et Csaba Szepesvári : Bandit based monte-carlo planning. In In :
ECML-06. Number 4212 in LNCS, pages 282–293. Springer, 2006. Cité page 77.
Teuvo Kohonen : Self-Organizing Maps. Springer, Berlin, 2001. ISBN 3-540-67921-9.
Cité page 85.
Andrea Kulakov et Georgi Stojanov : Structures, inner values, hierarchies and stages :
essentials for developmental robot architectures. In Proceedings of the 2nd International
Workshop on Epigenetic Robotics, volume 94, pages 63–69. Lund University
Cognitive Studies, 2002. Cité page 44.
Jean-Jacques Kupiec : L’Origine des individus. Le Temps des Sciences, Paris, Fayard.,
2008. Cité page 30.
Matthieu Lapeyre, Pierre Rouanet et Pierre-Yves Oudeyer : Poppy humanoid platform :
Experimental evaluation of the role of a bio-inspired thigh shape. In Humanoids 2013,
Atlanta, United States, octobre 2013. URL http://hal.inria.fr/hal-00861110. Cité page
31.
Rachel Lee, Ryan Walker, Lisa Meeden et James Marshall : Category-based intrinsic
motivation. In Proceedings of the 9th International Conference on Epigenetic Robotics,
volume 146, pages 81–88, 2009. Cité pages 43 et 50.
Jessica Lindblom et Tom Ziemke : Social situatedness : Vygotsky and beyond. Proceedings
of the 2nd International Workshop on Epigenetic Robotics : Modeling Cognitive
Development in Robotic Systems. Edinburgh, Scotland., pages 71–78, 2002. Cité page
25.
Robert K. Lindsay, Bruce G. Buchanan, Edward A. Feigenbaum et Joshua Lederberg :
Applications of Artificial Intelligence for Organic Chemistry - The DENDRAL Project.
McGraw-Hill, New York, 1980. Cité page 13.
Stuart Lloyd : Least squares quantization in pcm. IEEE Transactions on Information
Theory, 28(2):129–137, 1982. Cité page 84.178 BIBLIOGRAPHIE
Nicolas Lopes, Thomas Hélie et René Caussé : Control of an artificifial mouth playing
a trombone and analysis of sound descriptors on experimental data. In SMAC 2013,
2013. Cité page 115.
Max Lungarella, Giorgio Metta, Rolf Pfeifer et Giulio Sandini : Developmental robotics :
a survey. Connection Science, 15:151–190, 2003. Cité page 29.
James B. MacQueen : Some methods for classification and analysis of multivariate
observations. In L. M. Le Cam et J. Neyman, éditeurs : Proc. of the fifth Berkeley
Symposium on Mathematical Statistics and Probability, volume 1, pages 281–297.
University of California Press, 1967. Cité page 84.
Humberto Maturana et Jorge Mpodozis : De l’origine des espèces par voie de la dérive
naturelle. Presses universitaires de Lyon, 1999. ISBN 9782729706432. Cité page 30.
Humberto Maturana et Francisco Varela : Autopoiesis and Cognition : The Realization
of the Living. Reidel, 1980. Cité page 12.
Humberto Maturana et Francisco Varela : L’arbre de la connaissance. Vie artificielle.
Addison-Wesley France, 1994. ISBN 9782879080727. Cité page 27.
John McCarthy, Marvin Minsky, Nathan Rochester et Claude Shannon : A proposal for
the dartmouth summer research project on artificial intelligence. Rapport technique,
Dartmouth College, 1955. Cité page 38.
Warren McCulloch et Walter Pitts : A logical calculus of the ideas immanent in nervous
activity. Bulletin of Mathematical Biophysic, 5:115–133, 1943. Cité page 15.
Tad McGeer : Passive dynamic walking. The International Journal of Robotics Research,
9(2):62–82, 1990. Cité page 21.
Jean-Arcady Meyer : The animat approach : Simulation of adaptive behavior in animals
and robots. Proc. NPI, pages 1–21, 1998. Cité pages 12, 18 et 19.
Benjamin F. Miessner : The wirelessly directed torpedo. Scientific American, 107, 1912.
Cité page 14.
Marco Mirolli et Domenico Parisi : Towards a vygotskyan cognitive robotics : The role
of language as a cognitive tool. New Ideas in Psychology, 29:298–311, 2011. Cité page
25.
Hans Moravec : Mind Children : The Future of Robot and Human Intelligence. Harvard
University Press, 1988. ISBN 9780674576186. Cité page 28.BIBLIOGRAPHIE 179
Clément Moulin-Frier, Sao Mai Nguyen et Pierre-Yves Oudeyer : Self-organization of
early vocal development in infants and machines : The role of intrinsic motivation.
Frontiers in Psychology, 4(1006), 2013. Cité page 113.
Clément Moulin-Frier et Pierre-Yves Oudeyer : Exploration strategies in developmental
robotics : a unified probabilistic framework. In Proceedings of IEEE International
Conference on Development and Learning and Epigenetic Robotics, IEEE ICDLEpirob,
Osaka, Japan., 2013. Cité page 113.
Allen Newell et Herbert A. Simon : Gps : A program that simulates human thought.
In Edward A. Feigenbaum et Jerome A. Feldman, éditeurs : Computers and Thought.
McGraw-Hill, New York, 1963. Cité pages 12 et 13.
Sao Mai Nguyen et Pierre-Yves Oudeyer : Socially guided intrinsic motivation for robot
learning of motor skills. Autonomous Robots, pages 1–22, 2013. Cité page 25.
Travis E. Oliphant : Python for scientific computing. Computing in Science and Engineering,
9(3):10–20, 2007. ISSN 1521-9615. Cité page 101.
Gérard Olivier : La Cognition gestuelle. Ou de l’écho à l’égo. Presses Universitaires de
Grenoble, 2012. Cité page 27.
Pierre-Yves Oudeyer et Frédéric Kaplan : Intelligent adaptive curiosity : a source of
self-development. In Luc Berthouze, Hideki Kozima, Christopher G. Prince, Giulio
Sandini, Georgi Stojanov, G. Metta et C. Balkenius, éditeurs : Proceedings of the 4th
International Workshop on Epigenetic Robotics, volume 117, pages 127–130. Lund
University Cognitive Studies, 2004. Cité pages 41, 43, 50 et 54.
Pierre-Yves Oudeyer et Frédéric Kaplan : Discovering communication. Connection
Science, 18(2):189–206, Jun 2006. Cité page 16.
Pierre-Yves Oudeyer et Frédéric Kaplan : What is intrinsic motivation ? a typology
of computational approaches. Frontiers in Neurorobotics, 1(1), 2007. Cité pages 40
et 48.
Pierre-Yves Oudeyer, Olivier Ly et Pierre Rouanet : Exploring robust, intuitive and
emergent physical human-robot interaction with the humanoid acroban. In IEEERAS
International Conference on Humanoid Robots, Bled, Slovenia, 2011. Cité page
21.
Karl Pearson : On lines and planes of closest fit to systems of points in space. Philosophical
Magazine, 2:559–572, 1901. Cité page 91.180 BIBLIOGRAPHIE
F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel,
P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau,
M. Brucher, M. Perrot et E. Duchesnay : Scikit-learn : Machine learning in Python.
Journal of Machine Learning Research, 12:2825–2830, 2011. Cité page 101.
Christian S. Perone : Pyevolve : a python open-source framework for genetic algorithms.
SIGEVOlution, 4:12–20, 2009. Cité page 101.
Rolf Pfeifer et Josh C. Bongard : How the Body Shapes the Way We Think : A New
View of Intelligence. MIT Press, Cambridge, MA, 2006. Cité pages 15, 31 et 163.
Rolf Pfeifer et Fumiya Iida : Morphological computation : Connecting body, brain and
environment. Japanese Scientific Monthly, 58(2):48–54, 2005. Cité page 31.
Rolf Pfeifer, Fumiya Iida et Josh Bongard : New robotics : Design principles for intelligent
systems. Artif. Life, 11(1-2):99–120, janvier 2005. ISSN 1064-5462. Cité page
31.
Rolf Pfeifer et Alexandre Pitti : La révolution de l’intelligence du corps. Manuella
Editions, 2012. Cité page 15.
Rolf Pfeifer et Christian Scheier : Understanding intelligence. MIT Press, 1999. ISBN
978-0-262-16181-7. Cité pages 15 et 16.
Jean Piaget : La Naissance de l’intelligence chez l’enfant. Actualités pédagogiques et
psychologiques. Delachaux et Niestlé, 1936. Cité page 22.
Jean Piaget : La construction du réel chez l’enfant. Delauchaux et Niestlé, Neuchâtel,
Switzerland, 1937. Cité page 23.
Jean Piaget : Biologie et connaissance. Delachaux et Niestlé, 1967. Cité page 22.
Bernd Porr et Paolo Di Prodi : Subsystem formation driven by double contingency.
Constructivist Foundations, 9(2):199–211, 2014. Cité page 48.
Amélie Rochet-Capellan : De la substance à la forme : rôle des contraintes motrices
orofaciales et brachiomanuelles de la parole dans l’émergence du langage. Thèse de
doctorat, INP Grenoble, 2007. Cité page 25.
Matthias Rolf, Jochen J. Steil et Michael Gienger : Goal-babbling permits direct learning
of inverse kinematics. IEEE Trans. Autonomous Mental Development, 2(3), 2010. Cité
pages 8, 55 et 113.
Jean-Jacques Rousseau : Émile, ou De l’éducation. 1762. Cité page 31.BIBLIOGRAPHIE 181
Christoph Salge, Cornelius Glackin et Daniel Polani : Empowerment – an introduction.
In M. Prokopenko, éditeur : Guided Self-Organization : Inception. Springer, 2014.
Cité page 47.
Vieri Giuliano Santucci, Gianluca Baldassarre et Marco Mirolli : Which is the best
intrinsic motivation signal for learning multiple skills ? Frontiers in Neurorobotics, 7
(22), 2013. ISSN 1662-5218. Cité pages 98, 114 et 131.
Juergen Schmidhuber : Curious model-building control systems. In Proceedings of
the International Joint Conference on Neural Networks, Singapore, volume 2, pages
1458–1463. IEEE press, 1991a. Cité page 40.
Juergen Schmidhuber : A possibility for implementing curiosity and boredom in modelbuilding
neural controllers. In Jean-Arcady Meyer et Stewart W. Wilson, éditeurs :
Proceedings of the International Conference on Simulation of Adaptive Behavior,
pages 222–227. MIT Press/Bradford Books, 1991b. Cité page 40.
Juergen Schmidhuber : Driven by compression progress : A simple principle explains
essential aspects of subjective beauty, novelty, surprise, interestingness, attention,
curiosity, creativity, art, science, music, jokes. Computing Research Repository, pages
48–76, 2008. Cité pages 40 et 41.
Juergen Schmidhuber : Formal theory of creativity, fun, and intrinsic motivation
(1990–2010). IEEE Transactions on Autonomous Mental Development, 2:230–247,
2010. Cité pages 40, 41, 42, 48 et 50.
Michael Scriven : Evaluation Thesaurus. SAGE Publications, 1991. ISBN
9780803943643. Cité page 108.
John R. Searle : Minds, brains, and programs. Behavioral and Brain Sciences, 3:417–424,
1980. Cité page 16.
John R. Searle : Langage, conscience, rationalité : une philosophie naturelle – entretien
avec john r. searle. Le Débat, 2(109):177–192, 2000. Cité page 17.
Robert S. Siegler : Emerging Minds : The Process of Change in Children’s Thinking.
Oxford University Press, USA, 1996. ISBN 9780195352085. Cité page 24.
Herbert A. Simon : The Sciences of the Artificial. MIT Press, Cambridge, MA, USA,
third édition, 1996. Cité pages 15 et 38.
Satinder Singh, Andrew G. Barto et Nuttapong Chentanez : Intrinsically motivated
reinforcement learning. Neural Information Processing Systems, 2004. Cité pages 41
et 50.182 BIBLIOGRAPHIE
Kenny Smith, Henry Brighton et Simon Kirby : Complex systems in language evolution :
the cultural emergence of compositional structure. Advances in Complex Systems, 6
(4):537–558, Jan 2003. Cité page 21.
Luc Steels : The autotelic principle. In Fumiya Iida, Rolf Pfeifer, Luc Steels et Yasuo
Kuniyoshi, éditeurs : Embodied Artificial Intelligence, pages 231–242. Springer-Verlag
Berlin Heidelberg, 2004. Cité page 47.
Luc Steels : Fifty years of ai : From symbols to embodiment - and back. In 50 years of
artificial intelligence, pages 18–28. Springer Berlin Heidelberg, 2007. Cité page 17.
Luc Steels : The symbol grounding problem has been solved. so what’s next ? In
M. de Vega, éditeur : Symbols and Embodiment : Debates on Meaning and Cognition,
chapitre 12. Oxford University Press, Oxford, 2008. Cité page 17.
Luc Steels et Angus McIntyre : Spatially distributed naming games. Advances in complex
systems, 1(04):301–323, 1999. Cité pages 16 et 17.
Hugo Steinhaus : Sur la division des corp matériels en parties. Bull. Acad. Polon. Sci,
1:801–804, 1956. Cité page 84.
Georgi Stojanov : Petitagé : A case study in developmental robotics. In Proceedings of
the 1st International Workshop on Epigenetic Robotics, volume 85. Lund University
Cognitive Studies, 2001. Cité page 44.
Georgi Stojanov, Stevo Bozinovski et Goran Trajkovski : Interactionist-expectative view
on agency and learning. Mathematics and Computers in Simulation, 44:295–310, 1997.
Cité page 44.
Georgi Stojanov et Andrea Kulakov : Interactivist approach to representation in epigenetic
agents. In Christopher G. Prince, Luc Berthouze, Hideki Kozima, Daniel
Bullock, Georgi Stojanov et Christian Balkenius, éditeurs : Proceedings of the 3rd
International Workshop on Epigenetic Robotics, volume 101, pages 123–130. Lund
University Cognitive Studies, 2003. Cité page 44.
Georgi Stojanov et Andrea Kulakov : On curiosity in intelligent robotic systems. American
Association for Artificial Intelligence, 2006. Cité pages 45 et 50.
Andrew Stout, George D. Konidaris et Andrew G. Barto : Intrinsically motivated reinforcement
learning : A promising framework for developmental robot learning. In In
The AAAI Spring Symposium on Developmental Robotics, 2005. Cité page 41.
Richard S. Sutton et Andrew G. Barto : Reinforcement Learning : An Introduction.
MIT Press, Cambridge, MA, 1998. Cité page 41.BIBLIOGRAPHIE 183
Jean-Claude Tabary : Du cerveau à la pensée (par la rencontre avec l’autre). 2005. Cité
pages 25 et 26.
Mariarosaria Taddeo et Luciano Floridi : Solving the symbol grounding problem : a
critical review of fifteen years of research. Journal of Experimental and Theoretical
Artificial Intelligence, 17:419–445, 2005. Cité page 17.
Esther Thelen, Daniela Corbetta et John. P Spencer : Development of reaching during
the first year : role of movement speed. Journal of Experimental Psychology. Human
Perception and Performance., 22(5):1059–1076, 1996. Cité page 55.
Alan M. Turing : Computing machinery and intelligence. Mind, 59(236):433–460, 1950.
Cité pages 5 et 28.
Francisco Varela : Autonomie et connaissance : Essai sur le vivant. Edition Seuil, 1989.
Cité page 38.
Fransisco Varela, Evan Thompson et Eleanor Rosch : The Embodied Mind : Cognitive
science and human experience. MIT Press, Cambridge, 1991. Cité pages 16, 24 et 26.
Paul Vogt : The emergence of compositional structures in perceptually grounded language
games. Artificial Intelligence, 167(1-2):206–242, Sep 2005. Cité page 17.
Grey W. Walter : A machine that learns. Scientific American, pages 60–63, 1951. Cité
page 15.
Joseph Weizenbaum : Eliza – a computer program for the study of natural language
communication between man and machine. Communications of the ACM, 9(1):36–45,
January 1966. Cité page 13.
Robert W. White : Motivation reconsidered : The concept of competence. Psychological
Review, 66:297–333, 1959. Cité page 36.
Stewart W. Wilson : Knowledge growth in an artificial animal. Proceedings of an
International Conference on Genetic Algorithms and Their Applications, pages 16–
23, 1985. Cité pages 12 et 18.
Stewart W. Wilson : The animat path to ai. From Animals to Animats : Proceedings of
the First International Conference on Simulation of Adaptive Behavior, pages 15–21,
1991. Cité page 12.
Tom Ziemke : Rethinking grounding. In Riegler & Peschl, éditeur : Does Representation
Need Reality ? Proceedings of the International Conference ’New Trends in Cognitive
Science’ (NTCS’97), pages 87–94. Austrian Society for Cognitive Science, 1997. Cité
pages 16 et 17.184 BIBLIOGRAPHIE
Tom Ziemke : The construction of ’reality’ in the robot : Constructivist perspectives on
situated artificial intelligence and adaptive robotics. Foundations of Science, 6:163–
233, 2001. Cité page 16.
Hervé Zwirn : Les systèmes complexes : Mathématiques et biologie. Sciences. Editions
Odile Jacob, 2006. ISBN 9782738118585. Cité page 156.Abstract
In this thesis, we study a motivational model for artificial systems, which aims at
exploring and structuring sensorimotor learning spaces. Our approach relies on some
essential notions, including the body, the development, and the motivation. This particular
kind of artificial curiosity is based on the competence or learning progress, and thus
depends on the physical natural constraints originating from the agent’s embodiment.
We follow the Goal-Babbling Exploration approach which consists in determining a set
of techniques allowing an agent to self-generate goals, i.e. sensory configurations, and
try to reach them using motor actions. Our contributions improve the SAGG-RIAC
motivational model, by proposing alternative ways of structuring the exploration of the
goal space. Some of our contributions have been experimentally validated within the
FIMO framework we developed to this purpose and which is available online.
Keywords: artificial intelligence, developmental robotics, sensorimotor learning, intrinsic
motivation, FIMO
Résumé
Dans cette thèse, nous nous intéressons à l’étude d’un modèle dédié à l’exploration
et à la structuration d’espaces d’apprentissage sensorimoteur pour des systèmes arti-
ficiels. Nous appuyons notre démarche sur les notions de corps et de développement
propre, auxquelles se greffe un troisième processus dit motivationnel. Cette forme de curiosité
artificielle se base sur le progrès en compétence et repose ainsi sur les contraintes
physiques naturelles directement issues de l’encorporation de l’agent. L’objectif de la
motivation est de réguler un développement à long terme, dédié à l’apprentissage de
nouvelles compétences non prévues par le concepteur. Nous inscrivons nos travaux dans
la continuité de l’approche du babillage sensorimoteur dans l’espace des buts, qui consiste
à déterminer un ensemble de techniques permettant à un agent de générer, selon une mé-
trique d’intérêt, une configuration sensorielle qu’il va essayer d’atteindre par des actions
motrices. Nos contributions viennent améliorer et complexifier le modèle motivationnel
SAGG-RIAC, en proposant des alternatives au processus de structuration de l’espace
d’exploration. Certaines de ces propositions théoriques ont été validées expérimentalement
grâce à la plateforme FIMO, que nous avons développée dans cette optique, et qui
est disponible en ligne.
Mots clefs : intelligence artificielle, robotique développementale, apprentissage sensorimoteur,
motivation intrinsèque, FIMO
LIRMM — 161, rue Ada — 34095 Montpellier cedex 5 — France
Etude de repr´esentations parcimonieuses des statistiques ´
d’erreur d’observation pour diff´erentes m´etriques.
Application `a l’assimilation de donn´ees images.
Vincent Chabot
To cite this version:
Vincent Chabot. Etude de repr´esentations parcimonieuses des statistiques d’erreur ´
d’observation pour diff´erentes m´etriques. Application `a l’assimilation de donn´ees images.. Signal
and Image processing. Universit´e de Grenoble, 2014. French.
HAL Id: tel-01073582
https://tel.archives-ouvertes.fr/tel-01073582
Submitted on 10 Oct 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THÈSE
Pour obtenir le grade de
DOCTEUR DE L’UNIVERSITÉ DE GRENOBLE
Spécialité : Mathématiques Appliquées
Arrêté ministériel : 7 aout 2006
Présentée par
Vincent Chabot
Thèse dirigée par Arthur Vidard
et codirigée par Maëlle Nodet
préparée au sein du Laboratoire Jean Kuntzmann
et de École Doctorale Mathématiques, Sciences et Technologies de
l’Information, Informatique
Étude de représentations parcimonieuses
des statistiques d’erreur
d’observation pour différentes
métriques. Application à l’assimilation
de données images.
Thèse soutenue publiquement le 11 juillet 2014,
devant le jury composé de :
Mme. Valérie Perrier
Professeur à Grenoble INP, Présidente
M. Thibaut Montmerle
Ingénieur des Ponts, des Eaux et des Forêts, Météo–France, Rapporteur
M. Thomas Corpetti
Directeur de recherche CNRS (Rennes), Rapporteur
M. Didier Auroux
Professeur à l’Université de Nice Sophia Antipolis, Examinateur
M. Arthur Vidard
Chargé de recherche INRIA, Directeur de thèse
Mme. Maëlle Nodet
Maître de conférences à l’Université Joseph Fourier, Co-Directrice de thèse
Mme. Claire Lauvernet
Chargée de recherche IRSTEA, (Lyon), Invitée
M. Nicolas Papadakis
Chargé de recherche CNRS (Bordeaux), InvitéiiSommaire
Remerciements
Introduction
Chapitre 1 Introduction à l’assimilation de données 7
1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Formulation variationnelle du problème d’assimilation . . . . . . . . . . . . . . . 10
1.3 Préconditonnement du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Influence de la matrice B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Construction de la matrice B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Chapitre 2 Transformée en ondelettes discrète 19
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Transformée en ondelettes discrète . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1 Analyse multi-résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.2 Le rôle des filtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.3 Propriétés des bases d’ondelettes . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.4 Opérations de seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Ondelettes séparables en dimension 2 . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.1 Construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.2 Obtention des coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.3 Illustration sur un exemple du stockage de l’information dans un espace
d’ondelettes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.4 Autre représentation en dimension 2 . . . . . . . . . . . . . . . . . . . . . 38
Chapitre 3 Utilisation d’images en assimilation de données 41
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.1 Atmospheric motion vectors . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.2 Estimation du champ de vitesse par mesure du flot optique . . . . . . . . 43
3.1.3 Assimilation directe d’image . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2 Méthode d’assimilation utilisée dans ce manuscrit . . . . . . . . . . . . . . . . . . 48
3.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.2 Mesure de la distance entre deux images . . . . . . . . . . . . . . . . . . . 49
iiiiv Sommaire
3.3 Expériences jumelles avec des données parfaites . . . . . . . . . . . . . . . . . . . 56
3.3.1 Contexte expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.2 Diagnostic utilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.3 Validation des opérateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3.4 Influence de la longueur de la fenêtre d’assimilation . . . . . . . . . . . . 64
3.3.5 Impact de la régularisation par l’ébauche . . . . . . . . . . . . . . . . . . 67
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Chapitre 4 Impact d’un bruit d’observation non corrélé en espace 73
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1.1 Rappel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.1.3 Matrice de covariance ou matrice de corrélation ? . . . . . . . . . . . . . . 74
4.2 Matrice de covariance dans différents espaces . . . . . . . . . . . . . . . . . . . . 75
4.2.1 Distance entre gradients . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.2 Dans une base d’ondelettes orthonormées . . . . . . . . . . . . . . . . . . 79
4.2.3 Distance dans une trame de curvelettes . . . . . . . . . . . . . . . . . . . 79
4.2.4 Distance entre les gradients normalisés . . . . . . . . . . . . . . . . . . . . 82
4.3 Expériences effectuées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.3.1 Impact du niveau de bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.3.2 Intérêt de la perte d’information en présence de biais . . . . . . . . . . . . 88
4.3.3 Impact de la fréquence d’observation . . . . . . . . . . . . . . . . . . . . . 90
Chapitre 5 Impact d’un bruit d’observation corrélé en espace 93
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.2 Pixels, gradients et gradient normalisés . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2.1 Approximation dans une base de pixels . . . . . . . . . . . . . . . . . . . 97
5.2.2 Approximation dans l’espace des gradients . . . . . . . . . . . . . . . . . . 97
5.2.3 Approximation pour les gradients normalisés . . . . . . . . . . . . . . . . 99
5.3 Approximation scalaire dans une base d’ondelettes . . . . . . . . . . . . . . . . . 99
5.3.1 Construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.3.2 Pourquoi est-ce une mauvaise approximation ? . . . . . . . . . . . . . . . 100
5.4 Construction formelle de la matrice de covariance dans une base d’ondelettes . . 103
5.4.1 Obtention de la matrice de covariance en mode boîte noire . . . . . . . . 103
5.4.2 Utilisation de la connaissance de la transformée en ondelette . . . . . . . 103
5.4.3 Mais au final, à quoi ça ressemble ? . . . . . . . . . . . . . . . . . . . . . . 110
5.4.4 Propriété facilitant la construction lorsque le bruit est identiquement distribué
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.5 Approximation diagonale dans une base d’ondelettes . . . . . . . . . . . . . . . . 113
5.5.1 Impact de la diagonalisation . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.5.2 Renormalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116v
5.5.3 Propriété intéressante pour la renormalisation (et autres) . . . . . . . . . 117
5.6 Estimation de la matrice dans une trame de curvelettes . . . . . . . . . . . . . . 119
5.6.1 Utilisation de matrice de poids symétrique définie positive . . . . . . . . . 119
5.6.2 Restriction à des matrices diagonales . . . . . . . . . . . . . . . . . . . . . 122
5.7 Estimation de la matrice de covariance dans un espace de Fourier . . . . . . . . . 128
5.8 Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.8.1 Influence du niveau de bruit . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.8.2 Impact de R sur le choix de B . . . . . . . . . . . . . . . . . . . . . . . . . 139
5.8.3 Quelle quantité d’information est contenue dans les statistiques d’erreurs
d’observation ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.8.4 Attention danger : statistiques à manipuler avec précaution ! . . . . . . . 143
5.8.5 Anisotropie et choix de la représentation . . . . . . . . . . . . . . . . . . . 147
Chapitre 6 Gestion des occultations dans des bases d’ondelettes 151
6.1 Données parfaites et nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
6.1.1 Fonction coût dans l’espace des pixels . . . . . . . . . . . . . . . . . . . . 152
6.1.2 Expériences jumelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.1.3 Bilan partiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
6.2 Impact des occultations sur le modèle de corrélations . . . . . . . . . . . . . . . . 156
6.3 Comparaison d’images occultées dans un espace d’ondelettes . . . . . . . . . . . 158
6.3.1 Approximation de la matrice de covariance sans prise en compte des occultations
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.3.2 Que se passe-t-il lorsques certains pixels viennent à manquer ? Illustration
dans l’espace des gradients. . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.3.3 Pourquoi les coefficients de petite échelle sont peu affectés par un bruit
corrélé ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
6.4 Modélisation de la variance en présence d’occultation . . . . . . . . . . . . . . . . 166
6.4.1 Pourcentage d’information disponible . . . . . . . . . . . . . . . . . . . . 166
6.4.2 Calcul du terme d’inflation . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.4.3 Approximation de la variance de coefficients partiellement occultés . . . . 171
6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Chapitre 7 Conclusion et perspectives 177
7.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
7.2.1 Vers l’utilisation d’autres espaces multi–échelles . . . . . . . . . . . . . . . 178
7.2.2 Prise en compte des corrélations temporelles . . . . . . . . . . . . . . . . 180
7.2.3 Gestion des occultations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7.2.4 Approximation par blocs diagonaux . . . . . . . . . . . . . . . . . . . . . 182
7.2.5 Vers des problèmes réalistes . . . . . . . . . . . . . . . . . . . . . . . . . . 183
7.2.6 Autres définitions de la distance entre deux images . . . . . . . . . . . . . 184vi Sommaire
Annexe A Pourquoi la hauteur d’eau n’est-elle pas corrigée ? 187
Bibliographie 191Remerciements
Je souhaite tout d’abord remercier mes directeurs de thèse Arthur Vidard et Maëlle Nodet
pour avoir eu l’occasion d’effectuer cette thèse sous leur direction. Je les remercie en effet pour
leur disponibilité, leur patience et le temps qu’ils ont pu consacrer à l’encadrement de ces travaux.
Les nombreuses discussions que j’ai pu avoir avec eux ont toujours été à la fois agréables et
enrichissantes. Leur adaptabilité et leur rapidité de compréhension d’un discours souvent "trop
direct et trop technique" m’a été d’un grand secours durant ces années. Je tiens aussi à les
remercier d’avoir su introduire une méthodologie dans mon travail. Enfin, je tiens à les remercier
pour les bons moments passés, notamment autour de bières ou de jeux, durant ces quelques
années à Grenoble.
Cette thèse n’aurait sans doute pas été la même sans l’implication de Nicolas Papadakis.
Je tiens à le remercier pour le temps qu’il a pu consacrer à ce projet, son engouement et son
foisonnement d’idées. Je tiens aussi à le remercier pour avoir su plusieurs fois me remotiver.
Les années passées à Grenoble n’auraient pas été aussi bonnes sans un environnement de
travail agréable. Je tiens à remercier l’ensemble de l’équipe MOISE pour son accueil. Parmi ses
membres, je tiens tout particulièrement à remercier Anne Pierson qui a toujours été disponible
pour m’aider à surmonter les tâches administratives afférentes à la préparation d’un doctorat.
Un grand merci à Alexandre Hoffman que j’ai eu le plaisir d’encadrer lors de son stage de
licence. Merci pour son implication et ses différentes idées sur un sujet pas toujours aisé au
premier abord.
Je tiens à remercier Thibaut Montmerle et Thomas Corpetti pour le temps qu’ils ont pu
consacrer à effectuer un travail de rapport de très grande qualité. Leurs nombreuses critiques,
très constructives, m’ont permis d’améliorer ces travaux de thèse. Je dois la découverte du monde
des ondelettes (très présent dans ces travaux) à Valérie Perrier que je remercie d’avoir accepté
de présider mon jury de thèse. Enfin, je tiens à remercier Didier Auroux et Claire Lauvernet
pour le temps consacré à une lecture minutieuse et pour l’intérêt porté à ces travaux.
Je n’aurai certainement pas réalisé cette thèse si Gérald Desroziers et Loïk Berre ne m’avaient
pas accueilli lors de mon stage de licence au sein du GMAP. Je tiens à les remercier de m’avoir
fait découvrir très tôt le monde de l’assimilation de données et de m’avoir fait comprendre
l’importance des matrices de corrélations d’erreur au sein de cette discipline.
J’ai apprécié au cours de ma dernière année de thèse d’avoir pu collaborer avec Jean–François
Coeurjolly. Je le remercie pour son encadrement de ma pratique de l’enseignement des statistiques
au sein de l’UPMF. Je le remercie au passage pour le temps passé à répondre à mes
différentes questions concernant cette discipline aussi bien pour le côté enseignement que pour
le côté recherche scientifique.
Si j’ai été aussi heureux de passer quatre années au sein du LJK, cela tient en partie aux personnes
que j’ai pu y côtoyer. Je pense tout d’abord à mes co–bureaux : Gaëlle et ses réactions
12 Remerciements
spontanées, aux histoires et autres râleries de Bertrand, aux déambulations inopinées de Romain.
Je tiens aussi à remercier les abeilles du 36 et leur essaimage spontané grâce auquel j’ai
co–burauté avec Mathias, Nelson et les mots croisés. Je tiens aussi à remercier Chloé Mimeau
pour les nombreuses discussions que nous avons pu avoir (et aussi pour avoir accepté de relire
et corriger une partie de ce travail de thèse). Enfin, j’ai pu apprécier de nombreuses autres personnes
d’apprécier : Emilie, Roland, Innocent, Madison, Thomas, PJ, PO, Morgane (merci pour
tes encouragements dans des moments pas facile), Jean-Mathieu, Lukas, Eurielle, Bénédicte,
Meriem.
Cette thèse n’aurait sans doute pas été la même sans l’ensemble de mes colocataires avec qui
j’ai pu passer de très bon moments, et ce aussi bien à La Tronche qu’à Venon.
Dernier point, et non des moindres, je tiens à remercier la machine à café du 7ème d’avoir
produit (périodiquement) un café qui m’a permis de tenir physiquement (ainsi que de faire de
nombreuses pauses) au cours de la réalisation de ces travaux.Introduction
Pourquoi les météorologistes ont-ils tant de peine à prédire le temps avec quelque certitude ?
Pourquoi les chutes de pluie, les tempêtes elles-mêmes nous semblent-elles arriver au hasard,
de sorte que bien des gens trouvent tout naturel de prier pour avoir la pluie ou le beau temps,
alors qu’ils jugeraient ridicule de demander une éclipse par une prière ? Nous voyons que les
grandes perturbations se produisent généralement dans les régions où l’atmosphère est en équilibre
instable. Les météorologistes voient bien que cet équilibre est instable, qu’un cyclone va naître
quelque part ; mais où, ils sont hors d’état de le dire ; un dixième de degré en plus ou en moins
en un point quelconque, le cyclone éclate ici et non pas là, et il étend ses ravages sur des contrées
qu’il aurait épargnées. Si on avait connu ce dixième de degré, on aurait pu le savoir d’avance,
mais les observations n’étaient ni assez serrées, ni assez précises, et c’est pour cela que tout
semble dû à l’intervention du hasard. Ici encore nous retrouvons le même contraste entre une
cause minime, inappréciable pour l’observateur, et des effets considérables, qui sont quelquefois
d’épouvantables désastres.
Henri Poincaré (1854-1912)
Le caractère chaotique de la météorologie fut pressenti très tôt par Henri Poincaré. Comme on
peut le voir dans la citation précédente, le caractère non prévisible de l’état de l’atmosphère
n’est ainsi pas dû au hasard mais découle de la sensibilité du système aux conditions initiales
mal connues et de la propriété de récurrence du système 1
.
Comme le pressentait Henri Poincarré, afin d’effectuer de bonnes prévisions météorologiques,
il est essentiel d’avoir accès à la meilleure condition initiale possible. Il est tout aussi fondamental,
à partir de ces conditions initiales, de savoir comment les propager dans le temps afin
d’obtenir une trajectoire de l’atmosphère précise à courte échéance. Au vu de la complexité des
lois physiques régissant le système, arriver à prévoir la trajectoire du système à moyen terme
est un travail complexe que nous sommes peu capable de faire seul. Jay Forrester (fondateur
de la dynamique des systèmes) résume en peu de mot pourquoi nous ne sommes pas capables
d’appréhender le comportement des systèmes complexes :
La difficulté, c’est que ces systèmes sont contre–intuitifs. Ils ne se comportent pas comme on
s’y attendrait. Et il y a des raisons à cela. Le cerveau humain a formé son intuition et son
expérience à partir de systèmes simples. Conduire une voiture est sans doute le système le plus
complexe, le plus élaboré, que nous maîtrisons pleinement. Face à des systèmes plus complexes
nous appliquons l’expérience acquise sur des systèmes simples mais les systèmes complexes ont
une dynamique très différente. C’est la structure du système complet qui détermine son comportement.
Jay Forrester (1918–)
1. Cette dernière propriété signifie que pour presque toute condition initiale du système, le système repasse
au cours du temps une infinité de fois arbitrairement près de cette configuration initiale.
34 Introduction
Dans les années 1920, Richardson tenta le premier de résoudre numériquement les équations
différentielles simplifiées afin de produire une prévision météorologique de six heures. Par manque
de moyen de calcul, le résultat fut décevant mais son expérience fut profitable aux générations
suivantes. Ce n’est cependant que dans les années cinquante, après que furent inventés les premiers
ordinateurs, que [Charney et al., 1950] firent la première prévision numérique couronnée
de succès.
De manière générale, l’arrivée des ordinateurs a permis de mieux appréhender le comportement
de ces système complexes grâce à la résolution numérique d’équation (décrivant de manière
idéalisée les processus au centre des systèmes complexes), et ce, aussi bien en météorologie que
dans bien d’autres domaines.
Depuis le début des prévisions numériques du temps, la qualité des modèles numériques (permettant
de propager les conditions initiales dans le temps) s’est accrue, et ce en partie grâce à
la croissance de la puissance de calcul des ordinateurs. Cependant, sans condition initiale fiable,
l’utilité de l’accroissement de la qualité de ces modèles (dans le but d’effectuer des prévisions)
est discutable. Pour obtenir ces conditions initiales, il est nécessaire d’accéder à des informations
sur l’état actuel de l’atmosphère. Pour ce faire, la quantité d’information récoltée par le réseau
d’observation mondiale (Global Observing System) s’est accrue au fil des années.
Remarque 0.1
Il est bon de noter que la météorologie est sans doute un des domaines où la coopération
internationale est la plus aboutie. En effet, via l’Organisation Météorologique Mondiale les
données récoltées par chaque pays sont accessibles aux autres membres en temps réel. Il est
ainsi possible pour chaque centre météorologique de disposer d’observations un peu partout
sur Terre sans avoir à les effectuer eux mêmes.
Ce réseau comprend, entre autre, de nombreux satellites. L’information en provenance de
ces derniers a crû de manière rapide depuis maintenant une vingtaine d’année. Aujourd’hui la
majeure part des informations utilisées en météorologie provient des satellites malgré l’important
réseau d’observation conventionnelle actuellement en place. En météorologie l’impact des
observations satellites est particulièrement important au–dessus des régions peu observées par
les moyens conventionnels. Ainsi, les satellites sont, de loin, la principale source d’information
au niveau des pôles, au dessus de l’océan et, dans une moindre mesure, dans les pays du Sud
[Desroziers et al., 2009]. Ces informations sont cruciales car elles contribuent à réduire l’écart
de qualité entre les prévisions effectuées dans les pays du Nord et du Sud. En océanographie,
science pauvre en observations conventionnelles, leur impact est encore plus grand : les satellites
permettent d’accéder aux processus se déroulant à la surface de ce dernier de manière de plus
en plus précise.
Dans ces deux domaines, afin d’effectuer les meilleures prévisions possibles, une bonne prise
en compte de ces observations est primordiale dans le but d’estimer de manière optimale les
conditions initiales du système. Ces images peuvent fournir de nombreuses informations sur des
variables directement observées, comme la hauteur de surface de l’océan en océanographie, ou une
information indirecte sur la dynamique du système. En observant des séquences d’images (comme
par exemple celle présentées lors des prévisions météorologiques à la télévision), l’information
sur la dynamique du système (ici le champ de vitesse) est aisément perçue par l’oeil humain.
Cependant, cette information est actuellement sous–utilisée dans les systèmes opérationnels de
prévision numérique :
— en météorologie, l’information est intégrée sous la forme d’observation indirecte sévèrement
sous-échantillonnées en temps et en espace,
— en océanographie, elle n’est tout simplement pas (encore) utilisée.
Depuis maintenant quelques années, de nouvelles méthodes ont été proposées pour utiliser
ce type d’information [Papadakis and Mémin, 2008, Korotaev et al., 2008, Corpetti et al., 2009,5
Titaud et al., 2010, Michel, 2011]. Dans ce mémoire nous utilisons une méthode dans la continuité
des travaux de [Souopgui, 2010, Titaud et al., 2010] réalisés au sein de l’équipe projet
INRIA MOISE2
afin d’extraire des séquences d’images les informations sur la dynamique du
système.
Les séquences d’images satellites, bien que fournissant des données denses en espace ne sont pas
sans poser certains problèmes.
Le premier problème consiste à savoir comment extraire à partir d’une séquence d’images
des informations sur la dynamique du système.
Le second problème provient du moyen utilisé pour créer ces séquences d’images. En effet, les
satellites mesurent des rayonnements électromagnétiques émis ou réfléchis par les objets étudiés
(nuages, surface de l’eau, ...) dans un certain domaine de fréquences. Ceci est rendu possible par
le fait que les objets étudiés émettent ou réfléchissent du rayonnement à différentes longueurs
d’onde et intensités selon leur état. Pour avoir accès aux quantités physiques nous intéressant, il
est nécessaire d’effectuer un pré–traitement de ces données. Ce pré–traitement tend à créer des
corrélations au sein des champs d’erreurs d’observations, corrélations qui doivent être prise en
compte lors de la phase d’assimilation de données.
En océanographie, les séquences d’images sont souvent en partie occultées par la présence de
nuages. L’espace observé changeant d’un instant à l’autre il est dans ce cas bien plus difficile de
prendre en compte de manière peu coûteuse les corrélations au sein des erreurs d’observations :
les approximations effectuées sur la matrice de covariance lorsque l’ensemble de l’image est
observé ne sont plus valables et doivent être adaptées.
Organisation du document
Ce travail de thèse est présenté en 6 chapitres. Le premier chapitre porte sur la méthode
d’assimilation de données utilisée dans la suite du manuscrit. Le second chapitre présente la
transformée en ondelettes orthogonales. Le troisième chapitre introduit le problème de l’assimilation
d’images ainsi que la méthode employée dans ce manuscrit. Le quatrième porte sur la
gestion d’un bruit d’observation décorrélé en espace et en temps. Ce chapitre est relativement
court au vu du suivant : il est en effet peu envisageable d’avoir à décrire des erreurs décorrélées
en temps et en espace pour des observations dont la densité spatiale et temporelle s’accroit
continuellement.
Au cours du cinquième chapitre sont décrites différentes manières de prendre en compte
un bruit corrélé en espace via l’utilisation des propriétés des bases d’ondelettes et des trames
de curvelettes. Dans ce chapitre, l’intérêt d’appauvrir l’information (en travaillant par exemple
dans l’espace des gradients) est aussi présenté.
Le dernier chapitre aborde le problème de la gestion des occultations lorsque les corrélations
sont modélisées par une matrice diagonale dans une base d’ondelettes. Enfin, une dernière partie
conclut et propose quelques perspectives à ces travaux.
2. Equipe où cette thèse a été préparée.6 Introduction1
Introduction à l’assimilation de
données
Sommaire
1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Formulation variationnelle du problème d’assimilation . . . . . . . . 10
1.3 Préconditonnement du problème . . . . . . . . . . . . . . . . . . . . . 14
1.4 Influence de la matrice B . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Construction de la matrice B . . . . . . . . . . . . . . . . . . . . . . . 16
En novembre 1854, au cours de la Guerre de Crimée, une violente tempête provoqua le
naufrage de 41 navires français en Mer Noire. Cette tempête avait, avant d’arriver en Crimée,
traversée l’ensemble de l’Europe. Cependant, personne ne fut en mesure de la signaler. Pour
prévenir ce genre d’évènement désagréable dans le futur, à la demande de Napoléon III, Urbain
le Verrier mit en place un réseau d’observatoires météorologiques en France (24 observatoires)
qui fut étendu par la suite à l’ensemble de l’Europe (59 observatoires). A partir des données
récoltées par ces observatoires, les premières prévisions météorologiques en France eurent lieu
dès 1863 via l’étude de l’évolution des phénomènes observés sur des cartes.
Ces premières prévisions étaient à l’époque destinées aux marins pour les prévenir des tempêtes
arrivant. Elles étaient effectuées via l’utilisation d’observations et par "déduction" de la
trajectoire de l’atmosphère.
Aujourd’hui et ce depuis l’apparition des premiers calculateurs, de nombreuses choses ont changé
en ce qui concerne la prévision du temps. Actuellement, on parle de prévision numérique du
temps, le terme numérique signifiant que la majorité du travail de prévision est effectuée par des
ordinateurs compilant des informations en provenance de sources hétérogènes. Ces informations
comprennent toujours les observations du système (qui sont un rappel vers la réalité qui
est en train de se dérouler au dessus de notre tête) et un a priori sur l’état de l’atmosphère
(nommée ébauche). Ce qui a profondément changé depuis l’arrivée des premiers calculateurs
est l’utilisation de modèles numériques d’évolution intégrant des équations mathématiques
décrivant la physique des processus étudiés.
Les calculateurs exécutant simplement les calculs demandés par l’utilisateur, un domaine de
recherche important consiste à savoir comment leur demander d’extraire et de combiner (de
manière calculatoire) l’information en provenance de différentes sources que nous ne sommes
pas capable d’analyser sans utiliser leurs capacités de calcul.
Ces méthodes, en météorologie et océanographie, sont nommées méthodes d’assimilation de
données. Elles permettent de combiner d’une manière optimale (dans un sens à définir) les
différentes sources d’informations à notre disposition.
78 Chapitre 1. Introduction à l’assimilation de données
Dans quel but peut–on utiliser l’assimilation de données ?
Les méthodes d’assimilations de données peuvent être utilisées dans différents buts.
1. La prévision : Les informations passées et présentes sont utilisées au mieux afin de
fournir la meilleure prévision possible au travers de la définition d’une condition initiale
optimale propagée par un modèle.
2. La réanalyse : Les observations passées sont utilisées afin de construire la meilleure
trajectoire du système étudié au cours du temps. Elles permettent d’étudier à posteriori un
phénomène particulier ou de mieux comprendre l’évolution d’un système sur de longues
périodes de temps. Ces réanalyses sont l’occasion d’utiliser des nouveaux systèmes de
prévisions sur des cas anciens afin d’évaluer leur impact (et notamment savoir si à l’heure
actuelle certains événements sont mieux représentés et prévus par les modèles).
Ces deux premiers usages de l’assimilation de données sont les usages "traditionnels" de
l’assimilation de données. Un autre usage, traditionnellement moins répandu, est actuellement
plus fréquemment utilisé.
3. La calibration des modèles : Les informations passées et présentes peuvent en effet
être utilisées pour mieux comprendre et régler les paramètres utilisés dans les modèles numériques.
L’utilisation des techniques d’assimilations peut en effet permettre d’optimiser
la calibration de certains "paramètres" du modèle en les confrontant à des observations.
Dans ce chapitre, nous introduisons le concept de l’assimilation variationelle de données. Bien
que d’autres méthodes pour effectuer de l’assimilation de données existent et soient employées
quotidiennement, nous ne les présentons pas ici. Le lecteur intéressé par une review des différentes
méthodes de filtrage peut se tourner vers [Bonan, 2013].
Dans cette thèse, nous ne développons pas de nouvelle méthode d’assimilation de données. La
littérature portant sur la description des différentes méthodes d’assimilation de données étant
conséquente et bien détaillée, il a été choisit de décrire uniquement la méthode utilisée dans
ces travaux. C’est pourquoi seul le cadre d’un 4D–Var classique est introduit. Cette introduction
pourrait paraître brève et peu détaillée pour le lecteur intéressé découvrant le sujet. Si tel
est le cas, ce dernier est invité à consulter différentes notes de cours [Blayo and Nodet, 2012,
Bocquet, 2011] ou travaux présentant bien plus en détails les différentes techniques d’assimilation
de données [Vidard, 2001, Souopgui, 2010, Mirouze, 2010, Neveu, 2011, Bonan, 2013,
Nodet, 2013].
1.1 Notations
Avant d’entrer dans les détails algorithmiques, nous allons commencer par introduire le
vocabulaire et les notations employées dans ce chapitre.
Le vecteur d’état X
Le vecteur d’état représente l’ensemble des variables pronostiques du modèle, c’est–à–dire les
variables dont la dérivée par rapport au temps est prise en compte explicitement dans les équations
du modèle. Il est noté X(t) et contient l’état des différentes variables du système étudié
à l’instant t. Dans un système numérique, le vecteur d’état est une représentation discrète des
variables continues du système. Sa dimension est notée nx. L’état du système à l’instant tk, i-e
X(tk), est noté Xk.1.1. Notations 9
L’état vrai Xt
L’état vrai Xt
représente l’état à estimer au moyen d’un processus d’assimilation. Cet état
est par nature discret et ne peut donc représenter le véritable état continu Xc
. Il est cependant
possible de relier Xc
à Xt
au moyen d’un opérateur Π permettant la projection de la variable
continue sur la discrétisation employée. Nous avons ainsi :
Xt
i = ΠXc
i
. (1.1)
Le modèle
Le modèle représente l’implémentation numérique des équations d’évolution du système. A
partir d’un état initial X0, le modèle M permet de fournir un estimé de l’état du système Xk.
∂X(t)
∂t = M(X(t))
X(t0) = X0
(1.2)
Cependant, le modèle n’est qu’une représentation partielle de la réalité des processus physiques.
Ainsi, même si le véritable vecteur d’état, noté Xt
, est connu à l’instant tk son intégration
par le modèle jusqu’au temps tk+1 comporte des erreurs :
Xt
k+1 = Mtk→tk+1
Xt
k
+ ηk. (1.3)
Le vecteur ηk est nommé erreur modèle. Cette erreur modèle dépend, entres autres, de l’état
continu Xc
k
. Sans informations supplémentaires sur la nature de l’erreur modèle, cette dernière
peut être modélisée comme une variable aléatoire gaussienne de moyenne :
ηk = E (ηk) (1.4)
et de matrice de covariance :
Qk = E
(ηk − ηk)(ηk − ηk)
T
. (1.5)
Ces perturbations représentent l’ensemble des processus non modélisés. Ils englobent les
processus non résolus par le modèle car de trop petite échelle.
L’ébauche Xb
L’ébauche est une première estimation du vecteur d’état. Typiquement, il s’agit d’une sortie
du modèle en provenance de la phase de prévision de la période précédente d’assimilation.
L’ébauche est une connaissance a priori de l’état du système.
De la même manière que nous avons défini l’erreur modèle, nous pouvons définir une erreur
d’ébauche :
Xb = Xt
0 +
b
(1.6)
Dans la suite, on suppose que ces erreurs suivent une loi gaussienne et ne sont pas biaisées :
b ∼ N (0, B). (1.7)
Les observations y
o
Afin de pouvoir contrôler le système, il est nécessaire d’avoir des informations sur les processus
qui sont en train d’avoir lieu. C’est le rôle des observations de fournir ce type d’information.
Ces observations, notées y
o
, proviennent de sources diverses. Elles ne sont pas nécessairement
des observations des variables des modèles ou situées au point de grille de notre discrétisation.10 Chapitre 1. Introduction à l’assimilation de données
Afin de relier les observations à un instant tk, notée y
o
k
, au vecteur d’état Xk il est nécessaire
de définir un opérateur d’observation discret Hk tel que :
y
o
k = Hk(Xt
k
) +
o
k
(1.8)
où
o
k
représente l’erreur d’observation au temps tk. Les erreurs d’observations peuvent provenir
de différentes sources dont les erreurs de mesure, les erreurs de pré-processing et les erreurs
de représentativité. Ces dernières peuvent notamment être liées au fait que certains phénomènes
observés ne sont pas résolus par le modèle.
Les erreurs d’observations sont supposées décorrélées des erreurs d’ébauche et non
biaisées. Leur matrice de covariance est donnée par :
Ri = E
o
k
o
k
T
(1.9)
1.2 Formulation variationnelle du problème d’assimilation
L’assimilation de données consiste à résoudre un problème inverse posé sur un système physique
dont les paramètres d’entrée sont mal connus et dont les sorties ne sont que partiellement
observées. Le principe des méthodes variationnelles est de résoudre ce problème par minimisation
d’une fonctionnelle prenant en compte l’ensemble de l’information disponible.
Dans notre cas, le but est d’estimer la condition initiale X0 permettant d’expliquer la trajectoire
observée de l’atmosphère, en prenant en compte nos connaissances sur la dynamique et un a
priori sur la condition initiale. Cette condition initiale constitue notre vecteur de contrôle,
c’est à dire l’ensemble des paramètres que nous allons chercher à estimer.
Remarque 1.1
Dans la suite de ce chapitre, pour décrire le concept de l’assimilation de données variationnelle,
nous utilisons uniquement un modèle linéaire (noté M) et un opérateur d’observation
linéaire (noté H) par soucis de simplicité. Toujours par soucis de simplicité, les statistiques
d’erreurs d’observation et d’ébauche sont supposées gaussiennes tandis que les erreurs modèles
sont négligées.
La fonctionnelle à minimiser s’écrit sous la forme :
J(X0) = 1
2
(X0 − Xb
)
T B
−1
(X0 − Xb
) + 1
2
X
N
i=0
(y
o
i − Hi(Xi))T R−1
k
(y
o
i − Hi(Xi))
= kX0 − Xb
k
2
B | {z }
J
b
+
X
N
i=0
ky
o
i − Hi(Xi)k
2
Rk
| {z }
J
o
(1.10)
Le minimum de cette fonctionnelle est nommé état analysé Xa
:
Xa = argmin
X0
J(X0) (1.11)
Cet état analysé peut être décomposé sous la forme de l’ébauche sur la condition initiale à
laquelle un incrément a été ajouté :
Xa = Xb + δXa. (1.12)
Cet incrément δXa est nommé incrément d’analyse.1.2. Formulation variationnelle du problème d’assimilation 11
Le terme J
o
est nommé terme d’écart aux observations. Il contient l’écart entre le vecteur d’observations
y
o
et l’état du modèle dans l’espace des observations. L’écart entre les observations et
l’état du modèle est "pondéré" par l’inverse de la matrice de covariance d’erreur d’observation.
Le terme J
b
est le terme d’écart à l’ébauche. Ce premier terme joue deux rôles :
— Il contient l’information a priori dont on dispose sur l’état du système ;
— Il permet de régulariser le problème mathématique à résoudre. Il y a en général trop peu
d’observations pour que le problème sans ce terme d’écart à l’ébauche puisse être bien
posé.
Remarque 1.2
Les observations à l’instant ti sont liées au vecteur de contrôle X0 de manière très "indirecte".
En effet, le lien entre l’état du système à l’instant ti et l’état initial est fourni par le
modèle d’évolution en temps :
Xi = M(t0→ti)
(X0)
= MiMi−1 · · ·M1(X0)
où on a noté Mi = M(ti−1→ti)
.
Résolution par méthode adjointe
Au vu de la taille du vecteur de contrôle, minimiser directement la fonctionnelle (1.10) via des
méthodes de descente de gradient est très coûteux lorsque le gradient est calculé par différences
finies. L’utilisation des méthodes adjointes rend cependant ce calcul possible à un coût raisonnable
[LeDimet, 1982, LeDimet and Talagrand, 1986] au prix du développement des modèles et
opérateurs adjoints 3
.
Le gradient de la fonction coût (1.10) introduite précédemment est donné par :
∇J(X0) = B
−1
(X0 − Xb
) −
X
N
i=0
MT
1
· · ·MT
i HT
i R−1
i
[y
o
i − HiMi
· · ·M1X0]
= ∇J
b
(X0) + ∇J
o
(X0) (1.13)
La partie du gradient correspondant au rappel à l’ébauche s’obtient aisément (si on est
capable d’inverser la matrice de covariance d’erreur d’ébauche). La seconde partie est cependant
plus ardue à calculer. Elle fait intervenir le modèle et l’opérateur d’observation ainsi que leurs
adjoints respectifs (notés MT
et HT
). Cette seconde partie est, en assimilation variationelle,
obtenue par méthode adjointe.
Afin de visualiser comment ces méthodes fonctionnent, nous pouvons réécrire ∇J
o
(X0) en
utilisant le vecteur d’innovation di défini par :
di = y
o
i − HiMi
· · ·M1X0. (1.14)
qui correspond donc à la différence entre les observations et l’état du modèle à l’instant ti
.
3. A ce sujet, des dérivateurs automatiques tels TAPENADE développé dans l’équipe projet INRIA TROPICS
[Hascoet and Pascual, 2013] existent pour faire une partie du travail de dérivation à notre place.12 Chapitre 1. Introduction à l’assimilation de données
Avec cette nouvelle notation, la part du gradient imputable aux observations s’écrit :
−∇J
o
(X0) = X
N
i=0
MT
1
· · ·MT
i HT
i R−1
i
[y
o
i − HiMi
· · ·M1X0]
=
X
N
i=0
MT
1
· · ·MT
i HT
i R−1
i di
= HT
0 R−1
0 d0 + MT
1 HT
1 R−1
1 d1 + MT
1 MT
2 HT
2 R−1
2 d2 + · · · +
MT
1
· · ·MT
NHT
NR−1
N dN
= HT
0 R−1
0 d0 + MT
1
HT
1 R−1
1 d1 + MT
2
h
HT
2 R−1
2 d2 +
MT
3
· · · + MT
NHT
NR−1
N dN
i
En écrivant de cette manière le gradient du terme d’écart aux observations, on s’aperçoit
qu’il est possible de l’obtenir par une intégration du modèle adjoint (en supposant qu’on ait déjà
effectué une intégration directe pour obtenir les vecteurs d’innovations).
L’intégration du modèle adjoint fonctionne de la manière suivante :
Xˆ N = HT
NR−1
N dN
Xˆ
i = MT
i+1Xˆ
i+1 + HT
i R−1
i di pour i = N − 1, 0
(1.15)
Par identification, en fin d’algorithme, on a donc ∇J
o
(X0) = −Xˆ
0.
Remarque 1.3
Remarquons que l’ensemble des états adjoints se calculent dans le sens contraire au sens
du calcul des états directs du modèle.
Ce moyen d’obtenir le gradient de la fonction coût est à la base de l’application du 4D − Var
qui, à partir d’une connaissance à priori du vecteur d’état Xb peut calculer la fonctionnelle J,
son gradient.
L’algorithme du 4D − Var peut se résumer de la manière suivante :
Algorithme 4D − Var
1. Initialisation de l’algorithme : X0 = Xb
,
2. Intégration du modèle direct M en partant de X0. Cette intégration permet d’obtenir
les vecteurs d’innovations di
.
3. Intégration du modèle adjoint. Cette intégration permet d’obtenir le gradient de la
fonctionnelle J.
4. Appel à une méthode de descente permettant d’obtenir une nouvelle condition initiale
X0 = Xb + δX0
5. Si le critère de minimisation est atteint, on s’arrête. Sinon, on reprend à la seconde
étape.
La figure 1.1 résume le principe de l’assimilation variationnelle utilisant l’information sur la
dynamique du modèle (4D − V ar). Tout d’abord, l’ébauche est propagée par le modèle. L’assimilation
variationnelle consiste alors à comparer l’ensemble des observations disponibles sur la
fenêtre au vecteur d’état (à l’instant d’observation) pour corriger la condition initiale. Cela permet
d’obtenir un nouvel état initial qui peut à son tour être propagé par le modèle puis corrigé
Etude th´eorique et implantation mat´erielle d’unit´es de ´
calcul en repr´esentation modulaire des nombres pour la
cryptographie sur courbes elliptiques
Karim Bigou
To cite this version:
Karim Bigou. Etude th´eorique et implantation mat´erielle d’unit´es de calcul en repr´esentation ´
modulaire des nombres pour la cryptographie sur courbes elliptiques. Computer Arithmetic.
Universit´e Rennes 1, 2014. French.
HAL Id: tel-01084254
https://tel.archives-ouvertes.fr/tel-01084254
Submitted on 19 Nov 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.ANNÉE 2014
THÈSE / UNIVERSITÉ DE RENNES 1
sous le sceau de l’Université Européenne de Bretagne
pour le grade de
DOCTEUR DE L’UNIVERSITÉ DE RENNES 1
Mention : Informatique
Ecole doctorale MATISSE
présentée par
Karim Bigou
préparée à l’unité de recherche IRISA (UMR6074)
Institut de recherche en informatique et systèmes aléatoires
École Nationale Supérieure des Sciences Appliquées et de
Technologie (ENSSAT) - Équipe CAIRN
Étude théorique et
implantation matérielle
d’unités de calcul en
représentation modulaire
des nombres pour la
cryptographie sur
courbes elliptiques
Thèse soutenue à Lannion
le 3 Novembre 2014
devant le jury composé de :
Liam MARNANE
Senior Lecturer, University College Cork
rapporteur
Jean-Michel MULLER
Directeur de recherche CNRS, ENS Lyon, LIP
rapporteur
Jean-Claude BAJARD
Professeur, Université de Paris 6, LIP6
examinateur
Guy GOGNIAT
Professeur, Université de Bretagne Sud, Lab-STICC
examinateur
Arnaud TISSERAND
Chargé de recherche CNRS, IRISA
directeur de thèse
Nicolas GUILLERMIN
Expert cryptographie DGA
co-directeur de thèse23
Remerciements
Je tiens tout d’abord à remercier mes directeurs de thèse, Arnaud Tisserand et Nicolas
Guillermin, qui m’ont permis d’effectuer ce travail sur une problématique passionnante. Ils
m’ont notamment mis le pied à l’étrier sur les aspects matériels, et Arnaud s’est montré
extrêmement patient lorsqu’il a fallu rédiger les idées et les résultats pour les soumettre en
conférence. Leurs précieux conseils m’ont permis d’aboutir au document que voici, dans
les temps de mon financement de thèse (DGA-INRIA).
Je remercie aussi les autres membres du jury : Guy Gogniat en tant que président du
jury, Jean-Claude Bajard en tant qu’examinateur, et enfin les relecteurs Liam Marnane et
Jean-Michel Muller, qui sont venus de toute la France, et même d’Irlande.
Je tiens à remercier tous les membres de l’équipe CAIRN que j’ai pu côtoyer durant ma
thèse. Cette équipe possède une formidable ambiance de travail, ce qui est très motivant et
très encourageant dans les périodes difficiles qui juchent le chemin jusqu’à la soutenance de
thèse. Je remercie plus particulièrement les secrétaires d’équipe Nadia et Angélique, mes
anciens co-bureaux Thomas et Julien, les autres doctorants du groupe arithmétique/crypto
Jérémy et Frank, et les doctorants qui ont démarré en même temps que moi, notamment
Ganda-Stéphane et Hai.
Je remercie aussi tous ceux qui m’ont beaucoup soutenu durant la rédaction. En vrac,
merci à Cédric, Christophe, aux trois Nicolas et à Mélanie. Les conseils de Nicolas E., les
légendaires pestos de Nicolas V., les délicieuses mousses au chocolat de Mélanie, les discussions
endiablées sur le jeu vidéo avec Nicolas S., le rendez-vous hebdomadaire after work
à « l’Atmo » animé par Christophe et les combos de blagues réalisés par Cédric m’ont aidé
à surmonter le rythme soutenu de fin de thèse.
Je remercie mes parents Gilles et Rachida et mes frères Nadjim et Jason pour tout leur
soutien tout au long de ma thèse, et plus généralement, tout au long de ma scolarité. Je
remercie mes parents d’avoir fait ces 20 heures de route en 3 jours pour pouvoir me soutenir
encore une fois afin de conclure mes 8 années d’études.
Pour terminer, je remercie Julie, qui m’accompagne depuis bientôt 10 ans, et qui s’est
investie dans cette thèse, notamment en relisant l’intégralité du document ici présent. Elle
a dû faire face à mes périodes de doute, et m’a soutenu quelles que soient les humeurs qui
m’ont traversées durant ces 3 dernières années. Elle a été mon soutien le plus fondamental
durant toute la durée de ces travaux, et l’est encore aujourd’hui.4Table des matières
Introduction 9
Notations 21
1 État de l’art 25
1.1 La cryptographie asymétrique . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.1.1 Le cryptosystème RSA . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.1.2 Le problème du logarithme discret, application dans les corps finis . 26
1.1.3 Le problème du logarithme discret sur les courbes elliptiques . . . . 28
1.1.4 Techniques classiques de multiplication scalaire et d’exponentiation . 33
1.1.5 Réduction du coût de la multiplication scalaire . . . . . . . . . . . . 34
1.1.6 Sécurité et attaques physiques . . . . . . . . . . . . . . . . . . . . . . 37
1.2 Arithmétique modulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.2.1 Définitions et rappels sur l’arithmétique modulaire . . . . . . . . . . 39
1.2.2 Réduction Modulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.2.3 Inversion Modulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.3 La représentation modulaire des nombres (RNS) . . . . . . . . . . . . . . . 46
1.3.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . 47
1.3.2 Extensions de base RNS . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.3.3 Adaptation RNS de l’algorithme de Montgomery . . . . . . . . . . . 54
1.3.4 Autres algorithmes de réduction . . . . . . . . . . . . . . . . . . . . 57
1.3.5 Implantations RNS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2 Inversion modulaire rapide en RNS 69
2.1 Inversion modulaire RNS dans l’état de l’art . . . . . . . . . . . . . . . . . . 69
2.2 Inversion modulaire plus-minus en RNS . . . . . . . . . . . . . . . . . . . . 72
2.3 Algorithme binaire-ternaire plus-minus en RNS . . . . . . . . . . . . . . . . 78
2.4 Comparaison avec l’état de l’art . . . . . . . . . . . . . . . . . . . . . . . . . 83
2.4.1 Complexité du FLT-MI . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2.4.2 Complexité de PM-MI et BTPM-MI . . . . . . . . . . . . . . . . . . . . 84
2.5 Architecture et implantation FPGA . . . . . . . . . . . . . . . . . . . . . . 85
2.6 Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3 Décomposition et réutilisation d’opérandes pour la multiplication modulaire
RNS 99
3.1 Algorithme de multiplication modulaire RNS proposé . . . . . . . . . . . . . 99
3.1.1 L’étape de décomposition . . . . . . . . . . . . . . . . . . . . . . . . 100
3.1.2 Algorithme de multiplication modulaire SPRR . . . . . . . . . . . . . 102
56 TABLE DES MATIÈRES
3.1.3 Preuve des propositions 1 et 2 . . . . . . . . . . . . . . . . . . . . . . 105
3.1.4 Sélection des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.2 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
3.2.1 Application au logarithme discret . . . . . . . . . . . . . . . . . . . . 110
3.2.2 Applications aux courbes elliptiques . . . . . . . . . . . . . . . . . . 112
3.3 Exponentiation rapide RNS sans hypothèse sur P . . . . . . . . . . . . . . . 116
3.3.1 Un nouvel algorithme d’exponentiation RNS . . . . . . . . . . . . . . 117
3.3.2 Autres algorithmes d’exponentiation . . . . . . . . . . . . . . . . . . 120
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4 Multiplication modulaire RNS mono-base 123
4.1 La multiplication modulaire RNS à base unique SBMM . . . . . . . . . . . . . 123
4.2 Analyse de l’algorithme SBMM . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.2.1 Généralisation du paramètre c . . . . . . . . . . . . . . . . . . . . . . 126
4.2.2 Utilisation de l’extension de base de Kawamura et al. . . . . . . . . . 127
4.2.3 Compression des sorties de l’algorithme . . . . . . . . . . . . . . . . 128
4.2.4 Analyse des coûts en EMM et EMW . . . . . . . . . . . . . . . . . . . . 130
4.3 Implantation FPGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.3.1 Architecture implantée . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.3.2 Résultats d’implantation . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5 Tests de divisibilité multiples 139
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
5.2 Notations et hypothèses d’implantation matérielle . . . . . . . . . . . . . . . 140
5.3 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.4 Utilisation directe des rubans de Pascal en base 2 . . . . . . . . . . . . . . . 143
5.5 Amélioration via les rubans de Pascal en grande base 2
v
. . . . . . . . . . . 144
5.6 Comparaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Conclusion 149
Bibliographie personnelle 153
Bibliographie 153Liste des Algorithmes
1 Protocole de chiffrement RSA [102]. . . . . . . . . . . . . . . . . . . . . . . . 26
2 Échange de clé de Diffie-Hellman [38]. . . . . . . . . . . . . . . . . . . . . . . 27
3 Protocole de chiffrement Elgamal simple [44]. . . . . . . . . . . . . . . . . . . 27
4 Chiffrement avec le cryptosystème Elgamal ECC simple (source [57]). . . . . 32
5 Multiplication scalaire doublement et addition poids faibles en tête (source [57],
p. 96). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6 Multiplication scalaire doublement et addition poids forts en tête (source [57],
p. 97). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
7 Multiplication scalaire par fenêtre fixe de Yao [125]. . . . . . . . . . . . . . . 35
8 Réduction modulaire de Montgomery [82]. . . . . . . . . . . . . . . . . . . . 41
9 Réduction modulo un nombre pseudo-Mersenne [34]. . . . . . . . . . . . . . 42
10 Algorithme d’Euclide étendu (source [66]). . . . . . . . . . . . . . . . . . . . 44
11 Algorithme d’Euclide étendu binaire de [66]§ 4.5.2. . . . . . . . . . . . . . . . 45
12 Inversion modulaire plus-minus [37]. . . . . . . . . . . . . . . . . . . . . . . . 46
13 Conversion RNS vers MRS [120]. . . . . . . . . . . . . . . . . . . . . . . . . 50
14 Extension de base (BE) issue de [64]. . . . . . . . . . . . . . . . . . . . . . . . 53
15 Réduction de Montgomery RNS (MR) [99]. . . . . . . . . . . . . . . . . . . . . 54
16 Inversion modulaire FLT-MI basée sur le petit théorème de Fermat (version
LSBF de [48]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
17 Inversion modulaire plus-minus proposée PM-MI (version binaire). . . . . . . 73
18 Inversion modulaire binaire-ternaire plus-minus proposée (BTPM-MI). . . . . . 80
19 Fonction Divup. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
20 Étape de décomposition (Split). . . . . . . . . . . . . . . . . . . . . . . . . 101
21 Multiplication modulaire proposée SPRR. . . . . . . . . . . . . . . . . . . . . 102
22 Exponentiation « échelle de Montgomery » [62]. . . . . . . . . . . . . . . . . 111
23 Exponentiation carré et multiplication (source [51]). . . . . . . . . . . . . . . 117
24 Exponentiation RNS revisitée . . . . . . . . . . . . . . . . . . . . . . . . . . 119
25 Exponentiation RNS régulière revisitée. . . . . . . . . . . . . . . . . . . . . . 121
26 Multiplication modulaire RNS mono-base SBMM. . . . . . . . . . . . . . . . . . 124
27 Étape de décomposition compacte CSplit. . . . . . . . . . . . . . . . . . . . 125
28 Compression d’une valeur représentée par (K, R). . . . . . . . . . . . . . . . 128
78 LISTE DES ALGORITHMESIntroduction
Contexte et motivations des travaux
La sécurité des systèmes d’information et de communication est, de nos jours, une
question primordiale dans un bon nombre d’applications, et son champ d’application va
avoir tendance à encore s’accroître avec l’utilisation et l’intégration de plus en plus massive
de systèmes intelligents. Cette sécurité intervient dans des domaines différents comme la
défense, l’économie numérique ou encore les divertissements, ce qui impose des contraintes
très différentes. Le secret militaire, les transactions bancaires ou encore les services de
vidéo à la demande sont des exemples que l’on peut associer à ces domaines. D’autres domaines
apparaissent avec, par exemple, l’utilisation de circuits électroniques directement
intégrés dans le corps à des fins médicales. Un autre exemple est la domotique, c’est-à-dire
la construction de « maisons intelligentes » avec un contrôle informatique. On peut aussi
évoquer des concepts plus généraux qui ont des besoins de sécurité, comme l’informatique
dans le nuage (cloud computing). Le principe est d’utiliser la puissance de serveurs distants
et leur capacité de stockage pour en profiter sur des dispositifs bien moins puissants, via
le réseau (internet principalement). Une telle application génère beaucoup de trafic sur le
réseau, et notamment beaucoup d’informations à protéger, avec potentiellement un gros
débit d’informations à garder confidentielles, et beaucoup d’utilisateurs à authentifier. Une
des promesses de ce type de service est de fournir autant de confidentialité sur les données
stockées de façon distante que si elles étaient enregistrées localement.
La variété des contextes d’utilisation implique une variété de contraintes possibles : des
contraintes de coût de mise en œuvre, de consommation d’énergie et de temps d’exécution
ou de débit d’information doivent être prises en compte. Ces contraintes sont conditionnées
par le niveau de sécurité que le concepteur cherche à obtenir ou à garantir. Par exemple,
il n’est pas forcément nécessaire pour certaines applications d’avoir des protections qui ré-
sistent à des attaques de plusieurs années. Par contre, d’autres applications requièrent une
protection pour des dizaines d’années, comme cela peut être le cas d’informations classées
« Confidentiel Défense » ou « Secret Défense », qui sont prévues pour rester confidentielles
50 ans dans la loi.
Les systèmes d’information ayant des limites physiques, on ne peut pas obtenir une
protection qui reste valable quelle que soit la puissance de calcul de l’attaquant. D’où une
notion de niveau de sécurité, directement reliée à l’attaque la plus efficace que peut faire un
attaquant, avec une certaine quantité de ressources. La sécurité repose sur différents types
de protocoles, qui permettent par exemple d’authentifier les interlocuteurs et de garder secrète
leurs communications. Ces protocoles utilisent des primitives cryptographiques pour
assurer ces fonctions. La cryptographie classique, utilisée actuellement dans nos systèmes
de communication, repose sur des problèmes mathématiques qui sont a priori impossibles
910 INTRODUCTION
à résoudre à un coût raisonnable lorsqu’on ne possède pas un certain secret : la clé. La
difficulté de ces problèmes est choisie pour être adaptée à la protection que l’on veut mettre
en place et contre quel attaquant on veut se protéger : un particulier, une entreprise ou un
état par exemple. Ces paramètres font que la mise en place de protections adaptées est un
problème complexe.
Il existe plusieurs types de cryptographie. Actuellement, dans les protocoles de sécurité,
on utilise généralement deux types de cryptographie : la cryptographie asymétrique (ou à
clé publique) et la cryptographie symétrique (ou à clé secrète). Ces deux catégories ont
des caractéristiques différentes et sont utilisées généralement de façon complémentaire. La
cryptographie à clé publique ne requiert pas de secret partagé entre les deux interlocuteurs,
celui qui reçoit le message possède 2 clés, une publique qu’il diffuse, et un autre qu’il garde
secrète. Ce type de cryptographie requiert des calculs compliqués sur des grands nombres,
ce qui rend ces opérations coûteuses en temps. Les travaux de cette thèse s’intéresse exclusivement
à ce type de cryptographie. Plus précisément, on va s’intéresser à l’accélération
des calculs pour la cryptographie sur courbes elliptiques (ECC pour elliptic curve cryptography),
qui a été introduite dans le milieu des années 1980 par Koblitz [67] et Miller [80].
D’autres primitives de cryptographie asymétrique seront plus brièvement étudiées, comme
RSA [102] (du nom de ses auteurs Rivest, Shamir et Adleman) et Diffie-Hellman [38]. De
l’autre côté, la cryptographie symétrique a comme contrainte forte que les deux interlocuteurs
doivent partager une même clé secrète. Grâce à ce secret partagé, ils vont pouvoir
utiliser un des algorithmes de chiffrement symétrique comme l’AES [90] par exemple, qui
est un chiffrement symétrique très rapide. La complémentarité des deux types de cryptographie
se dessine lorsque deux interlocuteurs cherchent à établir une communication
via un canal sécurisé. Ces interlocuteurs devront d’abord s’authentifier mutuellement puis
échanger une clé secrète grâce à la cryptographie asymétrique. Ensuite, ils pourront communiquer
de manière sécurisée en utilisant un chiffrement symétrique avec la clé qu’ils ont
partagée, de manière bien plus rapide que si tout était fait avec la cryptographie asymé-
trique.
Il existe aussi d’autres propositions en terme de cryptographie, mais qui ne sont pas
utilisées car trop peu performantes pour des besoins actuels. Par exemple, la distribution
de clé quantique est une méthode qui est basée sur des phénomènes physiques, à la diffé-
rence de la cryptographie actuelle basée sur certains problèmes mathématiques. L’avantage
principal de ce type de cryptographie est qu’elle est résistante aux attaques que l’on pourrait
implanter si un véritable ordinateur quantique était mis au point un jour. Un exemple
célèbre est l’algorithme de Shor [113] permettant de factoriser des entiers très rapidement
sur un ordinateur quantique. Cette factorisation permettrait par exemple de casser très
rapidement RSA. Actuellement, le plus grand nombre entier décomposé en ses facteurs
premiers par un calculateur quantique est 21 [75]. L’utilisation massive, un jour, de ce type
de cryptographie est extrêmement hypothétique, et est largement en dehors du cadre de
cette thèse.
Cette thèse porte principalement sur l’accélération de certaines opérations sur des
nombres de plusieurs centaines à plusieurs milliers de bits pour les calculs nécessaires à
la cryptographie asymétrique, en particulier ECC. Les courbes elliptiques sont très intéressantes
parmi l’ensemble des primitives de cryptographie asymétrique car elles permettent
d’utiliser des tailles de clé plus petites que les autres standards, pour une sécurité équivalente
[57]. Il en va de même pour la taille des nombres traités et les performances en temps11
d’exécution. Par exemple, ECC définit avec des clés de 160 bits et des nombres représentés
sur 160 bits, propose une sécurité équivalente à RSA sur 1024 bits (taille des clés et des
éléments). Plus généralement, les tailles des valeurs pour ECC vont de 160 à 600 bits et
pour RSA de 1024 à 3072 dans les standards. Les tables 1.1, 1.2, 1.3 et 1.4 aux pages 32
et 33 présentent des comparaisons sur la taille des clés, la vitesse d’exécution ou encore la
consommation d’énergie.
On trouve deux grandes catégories de courbes elliptiques dans l’état de l’art d’ECC :
les courbes ayant comme corps de base F2m et celles définies sur Fp. Les courbes défi-
nies sur F2m proposent une arithmétique généralement plus efficace, car le corps de base
F2m possède plus de structure permettant l’accélération des calculs. Par exemple, on a
(x + y)
2 = x
2 + y
2 dans F2m, ce qui permet d’accélérer certains calculs. Cependant, on ne
sait pas si cette structure sur le corps de base peut aider un attaquant et réduit la sécurité
du système. Les travaux de cette thèse porteront exclusivement sur ECC sur Fp. Ces
courbes sont, par exemple, recommandées par l’agence américaine NSA (national security
agency) pour l’échange de clé et la signature numérique des documents classés « Secret »
et « Top Secret » avec des corps de 256 bits et 384 bits (voir [88, 89]). Les deux types de
courbes sont intéressants car, premièrement, il est important en cryptographie de pouvoir
disposer de différentes protections pour pallier l’éventuelle défaillance de l’une d’entre elles,
et deuxièmement, il existe un bon nombre de brevets sur l’implantation efficace des 2 types
de courbes qui peuvent guider le choix du type de corps (F2m ou Fp).
Si les courbes elliptiques ont de si petites clés et de si petites tailles d’éléments par
rapport à RSA et Diffie-Hellman, c’est grâce à leur meilleure résistance aux attaques mathématiques
connues. Le champ de la cryptologie s’intéressant aux attaques mathématiques
se nomme la cryptanalyse. Par exemple, c’est en partie parce que nous ne savons pas mettre
en œuvre l’attaque du calcul d’indices [3] sur les courbes elliptiques qu’elles utilisent des
entiers de centaines de bits, comparés aux milliers de bits pour RSA et Diffie-Hellman.
Pour illustrer cette différence, on peut comparer les records des tailles maximales qui ont
été cassées pour RSA et pour ECC dans la littérature. Ainsi, un module RSA de 768
bits a été factorisé dans [65] fin 2009, alors que le record pour ECC est seulement de 109
bits, pour les 2 types de corps F2m et Fp (2002 et 2004, voir [24]). Le prochain niveau
du concours pour ECC est fixé à 131 bits par Certicom, qui est l’entreprise organisatrice
du concours et détentrice de centaines de brevets sur les implantations ECC. Du côté de
RSA, des équipes de recherche travaillent actuellement à la résolution de RSA sur 1024 bits.
Malgré les bonnes propriétés mathématiques d’ECC, d’autres types d’attaques existent
utilisant les fuites d’information des implantations, comme la consommation d’énergie [69]
ou le rayonnement électromagnétique [4]. C’est d’autant plus vrai lorsque nous travaillons
sur des implantations sur systèmes embarqués, où des protections spéciales doivent être
mises en œuvre. On appelle celles-ci attaques par canaux cachés/auxiliaires (SCA pour side
channel attack). Les travaux de la thèse sont effectués dans un contexte d’implantation circuit/systèmes
embarqués, ce type d’attaques est donc à prendre en compte. L’objectif est
d’avoir une implantation rapide et sûre. Nos travaux portent sur l’accélération des calculs
ECC, tout en étant compatibles avec les protections habituelles de l’état de l’art.
La taille des nombres avec lesquels on calcule en cryptographie asymétrique (160–521
bits pour ECC, 1024–3072 pour RSA/Diffie-Hellman) donne une importance capitale à
l’arithmétique implantée pour effectuer les différentes opérations élémentaires. Ce qu’on12 INTRODUCTION
entend ici par opérations élémentaires sont les additions/soustractions, les multiplications
et les réductions modulaires dans le corps de base. Les implications des choix d’implantation
de ces opérations sont diverses. De très gros opérateurs permettront de gagner un
ordre de grandeur en temps d’exécution par exemple, mais consommeront plus d’énergie et
peuvent être ainsi plus visibles sur une attaque d’analyse de consommation d’énergie. D’un
autre côté, si la priorité n’est pas le temps d’exécution mais la consommation d’énergie
ou la surface de silicium utilisée, un petit opérateur, lent, peut suffire. Plus généralement,
les contraintes typiques que l’on retrouve pour de tels opérateurs sont la surface utilisée,
que l’on peut relier aux moyens financiers nécessaires pour concevoir et faire le circuit, la
vitesse d’exécution, le débit de traitement des données et la consommation d’énergie.
Pour réaliser des opérateurs arithmétiques répondant aux contraintes fixées par l’application,
diverses possibilités existent. Premièrement, on peut toujours doubler le débit
si on s’autorise à doubler la surface de circuit, en utilisant deux instances du même opé-
rateur. On peut aussi augmenter le nombre d’étages de pipeline, ce qui peut accroître la
fréquence d’utilisation et le débit de données mais, en contrepartie, augmente la surface
et la consommation d’énergie. Les choix arithmétiques influent aussi sur les performances
de l’opérateur. Par exemple, la propagation de retenue dans l’addition ou la multiplication
sont un frein à la parallélisation des opérateurs arithmétiques sans représentation adaptée.
Certaines représentations des nombres permettent tout de même de paralléliser l’addition
ou même la multiplication. C’est le cas de la représentation modulaire des nombres RNS
(pour residue number system) qui est l’objet de cette thèse. Plus généralement, la repré-
sentation des nombres dans une implantation de cryptographie asymétrique est un élément
important à prendre en compte pour accélérer les calculs. Par exemple, certaines représentations,
comme RNS, permettent de faire les additions et les multiplications en parallèle.
De plus, à chaque représentation correspond des coûts de calcul différents pour les opérations
élémentaires addition, multiplication et réduction modulaire, ce qui peut encourager
son utilisation pour certaines applications. Certaines opérations spécifiques sont même extrêmement
efficaces, et peuvent mener à repenser certains algorithmes. Par exemple, en
numération simple de position en base 2, la division et la multiplication par 2 sont très
efficaces : elles correspondent à de simples décalages.
Le standard américain du NIST [91] propose l’utilisation de courbes elliptiques définies
sur des corps qui permettent de tirer parti de la représentation en base 2. Il est proposé
d’utiliser des nombres premiers très particuliers, les pseudo-Mersenne [79], permettant d’effectuer
les réductions modulaires très efficacement lorsque les valeurs sont représentées en
base 2. Par exemple, un des corps proposé est FP521 avec P521 = 2521 − 1, pour lequel 2
additions suffisent pour effectuer une réduction modulaire. Nous verrons dans les travaux
de cette thèse qu’il est possible de trouver des nombres premiers qui sont eux adaptés à la
représentation modulaire des nombres, que nous allons brièvement introduire ci-dessous.
La représentation modulaire des nombres (RNS)
Dans cette thèse, une segmentation va être faite entre la numération simple de position
qui est de très bas niveau et la représentation finale des valeurs. Nous allons toujours représenter
les nombres avec des « groupes de bits », mais organisés de façon bien différente
de la représentation habituelle. Cette représentation, appelée représentation modulaire des
nombres ou RNS [49, 119] (pour residue number system) a été proposée à l’origine pour
des applications de traitement du signal [26, 60] et plus récemment pour des calculs cryp-13
canal 1
±×
mod m1
w
z1
w
y1
w
x1
canal 2
±×
mod m2
w
z2
w
y2
w
x2 . . .
. . .
. . .
. . .
canal n
±×
mod mn
w
zn
w
yn
w
X xn
Y
Z
Figure 1 – Addition et multiplication sur les canaux parallèles en RNS.
tographiques [10, 52, 87]. Cette représentation permet d’effectuer des calculs rapides sur
de très grands éléments, entiers ou éléments de grands corps finis, ce qui est très intéressant
pour la cryptographie asymétrique. Dans cette représentation, les entiers de ` bits
sont découpés en n morceaux bien plus petits, de w bits seulement. Typiquement, pour
ECC, on a ` ∈ [160, 600] (pour les besoins de sécurité actuels) et w ∈ [16, 64] en pratique
sur les circuits actuels, avec n × w > `. En RNS, un entier X sera représenté par
−→
X = (x1, . . . , xn) = (X mod m1, . . . , X mod mn), où (m1, . . . , mn) sont des moduli de w
bits. On dit alors que (m1, . . . , mn) est la base RNS et
−→
X la représentation RNS de X. On
appelle canal tous les traitements effectués modulo un des éléments de la base. L’originalité
du RNS vient du fait que pour un certain nombre d’opérations, dont la multiplication et
l’addition, les calculs sont fait indépendamment sur chacun des morceaux. En fait, on a :
−→
X
−→
Y = (|x1 y1|m1
, . . . , |xn yn|mn
) ,
avec ∈ {+, −, ×}. Les multiplications et les additions/soustractions sont donc découpées
en petites opérations indépendantes sur w bits. Ces petites opérations sont parallèles
de façon naturelle, permettant d’obtenir très rapidement le résultat d’une somme ou d’un
produit. La figure 1 illustre le parallélisme du RNS et l’indépendance des calculs sur les
différents moduli/canaux. On a deux arithmétiques distinctes : l’arithmétique sur chacun
des canaux et l’arithmétique combinant les canaux pour faire les opérations sur la totalité
de l’entier qu’on appellera arithmétique RNS. L’arithmétique des canaux, c’est-à-dire modulo
l’un des mi
, est en fait l’arithmétique modulaire classique, sur w bits. On représente
les valeurs en numération simple de position et on choisit les moduli pour que les calculs
soient efficaces, en choisissant des pseudo-Mersenne. Un travail très récent déroge au choix
des pseudo-Mersenne, proposé par Bajard et Merkiche [14], ce qui permet d’avoir plus de
choix pour définir la base RNS. Ils effectuent des petites réductions de Montgomery [82]14 INTRODUCTION
±× ±, × sur un canal ±, × en RNS changement de base modulo P en RNS
1 n
temps
n
±×
±×
±×
±×
•
•
•
±×
±×
±×
±×
•
•
•
±×
±×
±×
±×
•
•
•
±×
±×
±×
±×
•
•
•
• • •
• • •
• • •
• • •
±×
±×
±×
±×
•
•
•
±×
±×
±×
±×
•
•
•
±×
±×
±×
±×
•
•
•
Figure 2 – Séquence de calcul typique en RNS pour la cryptographie : enchaînement
de multiplications et d’additions RNS suivies d’une réduction modulo P en supposant les
opérations sur les canaux parallélisées.
sur les canaux de w bits. Les algorithmes de cette thèse porteront eux sur l’arithmétique
RNS, c’est-à-dire sur la combinaison des valeurs dans les différents moduli pour effectuer
nos calculs efficacement pour des opérations plus compliquées que la multiplication, comme
la réduction modulaire et l’inversion modulaire.
Au vu de la figure 1 seule, on pourrait croire qu’avec n unités arithmétiques, il suffit de
prendre des moduli très petits, c.-à-d. avec w très petit, pour calculer le plus rapidement
possible. Il est vrai qu’en réduisant w, on réduit la complexité des calculs sur chacun des
canaux. Par contre, on va augmenter celle de la réduction modulaire, qui est une opération
essentielle aux calculs cryptographiques. En effet, la multiplication et la réduction modulaire
sont en contradiction en RNS pour le choix de la taille des moduli. La figure 2 illustre
le coût d’une réduction modulaire et d’une multiplication ou addition RNS suivant n, le
nombre de moduli. Alors qu’une multiplication ne demande que n multiplications de w
bits, qui peuvent toutes être effectuées en parallèle, la réduction modulaire a un coût quadratique
(≈ 2 n
2
). En supposant que nous puissions effectuer n multiplications ou additions
en parallèle sur une architecture, une multiplication sera effectuée en à peu près 2n fois
moins de cycles que la réduction modulaire. Ceci est dû à l’utilisation de changements de
base [120] pour la réduction modulaire, qui est une fonction permettant de passer d’une
représentation RNS définie par une première base, à une seconde représentation RNS défi-
nie par une deuxième base. Cette fonction est, actuellement, indispensable pour faire une
réduction modulaire. Le côté quadratique du changement de base est illustré à la figure 2 :
chacun des n moduli de la base d’arrivée va opérer sur les valeurs correspondant aux n
moduli de la base de départ, ce qui donne bien n
2 opérations. Pour chaque moduli, n opé-15
rations sont effectuées, nous n’avons pas déroulé ces opérations dans la figure 2 par soucis
de place. Comme nous le verrons dans le chapitre 1, le choix du nombre de canaux n’est
pas une question facile, et n’a pas été très étudié pour des tailles cryptographiques.
Une des subtilités de la représentation RNS est que nous devrions plutôt parler de
représentations au pluriel. En effet, à la différence de la numération simple de position en
base 2 qui est un objet très précis, une représentation RNS va être définie par un ensemble
de moduli. C’est d’ailleurs ce qui d’une part, apporte la flexibilité de la représentation,
et d’autre part, permet de trouver de nouvelles optimisations en jouant sur l’interaction
entre la définition des moduli et l’arithmétique RNS. La plupart des algorithmes de l’état
de l’art ne posent que de faibles contraintes sur le choix des moduli, généralement pour
garantir une bonne arithmétique sur ceux-ci (on choisit des nombres pseudo-Mersenne).
C’est un peu comme si on proposait des algorithmes pour la numération simple de position
sans utiliser les spécificités de la base 2. Certaines propositions ont quand même été faites
en contraignant plus fortement le choix des moduli, afin d’améliorer l’arithmétique RNS et
seront présentées dans l’état de l’art. Par contre, le fait de ne pas trop contraindre le choix
des moduli permet d’utiliser certaines protections contre les attaques par canaux cachés
basées sur le RNS, comme la contre-mesure Leak Resistant Arithmetic (LRA [11]). Cette
protection consiste à tirer au hasard une base avant d’effectuer le calcul cryptographique,
ce qui a pour effet de changer la représentation des éléments, et permet de lutter contre
des attaques statistiques sur plusieurs exécutions de ce calcul.
Dans le cadre d’implantations matérielles pour la cryptographie, la représentation RNS
n’a pas encore connu beaucoup d’évolutions. En effet, la plupart des implantations sont
complètement parallélisées, c’est-à-dire avec autant d’unités de calcul que de canaux, afin
d’obtenir un temps d’exécution le plus faible possible (cf. table 1.6 dans la section 1.3.5).
Parfois, pour certaines implantations sur de grands paramètres, comme pour RSA, un
grand diviseur du nombre de moduli a été choisi. On peut citer en exemple l’implantation
de Nozaki et al. [87], qui intègre 11 unités arithmétiques parallèles, pour des bases de 22, 33
ou 66 moduli. Pourtant, la flexibilité du RNS devrait mener à toute une zoologie de types
d’implantations différentes, que ce soit grâce à l’indépendance des canaux ou encore la flexibilité
sur la paramétrisation des canaux. En effet, la modularité que permet naturellement
la représentation peut sembler sous-exploitée au vue des références de l’état de l’art. En
réalité, comme présenté au chapitre 1, le nombre de propositions est en train d’augmenter,
bien que souvent basées sur le même modèle. La modularité a au moins deux avantages
pour nos applications. Premièrement, elle permet de changer facilement la surface allouée
à notre circuit, sans changer les opérateurs implantés : il suffit de retirer ou d’ajouter des
unités arithmétiques de calcul sur les moduli. C’est un véritable atout lorsque l’on considère
la conception d’un produit pour qui la cryptographie et la sécurité ne sont seulement que
des fonctionnalités annexes, certes nécessaires, du cahier des charges, comme par exemple
pour un service de vidéo à la demande. Deuxièmement, grâce à cette modularité, on peut
de réduire le nombre d’unités arithmétiques, permettant de rendre aléatoire l’ordre des moduli
sur lesquels on calcule, à l’intérieur d’une même base, pour protéger le circuit contre
certaines attaques par canaux cachés.
Outre une partie des possibilités d’implantation qui n’ont pas été exploitées, la représentation
elle-même n’a subi que très peu de modifications pour fournir de meilleurs résultats.
Les mises en œuvre du RNS ne s’éloignent finalement que très peu de la définition provenant
du théorème des restes chinois. Par opposition, l’arithmétique sur la représentation16 INTRODUCTION
classique binaire a subit toute sorte de modifications pour accélérer les calculs, que ce soit
pour les additions ou les multiplications (par exemple en introduisant de la redondance
dans la représentation). Dans le cas du RNS, le calcul modulaire utilise 2 bases de tailles
égales depuis que les premières adaptations RNS de l’algorithme de réduction modulaire
de Montgomery ont été proposées [6, 64, 99]. Les améliorations de la réduction modulaire
en RNS sont depuis lors toujours restées sur cette approche, généralement en améliorant
des sous-parties de l’algorithme. La représentation n’a été véritablement modifiée que ré-
cemment, avec les travaux de Gandino et al. [48]. Les auteurs se sont autorisés à ne pas
travailler exactement en représentation RNS dans la seconde base, mais cette modification
leur a permis de réduire le nombre de calculs car celle-ci s’intègre parfaitement dans l’algorithme
de réduction de Montgomery RNS.
Même si dans les détails la proposition de Gandino et al. [48] reste très proche du RNS
habituel, elle marque peut-être le début d’une évolution beaucoup plus profonde de l’arithmétique
RNS. Le RNS est utilisé pour faire le lien entre les mathématiques et l’arithmétique
d’un côté, et le matériel de l’autre : il y a donc deux directions vers lesquelles tendre pour
améliorer les implantations. Le travail de Gandino et al. porte essentiellement sur la ré-
duction du nombre d’opérations, leur travail tend donc à améliorer le côté arithmétique
même si cela permet au final de réduire le nombre de cycles dans leur implantation RSA
en RNS. Elle ne porte pas sur une évolution du RNS pour le matériel. Il n’y a pas encore
eu, à notre connaissance, de véritables modifications de la représentation afin d’obtenir
une architecture moins coûteuse par exemple. Il est quand même souvent considéré que
w, la taille des moduli, est très proche de la taille des mots machines, ou des multiplieurs
des blocs DSP pour les implantations FPGA. Malgré tout, cette considération est juste
un choix plus ou moins astucieux des moduli, et non pas une transformation de la repré-
sentation pour le matériel. On essaye généralement de faire une bonne implantation du
RNS classique plutôt que d’essayer de modifier celui-ci pour avoir une bonne implantation.
Après tout, la représentation RNS hérite naturellement d’un certain nombre de bonnes
propriétés pour le matériel, comme la non propagation de retenue pour l’addition et la
multiplication, et son haut niveau de parallélisme. C’est donc déjà un bon point de départ
pour le matériel, mais ce potentiel là n’a peut-être pas, et même sûrement pas, atteint son
maximum. Dans un futur proche, outre les améliorations arithmétiques, la représentation
RNS gagnera sûrement aussi sur son implantation.
Pour finir, les caractéristiques particulières du RNS permettent non seulement d’obtenir
des implantations cryptographiques rapides, mais aussi de protéger le circuit. Nous avons
évoqué l’existence de propositions contre les attaques statistiques sur la consommation de
courant ou le rayonnement électromagnétique avec le tirage aléatoire de l’ordre des calculs
ou de la base (protection LRA [11]). Il existe aussi des protections contre les attaques par
injection de faute dans [9] et [53]. Des premières études d’implantations de telles protections
ont récemment été publiées, par exemple [94], aboutissant à de bons résultats en terme de
protection. Ces implantations sont par contre toujours proposées dans une architecture
complètement parallèle, afin de se comparer à des résultats d’implantation sans protection
en RNS. On pourrait aussi imaginer des architectures beaucoup plus orientées sécurité que
performance, et utiliser la modularité que propose la représentation RNS pour avoir encore
plus d’aléa que dans le cas complètement parallèle. C’est aussi un aspect important du
RNS, mais qui n’a pas été traité dans cette thèse pour des raisons de temps.
Les sujets de recherche sur la représentation RNS sont donc assez vastes, et beaucoup17
de travaux seront encore publiés sur le sujet. Pour conclure cette introduction, les travaux
de cette thèse vont être rapidement introduit via la présentation du plan de la thèse.
Objectifs et plan de la thèse
Les objectifs de la thèse sont d’améliorer les performances des implantations cryptographiques
utilisant le RNS, avec comme objectif particulier ECC. Ces améliorations doivent
être raisonnables en terme de surface de circuit utilisée, nous avons donc gardé comme
support architectural l’implantation proposée par Guillermin dans [52], qui est l’état de
l’art des implantations ECC en RNS, et est elle-même basée sur l’architecture de Kawamura
et al. [64]. Ces contributions gardent les bonnes propriétés du RNS (indépendance
des canaux), mais vont parfois utiliser certaines contraintes pour plus d’efficacité.
Le premier chapitre porte sur le contexte de mes travaux, et l’état de l’art dans lequel
ils s’inscrivent. La cryptographie asymétrique y est présentée plus en détail, en introduisant
les cryptosystèmes qui vont nous intéresser tout au long du document. Certaines techniques
classiques de calcul pour la cryptographie seront présentées, ainsi que certaines notions sur
la sécurité des implantations de celles-ci. Ensuite sont présentés certains algorithmes de
l’arithmétique modulaire classique, en numération simple de position en base 2. Ceux-ci
sont souvent à la base des algorithmes de l’état de l’art en RNS (ou du moins leurs idées
fondatrices), et le travail présenté au chapitre 2 reprend par exemple des idées sur les algorithmes
d’inversion. Enfin, le chapitre 1 se termine sur un état de l’art de l’arithmétique
RNS pour la cryptographie. L’accent est notamment mis sur la réduction modulaire qui
est l’opération élémentaire qui coûte le plus cher dans les implantations cryptographiques
en RNS. Un état de l’art des implantations RNS est présenté et analysé, ainsi que les choix
d’architecture.
La première contribution de la thèse, présentée au chapitre 2, porte sur l’inversion modulaire
en RNS. Cette opération difficile en RNS est effectuée généralement grâce à une
exponentiation, en utilisant le petit théorème de Fermat. Cette opération est très longue
en RNS, elle représente environ 10% du temps total de calcul d’une multiplication scalaire
complète (qui est le calcul principal pour ECC). Le coût en RNS des comparaisons et des
divisions nécessaires aux algorithmes de type « Euclide étendu » ont fait qu’il était préfé-
rable de garder l’exponentiation de Fermat, notamment dans le cadre d’une implantation
matérielle ou aucun matériel supplémentaire n’est requis. Notre proposition est une adaptation
RNS de l’algorithme d’Euclide étendu binaire, utilisant une certaine astuce pour éviter
les comparaisons et pouvant être utilisée sur l’architecture de l’état de l’art des courbes
elliptiques en RNS avec quelques petites modifications. Il en résulte un algorithme bien
plus rapide que l’état de l’art (de 5 à 12 fois plus rapide sur nos implantations FPGA)
et coûtant bien moins d’opérations pour une surface de circuit similaire. Ce travail a fait
l’objet d’une première publication à CHES 2013 [19], et sera soumis à un journal dans une
version étendue avec les nouveaux résultats présentés dans le chapitre ainsi qu’un nouvel
algorithme, qui n’a pas encore été implanté mais qui coûte moins d’opérations que notre
première proposition [19].
Le chapitre 3 présente deux contributions. La première a été publiée à ASAP 2014 [20]
sur la multiplication modulaire en RNS. La seconde contribution est un nouvel algorithme
d’exponentiation, encore non publié. L’idée principale de ce chapitre est de séparer les multi-18 INTRODUCTION
plications modulaires RNS en 2 parties, tout d’abord une étape de décomposition spécifique
à chacun des opérandes, puis une deuxième étape dépendant des deux opérandes pour obtenir
le résultat final. Ce qui va permettre de réduire le coût des calculs, c’est que l’on peut
factoriser les étapes de décomposition entre plusieurs multiplications modulaires, à chaque
réutilisation d’une des opérandes. Par exemple, dans l’état de l’art de l’arithmétique RNS,
un carré ou une multiplication par une constante coûte aussi cher qu’une multiplication
quelconque. Nous proposons un nouvel algorithme de multiplication qui, lui, va être capable
de profiter de ces réutilisations. Notre proposition est cependant moins performante
que l’algorithme de l’état de l’art sur les multiplications de deux opérandes quelconques,
s’il n’y pas de réutilisation. Suivant les séquences de calcul effectuées, nous obtenons des
coûts en nombre d’opérations meilleurs que l’algorithme de l’état de l’art sur des grands
paramètres cryptographiques. On réduit aussi le nombre de pré-calculs à stocker vis à vis de
l’algorithme de l’état de l’art [48]. Les résultats obtenus sont bons pour des exponentiations
pour les applications du logarithme discret comme les protocoles de Diffie-Hellman [38] ou
Elgamal [44]. Cet algorithme requiert par contre que le nombre premier p, qui définit le
corps de base Fp, ait une forme particulière adaptée au RNS. Cette condition empêche son
utilisation dans le cadre de RSA. Par contre, en reprenant certaines idées sur la réutilisation,
un nouvel algorithme d’exponentiation est proposé, sans condition sur p. Ce dernier
algorithme peut, lui, être utilisé avec RSA. Il permet de réduire le nombres d’opérations par
rapport à l’exponentiation de l’état de l’art en RNS [48], mais demande plus de pré-calculs.
La troisième contribution de la thèse, présentée au chapitre 4, porte sur un autre algorithme
de multiplication modulaire en RNS. Dans cette proposition, nous ne représentons
plus directement les valeurs en RNS. En fait nous découpons nos entiers en deux sousvaleurs
qui, elles, sont représentées en RNS, en reprenant l’idée de décomposition du chapitre
3. Avec ce découpage, on casse un peu l’aspect non positionnel de la représentation car
les deux sous-valeurs satisfont une relation pour retrouver la représentation RNS de notre
valeur initiale. Grâce à cette nouvelle représentation et à l’introduction de l’équivalent des
premiers de Mersenne pour le RNS, nous obtenons un algorithme qui divise presque par 2
le nombre d’opérations élémentaires par rapport à l’état de l’art, et qui est utilisable pour
des implantations de cryptographie sur courbes elliptiques. De même, le nombre de moduli
requis est divisé par 2 et le nombre de pré-calculs nécessaires par 4. Un peu à la façon de
l’utilisation des premiers pseudo-Mersenne du standard NIST [91] spécialement adaptés à
la numération simple de position en base 2, nous proposons une nouvelle façon de choisir
le corps de base spécialement adapté au calcul en RNS. Une implantation FPGA de l’algorithme
a été faite, presque deux fois plus petite que notre implantation de l’algorithme
de l’état de l’art, avec un faible surcoût en temps. Cette contribution fera bientôt l’objet
d’une soumission.
Le chapitre 5 est un chapitre à part dans la thèse car il ne concerne pas directement le
RNS, bien que traitant de tests de divisibilité et de calcul modulaire. Ce travail a été publié
à ComPAS 2013 [18] et est issu d’une collaboration avec un autre doctorant (à l’époque),
Thomas Chabrier. Ce travail s’intègre dans un contexte de recodage de clé appelé système
de représentation des nombres à base multiple [25,73] (MBNS pour multi base number system)
pour accélérer les calculs d’une multiplication scalaire d’une courbe elliptique. Cette
accélération intervient au niveau de l’algorithme de multiplication scalaire, et non pas de
l’arithmétique : elle est donc parfaitement compatible avec l’utilisation de la représentation
RNS. Ce chapitre présente une méthode pour effectuer en matériel des tests de divisibilité
de très grands nombres par de petites constantes, en parallèle. L’idée est de pouvoir effec-19
tuer à la volée le recodage, ce qui est nécessaire si par exemple on introduit un aléa dans
le scalaire pour le protéger contre des attaques par canaux cachés. L’idée principale est de
remarquer qu’un certain nombre de factorisations dans les calculs peuvent être effectuées,
réduisant le coût de notre opérateur de test de divisibilité. Pour faire apparaître ces factorisations,
il ne faut plus travailler seulement en base 2, mais dans une base plus grande de
la forme 2
w. Grâce à ces factorisations, les parties qui sont propres à chacun des tests de
divisibilité sont très réduites, ne prenant en entrée que w + bits ( = 3, 4 ou 5) au lieu
de travailler sur les centaines de bits en entrée.
Pour finir, la conclusion propose une synthèse des idées principales qui ont mené aux
différentes contributions de cette thèse et présente des perspectives à court terme de travaux
dans la lignée de ceux-ci. Le plus long terme est aussi discuté, notamment sur certaines
évolutions possibles du RNS et des architectures RNS au vu des résultats obtenus.20 INTRODUCTIONNotations
Nous allons ici introduire un certain nombre de notations utilisées dans le reste du
document. Tout d’abord, des sigles généraux sont présentés à la table 1 puis les notations
utiles à la représentation RNS à la table 2. Les notations présentées pour le RNS ne sont
utilisées qu’à partir de la section 1.3 et jusqu’à la fin du chapitre 4. Pour résumer, elles ne
sont valables que pour les parties traitant du RNS. Les notations utilisées dans le début
du chapitre 1 et dans le chapitre 5 sont détaillées localement car bien moins complexes que
celles du RNS.
La complexité des notations du RNS vient du fait que premièrement, il y a en fait une
représentation RNS par base (il faut donc pouvoir les différencier) et deuxièmement, on
rajoute un étage de détails dans les algorithmes. Par exemple, si nous prenons le cas des
courbes elliptiques, un point de la courbe est défini par un ensemble de coordonnées sur
un corps fini, par exemple FP . À ces éléments de FP vont être associés des représentations
RNS, elles-mêmes constituées de petites composantes entières. De même, les opérations
élémentaires comme l’addition sont déclinées en plusieurs niveaux : l’addition de points,
d’éléments de FP , de leur représentation RNS et enfin des composantes d’une représentation
RNS. Dans une tentative de hiérarchisation, les notations suivantes sont proposées. Les
lettres majuscules en gras représenteront les points d’une courbe, les lettres majuscules
fines seront des éléments de FP , les représentations RNS seront notées comme des vecteurs
et enfin leurs composantes seront notées en minuscule (voir table 2).
2122 NOTATIONS
ADD addition de deux points distincts d’une courbe elliptique
bloc DSP unité de calcul contenant un multiplieur/accumulateur sur FPGA
(DSP pour digital signal processing)
BRAM bloc RAM dans un FPGA
CRT théorème chinois des restes (chinese remainder theorem)
DBL doublement d’un point d’une courbe elliptique
DBNS système de numération à base double (double base number system)
DH cryptosystème de Diffie-Hellman [38]
DLP problème du logarithme discret (discrete logarithm problem)
DPA analyse différentielle de la puissance consommée (differential power analysis)
DSA standard du NIST de signature numérique [91] (digital signature algorithm)
ECC cryptographie sur courbes elliptiques (elliptic curve cryptography)
ECDH cryptosystème de Diffie-Hellman sur courbes elliptiques (elliptic curve DH )
ECDLP problème du logarithme discret sur les courbes elliptiques (elliptic curve DLP)
ECDSA standard du NIST de signature numérique ECC (elliptic curve DSA)
FF bascule (flip-flop)
FFDLP problème du logarithme discret sur les corps finis (finite field DLP)
FPGA circuit logique programmable (field programmable gate array)
FLT petit théorème de Fermat (Fermat’s little theorem)
LSBF bit de poids faibles en tête (least significant bits first)
LUT table de correspondance (look-up table)
mADD addition mixte de deux points distincts d’une courbe elliptique
MBNS système de numération à base multiple (multi base number system)
MRS représentation en base mixte (mixed radix system)
MSBF bit de poids forts en tête (most significant bits first)
NAF forme non adjacente d’un nombre (non adjacent form)
NIST institut de standardisation américain (national institue of standards and technology)
P, Q points d’une courbe elliptique
pgcd plus grand commun diviseur
ppcm plus petit commun multiple
RSA cryptosystème de Rivest, Shamir et Adleman [102]
RNS représentation modulaire des nombres (residue number system)
SPA analyse simple de la puissance consommée (simple power analysis)
TPL triplement d’un point d’une courbe elliptique
VHDL langage de description matérielle (VHSIC hardware description language)
VHSIC circuits intégrés très haute vitesse (very high speed integrated circuits)
Table 1 – Notations générales valables pour tout le document23
X, Y éléments de FP ou grands entiers
P un grand nombre premier définissant le corps de base
` taille de P, ` = dlog2 Pe et ` ≈ 160–550 bits pour ECC
w taille d’un mot élémentaire ou d’un canal
n nombre de mots nécessaires pour représenter une valeur de ` bits
k scalaire de la multiplication scalaire, k ∈ N (p. ex. Q = [k]P)
|X|P autre notation de X mod P, pour des besoins de concision
Ba = (ma,1, . . . , ma,na
) une première base RNS de na moduli
Bb = (mb,1, . . . , mb,nb
) une deuxième base RNS de nb moduli
Bc = (mc,1, . . . , mc,nc
) une troisième base RNS de nc moduli
ma,i, mb,i, mc,i entiers premiers entre eux 2 à 2, avec ms,i = 2w − hs,i
et hs,i < 2
w/2 pour s ∈ {a, b, c}
Ba|b = (ma,1, . . . , mb,nb
) concaténation des bases Ba et Bb
−−−→
(X)s = (xs,1, . . . , xs,ns
) représente l’élément X en base Bs (p. ex. s = a ou s = b|c)
avec xs,i = |X|ms,i , peut être abrégé en
−→
Xs
Ms produit des moduli de la base Bs :
Qs
i=1
Ms,i le produit de tous les moduli de Bs sauf ms,i :
Ms
ms,i −→
Ts
|Ms,i|ms,i
, . . . , |Ms,n|ms,n
, défini pour le CRT
Xb modification de la représentation RNS pour les sections 2.2 et 2.3
EMM multiplication élémentaire de w bits modulo un des ms,i
EMA addition élémentaire de w bits modulo un des ms,i
EMW mot mémoire élémentaire de w bits
BE extension (ou changement) de base
MR réduction de Montgomery RNS de l’état de l’art
MM multiplication de Montgomery RNS de l’état de l’art
FLT-MI inversion modulaire en RNS de l’état de l’art basée sur FLT
PM-MI algorithme d’inversion modulaire plus-minus proposé chap. 2
BTPM-MI variante binaire-ternaire du PM-MI proposé chap. 2
SPRR algorithme de multiplication modulaire RNS proposé chap. 3
(split - partial reduction - reduction)
SBMM algorithme de multiplication modulaire RNS proposé chap. 4
(single base modular multiplication)
Cox-Rower architecture RNS de l’état de l’art pour la cryptographie
Rower élément du Cox-Rower calculant modulo l’un des ms,i
Cox élément permettant de détecter les dépassements lors des BE
Table 2 – Notations spécifiques au RNS24 NOTATIONSChapitre 1
État de l’art
1.1 La cryptographie asymétrique
La cryptographie asymétrique repose sur la notion de fonction à sens unique à trappe,
c’est à dire une fonction facile à calculer dans un sens, mais dont l’inverse est très difficile
à calculer sans avoir la clé correspondant à la trappe [38]. Une inversion de la fonction
sans clé est censée être impossible, ou du moins à un coût « raisonnable » par rapport à
l’application visée. On peut par exemple estimer que pour certaines applications, une résistance
aux meilleures attaques connues nécessitant plusieurs années sur plusieurs centaines
de machines est suffisante. D’un autre côté, pour certaines applications relevant du secret
défense, des informations doivent rester confidentielles pour des dizaines d’années, ce qui
est aujourd’hui difficile à garantir. Grâce aux fonctions à sens unique à trappe, on peut
définir des protocoles tels que ceux de Diffie-Hellman [38], qui permettent à deux interlocuteurs
d’échanger une clé commune. Une autre utilisation est la signature numérique,
par exemple les standards Digital Signature Algorithm (DSA) et Elliptic Curve Digital
Signature Algorithm (ECDSA) de l’institut américain National Institute of Standards and
Technology (NIST) [91]. Ce type de cryptographie est aussi appelé à clé publique car elle ne
nécessite pas de clé secrète partagée au préalable par les deux interlocuteurs. Les travaux
de Diffie et Hellman [38], puis de Rivest, Shamir et Adleman [102] font parti des pionniers
de la cryptographie asymétrique, et sont toujours très utilisés dans les systèmes de sécurité
actuels. On compte aussi parmi ces pionniers Clifford Cocks, qui découvrit RSA [102]
avant ses auteurs en 1973 mais dont l’algorithme avait été classifié par le gouvernement
britannique puis déclassifié en 1997 [30].
1.1.1 Le cryptosystème RSA
Le cryptosystème RSA, du nom de ses auteurs Rivest, Shamir et Adleman [102], repose
sur un problème qui lui est propre, que nous appellerons RSAP, et qui s’énonce ainsi :
soient n un entier produit de deux nombres premiers p et q (distincts), et e un nombre
premier avec (p − 1) et (q − 1). Étant donné c, résoudre le RSAP revient à trouver m tel
que me ≡ c mod n ou, autrement dit, cela revient à trouver la racine e-ème d’un élément
modulo n.
Ce problème est proche du problème de la factorisation des grands entiers. Notamment,
si on est capable de factoriser n en p et q, on peut alors calculer d l’inverse de e modulo
(p−1)(q −1), et finalement on calcule (me
)
d = m mod n ce qui résout le RSAP. On ne sait
pas par contre si la résolution du RSAP permet de résoudre le problème de la factorisation.
2526 CHAPITRE 1. ÉTAT DE L’ART
Le protocole de chiffrement RSA est présenté à l’algorithme 1. On considère que le message
à chiffrer est un entier naturel inférieur ou égal à n − 1 (si besoin, découper les messages).
Le principal calcul est l’exponentiation modulaire et peut être effectué à l’aide d’un des
algorithmes présentés en section 1.1.4. À cause des algorithmes de factorisation des grands
entiers tels que NFS [70] (number field sieve), le nombre d’opérations à effectuer pour casser
RSA avec n = 1024 bits n’est que de 2
80. Ainsi, en 2009, un module RSA de 768 bits a été
factorisé [65], ce qui a nécessité des centaines de machines en parallèle et plus de deux ans
et demi de calcul. Différents chercheurs étudient sérieusement la possibilité de mettre en
œuvre un système pour casser RSA 1024 bits.
Algorithme 1: Protocole de chiffrement RSA [102].
Entrées : Alice diffuse sa clé publique (n, e) et garde secrète d sa clé privée
Entrées : Bob veut chiffrer le message m pour Alice, un nombre dans [0, n − 1]
Chiffrement
1) Bob récupère la clé publique de Alice, c’est à dire (n, e)
2) Bob calcule l’exponentiation modulaire c = me mod n
3) Bob envoie c à Alice
Déchiffrement
1) Alice calcule m = c
d mod n
1.1.2 Le problème du logarithme discret, application dans les corps finis
Un autre problème célèbre est celui du logarithme discret (DLP). Il peut être vu comme
une fonction à sens unique et est utilisé dans certains standards de cryptographie asymé-
trique. Le problème est défini comme suit (voir [78], pages 103–113) : soient (G, ×) un
groupe cyclique fini et g ∈ G un élément qui le génère. Calculer le logarithme discret de h
revient à trouver d tel que h = g
d dans G.
Certains cryptosystèmes sont basés sur le DLP sur des groupes G pour lesquels le logarithme
est difficilement calculable. Une idée naturelle de groupe est de choisir les éléments
de F
∗
p
, mais à cause de l’attaque du calcul d’indices sur F
∗
p
(voir [3]), on l’utilise peu. Si
on l’utilisait, l’attaque réduirait par exemple la sécurité d’un système à clé de 1024 bits à
seulement 80 bits de sécurité (comme pour RSA). Dans les faits, on choisit plutôt un sousgroupe
de F
∗
p
, noté G, d’ordre premier q. Par exemple, un sous-groupe avec environ 2
160
éléments (log2
q ≈ 160) pour p de taille 1024 bits (voir par exemple [91]). Comme expliqué
à la page 113 de [78], le calcul d’indices ne semble pas pouvoir s’appliquer directement
sur ce sous-groupe, on doit alors l’appliquer sur tout F
∗
p
, le passage de F
∗
p au sous-groupe
n’impacte donc pas la sécurité du point de vue de cette attaque. Par contre, il faut faire
attention à d’autres attaques sur le sous-groupe, comme celle de Pohlig-Hellman [96] et
l’attaque rho de Pollard [97] qui sont en O(
√q) opérations, donnant un nombre de bits de
sécurité correspondant à (log2
q)/2 lorsque q est premier. Il faut choisir q premier car ces
attaques dépendent seulement de la taille du plus gros facteur premier de q. La sécurité
conférée par ce problème est donc le minimum des attaques sur F
∗
p
et sur le sous-groupe
sélectionné. Il est recommandé de choisir des paramètres tels que le système soit aussi ré-
sistant aux deux types d’attaque. Par exemple, si blog2
qc = 160 bits, on a donc 80 bits de
sécurité pour l’attaque Pohlig-Hellman, on prend alors blog2 pc = 1024 on a aussi 80 bits
de sécurité pour le calcul d’indices [91]. Si on compare avec RSA, on se retrouve avec un
même niveau de sécurité en traitant avec des éléments de même taille (1024 ou 2048 bits1.1. LA CRYPTOGRAPHIE ASYMÉTRIQUE 27
par exemple), mais le DLP dans les corps finis (FFDLP) offre des clés bien plus petites
(160 bits contre 1024 par exemple).
Le standard américain DSA [91] du NIST, l’échange de clés de Diffie et Hellman [38]
(DH, présenté algorithme 2) et le chiffrement d’Elgamal [44] (algorithme 3) se basent sur
le fait que le FFDLP n’est pas résoluble en pratique sur un groupe approprié. Les deux
cryptosystèmes sont utilisés dans les conditions décrites dans le paragraphe précédent, c’est
à dire q est l’ordre de g modulo p, et q est un grand nombre premier. Le problème utilisé
pour ces deux protocoles est en réalité un peu plus faible que le FFDLP car il suffit de
savoir forger g
ab à partir de g
a
et g
b pour casser ces deux protocoles (il est évident que si
le FFDLP devient facile, ces cryptosystèmes n’apportent plus aucune sécurité).
Algorithme 2: Échange de clé de Diffie-Hellman [38].
Entrées : Alice et Bob sont d’accord sur (p, q, g) où q et p sont premiers, et q est
l’ordre de g dans F
∗
p
1) Alice (respectivement Bob) tire un nombre au hasard a (resp. b) dans [2, q − 2]
2) Alice (respectivement Bob) calcule u = g
a mod p (resp. v = g
b mod p)
3) Alice (respectivement Bob) envoie u (resp. v) à Bob (resp. Alice)
4) Alice (respectivement Bob) calcule la clé partagée g
ab = v
a mod p (resp.
g
ab = u
b mod p)
Algorithme 3: Protocole de chiffrement Elgamal simple [44].
Entrées : Alice garde secrète a sa clé privée et diffuse (p, q, g, ga
) sa clé publique
Entrées : Bob veut chiffrer le message m pour Alice, un nombre dans [0, p − 1]
Chiffrement
1) Bob récupère la clé publique de Alice, c’est à dire (p, q, g, ga
)
2) Bob choisi k au hasard tel que 1 6 k 6 p − 2
3) Bob calcule les exponentiations modulaires γ = |g
k
|p et δ = |m · (g
a
)
k
|p
4) Bob envoie (γ, δ) à Alice
Déchiffrement
1) Alice calcule γ
−a mod p
2) Alice obtient m = δ · γ
−a mod p28 CHAPITRE 1. ÉTAT DE L’ART
−2 −1 0 1 2
0
1
2
−1
−2
Figure 1.1 – Courbe elliptique d’équation y
2 = x
3 − x sur R.
1.1.3 Le problème du logarithme discret sur les courbes elliptiques
Nous allons maintenant nous intéresser à un autre groupe défini à l’aide d’une courbe
elliptique et l’utiliser pour le DLP. On va définir ainsi l’ECDLP, le problème du logarithme
discret sur les courbes elliptiques. L’idée d’utiliser les courbes elliptiques pour la cryptographie
a été proposée indépendamment par Koblitz [67] et Miller [80] dans le milieu des
années 1980. Cette section rappelle rapidement les définitions et outils nécessaires à la
compréhension du cadre de mes travaux, mais son but n’est pas de détailler toutes les
mathématiques sous-jacentes. Des ouvrages tels que [57] ou [31] apporteront au lecteur
plus de détails sur la cryptographie sur courbes elliptiques (ECC) et les mathématiques
sur lesquelles elle repose.
Définition 1. Une courbe elliptique E/K est une courbe lisse définie sur un corps K par
l’équation :
E : y
2 + a1xy + a3y = x
3 + a2x
2 + a4x + a6 (1.1)
où a1, a2, a3, a4, a5, a6 ∈ K.
Le fait que la courbe soit lisse, c.-à-d. sans singularité, se traduit par le fait que δ 6= 0,
où δ est le discriminant défini par :
δ = −d
2
2 d8 − 8 d
3
4 − 27 d
2
6 + 9 d2 d4 d6
d2 = a
2
1 + 4 a2
d4 = 2 a4 + a1 a2
d6 = a
2
3 + 4 a6
d8 = a
2
1 a6 + 4 a2 a6 − a1 a3 a4 + a2 a
2
3 − a
2
4
.
L’équation 1.1 est communément appelée équation de Weierstrass. Les points de la
courbe E/K sont tout simplement les couples (x, y) ∈ K2 qui satisfont l’équation 1.1. La
figure 1.1 montre un exemple de courbe elliptique sur R alors que la figure 1.2 montre 3
exemples sur des corps finis Fp, pour des petits p non utilisables en pratique.1.1. LA CRYPTOGRAPHIE ASYMÉTRIQUE 29
Figure 1.2 – Points des courbes définies par y
2 = x
3 + 3x + 5 sur F113, F1223 et F11489.
L’équation 1.1 peut être simplifiée sous certaines hypothèses sur le corps, en appliquant
un certain changement de variable. Si K a une caractéristique différente de 2 ou 3 alors le
changement de variable :
(x, y) −→
x − 3a
2
1 − 12a2
36
,
y − 3a1x
216
−
a
3
1 + 4a1a2 − 12a3
24
permet de réécrire l’équation de E/K en :
y
2 = x
3 + ax + b (1.2)
où (a, b) ∈ K2
. Le discriminant devient alors δ = −16(4a
3 + 27b
2
).
On appelle forme de Weierstrass courte l’équation 1.2, dans le cas où la caractéristique
est différente de 2 et 3. Nous allons plus précisément travailler sur le corps K = Fp, où p est
un grand nombre premier de plusieurs centaines de bits. Dans le cadre de cette thèse, les
corps en petite caractéristique (F2m) ne seront pas étudiés. En effet, l’arithmétique dans
ces corps est très différente du cas Fp et le système RNS, sous sa forme actuelle, ne semble
pas bien adapté à ces corps. Le lecteur curieux d’en savoir plus sur les courbes définies sur
F2m pourra consulter par exemple [31, 57].
Loi de groupe et ECDLP
Nous allons présenter le groupe sur lequel nous appliquerons le DLP. Une loi de groupe
peut être définie sur l’ensemble des points de la courbe. Cette loi sera notée +, P+Q est
donc l’addition des points P et Q. Ces points sont représentés par leurs coordonnées affines
P = (x1, y1) et Q = (x2, y2). La loi + applique la règle de la corde et la tangente qui, à
partir de 2 points P et Q de la courbe tels que P 6= ±Q, donne un troisième point R aussi
sur la courbe. La corde reliant P à Q coupe en fait la courbe en un troisième point (S sur
la figure 1.3), le résultat est ensuite obtenu en prenant le symétrique par rapport à l’axe
des abscisses (illustration à la figure 1.3 (a)). Le doublement de point est le cas spécial de
l’addition de point où l’on additionne un point à lui même c’est à dire [2] P = P+P. Dans
ce cas, au lieu de prendre la corde on prend la tangente à la courbe passant par P (voir
figure 1.3 (b)). Une différenciation va donc être faite suivant la nature des opérandes, pour
effectuer soit une addition soit un doublement. Pour noter spécifiquement le doublement
de la loi de groupe on utilisera DBL dans la suite de ce manuscrit et ADD pour l’addition de30 CHAPITRE 1. ÉTAT DE L’ART
−2 −1 0 1 2
0
1
2
−1
−2
S
R
P
Q
(a)
−2 −1 0 1 2
0
1
2
−1
−2
S
R
P
(b)
Figure 1.3 – Addition (a) et doublement (b) de points sur la courbe y
2 = x
3 − x sur R.
2 points distincts. La description de la loi est faite à la figure 1.3 de façon géométrique sur
R, justifiant le nom « règle de la corde et la tangente ». On peut aussi la définir de façon
algébrique, et l’adapter à des courbes sur Fp (illustrées à la figure 1.2). Afin de déterminer
complètement la loi de groupe, l’élément neutre O est défini, aussi appelé point à l’infini.
On ne peut pas lui attribuer de coordonnées affines, c’est ici une sorte de vue de l’esprit
pour compléter la loi de groupe. On l’appelle point à l’infini car on peut l’imaginer comme
un point qui serait à l’infini en coordonnée y, et pour lequel toutes les droites d’équation
x = c (c constant) passerait (voir l’exemple sur R [31], page 269).
Définition 2 (Loi de groupe en caractéristique 6= 2 et 3, pour une courbe d’équation 1.2).
Soient P = (x1, y1), Q = (x2, y2) deux points de E/Fp. On définit la loi de groupe sur les
points de la courbe comme suit :
Élément neutre : P + O = O + P = P.
Opposé d’un point : L’opposé de P est -P = (x1, −y1) (qui est aussi un point de la
courbe), on a donc P + (- P) = O.
Addition de points ADD : Si P 6= ±Q alors P+Q = (x3, y3) est un point de E/Fp où
x3 = λ
2 − x1 − x2, y3 = λ(x1 − x3) − y1 avec λ =
y2−y1
x2−x1
.
Doublement de point DBL : Si P 6= O alors [2]P = (x3, y3) est un point de E/Fp où
x3 = λ
2 − 2x1, y3 = λ(x1 − x3) − y1 avec λ =
3x
2
1+a
2y1
.
Cette loi de groupe va permettre de définir le problème du logarithme discret pour
les courbes elliptiques : l’ECDLP. On peut vérifier que la loi présentée est bien interne : si
R = P+Q, alors R ∈ E/Fp. Elle est aussi associative, car on a (P+Q)+R = P+(Q+R).
L’opération principale des protocoles qui sont basés sur l’ECDLP est la multiplication sca-1.1. LA CRYPTOGRAPHIE ASYMÉTRIQUE 31
laire (l’équivalent de l’exponentiation pour le FFDLP). La multiplication scalaire [k]P
revient à accumuler k fois le point P grâce à l’opération d’addition que nous venons de
définir. Des techniques pour effectuer cette opération sont présentées en section 1.1.4. Le
problème de l’ECDLP est donc le suivant. Soient (E/K, +) le groupe des points de la
courbe et P un élément qui génère ce groupe, alors calculer le logarithme discret de Q
revient à trouver k tel que Q = [k]P.
Si on définit ce groupe là, avec une loi moins naturelle que celle de (Fp, ×), c’est parce
qu’il n’y a pas d’autres attaques connues sur le groupe des points d’une courbe elliptique
que les attaques génériques contre le problème du DLP, si certaines précautions sont prises.
Ainsi, on ne sait actuellement pas faire d’attaques comme celle du calcul d’indice, alors que
celle-ci fonctionne contre le FFDLP. Cependant, les attaques comme celles de Pollard [97]
et de Pohlig-Hellman [96] sont toujours applicables, ce qui veut dire que l’ordre du groupe,
c’est à dire le nombre de points de la courbe #E(Fp), doit toujours être divisible par un
grand nombre premier. En pratique, on va choisir une courbe telle que #E(Fp) = lq avec
l petit, par exemple l ∈ {1, 2, 3, 4} et q un grand nombre premier. On va donc travailler
sur le sous-groupe d’ordre q. De plus, le théorème de Hasse [58] (théorème 1) nous garantit
que #E(Fp) est de la même taille que p. On en conclut donc que pour 80 bits de sécurité,
en prenant un p de 160 bits, on va générer des courbes d’environ 2
160 points. Il suffit de
trouver une courbe telle que #E(Fp) = lq avec l petit et nous aurons un système offrant
a priori une sécurité de 80 bits, pour des clés de 160 bits mais aussi des calculs sur des
nombres de 160 bits (au lieu de 1024 pour l’application du FFDLP).
Théorème 1 (Hasse [58]). Soit E une courbe elliptique définie sur Fp, alors
p + 1 − 2
√
p 6 #E(Fp) 6 p + 1 + 2√
p .
Lors de la sélection de la courbe, certaines précautions seront à prendre en plus sur le
cardinal de la courbe. Si par exemple #E/K = p (la caractéristique du corps), alors on
peut calculer un isomorphisme de la courbe vers (Fp, +) et calculer le DLP dans ce groupe
trivialement [110,114]. De même, pour éviter l’attaque MOV [77], il faut vérifier que l’ordre
l du point P (l’élément générateur du sous-groupe sur lequel on fait la multiplication scalaire)
ne divise pas p
k −1, pour k suffisamment grand (pour l > 2
160, il faut vérifier jusqu’à
k = 20, voir page 173 de [57]).
L’algorithme 4 présente la version courbes elliptiques du chiffrement Elgamal. On peut
de même transposer le protocole de Diffie-Hellman, DSA ou tout autre algorithme basé
sur le DLP. Dans la suite du document, lorsque sera évoqué la cryptographie sur courbes
elliptiques ou ECC, il sera question des protocoles reposant sur l’ECDLP, utilisant la multiplication
scalaire comme opération de base.
Pour conclure, nous allons ici présenter certains éléments de comparaison entre ECC
et RSA. Tout d’abord, la table 1.1 (issue de la page 19 de [57]) montre l’évolution prévue
des tailles RSA/FFDLP et ECDLP, en se basant sur les temps requis pour les attaques
NFS et rho de Pollard. L’écart déjà conséquent pour les niveaux de sécurité conseillés
actuellement est amené à se creuser encore et de plus en plus vite (tant que de nouvelles
attaques spécifiques aux courbes elliptiques ne seront pas trouvées).32 CHAPITRE 1. ÉTAT DE L’ART
Algorithme 4: Chiffrement avec le cryptosystème Elgamal ECC simple (source [57]).
Entrées : Alice diffuse (p, E/Fp, P, l) et sa clé publique Q, d est sa clef secrète
Entrées : Bob veut chiffrer le message M pour Alice, un point de la courbe
Chiffrement
1) Bob récupère la clé publique de Alice, c’est à dire Q et les paramètres
(p, E/Fp, P, l)
2) Bob choisi k au hasard tel que 1 6 k 6 n − 1
3) Bob calcule les multiplications scalaires C1 = [k]P et C2 = M + [k]Q
4) Bob envoie (C1, C2) à Alice
Déchiffrement
1) Alice calcule C3 = [d]C1
2) Alice obtient M = C2 − C3
Niveau de sécurité par algorithme symétrique (bits)
SKIPJACK Triple-DES AES AES AES
80 112 128 192 256
Tailles des clés (bits)
RSA 1024 2048 3072 8192 15360
FFDLP 160 224 256 384 512
ECDLP 160 224 256 384 512
Tailles des éléments (bits)
RSA 1024 2048 3072 8192 15360
FFDLP 1024 2048 3072 8192 15360
ECDLP 160 224 256 384 512
Table 1.1 – Tailles de clés et de l’arithmétique pour les cryptosystèmes asymétriques RSA,
FFDLP et ECDLP correspondant aux niveaux de sécurité des cryptosystèmes symétriques
SKIPJACK, Triple-DES et AES (source [57]).
Réf. Implémentation Slices DSP Fréq. Temps
[56] Fp NIST 224 bits 1580 26 487 MHz 365 µs
[118] RSA-1024 3937 17 400 MHz 1.71 ms
Table 1.2 – Comparaison de performances ECC et RSA sur FPGA Virtex 4 XC4VFX12
issue de [56].1.1. LA CRYPTOGRAPHIE ASYMÉTRIQUE 33
Opération temps moyen mémoire données mémoire programme
[k]P ECC-160 0.81 s 282 octets 3682 octets
[k]P ECC-224 2.19 s 422 octets 4812 octets
me mod n RSA-1024 0.43 s 542 octets 1073 octets
c
d mod n RSA-1024 10.99 s 930 octets 6292 octets
me mod n RSA-2048 1.94 s 1332 octets 2854 octets
c
d mod n RSA-2048 83.26 s 1853 octets 7736 octets
Table 1.3 – Comparaison en temps et en mémoire d’ECC et RSA-CRT sur ATmega128
issue de [55]. L’exposant public e est choisi e = 216 + 1.
Implémentation Client Serveur
ECC-160 bits 93.7 mJ 93.9 mJ
RSA-1024 bits 397.7 mJ 390.3 mJ
Table 1.4 – Consommation d’énergie issue de [123] pour une version simplifié de handshake
SSL avec authentification mutuelle utilisant RSA ou ECC sur microcontrôleur basse
consommation ATmega128.
Les tables 1.2, 1.3 et 1.4 présentent des exemples de comparaison d’implantations matérielles
et logicielles RSA et ECC. La table 1.2 issue de la contribution [56] compare ainsi
RSA-1024 et ECC avec le premier du NIST P-224. On rappelle que d’après la table 1.1,
ECC défini sur 224 bits fournit le même niveau de sécurité que RSA-2048. Les résultats
présentés montrent une forte réduction du nombre de slices de Virtex 4 (qui sont les blocs
de base du FPGA), contre une utilisation accrue du nombre de DSP blocs (qui sont des
accélérateurs arithmétiques). De plus, en terme de vitesse l’implantation ECC est presque
5 fois plus rapide, pour un niveau de sécurité supérieur. La table 1.3 présente des résultats
des auteurs de [55], qui ont comparé ECC et RSA sur des implantations sur microcontrôleur
ATmega128. On remarque que pour un petit exposant public e = 216 + 1, l’exponentiation
est plus rapide que la multiplication scalaire. Par contre, l’exponentiation utilisant l’exposant
secret d est un ordre de grandeur fois plus lent que la multiplication scalaire. Les
mêmes auteurs ont comparé dans [123] la consommation d’énergie d’un handshake SSL
simplifié utilisant soit RSA-1024 soit ECC-160 toujours sur ATmega128. Ils ont observé
une division par 4 de l’énergie consommée pour effectuer le handshake avec ECC-160, tout
en gardant une sécurité équivalente.
1.1.4 Techniques classiques de multiplication scalaire et d’exponentiation
Dans cette section sont présentés quelques algorithmes de multiplication scalaire. Ils
sont présentés pour une loi de groupe notée additivement (notation pour ECC) mais la
transformation en algorithme d’exponentiation est triviale (ainsi par exemple l’algorithme
doublement et addition 5 peut se réécrire en carré et multiplication). Les algorithmes 5
et 6 sont deux variantes de l’algorithme dit doublement et addition (ou double-and-add en
anglais), bits de poids faibles et bits de poids forts en tête, respectivement. Le principe
est de parcourir le scalaire k bit à bit afin de calculer le schéma de Hörner correspondant.
L’avantage de l’algorithme 5 provient du fait que ses lignes 3 et 4 sont parallélisables, alors
que dans l’algorithme 6, ils travaillent sur la même donnée. Par contre l’algorithme 6 ne34 CHAPITRE 1. ÉTAT DE L’ART
Algorithme 5: Multiplication scalaire doublement et addition poids faibles en tête
(source [57], p. 96).
Entrées : k = (k`−1, . . . , k1, k0)2, P ∈ E/Fp
Sortie : [k]P
1 Q ←− O
2 pour i de 0 à ` − 1 faire
3 si ki = 1 alors Q ←− Q + P
4 P ←− [2]P
5 retourner Q
travaillant que sur une seule valeur, il suffit de stocker un seul point durant le calcul. L’algorithme
7, issu de [125], permet d’accélérer les calculs en réduisant le nombre d’additions,
au prix de pré-calculs. Le scalaire k est ici parcouru par fenêtre de w bits (par exemple
w = 4). Un compromis est alors à faire entre la réduction du nombre d’additions de points
et la quantité de points pré-calculés à stocker. En plus de la mémoire pour stocker ces
points, le coût du calcul de ces points en début de multiplication scalaire doit être pris en
compte si le point de base est régulièrement changé, par exemple pour protéger le circuit
contre des attaques statistiques (cf. sous-section 1.1.6). Il existe beaucoup d’autres algorithmes
d’exponentiation et de multiplication scalaire (un exemple de plus est donné au
chapitre 3). Ces algorithmes proposent par exemple de recoder k dans une certaine repré-
sentation pour réduire encore le nombre d’additions de points. Des exemples seront donnés
dans la section 1.1.5. Pour plus de détails, le lecteur trouvera par exemple une étude des
algorithmes d’exponentiation et de multiplication scalaire rapide dans l’article [51]. En-
fin, d’autres algorithmes sont aussi utilisés pour protéger le circuit contre les attaques
par canaux cachés, par exemple la multiplication scalaire dite échelle de Montgomery [62]
(algorithme 22, chapitre 3).
Algorithme 6: Multiplication scalaire doublement et addition poids forts en tête
(source [57], p. 97).
Entrées : k = (k`−1, . . . , k1, k0)2, P ∈ E/Fp
Sortie : [k]P
1 Q ←− O
2 pour i de ` − 1 à 0 faire
3 Q ←− [2]Q
4 si ki = 1 alors Q ←− Q + P
5 retourner Q
1.1.5 Réduction du coût de la multiplication scalaire
La figure 1.4 propose une vue sur la hiérarchie des opérations d’une multiplication
scalaire. On considère généralement deux sous-niveaux : les opérations sur les points ADD
et DBL et les opérations ±, ×,
−1
sur le corps de base Fp (la plupart des études de l’état
de l’art se consacre surtout à la réduction du nombre de multiplications). Afin d’améliorer
l’efficacité de la cryptographie sur courbes elliptiques, de nombreuses approches ont été
proposées dans la littérature, aux différents niveaux de la figure 1.4. Des améliorations ont
aussi été proposées sur la réduction de l’arithmétique des courbes, c’est à dire la réduction1.1. LA CRYPTOGRAPHIE ASYMÉTRIQUE 35
Algorithme 7: Multiplication scalaire par fenêtre fixe de Yao [125].
Entrées : k = (km−1, . . . , k1, k0)2w avec ki ∈ [0, 2
w − 1], m =
`
w
et P ∈ E/Fp
Pré-calculs : T = (O, P, [2]P, . . . , [2w − 1]P)
Sortie : [k]P
1 début
2 Q ←− T(km−1)
3 pour i de m − 2 à 0 faire
4 pour j de 1 à w faire
5 Q ←− [2]Q
6 Q ←− Q + T(ki)
7 retourner Q
temps
[k]Q
DBL ADD DBL . . .
±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1 FP
E/FP
Figure 1.4 – Hiérarchie des opérations dans une multiplication scalaire.
du coût des opérations de base telles que l’addition et le doublement de point, ou la proposition
de formules pour des opérations plus complexes pour le triplement, par exemple [39],
ou le quintuplement avec par exemple [81]. Une façon d’améliorer les formules est de changer
de système de coordonnées. En effet, les inversions modulaires étant très coûteuses vis
à vis des autres opérations modulaires, l’utilisation de systèmes de coordonnées différents
des coordonnées affines a été proposée dans la littérature [28, 32]. Ces systèmes rajoutent
un certain nombre de coordonnées, notamment pour éviter de faire une inversion à chaque
opération ADD ou DBL. Par exemple, dans [32] est évoqué un coût d’environ 30 multiplications
pour une inversion, ou même 100 multiplications pour les auteurs de [17]. Le retour
à une représentation normalisée affine demande une inversion, mais c’est la seule requise
sur toute la multiplication scalaire. Par exemple, les coordonnées projectives Jacobiennes
font correspondre le point (x, y) = (X/Z2
, Y /Z3
) à (X, Y, Z) avec Z 6= 0 pour (x, y) 6= O
(si Z = 0 alors (x, y) = O). L’équation 1.2 devient ainsi
Y
2 = X3 + aXZ4 + bZ6
.
Par exemple, les formules de la table 1.5, issues de [17] permettent de calculer l’addition
et le doublement de point sans inversion.
Le site web [17] recense un grand nombre de systèmes de coordonnées, et évalue leur coût
en terme d’opérations élémentaires sur le corps en décomptant les opérations nécessaires
aux additions, doublements, mais aussi triplements ou encore λ-doublements (formules spé-
ciales lorsqu’on enchaîne les doublements). Une autre façon d’améliorer l’arithmétique de
certaines courbes est de les choisir avec une forme particulière permettant des simplifications
dans les calculs, autrement dit de changer l’équation de définition d’une courbe pour
obtenir de nouvelles formules d’addition et doublement. Par exemple les courbes d’Edwards
[43], définies par x
2 +y
2 = c
2
(1 +dx2y
2
) avec cd(1−c
4d) 6= 0 mènent à des formules36 CHAPITRE 1. ÉTAT DE L’ART
P1 + P2 2 P1
A1 = Z
2
1 A = X2
1
A2 = Z
2
2 B = Y
2
1
u1 = X1A2 C = B2
u2 = X2A1 D = Z
2
1
S1 = Y1Z2A2 S = 2
(X1 + B)
2 − A − C
S2 = Y2Z1A1 M = 3A + aD2
H = u2 − u1 T = M2 − 2S
I = (2H)
2 X3 = T
J = HI Y3 = M(S − T) − 8C
R = 2(S2 − S1) Z3 = (Y1 + Z1)
2 − B − D
V = u1I
X3 = R2 − J − 2V
Y3 = R(V − X3) − 2S1J
Z3 =
(Z1 + Z2)
2 − A1 − A2
H
Table 1.5 – Formules pour courbe elliptique sous forme de Weierstrass courte en coordonnées
Jacobiennes (source [17]). Note : P1 = (X1, Y1, Z1), P2 = (X2, Y2, Z2) et
P3 = (X3, Y3, Z3).
nécessitant peu d’opérations [16, 17].
On peut aussi accélérer les calculs au niveau de l’algorithme de multiplication scalaire
lui même (voir des exemples en section 1.1.4). Des techniques de recodage de la clé ont
par exemple été proposées afin de limiter le nombre d’additions de points (souvent plus
coûteuses que les doublements). On peut citer par exemple le recodage en forme non adjacente
[83] (NAF pournon-adjacent form) qui recode la clé avec un nombre limité de 1
(correspondants aux additions) dans la nouvelle représentation. Un autre exemple de recodage
est la représentation à base double [39] (DBNS pour double-base number system),
qui propose de réécrire la clé dans une base double 2 et 3. Ce dernier recodage suppose
des formules de triplement de points, qui sont des formules plus efficaces que celles d’un
doublement et d’une addition combinées.
Pour finir, les travaux sur l’amélioration de l’arithmétique dans les grands nombres
trouvent une application directe dans la cryptographie asymétrique. On notera par exemple
les travaux d’implantations de [121] qui testent différentes façons d’implanter l’arithmétique
ECC sur GPU, ou encore les travaux [5, 45, 52] qui utilisent la représentation RNS pour
accélérer les calculs ECC. Les travaux de cette thèse se placent donc au plus bas niveau,
dans l’implantation de l’arithmétique du corps de base. On verra, notamment dans le chapitre
3, que les différents niveaux de la hiérarchie d’une multiplication scalaire (algorithme
de multiplication scalaire, opération sur les points et opérations sur le corps) ne peuvent
pas être complètement dissociés afin d’être le plus efficace possible, chaque modification
sur l’un des niveaux ayant un impact sur les autres.1.1. LA CRYPTOGRAPHIE ASYMÉTRIQUE 37
1.1.6 Sécurité et attaques physiques
Quelques types d’attaques
Les attaques par canaux cachés sont un type d’attaques important, notamment dans un
contexte d’implantation matérielle. En effet, ces attaques sont extrêmement dangereuses
car elles ne reposent pas sur la qualité du cryptosystème en terme de sécurité purement
mathématique, mais sur son implantation. Une implantation matérielle peut être observée
ou bien agressée, fautée et ainsi révéler des secrets à l’attaquant, tout en semblant parfaitement
sûre mathématiquement. Une implantation cryptographique doit donc être aussi
résistante aux deux types d’attaques.
On peut globalement classer en 2 catégories les attaques physiques. D’une part les
attaques par observation (ou attaques passives), qui demandent de pouvoir disposer d’un
canal de mesure fuitant de l’information, classiquement la consommation de courant [33,69],
le rayonnement électromagnétique [4, 100] ou bien le temps d’exécution [68]. D’autre part
les attaques par perturbation (ou attaques actives), où l’attaquant va, par exemple, essayer
d’introduire des fautes dans le circuit en modifiant un ensemble de bits à l’aide d’un laser.
L’exemple probablement le plus simple d’attaque par observation est l’analyse simple
de courant (SPA pour simple power analysis), proposée par Kocher et al. [69]. Comme
présenté dans la section 1.1.4, certains algorithmes d’exponentiation ou de multiplication
scalaire effectuent des calculs complètement différents suivant les bits de la clé secrète. Par
exemple, l’algorithme 5 effectue dans un cas un simple doublement, et dans l’autre une
addition et un doublement. Les additions étant des opérations bien différentes des doublements
dans le cas standard (sans contre-mesure spécifique avec des formules unifiées comme
dans [23, 61]), les différences de consommation entre les 2 opérations sont très facilement
perceptibles. Toujours dans [69] sont proposées des attaques plus sophistiquées, qui à la
suite d’un certain nombre de mesures appliquent un traitement statistique afin de retrouver
une partie de la clé. On appelle ces attaques DPA, pour Differential Power Analysis attacks.
Un exemple connu d’attaque active a été proposé par Boneh et al. dans [21]. La proposition
est une attaque contre les implantations dites RSA-CRT, où le théorème chinois des
restes (détaillé en 1.2.1) est appliqué directement sur la factorisation du module RSA. En
injectant une faute dans le calcul effectué sur l’un des facteurs premiers du modulus, on
peut retrouver directement la factorisation de celui-ci, et donc casser le système. Une autre
exemple est l’attaque safe error, présentée dans [128,129], qui permet d’attaquer certaines
implantations d’exponentiation ou de multiplication scalaire. Ces attaques révèlent des informations
sur les branchements pris suivant les bits de clé. Cela permet notamment de
différencier ces différents branchements, lorsqu’une analyse de courant simple SPA ne suffit
pas. Le modèle d’attaquant est par contre ici plus fort que celui d’une SPA car il requiert
de pouvoir attaquer avec une très bonne précision le circuit sans le détruire, comme par
exemple attaquer un registre contenant une coordonnée d’un point à un moment précis.
Des exemples de contre-mesure
Pour lutter contre les attaques de type SPA, on va généralement chercher à briser le lien
entre la consommation de courant et le côté du branchement choisi dans les algorithmes
d’exponentiation et de multiplication scalaire. Il existe notamment plusieurs façons d’uniformiser
les calculs effectués si le bit de clé ki vaut 1 ou 0.38 CHAPITRE 1. ÉTAT DE L’ART
La contre-mesure présentée par Joye et Yen dans [62], appelée échelle de Montgomery
permet d’effectuer une multiplication scalaire en effectuant pour chaque bit de k exactement
une addition de points et un doublement. En utilisant cet algorithme (présenté plus
en détail dans la section 3.2), on s’attend à ce que la consommation de courant varie très
peu suivant que le bit ki soit à 1 ou 0. De même, la contre-mesure de Möller [86] propose une
adaptation de l’algorithme de multiplication par fenêtre de Yao [125] qui effectue toujours w
doublements puis une addition, quelque soit la valeur de la fenêtre (ki+m−1, . . . , ki). Cette
contre-mesure nécessite donc le pré-calcul de constantes comme pour l’algorithme [125] et
requiert en plus un recodage de la clé pour être sûr de ne pas effectuer des opérations
irrégulières, comme une addition entre P et l’élément neutre O.
Une autre contre-mesure visant à uniformiser les calculs est par exemple proposé par
Brier et Joye dans [23]. Cette contre-mesure propose l’utilisation de formules unifiées pour
l’addition et le doublement de point. Autrement dit, on effectue exactement de la même
façon l’addition de points et le doublement de point, la consommation ne dépend alors
plus des opérations effectuées. On remarque que contrairement aux deux premières contremesures
[62, 86] qui proposent une protection au niveau algorithme de multiplication scalaire
ou d’exponentiation, celle-ci propose une protection directement au niveau des formules
pour ADD et DBL.
Pour se protéger contre les attaques statistiques, on peut aussi citer les contre-mesures
de Coron [33] qui sont des contre-mesures classiques pour les implantations ECC. Pour
protéger le circuit d’une analyse statistique, l’idée est d’introduire de l’aléa à chaque exé-
cution. Dans [33] est proposé par exemple de rendre aléatoire les coordonnées du point de
base P en coordonnées projectives ou encore d’ajouter des bits d’aléa à la clé sans changer
le résultat final.
Une autre façon de se protéger contre les attaques statistiques, mais aussi des attaques
de type SPA, est d’utiliser du matériel pour ne plus avoir de lien entre le canal observé
et les données ou les calculs effectués. Par exemple, la logique WDDL pour wave dynamic
differential logic est utilisée par Tiri et Verbauwhede [122] ou encore McEvoy et al. [76]
pour protéger le système. Dans une implantation WDDL, tout signal s est implanté de
paire avec son complémentaire s. Ainsi, un changement sur s implique un changement sur
s, ce qui rend plus difficile l’analyse de la consommation de courant et le lien qui peut
être fait avec les calculs effectués. Nous remarquons que cette contre-mesure est proposée
au plus bas niveau en terme d’implantation, elle peut donc être implantée en complément
d’autres contre-mesures.
Enfin, pour se protéger contre certaines attaques en faute, Giraud [50] propose de tester
le résultat de certains algorithmes de multiplication scalaire ou d’exponentiation avant
de retourner un résultat qui donnerait potentiellement des informations à un attaquant.
Ce type de contre-mesure doit être utilisé avec un algorithme adapté, comme l’échelle de
Montgomery. En effet, certains types d’algorithmes protégés contre la SPA peuvent retourner
un résultat juste, malgré qu’une faute ait été commise. Dans ce cas, le test final ne
protège plus de la fuite d’information.
Pour conclure sur cette section, ma thèse se plaçant dans un contexte d’implantations
matérielles de cryptographie, il est important d’évoquer les attaques par canaux cachés.1.2. ARITHMÉTIQUE MODULAIRE 39
Les propositions que nous avons faites dans la thèse portent sur l’accélération des calculs
du corps de base, elles sont pour la plupart compatibles avec les contre-mesures qui sont
faites aux autres niveaux de la figure 1.4, que ce soit sur l’arithmétique de la courbe ou
bien l’algorithme de multiplication scalaire. Par exemple, elles sont compatibles avec les
contre-mesures classiques de Coron [33] contre la DPA ou celles de Joye et Yen [62] ou
Möller [86] contre la SPA.
1.2 Arithmétique modulaire
Dans cette section, nous allons présenter quelques rappels de base du calcul modulaire,
ainsi que des techniques classiques utilisées dans le cadre de la représentation binaire
standard de position. Comme nous le verrons dans la suite du document, ces techniques
sont souvent à l’origine des techniques utilisées dans le cadre du RNS. Le calcul modulaire
spécifique au RNS sera présenté dans la section 1.3, qui lui est consacrée.
1.2.1 Définitions et rappels sur l’arithmétique modulaire
Sans définir dans l’absolu ce qu’est l’arithmétique modulaire, on peut la voir comme un
type d’arithmétique ne s’intéressant pas directement aux valeurs de nombres sur lesquels
on travaille, mais plutôt aux restes de leur division par un autre nombre. Le reste de a
divisé par b sera écrit a mod b. L’arithmétique modulaire existe depuis l’antiquité, mais
on attribue en général son développement en la version que nous connaissons aujourd’hui
à Gauss pour son ouvrage Disquisitiones Arithmeticae de 1801. On rappelle maintenant
quelques outils nécessaires au calcul modulaire.
Définition 3 (congruences).
Soient a, b, n ∈ N avec n > 0, alors a ≡ b mod n si et seulement si le reste de a divisé
par n est égal au reste de b divisé par n. Ils sont alors représentés par la même classe de
congruence modulo n. Si a ≡ b mod n et c ≡ d mod n alors :
– a + c ≡ b + d mod n ;
– a · c ≡ b · d mod n ;
– a
q ≡ b
q mod n .
On choisit généralement le représentant de la classe de congruence comme un élément
supérieur ou égal à 0 et inférieur strictement à n (il existe d’autres façons de choisir, par
exemple en ayant des représentants négatifs). On rappelle que l’inverse de a modulo n,
noté a
−1
, est, lorsqu’il existe, l’unique élément b ∈ [0, n − 1] tel que ab ≡ 1 mod n. Un tel
élément existe si et seulement si a et n sont premiers entre eux. Enfin, on rappelle que si
m divise n, alors a mod m = (a mod n) mod m.
Nous présentons maintenant le théorème chinois des restes (qui sera souvent abrégé en
CRT). Ce théorème est à la base de la représentation RNS et donc de la grande majorité
des travaux de cette thèse. Ce théorème est très ancien (un premier sous-cas a été énoncé
par Sun Tsˇu au IIIe
siècle environ, d’après Knuth [66], page 287). L’exemple de Sun Tsˇu
peut se traduire comme suit (voir [92]) :
Soient des objets dont nous ne connaissons pas le nombre.
Si nous les comptons par 3, il en reste 2.
Si nous les comptons par 5, il en reste 3.
Si nous les comptons par 7, il en reste 2.
Combien y a-t-il d’objets ?40 CHAPITRE 1. ÉTAT DE L’ART
La réponse à ce problème est 23. Cette solution est unique si on considère que le nombre
d’objets est inférieur à 105 (3 × 5 × 7). Nous allons voir comment ce genre de problème se
résout dans le cas général, avec l’énoncé du théorème.
Théorème 2 (théorème chinois des restes CRT). Soient {m1, . . . , mn} un ensemble d’entiers
premiers entre eux deux à deux et M =
Qn
i=1 mi. Soit (x1, . . . , xn) ∈ N
n alors il existe
un unique x ∈ [0, M − 1] tel que
x ≡ x1 mod m1
x ≡ x2 mod m2
.
.
.
x ≡ xn mod mn .
(1.3)
Cet élément est défini par
x =
Xn
i=1
xi
· T
−1
i
mi
· Ti
M
(1.4)
où Ti =
M
mi
où | · |M représente la réduction modulo M.
Démonstration.
Nous allons d’abord prouver que l’équation 1.4 fourni bien une solution du système 1.3.
Les éléments de {m1, . . . , mn} étant premiers entre eux 2 à 2, Ti =
M
mi
est donc premier
avec mi
, son inverse |T
−1
i
|mi
existe bien. De plus, on remarque que si i 6= j, alors Tj est
un multiple de mi
, c’est à dire |Tj |mi = 0. Pour résumer,
xi
· T
−1
i
mi
· Ti
mi
= xi
xi
· T
−1
i
mi
· Ti
mj
= 0 pour i 6= j .
(1.5)
On obtient bien |x|mi = xi pour chaque i ∈ [1, n]. Il ne reste plus qu’à prouver l’unicité
de la solution. Soient x, y ∈ [0, M−1], deux solutions du système 1.3. Alors on a |x−y|mi = 0
pour tout i ∈ [1, n]. L’entier x − y est donc multiple de tous les mi
, c’est à dire multiple
de leur produit M. Or, puisque x − y ∈ [−M + 1, M − 1], le seul multiple de M possible
est 0, on en conclut que x − y = 0.
Ce théorème sera commenté plus en détail dans la section 1.3 consacrée au RNS.
1.2.2 Réduction Modulaire
L’opération caractéristique de l’arithmétique modulaire est le calcul, à partir d’un entier,
de sa représentation modulo un certain nombre n, c’est à dire de son reste divisé
par n. Cette opération, appelée réduction modulaire, peut s’effectuer à l’aide d’une division
Euclidienne par exemple, qui retourne quotient et reste. Nous allons voir maintenant
quelques techniques utilisées habituellement pour effectuer le calcul du reste sans avoir à
calculer le quotient, qui sont efficaces en numération simple de position (les algorithmes
sont présentés pour la base 2).1.2. ARITHMÉTIQUE MODULAIRE 41
Réduction de Barrett
La réduction de Barrett [15] est une méthode qui va chercher à approcher le quotient
de la division de a par p pour obtenir a mod p. En effet, on rappelle que a mod p = a−
j
a
p
k
p.
La méthode de Barrett propose d’approcher j
a
p
k
par a
2
l
µ
2
l
, où µ =
j
2
2l
p
k
et l le
nombre de bits de p. En faisant une approximation de j
a
p
k
, nous sommes sûrs d’obtenir
le bon résultat modulo p, à un certain nombre de soustractions par p près (dépendant
directement de la précision de l’approximation). Dans la méthode proposée, il suffit de
pré-calculer µ, les autres divisions étant en fait juste des décalages. Au final, la réduction
calcule :
a −
jj a
2
l
k µ
2
l
k
p . (1.6)
L’algorithme coûte donc une multiplication de l × (l/2) bits (
µ
2
l
ne fait que l/2 bits)
et une multiplication de l bits, en plus de la soustraction de l’équation 1.6 et de celles
nécessaires à corriger le résultat. En utilisant la méthode de Barrett, on obtient un résultat
inférieur à 3p (voir [15]), on effectue alors finalement une à deux soustractions par p en
plus pour obtenir le résultat final.
Réduction de Montgomery
La réduction de Montgomery, initialement proposée en 1985 dans [82], est une méthode
de réduction permettant d’éviter l’utilisation de divisions coûteuses, les remplaçant par
des opérations très efficaces comme des décalages. Pour pouvoir utiliser ces décalages, la
contrainte est d’autoriser la sortie à être un peu supérieure à p pour une réduction modulo
p (généralement la sortie est inférieure à 2p, ce qui implique un bit supplémentaire pour
représenter les valeurs). L’algorithme 8 décrit la méthode de Montgomery.
Algorithme 8: Réduction modulaire de Montgomery [82].
Entrées : a < p2
, p < R avec pgcd(R, p) = 1
Pré-calcul : (−p
−1
) mod R
Sortie : ω ≡ a · R−1 mod p , ω < 2p
1 s ←− a · (−p
−1
) mod R
2 t ←− a + sp
3 ω ←− t/R
Cet algorithme prend en entrée un entier a < p2
, typiquement le résultat d’un produit de
deux éléments inférieurs à p. Pour que cet algorithme soit efficace, il faut que les réductions
modulo R et divisions par R soient efficaces. En représentation binaire classique, on prend
généralement R = 2l
, ainsi une réduction équivaut juste à garder les r derniers bits et les
divisions sont de simples décalages. De plus, il est aisé de constater que t défini ligne 2 est
un multiple de R en écrivant :
t ≡ a + sP ≡ a + a · (−p
−1
) · p ≡ 0 mod R ,
de même que de retrouver la borne sur le résultat ω :
ω =
t
R
=
a + sp
R
< p ·
p + s
R
< 2p .42 CHAPITRE 1. ÉTAT DE L’ART
On peut remarquer que la sortie de l’algorithme n’est pas a mod p mais a · R−1 mod p,
représentation qu’on appelle parfois domaine de Montgomery. Pour retrouver a mod p, il
suffit de multiplier le résultat de l’algorithme par R2 mod p et réappliquer l’algorithme 8
une fois. Le coût de cette opération peut être négligée, car celle-ci n’intervient qu’une fois
tous nos calculs modulaires effectués. De plus, on peut observer que le produit de deux sorties
ω1 et ω2 de l’algorithme 8 donne un élément ω1 · ω2 < 4p
2 au lieu de p
2
. Pour pouvoir
maîtriser la taille des entrées et sorties de l’algorithme lorsque les réductions modulaires
s’enchaînent, on choisit un élément R > 2M, ce qui va permettre de retourner toujours un
résultat ω < 2p, même avec une entrée entre p
2
et 4p
2
.
Remarque. La réduction de Montgomery peut être vue comme une première application
du théorème chinois des restes. En effet, puisque p et R sont premiers entre eux, si
a < p2 < pR alors d’après le CRT (avec m1 = p et m2 = R) on a :
a = |ap−1
|R · p + |aR−1
|p · R mod pR ,
et donc
(a − |ap−1
|R · p)/R ≡ |aR−1
|p mod pR ,
ce qui nous donne la formule calculée par l’algorithme 8.
Le cas des nombres de Mersenne et pseudo-Mersenne
Les deux algorithmes précédents ne demandent aucune condition sur le modulus p. Dans
certains cas, la réduction peut être grandement simplifiée, comme pour les nombres de Mersenne
qui s’écrivent de la forme 2
`−1. Par exemple, le standard ECC du NIST [91] propose
d’utiliser le corps FP521 où P521 = 2521 −1. Ainsi pour réduire x = x12
521 +x0 (x0, x1 < 2
`
)
un nombre de 1042 bits, modulo P521, il suffit de calculer x ≡ x1 + x0 mod P521. On note
que x1 + x0 est un nombre de 522 bits, une soustraction peut être nécessaire pour obtenir
le résultat final de la réduction. De même, on réduit en général un nombre de 2` bits en
un nombre de ` bits.
La même idée peut être généralisée en utilisant ce qu’on appelle les nombres pseudoMersenne,
de la forme 2
` − r, où 0 < r < √
`. L’idée de l’utilisation de tels premiers
pour ECC a été introduite par Crandall [34]. Si x = x12
` + x0 (toujours x0, x1 < 2
`
) est
un nombre de 2` bits, et p = 2` − r on a maintenant x ≡ x1r + x0 mod p. Si on pose
s = x1r+x0, alors on peut remarquer que log2
s = 3`/2+ 1 (en effet x1r est de taille 3`/2).
En appliquant cette méthode une nouvelle fois, sur s, on obtient à nouveau un nombre de
` + 1 bits auquel on soustrait une ou 2 fois P pour obtenir le bon résultat. L’algorithme 9
résume cette méthode.
Algorithme 9: Réduction modulo un nombre pseudo-Mersenne [34].
Entrées : p = 2` − r, r < √p, x = x12
` + x0 < p2
, x0, x1 < 2
`
Sortie : ω ≡ x mod p, ω < 2p
1 s ←− x1r + x0 /*s = s12
` + s0*/
2 t ←− s1r + s0
3 ω ←− |t|p
Afin de réduire le coût des multiplications par r dans l’algorithme 9, Solinas [116]
remarque que r peut être construit lui aussi de façon particulière, par exemple avec quelques1.2. ARITHMÉTIQUE MODULAIRE 43
puissances de 2. Ainsi, dans le standard du NIST est défini P192 = 2192 − 2
64 − 1, ce qui
permet de remplacer les calculs de s et t par 3 additions.
1.2.3 Inversion Modulaire
Dans cette section sont détaillées les techniques classiques pour effectuer l’inversion
modulaire, c’est à dire étant donnés p et a, comment calculer l’élément b tel que ab ≡
1 mod p. Cette opération est par exemple requise pour ECC, mais on en réduit le nombre au
minimum car elle est très coûteuse vis à vis des autres opérations comme la multiplication.
Il existe deux grandes familles d’algorithmes pour effectuer cette opération et qui sont
présentées ci-dessous.
Inversion avec le petit théorème de Fermat
Le théorème porte le nom de Pierre de Fermat, qui semble-t-il a été le premier à énoncer
le théorème qui suit dans une lettre à Frénicle de Bessy (voir [35], page 209) datant du 18
octobre 1640. Le théorème y est énoncé de la façon suivante : « Tout nombre premier mesure
infailliblement une des puissances −1 de quelque progression que ce soit, et l’exposant de
la dite puissance est sous-multiple du nombre premier donné −1 ». Ce qui peut se traduire
par le théorème 3.
Théorème 3 (Petit Théorème de Fermat ou FLT pour Fermat Little Theorem).
Soit p un nombre premier et a un nombre qui n’est pas multiple de p. Alors a
p−1 − 1 ≡
0 mod p.
De ce théorème découle directement le fait que si 0 < a < p alors a × a
p−2 ≡ 1 mod p,
et donc a
p−2 ≡ a
−1 mod p. Ainsi, le calcul de l’inverse modulaire peut se résumer à un
grande exponentiation modulaire, implantée par exemple à l’aide de l’un des algorithmes
présentés dans la section 1.1.4. Le nombre de tours de la boucle principale est donc en
log p. Pour obtenir le coût total, il suffit de multiplier ce nombre par le coût des multiplications
internes à la boucle. Les avantages de l’algorithme issu du petit théorème de Fermat
(noté FLT) viennent de sa nature d’exponentiation. Ces algorithmes sont très réguliers, et
ils demandent principalement de savoir faire des multiplications modulaires et de savoir
compter le nombre (fixe) de tours de boucle. Dans un contexte de cryptographie matérielle
pour les courbes elliptiques par exemple, les multiplieurs sont déjà implantés pour calculer
les opérations nécessaires au doublement de point par exemple. De plus, le contrôle est très
simple puisqu’il s’agit juste d’un compteur.
Algorithmes d’Euclide étendus
L’algorithme d’Euclide est à l’origine une méthode permettant de trouver le « plus
grand diviseur commun » (pgcd) de deux entiers, proposé par Euclide dans son œuvre
Les Éléments (livre 7, propositions 1 et 2, voir par exemple l’édition [46]). Cet algorithme
permet notamment, dans une version étendue, de trouver les éléments u et v tels que
ua + vb = pgcd(a, b) (identité de Bézout). Supposons que l’algorithme soit calculé pour
0 < a < p et p premier, on obtient alors ua+vp = 1. Ce qui est équivalent à ua ≡ 1 mod p,
on a donc bien calculé l’inverse de a modulo p. La méthode est détaillée dans l’algorithme 10
(issu de [66]).
L’idée principale de l’algorithme est d’utiliser l’égalité suivante :
pgcd(a, p) = pgcd(p mod a, a) .44 CHAPITRE 1. ÉTAT DE L’ART
Algorithme 10: Algorithme d’Euclide étendu (source [66]).
Entrées : a, p ∈ N avec pgcd(a, p) = 1
Sortie : U = a
−1 mod p
1 (u1, u2, u3) ←− (0, 1, p)
2 (v1, v2, v3) ←− (1, 0, a)
3 tant que v3 6= 0 faire
4 q ←− j
u3
v3
k
5 (u1, u2, u3) ←− (u1, u2, u3) − q(v1, v2, v3)
6 (u1, u2, u3) ←→ (v1, v2, v3)
7 si u1 < 0 alors
8 u1 ←− u1 + p
9 retourner u1
Ainsi en prenant successivement l’opérande le plus grand, modulo le plus petit, on réduit
leur taille à chaque tour de boucle, pour finalement arriver au pgcd final (qui vaut 1 dans
notre cas). Les opérandes sont d’abord stockés dans les variables u1, u2, u3, v1, v2 et v3.
Ces variables sont telles que u1 · a + u2 · p = u3 et v1 · a + v2 · p = v3 à la fin de chaque tour
de boucle. À la fin de l’algorithme, u3 vaut 1, le résultat est donc bien u1. On peut remarquer
qu’il n’est pas nécessaire de calculer u2 et v2, seuls u1 et v1 contiendront les valeurs
pour arriver à l’inverse, u3 et v3 étant requis pour savoir quand arrêter l’algorithme. En
moyenne, le nombre de tours de la boucle principale est environ 12 log 2
π2 ln p ≈ 0.58 log2 p,
voir par exemple [41,59] si on considère en entrée p et a un élément de Fp. Cela est presque
deux fois moins que pour l’algorithme de Fermat, mais il faut en contrepartie être capable
de faire des divisions euclidiennes sur des grands nombres de façon efficace.
Une variante célèbre de l’algorithme d’Euclide est sa version dite « binaire », proposée
initialement par Stein dans [117]. Cette variante va permettre de s’affranchir du coût des
divisions Euclidiennes, pour les remplacer par des divisions par 2 et des tests modulo 2. Ces
deux opérations étant triviales en représentation binaire, cet algorithme va permettre une
grosse réduction du coût d’une itération de la boucle principale. En contrepartie, plus de
tours de boucle principale sont effectués, environ 0.71 log2 p. La version étendue est décrite
dans l’algorithme 11 (issu de [66]§ 4.5.2).
Tout au long de cet algorithme, on retrouve l’égalité u1 ·a ≡ u3 mod p, et la même chose
pour les vi
. La différence vient de la façon dont on fait évoluer ces valeurs intermédiaires.
La propriété utilisée pour réduire les opérandes tout en gardant le même pgcd n’est plus
pgcd(a, p) = pgcd(p mod a, a), mais on utilise le fait que
pgcd(u3, v3) = pgcd(u3/2, v3) si u3 pair et v3 impair
pgcd(u3, v3) = 2 · pgcd(u3/2, v3/2) si u3 et v3 pairs
pgcd(u3, v3) = pgcd((u3 − v3)/2, v3) si u3 et v3 impairs.
(1.7)
Ainsi, dans la boucle principale on commence par diviser les deux opérandes par 2 tant
qu’ils sont pairs. Lorsqu’on divise par 2 la valeur v3 par exemple, il faut mettre à jour la
valeur associée v1 pour conserver (v1/2) · a ≡ (v3/2) mod p, quitte à rajouter p à v1 si sa
valeur est impaire. Après les deux boucles internes de parité, u3 et v3 sont impairs (on est
dans le troisième cas de l’équation 1.7) : on fait donc la différence du plus grand et du plus1.2. ARITHMÉTIQUE MODULAIRE 45
Algorithme 11: Algorithme d’Euclide étendu binaire de [66]§ 4.5.2.
Entrées : a, p ∈ N, p > 2 avec pgcd(a, p) = 1
Sortie : |a
−1
|p
1 (u1, u3) ← (0, p), (v1, v3) ← (1, a)
2 tant que v3 6= 1 et u3 6= 1 faire
3 tant que |v3|2 = 0 faire
4 v3 ← v3
2
5 si |v1|2 = 0 alors
6 v1 ← v1
2
7 sinon
8 v1 ← v1+p
2
9 tant que |u3|2 = 0 faire
10 u3 ← u3
2
11 si |u1|2 = 0 alors
12 u1 ← u1
2
13 sinon
14 u1 ← u1+p
2
15 si v3 ≥ u3 alors
16 v3 ← v3 − u3
17 v1 ← v1 − u1
18 sinon
19 u3 ← u3 − v3
20 u1 ← u1 − v1
21 si v3 = 1 alors retourner |v1|p sinon retourner |u1|p
petit, puis on applique à nouveau la règle 1.7.
Pour finir est présentée ici une variante de l’algorithme binaire d’Euclide étendu, utilisant
une astuce appelée plus-minus. Les auteurs de [22] ont proposé de remplacer la
comparaison v3 > u3 par un test modulo 4 dans l’algorithme binaire du calcul du pgcd.
Cette astuce est très intéressante pour les représentations dans lesquelles les comparaisons
sont difficiles (comme RNS). Il faut surtout être capable de faire de façon efficace
des réductions modulo 4. L’algorithme 12, proposé dans [37], est une version étendue de
l’algorithme de calcul de pgcd de [22]. L’astuce est de remarquer que si deux entiers sont
impairs, alors leur somme ou (exclusif) leur différence est un multiple de 4. Ainsi, au lieu
d’effectuer une comparaison entre les valeurs u3 et v3 comme dans l’algorithme 11, on teste
la valeur modulo 4 de leur somme. Si on obtient 0, on effectue ensuite une division par 4 de
cette somme, sinon on divise par 4 la différence. Des petites comparaisons sont effectuées
sur les valeurs de contrôle lu et lv, mais ces valeurs là sont très petites devant la taille
des opérandes (elles sont de taille log2
log2 p). Dans l’algorithme 12, des fonctions div2 et
div4 sont définies. La fonction div2 effectue en fait les lignes 5,6,7 et 8 de l’algorithme 11,
c’est à dire elle divise par 2 modulo p son entrée. De même div4 divise par 4 modulo p, sa
définition complète dépend de la valeur |p|4. Par exemple, si |p|4 = 3, alors
v1/4 si |v1|4 = 0
(v1 + p)/4 si |v1|4 = 1
(v1 + 2p)/4 si |v1|4 = 2
(v1 − p)/4 si |v1|4 = 3 ,46 CHAPITRE 1. ÉTAT DE L’ART
ce qui correspond bien à la division par 4 modulo p. Autrement dit, on construit un
multiple de 4, en ajoutant un certain nombre de fois p, qui est finalement divisé par 4.
Algorithme 12: Inversion modulaire plus-minus [37].
Entrées : a, p ∈ N avec pgcd(a, p) = 1, ` = dlog2 pe
Sortie : |a
−1
|p
1 (u1, u3) ← (0, p), lu ← `
2 (v1, v3) ← (1, a), lv ← `
3 tant que lv > 0 faire
4 si |v3|4 = 0 alors
5 v3 ← v3/4
6 v1 ← div4(v1, p)
7 lv ← lv − 2
8 sinon si |v3|2 = 0 alors
9 v3 ← v3/2
10 v1 ← div2(v1, p)
11 lv ← lv − 1
12 sinon
13 v
∗
3 ← v3, v
∗
1 ← v1, l
∗
u ← lu, l
∗
v ← lv
14 si |u3 + v3|4 = 0 alors
15 v3 ← (v3 + u3)/4
16 v1 ← div4(v1 + u1, p)
17 sinon
18 v3 ← (v3 − u3)/4
19 v1 ← div4(v1 − u1, p)
20 si lv < lu alors
21 u3 ← v
∗
3
, u1 ← v
∗
1
, lu ← l
∗
v
, lv ← l
∗
u − 1
22 sinon v ← v − 1
23 si u1 < 0 alors u1 ← u1 + p
24 si u3 = 1 alors retourner u1 sinon retourner p − u1
Les auteurs de [36] fournissent des résultats d’implantation FPGA Spartan 3 des diffé-
rents algorithmes d’inversion présentés dans cette section (voir pages 113-116 de [36]). Pour
leurs implantations, les algorithmes les plus efficaces sont clairement l’algorithme d’Euclide
étendu binaire ainsi que sa variante plus-minus. Les deux implantations sont très proches
en termes de temps, et la surface de la version plus-minus se révèle un peu plus petite.
L’algorithme classique d’Euclide étendu et celui issu du FLT sont tous deux loin derrière
(l’algorithme du FLT restant le plus lent).
1.3 La représentation modulaire des nombres (RNS)
La représentation modulaire des nombres, ou RNS (residue number system) a été introduite
indépendamment par Svodoba et Valach [119] d’un côté et Garner [49] dans les
années 50. Proposée initialement pour des problèmes de vérification des calculs, elle a ensuite
été utilisée pour des problèmes de traitement du signal [26, 60] puis plus récemment
pour différentes implantations de cryptographie asymétrique. Par exemple des travaux sur
l’implantation de RSA et FFDLP [10,71,87] (1024–4096 bits), d’autres sur ECC [52,72,104]1.3. LA REPRÉSENTATION MODULAIRE DES NOMBRES (RNS) 47
temps
[k]Q
DBL ADD DBL . . .
±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1±, ×,
−1
ma,1
ma,2
ma,3
ma,1
ma,2
ma,3
ma,1
ma,2
ma,3
ma,1
ma,2
ma,3
ma,1
ma,2
ma,3
ma,1
ma,2
ma,3
ma,1
ma,2
ma,3
ma,1
ma,2
ma,3
ma,1
ma,2
ma,3
ma,1
ma,2
ma,3
ma,1
ma,2 { ma,3
RNS
FP
E/FP
Figure 1.5 – Hiérarchie des opérations (fictives) dans une multiplication scalaire en utilisant
la représentation RNS.
(160–521 bits) et enfin sur les couplages [27,42] ont été implantés en RNS. Plus de références
sont disponibles dans le tableau 1.6. Son intérêt réside dans le fait qu’on peut découper
les opérandes et effectuer un certain nombre d’opérations indépendamment sur les diffé-
rents morceaux, c’est-à-dire sans propagation de retenue. C’est le cas notamment pour la
multiplication, les additions et les soustractions. Ces opérations peuvent donc être effectuées
naturellement en parallèle et être implantées sur des architectures exploitant cette
parallélisation. Cependant, certaines opérations sont difficiles en RNS comme la détection
de signe/dépassement, la comparaison, la division Euclidienne ou encore la réduction modulaire.
Certaines de ces opérations seront traitées particulièrement dans ce document de
thèse. Enfin, une autre difficulté pour le RNS vient du fait que c’est une représentation non
standard. Les langages de description de matériel (HDL) ainsi que les outils de conception
assistés par ordinateur (CAD) ne supportent pas directement la représentation, impliquant
un coût de développement important. La figure 1.5 illustre l’intégration du RNS dans la
hiérarchie des opérations dans une multiplication scalaire. Dans cette figure, les calculs dans
FP sont découpés en petits canaux parallèles ma,1, ma,2 et ma,3, afin d’accélérer les calculs.
Le lecteur pourra se référer aux ouvrages [92, 115, 120] pour une introduction approfondie
sur les différents aspects du RNS.
1.3.1 Définition et premières propriétés
Le CRT, présenté théorème 2, permet de lier directement chacun des éléments de [0, M−
1] à un « vecteur » (x1, . . . , xn) (avec M =
Qn
i=1 mi et xi ∈ [0, mi − 1] pour tout i). Plus
précisément, nous avons une bijection entre les éléments de Z/MZ et (Z/m1Z, . . . , Z/mnZ),
c’est à dire une nouvelle façon de représenter les éléments modulo M. L’ensemble des mi
permet alors de définir complètement cette représentation et on appelle (m1, . . . , mn) la
base RNS.
Définition 4. Soient Ba = (ma,1, . . . , ma,na
), où tous les ma,i sont des entiers naturels
premiers 2 à 2, et X ∈ Z. Alors Ba est une base RNS et on définit la représentation RNS
de X en base Ba par :
−→
X = (xa,1, . . . , xa,na
) = (|X|ma,1
, . . . , |X|ma,na
) . (1.8)
De plus, si X ∈ [0, Ma − 1] où Ma =
Qna
i=1 ma,i, et si on définit Ta,i =
M
ma,i
alors
X = |X|Ma =
Xna
i=1
xa,i · T
−1
a,i
ma,i
× Ta,i
Ma
(1.9)48 CHAPITRE 1. ÉTAT DE L’ART
w
w w
xa,1 ya,1
za,1
mod ma,1
+ − × (/)
canal (a, 1)
w
w w
xa,2 ya,2
za,2
mod ma,2
+ − × (/)
canal (a, 2)
• • •
w
w w
xa,na
ya,na
za,na
mod ma,na
+ − × (/)
canal (a, na)
Figure 1.6 – Vue globale de la représentation RNS dans la base Ba. La notation (/) désigne
la division exacte par un diviseur premier avec chacun des ma,i.
permet de retrouver X à partir de
−→
X .
La notation · désigne ici une multiplication entre deux « petites » valeurs de w bits
(la taille d’un modulo), alors que × désigne une multiplication où au moins l’un des deux
opérandes est une grande valeur, de l’ordre de n × w bits ou (n − 1) × w bits. On a introduit
dans cette définition une notation plus précise que lors de la définition du CRT
en annotant d’un indice a toutes les valeurs correspondant à Ba. Comme on le verra par
la suite, plusieurs bases seront définies et ces indices permettront de retrouver rapidement
la base dans laquelle nous travaillons. Le détail des notations est présenté dans la section
dédiée mais des rappels seront donnés tout au long du manuscrit.
L’arithmétique de base est très simple en RNS, comme indiqué sur la figure 1.6. En fait,
en utilisant les propriétés élémentaires du calcul modulaire présentés en section 1.2.1, on
voit immédiatement que les additions/soustractions ou multiplications s’effectuent canal
par canal avec
−−→
Xa
−→
Ya =
|xa,1 ya,1|ma,1
, . . . , |xa,na ya,na
|ma,na
, (1.10)
où ∈ {+, −, ×}. Sur la figure 1.6, la division est notée entre parenthèse car cela ne
concerne que la division exacte lorsque le diviseur est premier avec Ma. Dans ce cas précis,
si on note Z le diviseur, la division revient juste à multiplier par l’inverse de Z modulo
ma,i pour tout i, c’est à dire par
−−→
Z
−1
a = (|Z
−1
a
|ma,1
, . . . , |Z
−1
a
|ma,na
). On peut remarquer
l’équation 1.9 est réduite modulo Ma. Cela signifie que si on calcule une valeur plus grande
que Ma, un dépassement se produit et le résultat est réduit modulo Ma. Par exemple,
pour éviter un dépassement, deux fois plus de moduli sont nécessaires pour stocker le ré-
sultat d’un produit que pour ses opérandes. Par contre la réduction modulo Ma est faite
automatiquement lors d’un dépassement, c’est donc une opération très efficace en RNS
en base Ba. Nous verrons dans la sous-section 1.3.3 que cette propriété est utilisée pour
adapter l’algorithme de Montgomery en RNS.1.3. LA REPRÉSENTATION MODULAIRE DES NOMBRES (RNS) 49
Les opérations sont faites indépendamment sur chaque canal, sans propagation de retenue
(à la différence de la numération simple de position). Ainsi, ces opérations sont parallélisables
si nous disposons de plusieurs unités de calcul modulaire. On observe notamment
que la multiplication RNS ne coûte que na multiplications modulaires élémentaires EMM,
toutes parallèles. Nous verrons que ce parallélisme est grandement mis à contribution dans
les implantations cryptographiques pour son efficacité. De plus, le RNS est une représentation
non-positionnelle, il n’y a pas de mot de poids fort ou faible, ils ont tous une place
équivalente. Notamment l’ordre des moduli importe peu dans les calculs, on peut ainsi le
rendre aléatoire par exemple. Cet aléa a notamment été expérimenté dans l’état de l’art en
tant que protection contre certaines attaques par canaux cachés (voir dans la section 1.3.5).
En contrepartie, certaines opérations sont plus difficiles en RNS qu’en numération
simple de position. C’est le cas, entre autres, de la comparaison qui est complexe en RNS,
car c’est un système non-positionnel. On peut par exemple convertir notre vecteur RNS en
une représentation positionnelle comme la représentation MRS (présentée section 1.3.2) ou
encore la représentation binaire standard, mais ces conversions sont coûteuses (conversion
présentée section 1.3.2 pour le MRS, calcul du CRT pour la conversion vers la représentation
binaire standard). Enfin, la réduction modulaire par une valeur différente de Ma est
une opération difficile, de même que la division Euclidienne. La réduction étant aussi essentielle
que la multiplication dans les calculs pour la cryptographie, nous allons voir dans
la suite des techniques mises en œuvre pour réduire son coût, menant à une représentation
très efficace dans les implantations cryptographiques. Un outil va d’abord être introduit,
appelé extension de base (BE) qui permet d’effectuer des conversions entre 2 bases RNS.
1.3.2 Extensions de base RNS
Les extensions de base ont été introduites par Szabo et Tanaka dans [120]. Une extension
de base est une fonction permettant de passer de
−−→
Xa représenté dans la base Ba à
−→
Xb dans
Bb, qui est première avec Ba (c’est à dire Ma et Mb sont premiers entre eux). Les extensions
de base de l’état de l’art permettent d’éviter un retour à la représentation standard. Comme
nous allons le voir, il existe deux grandes techniques pour les effectuer, une utilisant encore
le CRT, l’autre passant par une représentation intermédiaire appelée mixed-radix system
(abrégée MRS [49]). On nomme ces conversions « extensions de base » car une fois
−→
Xb
obtenu, puisque Ba et Bb sont premières entre elles, la concaténation des 2 vecteurs
−−→
Xa|b
est une représentation RNS de X étendue à na + nb restes, dans la base notée Ba|b
. Dans
tous les algorithmes de l’état de l’art, on a toujours na = nb = n, les coûts seront parfois
donnés dans ce cas précis. Les extensions de base vont être utilisées dans les algorithmes
de réduction modulaire de l’état de l’art (cf. section 1.3.3).
Extensions de base RNS via la représentation MRS
La première forme d’extension de base, introduite en [120], propose d’effectuer une
conversion de la représentation RNS en base Ba à la représentation MRS [49] (définie pour
la base Ba) puis enfin de convertir cette représentation en base Bb. Nous allons donc tout
d’abord définir ce qu’est la représentation MRS en base Ba.
Définition 5. Soit (ma,1, . . . , ma,na
) un ensemble de na entiers strictement positifs et
soient Ma =
Qna
i=0 ma,i et X < Ma (on considère que ma,0 = 1). Alors la représentation
MRS de X dans la base (ma,1, . . . , ma,na
) est l’unique n-uplet (x
0
a,1
, . . . , x0
a,na
) tel que
0 6 x
0
a,i < ma,i pour tout i ∈ [1, n] et50 CHAPITRE 1. ÉTAT DE L’ART
X =
Xna
i=1
(x
0
a,i Y
i−1
j=0
ma,j ) = x
0
a,1 + x
0
a,2 ma,1 + x
0
a,3 ma,1ma,2 + . . . + x
0
a,na
nYa−1
j=0
ma,j . (1.11)
On peut convertir (xa,1, . . . , xa,na
) en (x
0
a,1
, . . . , x0
a,na
) de façon efficace, c’est à dire
passer du RNS en base Ba au MRS en base Ba. Tout d’abord, on peut remarquer que
x
0
a,1 = xa,1 en réduisant l’équation 1.11 modulo ma,1. De même, en réduisant l’équation
modulo ma,2, on obtient x
0
a,2 = |(xa,2−x
0
a,1
)·m−1
a,1
|ma,2
. L’algorithme 13 décrit complètement
la conversion RNS vers MRS.
Algorithme 13: Conversion RNS vers MRS [120].
Entrée :
−→
X = (xa,1, . . . , xa,na
) en base Ba
Pré-calculs : |m−1
a,i |ma,j pour i < j
Sortie : (x
0
a,1
, . . . , x0
a,na
)
1 x
0
a,1 ←− x1
2 x
0
a,2 ←− |(xa,2 − x
0
a,1
) · m−1
a,1
|ma,2
3 x
0
a,3 ←−
(xa,3 − x
0
a,1
) · m−1
a,1 − x
0
a,2
· m−1
a,2
ma,3
4 · · ·
5 x
0
a,na ←−
. . .
xa,na − x
0
a,1
m−1
a,1
− x
0
a,2
m−1
a,2
. . . − x
0
a,na−1
m−1
a,na−1
ma,na
L’algorithme 13 requiert na(na−1)
2
pré-calculs et autant de multiplications modulaires
élémentaires EMM. Pour finir l’extension de base, il suffit d’évaluer l’expression de X (équation
1.11) dans chacun des canaux de la seconde base. Autrement dit, on calcule
xbk =
x
0
a,1 + x
0
a,2 ma,1 + x
0
a,3 ma,1ma,2 + . . . + x
0
a,na
Ta,na
mbk
, (1.12)
pour tous les k ∈ [1, nb]. Si on suppose que les Qi−1
j=0 ma,j pour tout i ∈ [1, na] sont pré-
calculés, cette dernière étape demande na × nb EMM. Des améliorations sur cette dernière
partie ont été proposées par Bajard et al. dans [12], en choisissant bien les éléments de Ba
et Bb. En effet, le coût des multiplications modulaires élémentaires EMM peut être réduit en
prenant des moduli de la forme 2
w − c où c est une valeur avec un faible poids de Hamming.
De plus, en choisissant bien Ba et Bb, il est possible de réduire les multiplications de
l’équation 1.12 à des combinaisons de décalages et additions.
Bien qu’évoqué ici, ce type d’extension de base ne sera pas utilisé dans nos travaux
d’implantation. Tout d’abord le gain obtenu par Bajard et al. dans [12] dépend beaucoup de
l’architecture. Nous verrons que l’architecture que nous avons choisi comme base de travail,
qui est en fait l’architecture de l’état de l’art des implantations ECC en RNS, utilise des
multiplieurs embarqués sur FPGA (ceux des blocs DSP). Dans cette architecture, l’addition
se révèle même plus chère que la multiplication, comme expliqué dans la section 1.3.5.
Remplacer ces multiplications par des additions et des décalages n’est donc pas intéressant
dans ce cas. De plus, l’inconvénient de cette méthode est qu’il y a beaucoup de dépendances
de données lors de l’algorithme 13, limitant fortement la parallélisation. Les architectures
de l’état de l’art étant fortement parallélisées (le parallélisme naturel du RNS est l’un de
ses plus gros points forts), cet algorithme n’est pas très adapté. Dans [8], Bajard et al.
soulignent aussi ce fait, et estiment que la complexité temporelle de leur proposition, en
supposant n unités de calcul parallèles, est moins bonne que celle des extensions basées sur
le CRT, que nous allons maintenant présenter.1.3. LA REPRÉSENTATION MODULAIRE DES NOMBRES (RNS) 51
Extensions de base RNS utilisant le CRT
Une autre façon d’évaluer la valeur de X dans la base Bb à partir
−−→
Xa est d’évaluer le
CRT en Ba et de le réduire dans la base Bb. On peut d’abord réécrire l’équation 1.9 :
X =
Xna
i=1
xa,i · T
−1
a,i
ma,i
× Ta,i − qMa , (1.13)
où q =
Pna
i=1
xa,i · T
−1
a,i
ma,i
× Ta,i
/Ma
. L’idée des extensions basées sur le CRT est
d’évaluer l’équation 1.13 modulo chacun des éléments de Bb. On remarque d’abord que la
somme Pna
i=1
xa,i · T
−1
a,i
ma,i
×Ta,i coûte na multiplications pour le calcul de
xa,i · T
−1
a,i
ma,i
pour tout i, puis na multiplications par Ta,i pour chaque canal de Bb. Au total, on a donc
nanb+na EMM. Dans les algorithmes utilisés pour la réduction modulaire dans l’état de l’art,
on utilise des extensions de base avec na = nb = n, ce qui donne un coût de n
2 + n EMM.
Il est aussi important de noter que si nous avons n unités arithmétiques (toujours avec
na = nb = n) calculant les multiplications en 1 cycle, alors ce calcul seul demande n + 1
cycles. Maintenant, il reste à calculer q, qui est le résultat d’un quotient et qui semble
difficile à évaluer. Le matériel de calcul modulaire sur les canaux n’étant pas adapté à ce
calcul, nous allons voir comment calculer q en minimisant le coût des opérateurs nécessaires
à cette nouvelle opération.
Extensions de base CRT par extra modulo
Une première méthode a été proposée par Shenoy et Kumaresan dans [112]. En fait,
ils ont remarqué qu’en ajoutant un modulo supplémentaire ma,na+1, il était possible de
retrouver q. Posons ξa,i =
xa,i
Ma
ma,i −1
ma,i
=
xa,i T
−1
a,i
ma,i
.
D’après l’équation 1.13 on a :
q Ma =
Xna
i=1
ξa,i · Ta,i!
− X , (1.14)
qui pris modulo ma,na+1 donne
|q Ma|ma,na+1 =
Xna
i=1
ξa,i · Ta,i
ma,na+1
− xma,na+1
ma,na+1
,
aboutissant finalement à
|q|ma,na+1 =
M−1
ma,na+1
·
Xna
i=1
ξa,i · Ta,i
ma,na+1
− xma,na+1
ma,na+1
.
En choisissant ma,n+1 > q, on aura alors directement q = |q|ma,na+1 . Par définition,
on a ξa,i < ma,i et donc ξa,i Ta,i < Ma. Finalement Pna
i=1 ξa,i Ta,i < naMa, ce qui prouve
que q < na. Dans les applications cryptographiques, na est bien plus petit que la largeur
des canaux (typiquement de 2 à 7 bits, contre des canaux de 16 à 64 bits). Le modulo
supplémentaire doit juste être supérieur à q, on le choisit donc tel que ma,na+1 > na. Cet52 CHAPITRE 1. ÉTAT DE L’ART
algorithme n’est pas très cher, on peut allouer une petite ressource effectuant les calculs
sur ce petit modulo supplémentaire qui effectuera les na+1 multiplications nécessaires. Les
calculs sont seulement sur dlog2 nae bits contre w bits pour les calculs sur les canaux RNS.
Il faut noter par contre qu’il faudra effectuer tous les autres calculs cryptographiques aussi
sur ce petit canal supplémentaire, il y a donc un surcoût aussi sur les opérations basiques
RNS comme la multiplication. Cependant, on verra dans la section 1.3.3 qu’on ne peut pas
utiliser cette méthode dans certains cas.
Extensions de base CRT avec approximation
Une autre approche permet de calculer q de l’équation 1.13, ou du moins d’en calculer
une bonne approximation. Dans leur travaux [98], Posch et Posch ont remarqué qu’en
simplifiant l’expression de q on avait :
q =
$Xna
i=1
ξa,i
ma,i%
, (1.15)
avec ξa,i défini comme précédemment. En évaluant une approximation de ce rapport, on
aurait donc une approximation du CRT, et donc de
−→
Xb . Ils ont montré que si on peut
limiter X à être 0 < X < (1 − εmax)Ma, alors on peut toujours s’arranger pour que le
calcul approché donne le bon q.
Kawamura et al. [64] ont proposé une méthode permettant d’approcher efficacement q
en matériel, grâce à un accumulateur sur quelques bits, utilisé seulement lors de l’extension
de base (à la différence de la proposition précédente de Shenoy et Kumaresan). Cette
approche requiert d’avoir tous les éléments de la base sous la forme 2
w−ha,i avec ha,i < 2
w/2
(c’est-à-dire des pseudo-Mersenne de même taille). Cette condition n’est pas vraiment
contraignante car les pseudo-Mersenne sont habituellement choisis pour l’efficacité de la
réduction modulaire sur chacun des canaux. De plus, le fait que tous les éléments de la
base soient de la même taille est aussi un argument matériel, car il permet d’avoir des
unités arithmétiques identiques pour tous les canaux (aux pré-calculs près). Finalement
l’approximation se traduit par le calcul de
q
0 =
$
σ0 +
Xna
i=1
trunc(ξa,i)
2
w
%
(1.16)
où trunc(ξa,i) est une fonction qui approche ξa,i par ses t bits de poids forts suivis de w −t
bits à 0. Si t est petit alors l’évaluation de q revient juste à sommer na valeurs de t bits, la
division par 2
w sert juste à savoir où se trouve la virgule et borner l’erreur d’approximation
(voir les détails dans [64]). Par exemple, les auteurs de [87] ont implanté cette approximation
pour des calculs sur RSA 2048 bits, et t = 8 était suffisant. Ce calcul était effectué sur
un petit accumulateur, en parallèle des calculs sur les unités arithmétiques des canaux.
Avant d’expliquer plus en détail comment l’approximation fonctionne, nous allons pré-
senter l’algorithme 14 d’extension de base, issu de [64]. On peut voir qu’il y a une boucle
principale sur la première base (on compte jusqu’à na), puis une seconde interne sur la
seconde base. Dans cet algorithme, on ne calcule pas d’abord la somme pour trouver q,
mais on fait plutôt un calcul à la volée. Ainsi, plutôt que de soustraire q d’un seul coup, il
va être soustrait progressivement, remplaçant la multiplication q(−Ma) par une succession1.3. LA REPRÉSENTATION MODULAIRE DES NOMBRES (RNS) 53
Algorithme 14: Extension de base (BE) issue de [64].
Entrées :
−−→
Xa , Ba, Bb, σ0 (paramètre fixé du système)
Pré-calculs :
−−−−−→
T
−1
a
a
,
−−−→
(Ta)
b
,
−−−−−−→
(−Ma)
b
Sortie :
−→
Xb
1
−→
ξa =
−−→
Xa ×
−−−−−→
T
−1
a
a
,
−→
Xb =
−→
0b , σ = σ0
2 for i = 1, . . . , na do
3 σ = σ + trunc(ξa,i)
4 q = bσc /* Commentaire : q vaut 0 ou 1 */
5 σ = σ − q
6 for j = 1, . . . , nb do
7 xb,j = |xb,j + ξa,i · Ta,i + q · (−Ma)|mb,j
8 retourner
−→
Xb
de q soustractions de Ma. Le calcul du CRT sur les éléments de la base Bb est effectué
dans la boucle interne (en matériel sur les unités de calcul modulaire). Pour le coût de
l’algorithme, on compte généralement une multiplication RNS pour la ligne 1 (na EMM), et
na × nb EMM pour la ligne 7. Le décompte de la multiplication q(−Ma) dépend des auteurs,
on la compte soit comme na EMM en tant que produit (par exemple dans [48]), soit elle n’est
pas comptabilisée comme une multiplication mais comme q × nb EMA, où EMA dénote les
additions élémentaires sur chacun des canaux. Les contributions de l’état de l’art sont rares
à prendre en compte les additions. Il est difficile d’estimer quelle est la meilleure façon de
compter, sachant que q × nb dépend du système mais aussi de la valeur qu’on étend à une
autre base. On peut cependant borner cette valeur à na ×nb EMA pour se situer dans le pire
cas. Pour un décompte plus « mathématique », il sera plus simple de compter na EMM (c’est
à dire une multiplication RNS sur la base Ba), alors que dans un cadre d’implantation tel
que [52], la valeur na × nb EMA reflétera mieux ce qui est effectué en matériel, le matériel
étant conçu pour le pire cas, c’est à dire na soustractions sur les nb canaux.
Les deux théorèmes suivants, extraits de [64], définissent les cadres d’utilisation de
l’approximation.
Théorème 4 (issu de [64]). Soit σ0 tel que 0 6 εmax 6 σ0 < 1 et supposons X tel que
0 6 X < (1 − σ0)Ma alors q
0 = q.
Théorème 5 (issu de [64]). Soient σ0 = 0 et X tel que 0 6 X < Ma alors q
0 = q ou
q
0 = q − 1.
Cela signifie que si X est suffisamment petit par rapport à Ma (le produit des éléments
de Ba), on peut faire en sorte que q
0 = q en choisissant bien σ0 (qui est directement
déterminé par t et les éléments de la base comme nous allons voir). Si ce n’est pas le cas,
on obtient alors un résultat approché, mais on sait alors que soit q
0 = q soit q
0 = q − 1.
Le résultat de l’extension de X dans la base Bb est alors
−→
Xb si la conversion a bien
fonctionné et
−−−−−−−−→
(X + Ma)b s’il y a eu une erreur d’approximation. En fait, on commet 2
erreurs dans l’approximation. La première est due à l’utilisation de trunc et dépend donc
directement de t. La seconde est due à l’approximation des éléments de la base par 2
w.
D’après [64], on a τ = max
ξa,i−trunc(ξa,i)
ma,i
qui est l’erreur maximale due à trunc et54 CHAPITRE 1. ÉTAT DE L’ART
δ = max
2
w−ma,i
2
r
l’erreur maximale due à la division par 2
w. L’erreur maximale globale
est alors εmax = na(τ + δ). Dans [64], il est prouvé que :
Xna
i=1
ξa,i
ma,i
− na(τ + δ) <
Xna
i=1
trunc(ξa,i)
2
w
<
Xna
i=1
ξa,i
ma,i
, (1.17)
ce qui permet de déduire le théorème 5. Pour le théorème 4, remarquons d’abord que
d’après l’équation 1.14, on a :
q +
X
Ma
=
Xna
i=1
ξa,i
ma,i
,
et si on rajoute σ0 tel que na(τ + δ) 6 σ0 < 1 de chaque côté dans l’équation 1.17 on
obtient :
q +
X
Ma
− na(τ + δ) + σ0 <
Xna
i=1
trunc(ξa,i)
2
w
+ σ0 <
q +
X
Ma
+ σ0 . (1.18)
En se plaçant dans les conditions du théorème, on a X < (1 − σ0)Ma, on déduit
finalement
q 6
Xna
i=1
trunc(ξa,i)
2
w
+ σ0 < q + 1
qui prouve qu’en prenant la partie entière on obtient bien exactement q.
Nous allons maintenant voir comment ces extensions de base permettent une réduction
modulaire efficace en RNS.
1.3.3 Adaptation RNS de l’algorithme de Montgomery
L’algorithme de l’état de l’art de réduction modulaire en RNS est basé sur l’algorithme
de Montgomery, présenté à la section 1.2.2. La première adaptation RNS a été proposée
dans [99] et optimisée notamment dans [6,48,64]. L’algorithme 15 décrit l’algorithme dans
sa version initiale, avec une généralisation sur les conditions sur les entrées de l’algorithme
grâce à un paramètre α, proposée par Guillermin dans [52].
Algorithme 15: Réduction de Montgomery RNS (MR) [99].
Entrées : (
−−→
Xa ,
−→
Xb ) avec X < αP2
, Ma > αP et Mb > 2P
Pré-calculs : (
−→
Pa ,
−→
Pb ),
−−−−−−→
(−P
−1
)a ,
−−−−−→
(M−1
a
)b
Sortie :
−→
S =
−−−−−−−−−→
X|M−1
|P
P
+ δ
−→
P avec δ ∈ {0, 1} in Ba and Bb
1
−→
Qa ←
−−→
Xa ×
−−−−−−→
(−P
−1
)a /* Commentaire : réduction par Ma implicite */
2
−→
Qb ← BE −→
Qa , Ba, Bb
3
−→
Rb ←
−→
Xb +
−→
Qb ×
−→
Pb
4
−→
Sb ←
−→
Rb ×
−−−−−→
(M−1
a
)b
5
−→
Sa ← BE −→
Sb , Bb, Ba
6 retourner (
−→
Sa ,
−→
Sb )1.3. LA REPRÉSENTATION MODULAIRE DES NOMBRES (RNS) 55
Les lignes 1, 3 et 4 correspondent aux 3 lignes de l’algorithme 8 où R = Ma, plutôt
qu’à une puissance de 2. Dans l’algorithme original de Montgomery, on utilise le fait que les
réductions modulo 2
w et les divisions par 2
w sont très faciles. Ici, grâce au CRT, calculer
dans Ba opère une réduction implicite du produit Xa × (−P
−1
)a par Ma. Par contre, pour
pouvoir effectuer une division par Ma, il nous faut passer par une seconde base RNS Bb
(première avec la base Ba), pour laquelle la division exacte par Ma devient triviale comme
expliqué au début de la section 1.3. Dans chacune des bases, une seule des 2 opérations est
facile, on doit donc avoir recours à des extensions de base pour pouvoir passer de l’une à
l’autre.
Dans l’algorithme 8, la sortie de l’algorithme est inférieure à 2P et l’entrée pouvait
aller jusqu’à 4P
2
. Les travaux présentés dans [52] permettent de généraliser la condition
sur l’entrée grâce à un paramètre α. Grâce à cette généralisation, on peut utiliser la technique
de réduction paresseuse (ou lazy reduction), où on effectue une seule réduction pour
calculer par exemple (AB + CD) mod P, et plus généralement une somme de produits ré-
duite modulo P. Les multiplications et additions étant bien plus efficaces que les réductions
en RNS, cette technique est utilisée par exemple en [8] pour proposer des formules ECC
adaptées au RNS. En utilisant les mêmes arguments que pour l’algorithme 8, la taille de
la sortie est majorée par 2P (voir [52] pour la démonstration).
Quelques remarques avant de discuter des améliorations de cet algorithme qui ont été
proposées dans la littérature. Tout d’abord, l’algorithme est toujours utilisé dans le cas
na = nb = n. En effet, son cadre classique d’utilisation est la réduction après un produit
de valeurs de FP (ou alors d’une somme de produits). L’entrée est de taille de 2 log2 P,
il nous faut donc déjà 2n moduli pour la représenter (impliquant une seconde base Bb).
De plus, pour obtenir un résultat de taille log2 P (ou plutôt log2 P + ), il faut que notre
première base soit composée d’au moins n moduli (on a Ma > αP). C’est pourquoi on a
toujours na = nb = n. Ensuite, il faut bien noter que le coût global de l’algorithme est
largement dominé par les extensions de base. En effet 2 sont requises, et si on utilise une
extension de base de type CRT, on a besoin de nanb + na EMM sinon via le MRS on obtient
na(na−1)
2 + nanb EMM. Ces coûts sont donc bien plus élevés que les na ou nb EMM requises
pour faire les lignes 1, 3 et 4.
Il y a d’abord un choix à faire au niveau des algorithmes d’extension de base. Si nous
nous considérons sur une architecture parallèle, nous excluons l’extension de base via MRS
pour son manque de parallélisme. Ensuite, nous pouvons remarquer qu’il est impossible
d’utiliser l’extension de Posch et Posch [98] pour la première extension de base de manière
efficace. Cela vient du fait que l’on ne peut pas calculer
|X × (−P
−1
)|Ma
ma,n+1
efficacement
dans le modulo supplémentaire, puisqu’il ne divise pas Ma. On ne peut donc pas
évaluer q dans ce cas. Par contre, la seconde extension de base n’inclut pas de réduction
implicite, en effet, les calculs lignes 3 et 4 sont faits de telle sorte que le résultat soit borné
par 2P et comme Mb > 2P, aucune réduction n’est opérée. S peut donc bien être calculé
dans notre canal supplémentaire, ce qui nous permet d’utiliser l’extension avec extra modulo.
L’extension de base de Kawamura et al. [64] peut, elle, être utilisée pour l’extension de
base ligne 1 et celle ligne 5. En fait, en ligne 1, on va utiliser le théorème 5 car puisque Q est
une valeur prise modulo Ma, on ne peut pas assurer qu’elle soit plus petite que (1−σ0)Ma
avec σ0 > 0 (on peut avoir Q = Ma−1 par exemple). Le résultat de l’extension de base
−→
Qb56 CHAPITRE 1. ÉTAT DE L’ART
est alors soit Q soit Q+Ma dans la seconde base. Il se trouve que cela ne va pas changer le
résultat modulo P car on calcule (ligne 3)
−→
Qb ×
−→
Pb . L’impact de l’erreur d’approximation
se retrouve dans la taille de S avec une borne S < 3P au lieu de S < 2P (il suffit de choisir
la base Bb pour un Mb un peu plus grand). Par contre ligne 5, on se retrouve dans le cas
d’utilisation du théorème 4 sans erreur d’approximation, car puisque l’on peut borner S
suivant P, on peut choisir Bb et σ0 pour obtenir le bon résultat. Il est d’ailleurs nécessaire
que cette extension de base soit exacte, car elle mène au résultat final (il n’y a pas l’effet
de la multiplication par P comme après la première extension de base).
Enfin, une méthode a été proposée par Bajard et al. [7] remarquant que, puisque l’erreur
de l’approximation de l’extension de base de Kawamura et al. effectuée en ligne 1 n’a
comme effet que de fournir une sortie S < 3P au lieu de S < 2P, alors ils ont proposé
de ne même pas calculer q de l’équation 1.13. Ainsi, le résultat obtenu en base Bb est, au
pire, Q + nMa menant à une sortie S < nP. La valeur n étant assez réduite même pour
un RSA 2048 (par exemple si w = 32 alors n = 65) on peut considérer que ce surplus est
acceptable. La sortie a donc quelques bits supplémentaires (on devra augmenter la taille de
Ma). Par contre, on voit que cette méthode ne s’accorde pas très bien avec la technique de
réduction paresseuse car si on calcule par exemple (AB + CD + EF) mod P alors la sortie
sera de taille S < 3nP. Cette technique ne peut-être utilisée que sur la première extension
de base, la seconde devant être exacte, elle est souvent combinée à la réduction de Posch
et Posch [98] qui elle s’applique dans l’autre extension (voir par exemple [48]).
Le coût de l’algorithme 15 est directement lié au choix des extensions de base. Nous
n’allons pas considérer ici le cas d’une extension de base via MRS, pour les raisons déjà
évoquées plus tôt. Nous allons utiliser une extension de base via le CRT. On va considérer
une configuration avec deux extensions de base BE de Kawamura et al. [64] (que l’on notera
KBE) et une autre avec la combinaison BE de Bajard et al. [7]/Posch et BE de Posch [98]
(notée BPBE). En comptant les multiplications, et en négligeant la multiplication qMa
(considérée comme des additions), on obtient un algorithme avec un coût de 2n
2 + 5n EMM
(n
2 + n par extension de base, plus les lignes 1,3,4). Si on compte la multiplication qMa,
on obtient 2n
2 + 7n pour KBE et 2n
2 + 6n pour BPBE.
Dans leurs travaux (indépendants), Guillermin [52] et Gandino et al. [48] ont réduit
le coût de l’algorithme MR en factorisant les calculs dans les extensions de base pour
y intégrer directement les lignes 1, 3 et 4. Ainsi, la multiplication ligne 1 de l’algorithme
14
−−→
Xa ×
−−−−−→
T
−1
a
a
peut se combiner avec la multiplication ligne 1 de l’algorithme 15,
−−→
Xa ×
−−−−−−→
(−P
−1
)a en calculant directement
−−→
Xa ×
−−−−−−−−−→
−P
−1T
−1
a
a. Il faut pour cela pré-calculer
−−−−−−−−−→
−P
−1T
−1
a
a. En fait, on peut faire de même pour la seconde extension de base, en pré-
calculant
−−−−−−−−−→
M−1
a T
−1
b
b
. On peut appliquer cette méthode pour KBE et BPBE pour un
gain de 2n EMM. En plus de ces gains, Gandino et al. ont prouvé que nous pouvions factoriser
encore plus pour la seconde extension de base. En effet, ils proposent de modifier la
représentation dans la seconde base en gardant les valeurs multipliées par
−−−−−→
T
−1
b
b
, ce qui
permet ensuite de fusionner les lignes 3, 4 et de directement les intégrer dans la ligne 7 de
l’algorithme d’extension de base 14. La modification de la représentation requiert encore
quelques pré-calculs. Dans les travaux [48] sont présentés les résultats pour KBE et BPBE.
Nous obtenons finalement que le coût de l’algorithme 15 est 2n
2 + 2n EMM pour KBE et
pour BPBE si on compte qMa comme q additions. Sinon on obtient 2n
2 + 4n EMM pour1.3. LA REPRÉSENTATION MODULAIRE DES NOMBRES (RNS) 57
KBE et 2n
2 + 3n EMM pour BPBE.
1.3.4 Autres algorithmes de réduction
D’autres algorithmes non basés sur celui de Montgomery ont été proposés dans la littérature.
L’algorithme de Montgomery semble toujours être la meilleure solution, mais
peut-être que des avancées majeures de ces autres formes changeront la donne.
Phillips et al. ont proposé dans [95] une façon originale d’effectuer la réduction modulaire,
bien qu’elle soit bien moins performante (en théorie et sûrement en pratique) que
l’algorithme RNS Montgomery MR. Cette méthode, appelée somme des restes, est quand
même évoquée car elle propose une vision différente de l’algorithme RNS de l’état de l’art.
La méthode ne va pas être présentée de façon aussi détaillée que l’algorithme 15, on pré-
sentera ici l’idée utilisée et le coût global de l’algorithme. À notre connaissance, il n’y a
pas d’implantation de cet algorithme dans la littérature RNS. Dans cette proposition, on
considère la concaténation de Ba et Bb comme une seule et unique grande base. X est
une valeur issue d’un produit d’éléments de FP et l’idée de cette réduction modulaire et
d’évaluer directement le CRT modulo P, c’est à dire de calculer :
|X|P ≡
X
2n
i=1
ξa|b,i ×
Ta|b,i
P
+
−q Ma|b
P
, (1.19)
où ξa|b,i =
xa|b,i · T
−1
a|b,i
ma|b,i
. On remarque qu’il faut en fait définir notre grande base
Ba|b
(concaténation de Ba et Bb), avec plus de bits que pour MR. En effet, si on évalue l’équation
1.19, on observe que la somme obtenue est seulement majorée par P ×
P2n
i=1 ma|b,i
qu’on peut simplifier en 2n2
wP. De plus, son principal défaut est que l’équation 1.19 né-
cessite 4n
2 EMM, soit 2 fois plus que l’état de l’art. Enfin, le calcul de q est calculé avec
l’approximation de Kawamura et al. [64]. L’avantage de cette méthode est que, du fait de
sa simplicité, il y a moins de dépendances de données que dans l’algorithme 15.
Enfin, une tentative de transcription de la réduction de Barrett en RNS a été proposée
dans [106, 108]. Cette proposition étant récente, je n’ai pas encore pu étudier de façon
approfondie la contribution, mais il semble qu’elle soit moins bonne que l’algorithme de
Montgomery RNS. Cette méthode impose notamment de pouvoir effectuer des additions
et multiplications en représentation standard sur des nombres de la taille de P, ce qui
ne semble pas adapté à l’utilisation des architectures habituelles de l’état de l’art RNS.
De plus, d’après [106, 108], cet algorithme requiert aussi 4n
2 EMM, soit deux fois plus que
l’algorithme de Montgomery RNS.
1.3.5 Implantations RNS
Depuis une quinzaine d’années, le RNS prend de plus en plus d’importance dans les implantations
matérielles de cryptographie asymétrique. Dans le tableau 1.6, un bon nombre
de ces contributions sont listées, incluant aussi des implantations sur GPU et microprocesseur.
Nous allons commenter maintenant quelques unes de ces contributions, et des
stratégies vis à vis des paramètres adoptés.58 CHAPITRE 1. ÉTAT DE L’ART
ref. conf./journ. aa usage implant. ` et (n × w)
[6] IEEE TC 98 RSA N 1024 (33 × 32)
[64] EuroCrypt 00 RSA N 1024 (33 × 32)
[87] CHES 01 RSA A 250 nm 672, 1024, 2048, 4096
(22 × 32), (33 × 32)
(66 × 32), (66 × 32 ?)
[29] MWSCAS 03 RSA F Virtex 2 1024 (9 × {58, . . . , 64} ?)
[10] IEEE TC 04 RSA N 1024 (33 × 32)
[109] MELECON 06 ECC Virtex2 Pro 160 (20 × 30)
[84] IMA CC 07 RSA G 7800GTX 1024 (88 × 12 & 44 × 24)
[71] ASSC 07 RSA P Xtensa 1024 (33 × 32), 1024 (17 × 32 ?)
[121] CHES 08 RSA G 8800GTS 1024 (16 × 32 ?), 2048 (32 × 32 ?),
ECC 224 (7 × 32)
[104] IEEE TCAS I 09 ECC F Virtex E 160, 192, 224, 256
5 bases/FP size
e.g. (30 × {23, 28, 30, 35})
[72] TenCon 09 ECC P Xtensa 192 (7 × 32)
[52] CHES 10 ECC F Stratix 160 (5 × 34), 192 (6 × 33), 256 (8 × 33),
I & II 384 (11 × 35), 521 (15 × 35)
[27] CHES 11 Coupl. F Virtex 6 126, 128, 192 (courbes de Barreto-Naehrig)
Stratix 3 (8 × 33), (8 × 33), (19 × 33)
Cyclone 2
[53] ePrint IACR 11 RSA Stratix III 1024 (16 × 36 ?) (33 × 32)
[105] ISCAS 11 RSA N 1024 (33 × 32)
[127] Pairing 12 Coupl. F Virtex 6 126, 128 (courbes de Barreto-Naehrig)
(4 × 67)
[48] IEEE TC 12 RSA A 45 nm 1024 (33 × 32)
[5] Comp. J. 12 ECC G 285GTX 224 (15 × 16)
[9] Arith 13 RSA A 250 nm 1024 (33 × 32), 4096 (65 × 64)
[94] DSD 13 RSA F Spartan 3 1024 (17 × 32 ?)
[45] IEEE TVLSI 13 ECC F VirtexE 160, 192, 224, 256
Virtex 2 Pro 3 × 56, (3 × 66 & 4 × 50),
Stratix II 4 × 58, 4 × 66
[107] IEEE TCAS 14 RSA F Virtex6 1024 (66 × 16, 33 × 32)
F Virtex 2 1024 (18 × 64)
[14] ePrint IACR 14 ECC F Kintex 7 256, 521
(16 × 17 , 31 × 17)
Table 1.6 – Implantations de cryptographie asymétrique en RNS. Colonnes : 1 référence,
2 nom conférence/journal, 3 année (19aa/20aa), 4 usage (ECC, Couplages, RSA), 5 implantation
(N pour des résultats Non reportés, FPGA, ASIC CMOS, GPU, Processeur),
6 paramètres généraux (taille de FP et caractéristiques des bases RNS). ? note une implantation
RSA-CRT.1.3. LA REPRÉSENTATION MODULAIRE DES NOMBRES (RNS) 59
canal 1
rower 1
w
w
canal 2
rower 2
w
w
. . .
canal n
rower n
w
w
cox
. . .
1
t
w
w
Sortie
Entr´ee
n × w
w w w w w w
CTRL
Figure 1.7 – Architecture Cox-Rower pour le calcul ECC de [52] (adaptation de [64]).
La première implantation matérielle complète de RSA en RNS se trouve dans la contribution
[87], qui est une implantation de l’architecture dite Cox-Rower permettant le calcul
modulaire efficace en RNS. Ce travail fait suite à la proposition d’architecture [64], ou était
proposée l’astuce de Kawamura et al. et présenté le Cox-Rower. La figure 1.7 représente une
version de l’architecture de Kawamura et al. utilisée dans le cas de calculs ECC dans [52].
Cette architecture Cox-Rower est composée d’unités chargées des calculs sur les diffé-
rents canaux des bases Ba et Bb, appelés Rowers dans la figure 1.7, et d’un petit accumulateur
Cox calculant q pour l’extension de base (présenté figure 1.8). Dans cette thèse, nous
conserverons les termes anglais Cox et Rower pour garder la cohérence avec la notation de
la littérature sur le sujet et ainsi faciliter la compréhension. On pourrait traduire ces termes
par barreur pour le Cox et rameurs pour les Rowers. Comme me l’a expliqué le professeur
Kawamura rencontré lors de CHES 2013, le nom vient du fait que le Cox rythme le travail
des rameurs ou Rower durant l’extension de base (le signal passe à 1 pour ordonner la
soustraction de Ma dans l’algorithme 14, ligne 7). Le Cox laisse le véritable effort de calcul
aux Rowers, il ne doit donc pas être trop grand vis à vis de ceux-ci, mais il est indispensable
pour arriver à destination (c.-à-d. avoir une approximation correcte).
Dans l’architecture figure 1.7, les petits carrés indiquent de simples sélections de bits
(par exemple pour le Cox, les t bits de poids forts) et les petits cercles ( ) sont des
signaux de contrôle. Cette figure illustre le principe général des principales architectures
de l’état de l’art, qui sont souvent avec n Rowers pour n canaux (c’est à dire autant de
Rowers que d’éléments dans une base). Le Cox est illustré figure 1.8. Comme déjà expliqué
précédemment, c’est une petite unité composée d’un accumulateur de t bits (t choisi afin60 CHAPITRE 1. ÉTAT DE L’ART
de calculer de façon exacte q).
Il y a eu différentes variations d’architectures Cox-Rower. Par exemple, dans la version
originale de Kawamura et al. [64], une propagation de retenue entre les différents blocs est
instanciée pour effectuer la conversion RNS/représentation binaire standard. Guillermin,
dans ses travaux [52], montre qu’il n’est pas nécessaire d’avoir ces retenues entre les blocs
en effectuant une conversion un peu plus lente. Ceci dit, les temps de conversion sont né-
gligeables devant les temps de calcul de la multiplication scalaire ou d’une exponentiation.
On peut trouver un autre exemple dans le papier de Nozaki et al. [87] où les auteurs
ont choisi d’implanter un Cox par Rower (en fait un Cox est inclus dans chacun des Rowers),
pour limiter la sortance (fanout en anglais) du Cox ainsi que le routage. De plus, pour cette
implantation de RSA, 11 Rowers sont implantés permettant d’effectuer les calculs sur 22,
33 et 66 moduli. Cette contribution met donc aussi en valeur l’aspect modularité du RNS
(leur architecture permet d’effectuer des calculs RSA de 672 à 2048 bits, et jusqu’à 4096 si
on utilise une implantation de type RSA-CRT). Enfin, afin d’effectuer l’extension de base
de Kawamura et al., les auteurs ont opté pour une structure en anneau pour les Rowers,
c’est à dire que chaque Rower a sa sortie reliée à un Rower voisin.
t
t
t + 1
1
Figure 1.8 – Cox présenté dans [64].
Du côté des contributions s’intéressant spécifiquement aux implantations ECC en RNS,
la première implantation a été proposée en [109] en 2006. Celle-ci s’éloigne assez de ce
qu’avaient proposé Nozaki et al. [87] et Kawamura et al. [64] car ils n’utilisent pas de ré-
duction modulaire MM classique, mais utilisent un passage par la représentation standard
binaire. Cette stratégie ne semble pas être efficace, car les performances obtenues sont bien
inférieures aux propositions basées sur l’utilisation de l’algorithme de Montgomery RNS
(comme celle [52]). Les mêmes auteurs ont d’ailleurs choisi d’utiliser les méthodes classiques
d’extension de base pour leurs autres contributions par la suite [45, 105, 107].
La contribution [52] propose une des implantations ECC les plus rapides, et protégée
contre certaines attaques (par exemple contre les attaques SPA grâce à l’utilisation de
l’échelle de Montgomery [62]). Cette implantation ne nécessite pas de forme particulière
pour P, à la différence d’une implantation du standard du NIST [91] par exemple. Les implantations
faites dans cette thèse sont très similaires à cette implantation. En effet, dans
le cadre des implantations RNS, cette contribution est la plus rapide en étant protégée.
Elle obtient d’ailleurs des résultats assez proches de [45], qui est l’implantation RNS la plus1.3. LA REPRÉSENTATION MODULAIRE DES NOMBRES (RNS) 61
rapide à notre connaissance. Plus de détails seront donnés à propos de cette contribution
qui a servi de base architecturale pour nos implantations.
La contribution [45] propose une implantation encore plus rapide, toujours en RNS, mais
ne peut être comparée équitablement avec la contribution [52] car elle ne propose aucune
contre-mesure contre les attaques par canaux cachés. Ainsi, l’algorithme de multiplication
scalaire utilisé est l’algorithme 6 doublement et addition. De plus, les formules d’addition
et de doublement de points ne sont pas les mêmes que [52]. Il est donc impossible, ou très
difficile, de comparer les choix portant uniquement sur l’arithmétique RNS.
Choix des paramètres
Les propositions de Guillermin [52] et Esmaeildoust et al. [45] dénotent des différences
importantes dans les choix d’implantation et de la meilleure utilisation du RNS. Nous allons
discuter ici ces choix, en commençant par comparer l’approche des ces 2 papiers.
Guillermin a choisi d’utiliser des tailles de mots (c’est à dire de canaux) w 6 36 bits
sur les FPGA Stratix pour utiliser au mieux leurs multiplieurs embarqués dans les blocs
DSP. L’idée est donc d’avoir des canaux très rapides, une architecture très parallélisée avec
des opérations sur des petits mots. De l’autre côté, Esmaeildoust et al. [45] choisissent de
gros moduli de 50 à 66 bits sur la même architecture, limitant donc la parallélisation mais
permettant de réduire le coût des réductions modulaires (on rappelle que chaque MM coûte
2n
2 + O(n) EMM). De plus, elle permet de choisir des canaux pour lesquels les opérations
sont très efficaces, et permet aussi d’utiliser des bases très bien choisies, à la façon des
travaux [12]. Par contre, une telle stratégie mène à des fréquences bien plus basses que
celle de Guillermin (un facteur 3 au niveau des fréquences en faveur de Guillermin). Des
résultats de comparaison sont disponibles dans [45], mais ne déterminent pas de vrai vainqueur.
En effet, de prime abord les résultats fournis semblent un peu plus à l’avantage de
Esmaeildoust et al.. Mais c’est sans compter que, premièrement, les travaux de [45] n’implantent
que l’algorithme doublement et addition présenté algorithme 5, donc moralement
un quart d’opérations en moins, et deuxièmement les temps ne sont comparés que pour les
plus petites courbes, leur stratégie semble très peu adaptée aux hauts niveaux de sécurité.
Ainsi les auteurs de [45] n’ont pas proposé leur solution pour des courbes plus grandes que
256 bits, là où Guillermin propose des résultats d’implantations couvrant toutes les tailles
standards du NIST (c’est à dire jusqu’à 521 bits).
Les compromis sur les choix de n (le nombre de canaux), et w (la taille d’un canal)
n’ont pour le moment été que peu étudiés dans la littérature, mais, dans tous les cas,
de telles études dépendraient très fortement de la plate-forme sur laquelle elles seraient
menées. Un article très récent sur le choix de n est paru dans [126]. Dans ce papier est
considérée une machine avec des mots de m bits (l’exemple de m = 16 est pris) et l’objectif
est de compter les multiplications de m bits dans une multiplication modulaire RNS complète.
Ici, m ne vaut pas forcément w (où w est toujours la taille des canaux). Dans leurs
exemples, les meilleurs résultats suivant cette métrique montrent que les n optimaux, pour
leurs modèles, sont assez petits pour une machine 16 bits (des bases de 4 moduli pour des
corps de 256 ou 512 bits, 5 moduli pour 1024). Ce résultat met en évidence une certaine
contradiction dans les calculs RNS. En prenant des bases avec plus d’éléments, c.-à-d. avec
des w plus petits, on réduit le coût des multiplications. En effet, les multiplications sur les
canaux EMM ont complexité de w
2
, et les multiplications RNS ont une complexité de n en
EMM, ce qui donne un coût de nw2
. Sachant qu’on a toujours, pour un corps fixé de taille62 CHAPITRE 1. ÉTAT DE L’ART
`, n × w = `, réduire w permet bien de réduire le coût total d’une multiplication RNS. En
contrepartie, en réduisant w, on va augmenter le nombre d’opérations élémentaires pour
faire nos réductions modulaires, il y a donc un équilibre à trouver entre les multiplications
et les réductions modulaires.
Ceci dit, dans les faits, un tel décompte ne s’applique pas directement à une architecture
parallèle. En effet, réduire le nombre de multiplications n’implique pas nécessairement
de réduire le temps de calcul, le niveau de parallélisme est aussi un facteur très important.
Notamment les multiplications sur beaucoup de canaux sont indépendantes et donc parallélisables,
mais les sous-produits d’une multiplication pour un grand w le sont beaucoup
moins. De plus, choisir un petit n impliquant un grand w, la chute de la fréquence des opérateurs
arithmétiques doit être prise en compte, mais n’est pas chiffrable sans avoir implanté
effectivement de telles unités. Si on prend par exemple les multiplieurs des constructeurs
de FPGA qui sont très optimisés, il y aura à un moment donné un effet de seuil en terme
de chute de fréquence dû à un routage devenant d’un coup plus compliqué. Et si ces grosses
unités sont pipelinées pour augmenter la fréquence, outre le matériel supplémentaire requis,
cela implique une complexification du contrôle pour utiliser efficacement ces unités. Enfin,
d’un point de vue attaques physiques, les variations de consommation d’énergie de grosses
unités de calcul risquent de se démarquer beaucoup plus sur les traces de consommation
que des petits canaux. De même, l’architecture perd du coup en modularité si on considère
peu d’unités très grosses. Pour toutes ces raisons, il est très difficile d’évaluer les véritables
conséquences de ce type de métrique, le plus sûr (mais aussi de loin ce qui consomme le plus
de temps) est d’effectuer un grand nombre d’implantations avec beaucoup de paramètres.
Ce genre d’étude sera tôt ou tard nécessaire pour qui veut obtenir les meilleures performances
dans une architecture RNS, même si une telle étude serait limitée à un ensemble
de circuits (par exemple une famille de FPGA).
Architecture sélectionnée
Les travaux de cette thèse portent sur des propositions algorithmiques, arithmétiques
implantées sur le modèle de l’architecture [52, 54]. L’architecture a été considérée comme
une contrainte ici, bien que peut-être, une recherche architecturale améliorerait les résultats
que nous avons obtenus avec nos nouveaux algorithmes. C’est pourquoi on détaille ici
un peu plus les éléments internes de ce Cox-Rower, adapté de [64]. Les parties modifiées
seront directement présentées dans les sections sur les contributions.
L’architecture implantée dans [52] (qu’on retrouve dans une version plus détaillée
dans [54]) est très proche de celle de Kawamura et al., avec un Cox et n Rowers (l’architecture
est donc complètement parallélisée), mais sans la propagation de retenue. Les
Rowers ne sont pas directement reliés en anneau dans cette architecture : les sorties sont
ici reliées à un grand multiplexeur pour les rediriger vers tous les autres Rowers, lorsqu’on
effectue l’extension de base (voir figure 1.7). Les Rowers ont aussi été modifiés pour pouvoir
faire des opérations plus complexes que des carrés ou des multiplications par des constantes
(ce qui ne posait pas de problèmes pour l’implantation RSA [64, 87]).
La figure 1.9, provenant de [54], présente l’unité arithmétique implantée dans cette
contribution, avec 6 étages de pipeline. Sur la figure 1.9, ε correspond à ha,i dans les
notations présentées précédemment. Cette unité a été spécialement conçue pour optimiser
les calculs sur les courbes elliptiques et les réductions modulaires qu’ils requièrent. Cette1.3. LA REPRÉSENTATION MODULAIRE DES NOMBRES (RNS) 63
Figure 3.3 – Structure de Rower pour les courbes elliptiques
Multiplieur
Bus principal
U(t)
X0
ALU
SC
regS
m C
principale
ROM
ROM1 ROM2
X1 registres
C
X0
X1
U(t)
ε
Additionneur modulaire (algorithme 19)
55
tel-00674975, version 1 - 28 Feb 2012 Figure 1.9 – Unité arithmétique contenue dans un Rower pour ECC (source [54]).
unité permet de calculer sur Ba la première base
Ut = |x1 · x2 + b0(−Mb) + b1Ut−1|ma,i ,
où b0, b1 ∈ {0, 1} et Ut−1 est le résultat précédent (on définit de même les calculs sur Bb).
On rappelle que ha,i permet de déduire le canal sur lequel nous calculons. Cette unité
nous permet donc de multiplier ses deux entrées, puis d’ajouter éventuellement au résultat
(−Mb) pour corriger l’extension de base avec la technique de Kawamura et al. [64]. Enfin,
ce résultat peut être accumulé au résultat précédent, notamment afin de calculer efficacement
la somme du CRT. On peut remarquer qu’avec une telle unité de calcul, une addition
coûtera 2 cycles car il faudra calculer x1 · 1 + x2 · 1, alors qu’une multiplication ne prendra
qu’un seul cycle. Par contre, les 2 cycles de l’addition seront transparents lorsque l’on fera
des sommes de produits : faire x1 · x2 + x3 · x4 prendra autant de temps que de calculer
indépendamment x1 · x2 puis x3 · x4. L’architecture est donc particulièrement efficace pour
les sommes de produits (qui sont utilisées par les formules ECC pour le RNS par [8] ou
encore pour le CRT).
À notre connaissance, très peu d’implantations FPGA d’ECC se sont révélées plus rapides
que celle de Guillermin [52]. En dehors de la contribution RNS [45] dont nous avons
parlé précédemment, les contributions [56] et [74] proposent des implantations (non RNS)
ECC en FPGA plus rapides que [52]. En fait, il est toujours assez difficile de tirer de vrais
conclusions autrement qu’en terme de performance pure. En effet, le papier de Güneysu
et Paar [56] propose une implantation double-and-add, en utilisant les premiers du NIST
P-224 et P-256 et les coordonnées de Chudnovsky obtenant une multiplication scalaire un64 CHAPITRE 1. ÉTAT DE L’ART
petit plus rapide (0.62 ms contre 0.68 ms pour 256 bits) que [52], mais en implantant une
multiplication scalaire beaucoup moins coûteuse et avec un P très adapté à la représentation
qu’ils utilisent. Enfin, à la différence de Guillermin qui a proposé une implantation
générique pour 5 tailles du NIST, la proposition [56] est optimisée pour leur taille de corps.
Ces faits sont juste exposés afin de justifier qu’il n’y a, pour le moment, pas de « meilleure »
stratégie en terme de choix de l’arithmétique (surtout lorsque P est quelconque).
De même, la contribution de Ma et al. [74] propose cette fois-ci une implantation pour
un P quelconque, avec une protection SPA, mais cette protection (celle de Möller [86])
réduit en fait beaucoup le nombre d’additions de points à effectuer (c’est un calcul fenêtré
divisant par 4 le nombre d’additions de points par rapport à une échelle de Montgomery,
pour les paramètres de fenêtre qu’ils ont choisis). On ne peut donc pas comparer équitablement
les opérateurs arithmétiques proposés dans [74] et dans [52].
Pour conclure sur cette question, il y a plusieurs façons d’implanter ECC sur FP avec
des arithmétiques très différentes et de bonnes performances. De plus, des avancées autant
sur l’arithmétique que sur l’utilisation des blocs FPGA étant régulièrement effectuées, il
n’existe pour l’heure pas de meilleure solution.
Le RNS en tant que protection contre certaines attaques physiques
Les spécificités du RNS ont fait que plusieurs propositions de protection contre des
attaques par canaux cachés ont été proposées. On a, premièrement, l’indépendance sur les
canaux qui nous permet par exemple, d’effectuer les calculs d’un canal aléatoirement sur un
Rower ou un autre, ou encore de rendre aléatoire l’ordre des calculs lorsque l’architecture
n’est pas complètement parallélisée. Deuxièmement, d’autres choix d’introduction d’aléa
sont possibles, comme le fait de choisir aléatoirement Ba parmi les 2n moduli nécessaires
pour les réductions (ou plus), introduisant ainsi une représentation dans le domaine de
Montgomery aléatoire (en effet, en RNS la valeur X, dans le domaine de Montgomery, est
définie par XMa).
Ainsi, la contribution [29] de Ciet et al. propose la randomisation des bases en tirant
aléatoirement les 2n moduli dans un ensemble de moduli plus grand, avant de procéder
à une exponentiation (logarithme discret ou RSA). Comme pointé dans [11], le calcul des
constantes pour la réduction de Montgomery prend beaucoup de temps, et n’est pas envisageable
(plusieurs To de pré-calculs, voir [11]). L’article [11] de Bajard et al. règle ce
problème de pré-calculs, et propose d’effectuer le tirage aléatoire des bases soit avant l’exponentiation
(ou multiplication scalaire), soit pendant l’exponentiation même, en utilisant
simplement quelques appels à la multiplication de Montgomery RNS. Le terme de leak
resistant arithmetic (LRA) est ainsi introduit pour désigner ces techniques. Dans le papier
[53], Guillermin adapte la LRA pour les extensions de base de type CRT (dans [11]
le MRS est utilisé), et les pré-calculs qui y sont associés. On y trouve aussi la première
implantation de la LRA sur FPGA (menant à un surcoût de 15 % en surface et 6 % en
temps). Enfin, l’article [94], de Perin et al., propose une implantation du tirage aléatoire
des bases avant exponentiation LRA et une implantation d’une autre contre mesure, la
permutation des éléments internes à chacune des bases Ba et Bb. Ces contre-mesures ont
été ensuite attaquées par rayonnement électromagnétique afin d’évaluer leur sécurité pour
ce type de canal caché. D’après leurs résultats, ces contre-mesures sont très peu coûteuses
et améliorent significativement la résistance à certaines attaques sur le rayonnement électromagnétique.1.3.
LA REPRÉSENTATION MODULAIRE DES NOMBRES (RNS) 65
CLB
BRAM
plot E/S
DCM
bloc DSP
Figure 1.10 – Architecture générique d’un FPGA.
Enfin, des propositions utilisant un modulo supplémentaire ou le Cox ont été proposées
pour protéger les implantations RNS contre certaines attaques de type injection de faute.
Ciet et al. [29] proposent l’utilisation d’un modulo supplémentaire pour vérifier si, à la fin
de l’exponentiation, le résultat n’est pas plus grand que ce qui est attendu (par exemple
inférieur à 3P). Guillermin [53] propose lui de détecter les fautes pour toutes les multiplications
modulaires en transformant le Cox. La contribution de Bajard et al. [9] propose
aussi une technique de détection de fautes pour chaque réduction modulaire, mais ne force
pas l’utilisation d’une architecture Cox-Rower. De plus, un modèle de fautes plus fin est
utilisé suivant le moment où la faute se produit.
Les contributions de cette thèse portant surtout sur l’amélioration de l’efficacité des
calculs en RNS, ces questions ne seront pas plus approfondies. On notera toutefois que ces
contre-mesures ne sont qu’un arsenal de protections supplémentaires, en plus des protections
au niveau de la multiplication scalaire comme celles de Coron [33] (randomisation
du point de base en coordonnées projectives, masquage du point de base ou masquage
de la clé) ou des protections matérielles comme des logiques avec moins de variation de
consommation de courant [76, 122].
À propos des circuits FPGA
Les implantations réalisées dans cette thèse ont été effectuées sur FPGA (pour field
programmable gate array), comme bon nombre d’implantations cryptographiques de la
littérature, notamment en RNS comme le montre la table 1.6. Dans cette dernière section
consacrée aux implantations, nous rappelons ici quelques informations sur les FPGA.
Les FPGA sont un type de circuit intégré complètement programmable après leur fabrication
(ils ont une architecture dite configurable et souvent reconfigurable un grand66 CHAPITRE 1. ÉTAT DE L’ART
nombre de fois). Ces technologies sont très avancées (finesse de gravure de 28 nm pour les
Virtex 7 et Stratix V, introduits en 2010), et sont beaucoup plus accessibles que les ASIC
(application-specific integrated circuit) qui demandent un énorme investissement dans la
conception et la fabrication. Les délais de fabrication chez le fondeur pouvant être importants
(plusieurs mois), la conception et le test sur FPGA sont beaucoup plus rapides
à effectuer, et nécessitent beaucoup moins de personnel. Ces circuits sont fabriqués en
grand volume et coûtent de quelques euros à plusieurs milliers d’euros. Ces prix font que
les FPGA sont plus rentables que les ASIC pour les petites séries, les circuits ASIC ne
deviennent rentables que pour de très grands volumes. Les FPGA sont aussi utilisés pour
faire du prototypage.
Les FPGA offrent donc une possibilité de mise sur le marché rapide, mais, en contrepartie,
consomment plus d’énergie que les ASIC, pour des performances moins élevées. Ceci est
dû aux mécanismes permettant la configuration du FPGA. Enfin, ces produits fournissent
les très bonnes performances du matériel avec les avantages d’une configuration logicielle,
on les retrouve donc dans de nombreuses applications (calcul hautes performances, réseaux
sans fil, imagerie médicale, dispositifs de sécurité, etc). Une bonne introduction aux FPGA
peut être trouvée dans [111].
Un FPGA peut être vu comme un tableau de portes logiques (d’où son nom). Une
mémoire va être alors directement programmée par l’utilisateur, qui va définir les fonctionnalités
des différents blocs ainsi que leurs interconnexions. La figure 1.10 présente l’architecture
générique d’un FPGA. On y voit une large matrice composée de blocs logiques
configurables (CLB pour configurable logic bloc), de blocs d’entrées/sorties et de blocs de
génération d’horloge programmable (DCM pour digital clock manager ). Prenons l’exemple
des FPGA Xilinx Virtex 5, sur lesquels les implantations de cette thèse ont été faites. Sur
Virtex 5, un CLB est composé de deux slices, qui sont les blocs de base des FPGA Xilinx.
Pour cette famille de FPGA, chaque slice est composé de 4 LUT à 6 entrées (ou table
de correspondance, look-up table en anglais) et de 4 bascules. Très souvent, d’autres types
de blocs spécifiques cassent l’homogénéité d’une telle architecture pour gagner en performance
ou en consommation d’énergie. Par exemple, on trouve fréquemment des BRAM,
blocs de mémoire RAM ou encore des blocs arithmétiques optimisés (généralement optimisés
pour les calculs de traitement du signal, appelés blocs DSP). Chez Xilinx par exemple,
les blocs DSP sur Virtex 5 contiennent un multiplieur-accumulateur, permettant d’effectuer
des multiplications 18 × 25 bits et des les accumuler sur 48 bits, ou d’effectuer un simple
multiplication ou addition (voir figure 1.11, issue de [2], page 14). Un exemple provenant
du concurrent Altera est lui présenté dans la figure 1.12 issue de [1] (chapitre 7, page 5).
Ce bloc là, présent dans les Stratix 3, contient 4 multiplieurs 18 × 18 bits sur chacune de
ses moitiés, et toujours des fonctions d’additions et d’accumulations. Les Rowers vont en
fait combiner ces blocs dans l’unité arithmétique qu’ils intègrent.
Par contre, la possibilité de pouvoir configurer et reconfigurer tous ces blocs a un
coût. Tous les composants d’interconnexion (ces nœuds ne sont pas représentés sur la fi-
gure 1.10) sont ajoutés par rapport à un circuit non reconfigurable. Ceux-ci impliquent une
perte de performances (en énergie et fréquence d’horloge) ainsi qu’une perte de surface.
D’après [111], la surface totale occupée pour ce routage et la mémoire de configuration
représente 90 % de la surface du FPGA. De plus, les fréquences de fonctionnement des
FPGA ne dépassent pas quelques centaines de MHz, contre les GHz des microprocesseurs.
Par contre, les FPGA peuvent contrebalancer cette différence de fréquence et être plus1.3. LA REPRÉSENTATION MODULAIRE DES NOMBRES (RNS) 67
14 www.xilinx.com Virtex-5 FPGA XtremeDSP Design Considerations
UG193 (v3.5) January 26, 2012
Chapter 1: DSP48E Description and Specifics R
Architectural Highlights
The Virtex-5 FPGA DSP48E slice includes all Virtex-4 FPGA DSP48 features plus a variety
of new features. Among the new features are a wider 25 x 18 multiplier and an
add/subtract function that has been extended to function as a logic unit. This logic unit can
perform a host of bitwise logical operations when the multiplier is not used. The DSP48E
slice includes a pattern detector and a pattern bar detector that can be used for convergent
rounding, overflow/underflow detection for saturation arithmetic, and auto-resetting
counters/accumulators. The Single Instruction Multiple Data (SIMD) mode of the
adder/subtracter/logic unit is also new to the DSP48E slice; this mode is available when
the multiplier is not used. The Virtex-5 DSP48E slice also has new cascade paths. The new
features are highlighted in Figure 1-2.
Figure 1-1: Virtex-5 FPGA DSP48E Slice
X
17-Bit Shift
17-Bit Shift
0
Y
Z
1
0
0
48
48
18
4
3
48
25 30
BCOUT*
BCIN* ACIN*
OPMODE
PCIN*
MULTSIGNIN*
PCOUT*
CARRYCASCOUT*
MULTSIGNOUT*
CREG/C Bypass/Mask
CARRYCASCIN*
CARRYIN
CARRYINSEL
ACOUT* A:B
ALUMODE
B
B
A
C
B
M
P
P
P
C
25 X 18
A A
PATTERNDETECT
PATTERNBDETECT
CARRYOUT
UG193_c1_01_032806
4
7
48
48
30
18
30
18
P
P
*These signals are dedicated routing paths internal to the DSP48E column. They are not accessible via fabric routing resources.
Figure 1.11 – Schéma de bloc DSP Virtex 5 issu de [2].
rapides pour de nombreuses applications grâce au fait qu’ils permettent une implantation
spécifique à l’application, souvent parallèle, et à grain fin (architecture au bit près). Les
FPGA sont souvent présentés comme une solution intermédiaire entre une solution purement
logicielle, peu chère en développement mais plus faible en performances, et une
solution de type ASIC, très chère en développement mais très performante.
La programmation d’un FPGA se fait par un grand nombre de configurations de mé-
moires pour effectuer la fonction souhaitée. Cette configuration va permettre de programmer
les LUT, les blocs arithmétiques (DSP), l’initialisation des mémoires et les connexions
qui relient tous ces composants. Le concepteur va en fait utiliser des outils de CAO qui
permettront de transformer une implantation en langage de description matérielle (HDL)
en un flot binaire appelé bitsream qui sera chargé dans le FPGA pour le programmer. Dans
cette thèse, les travaux d’implantation ont été effectués en langage VHDL. Ce langage permet
de décrire au niveau RTL (register transfer level) l’architecture en cours de conception.
Autrement dit, on programme en utilisant des fonctions combinatoires de base (fonctions
arithmétiques, logiques, multiplexeur, etc), des fonctions synchrones (la mémoire,
les registres, les bascules) et en décrivant les signaux qui les relient. Ce code est ensuite
synthétisé par un outil tel que l’outil ISE de Xilinx ou Quartus d’Altera. Il sera analysé
par l’outil qui extraira les blocs arithmétiques pour utiliser les ressources adéquates (avec
une utilisation, ou non des blocs DSP par exemple), puis simplifiera les équations logiques
suivant les options d’optimisation activées (optimisation temps ou surface). Cette analyse
effectuée, l’outil passera à une étape de transformation technologique afin de faire correspondre
les blocs à des instances matérielles existantes sur le FPGA, en essayant de tenir68 CHAPITRE 1. ÉTAT DE L’ART
Chapter 5: DSP Blocks in Stratix III Devices 5–7
Simplified DSP Operation
© March 2010 Altera Corporation Stratix III Device Handbook, Volume 1
Figure 5–5. Stratix III Full DSP Block Summary Input Register Bank Pipeline Register Bank
Adder/Accumulator
Output Multiplexer Output Multiplexer
Round/Saturate
Output Register Bank
+
+
From Previous
Half-Block DSP
To Next Half-Block DSP
44
44
Input
Data
144
+
Input Register Bank
Pipeline Register Bank
Adder/Accumulator
Round/Saturate
Output Register Bank
+
+ Input
Data
144
+
Top Half-DSP Block
Bottom Half-DSP Block
Result
Result
Figure 1.12 – Schéma de bloc DSP Stratix III issue de [1].
compte au mieux des contraintes imposées. Enfin le placement et le routage vont placer ces
unités sur les blocs du FPGA et les relier en utilisant les différentes ressources de routage.
Afin de simuler le comportement du code VHDL implanté, du code VHDL spécifique peut
être utilisé (du code non synthétisable) pour écrire un banc d’essais. Le comportement est
alors simulé par des logiciels tels que ModelSim ou Isim.Chapitre 2
Inversion modulaire rapide en RNS
Dans certaines implantations matérielles cryptographiques utilisant le RNS, comme
ECC [45, 52, 104] ou encore les couplages [27, 127] une ou des inversions modulaires sont
nécessaires. Par exemple, dans le cas des courbes elliptiques, nous avons besoin d’au moins
une inversion finale afin de normaliser en affine les coordonnées du point obtenu lors de
la multiplication scalaire. Les unités de calcul modulaire sur de grands nombres étant
implantées en RNS à des fins de performances, on les utilise aussi pour faire cette ou ces
inversions. Cependant cette opération reste très coûteuse en RNS, même devant le coût
d’une multiplication scalaire. En effet, nous allons voir que nous pouvons estimer que dans
le cas du RNS, l’inversion coûte entre 10 et 20% du coût de la multiplication scalaire
complète. Dans le cas des couplages, il est dit par exemple dans [27] « the remaining
inversion in Fp is very expensive » à propos de l’inversion RNS. Dans ce chapitre sont
présentés les résultats publiés dans [19], ainsi qu’une extension en cours de soumission à
un journal. Un nouvel algorithme d’inversion RNS est présenté, permettant de réduire très
significativement le nombre d’opérations élémentaires, aussi bien que le temps d’exécution
sur nos implantations FPGA en section 2.2. Ensuite, une variante de cet algorithme menant
à une réduction de 30 % de EMM (multiplication modulaire élémentaire de w bits) et de
20 % de EMA (addition modulaire élémentaire) est présentée en section 2.3. Les sections
suivantes proposent une comparaison avec l’état de l’art en section 2.4 ainsi que les détails
d’implantations et les résultats obtenus en section 2.5.
2.1 Inversion modulaire RNS dans l’état de l’art
Dans quasiment toutes les implantations RNS de l’état de l’art (en tout cas en maté-
riel), l’algorithme utilisé pour calculer l’inversion modulaire est une adaptation en RNS du
calcul de l’exponentiation utilisant le petit théorème de Fermat. L’algorithme 16 présente
une façon de faire cette inversion, que nous avons ici modifiée en une version bit de poids
faible en premier (LSBF pour least significant bit first) de l’exponentiation RNS de l’état
de l’art [48]. On rappelle que le but de l’algorithme est de calculer AP −2 mod P ce qui est
égal à A−1 mod P d’après le FLT. L’algorithme met en œuvre les optimisations présentées
dans la section 1.3.3 provenant de [48], on se place dans la représentation RNS modifiée
sur la seconde base (ligne 1 de l’algorithme 16) puis on reconvertit à la fin en multipliant
par
−→
Tb (ligne 9). Cet algorithme, grâce à sa représentation RNS modifiée, permet d’être
plus rapide en accélérant MM, comme expliqué dans la section 1.3.3. Mettre cet algorithme
en version LSBF permet d’avoir la multiplication (ligne 5) et le carré (ligne 6) exécutés
en parallèle. Cet algorithme sera utilisé par la suite afin de se comparer à l’état de l’art.
6970 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
Un défaut de cet algorithme d’inversion est qu’il y a beaucoup de dépendances entre les
itérations de la boucle (comme dans tout algorithme d’exponentiation), ce qui limite fortement
le remplissage du pipeline. Dans la suite, cette inversion modulaire RNS sera notée
FLT-MI. Les auteurs de [127], qui ont obtenu parmi les meilleures performances pour une
implantation FPGA de couplages et qui ont implanté FLT-MI (dans un algorithme très
proche de l’algorithme 16), appuient ce constat en écrivant :
« The problem with this exponentiation in Fp is that the computation cannot be pipelined
[. . . ] causes low pipeline occupation rate and a huge waste. »
Une exponentiation comme l’algorithme 16 représente environ 10 à 20% du coût d’une
multiplication scalaire complète sur courbe elliptique (en terme d’effort de calcul). En effet,
on peut approcher le coût global en ne considérant que les réductions modulaires, tant le
déséquilibre est important en RNS entre cette opération et les autres opérations de base.
Ainsi, FLT-MI coûte environ log2 P × 1.5 réductions modulaires. Dans la contribution [52],
des formules adaptées pour le RNS sont utilisées avec moins de réductions modulaires, et
avec l’algorithme de multiplication scalaire « échelle de Montgomery » (voir algorithme 22
protégé contre la SPA dans la section 3.2.1 par exemple). Pour chaque bit de clé, une addition
et un doublement de points sont effectués, ce qui coûte 13 réductions modulaires. On
a donc l’inversion qui coûte log2 P × 1.5 contre log2 P × 13 pour la multiplication scalaire,
soit, ramené au système global « multiplication scalaire suivie d’une inversion », l’inversion
coûte plus de 10% juste en terme d’opérations. Ce ratio peut même être plus élevé suivant
le choix des formules ou de l’algorithme de multiplication scalaire. De plus, l’auteur de [52]
indique que la multiplication scalaire ne contient pas ou quasiment pas de cycle d’attente
(chaque ADD et DBL contient certaines opérations indépendantes, et l’utilisation d’une version
LSBF de l’échelle de Montgomery fait que l’on peut réaliser en parallèle une ADD et
un DBL). Comme déjà indiqué, l’inversion FLT-MI contient beaucoup de cycles d’attente,
on peut donc estimer que l’inversion prend bien plus de 10% du temps total d’exécution
de la séquence multiplication scalaire/inversion. Malgré tout, cet algorithme a l’avantage
d’être très régulier et de n’utiliser que des ressources matérielles déjà présentes et déjà
optimisées pour les autres calculs. De plus, le fait d’effectuer l’opération en RNS permet de
ne pas avoir d’un côté tout le matériel dédié au calcul RNS inactif pendant l’inversion, et
de l’autre de gros opérateurs arithmétiques de plusieurs centaines de bits en représentation
standard juste pour le temps de l’inversion.
En dehors de l’algorithme FLT-MI, peu d’alternatives s’offrent à ceux qui désirent implanter
l’inversion modulaire en RNS. Les autres solutions dont nous disposons dans le cas
standard, c’est à dire l’algorithme d’Euclide étendu et sa version binaire, ont souvent été
mises de côté du fait de la difficulté des opérations telles que la division ou la comparaison,
comme en témoigne par exemple N. Guillermin dans sa thèse [54], où il écrit :
« En effet, la comparaison étant chère en RNS, l’inversion ne peut pas être réalisée par le
classique algorithme d’Euclide étendu, mais par une exponentiation onéreuse par p − 2 ».
Une alternative a été proposée dans [13], se basant sur l’algorithme d’Euclide. Les
auteurs proposent une façon d’obtenir une approximation U3/V3 du quotient ligne 5 de
l’algorithme 10, à partir d’approximations de U3/M et V3/M (M est le produit des moduli
de la base). Malheureusement, cet algorithme n’a, à notre connaissance, jamais été
implanté et sa complexité jamais évaluée. En effet, la fonction de base de l’algorithme
permettant l’approximation de U3/M, appelée ApproxSup, n’a pas été évaluée. Cependant,
elle est composée d’une accumulation de produits, qui est donc peu parallélisable,2.1. INVERSION MODULAIRE RNS DANS L’ÉTAT DE L’ART 71
Algorithme 16: Inversion modulaire FLT-MI basée sur le petit théorème de Fermat
(version LSBF de [48]).
Entrées :
−−→
Aa|b
, P − 2 = (1 p`−2 . . . p0)2
Pré-calculs : P,
−−−−−−→
(|Ma|P )a ,
−−−−−−−−−→
(|Ma|P T
−1
b
)b ,
−−−−−−→
(|M2
a
|P )a ,
−−−−−−−−−→
(|M2
a
|P T
−1
b
)b ,
−→
Tb ,
−−−−→
(Tb)
−1
Sortie :
−−→
Sa|b =
−−−−−−−→
(|AP −2
|P ) a|b
1
−−→
Ra|b ← (
−→
Aa ,
−−−−−−−−→
(Ab · T
−1
b
)b )
2
−−→
Ra|b ← MM
−→
Ra ,
−→
Rb ,
−−−−−−→
(|M2
a
|P )a ,
−−−−−−−−−→
(|M2
a
|P T
−1
b
)b
3
−−→
Sa|b ← (
−−−−−−→
(|Ma|P )a ,
−−−−−−−−→
(|Ma|P Tb)b )
4 pour i de 0 à ` − 2 faire
5 si pi = 1 alors
−−→
Sa|b ← MM(
−→
Sa ,
−→
Sb ,
−→
Ra ,
−→
Rb )
6
−−→
Ra|b ← MM(
−→
Ra ,
−→
Rb ,
−→
Ra ,
−→
Rb )
7
−−→
Sa|b ← MM(
−→
Sa ,
−→
Sb ,
−→
Ra ,
−→
Rb )
8
−−→
Sa|b ← MM(
−→
Sa ,
−→
Sb ,
−→
1a ,
−−−−→
(Tb)
−1
)
9
−→
Sb ←
−−−−→
Sb · Tb
10 retourner
−−→
Sa|b
notamment peu adaptée à une architecture complètement parallélisée comme souvent le
cas dans les architectures RNS pour la cryptographie. De plus, cette accumulation est faite
sur des mots de 2w bits, c’est à dire la taille de deux moduli (ce qui implique une unité
spécialisée, ou alors créer des paires de modulo capables d’effectuer des opérations sur 2w
bits). Une autre fonction, appelée NormalSup, fait ensuite plusieurs appels à ApproxSup.
Ce nombre d’appels n’est pas clairement identifié dans la contribution (l’appel s’effectue
dans une boucle while). Enfin, l’impact de telles approximations sur le nombre de tours de
boucle principale de l’algorithme d’Euclide étendu n’a pas été évalué, les auteurs expliquant
en conclusion qu’une évaluation de l’algorithme est nécessaire. Pour conclure, ces raisons
laissent penser qu’une implantation de cet algorithme serait coûteuse, notamment en terme
de temps d’exécution sur une architecture parallèle et en terme de matériel supplémentaire.
Enfin, l’article [72] propose une implantation sur microprocesseur d’ECC en RNS. Dans
cette contribution est évoquée une adaptation RNS de la variante binaire d’Euclide (algorithme
11). Aucun détail n’est fourni sur cette adaptation logicielle, hormis le fait qu’elle
résulte en une inversion presque 2 fois plus rapide (réduction du temps d’exécution de
48%).
Pour conclure sur cet état de l’art, l’algorithme de Fermat propose en matériel un
algorithme facile à implanter, réutilisant directement les opérateurs présents, à la différence
d’une implantation matérielle d’un algorithme d’Euclide étendu ou sa variante binaire (par
exemple pour les comparaisons). De plus, ces algorithmes sont en O(log2 P) (c.-à-d. O(`))
itérations de la boucle principale, la différence se situe surtout dans le coût d’une itération
de cette boucle. Cette différence ne semble pas forcément en défaveur du FLT-MI à cause
du coût des comparaisons ou divisions en RNS. Pour toutes ces raisons, la seule vraie
proposition matérielle de l’état de l’art est l’implantation du FLT-MI.72 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
2.2 Inversion modulaire plus-minus en RNS
Notre algorithme d’inversion modulaire en RNS est basé sur l’algorithme d’Euclide
étendu en version binaire, avec l’utilisation de l’astuce plus-minus [22] (présentée section
1.2.3). Cette astuce va nous permettre d’éviter les comparaisons sur les valeurs RNS.
L’algorithme obtenu est significativement plus rapide que les inversions basées sur le FLT.
De plus, notre algorithme, comme les solutions basées sur le FLT, va principalement réutiliser
les ressources matérielles qui sont requises pour les calculs sur les corps finis, comme
l’addition, la soustraction ou la multiplication, menant à un très faible surcoût en surface,
et donc à une haute efficacité architecturale ; il n’y a pas de grosses unités dédiées inactives
pour les autres calculs. Nous allons voir que notre proposition ne nécessite qu’une seule
base RNS, au lieu de deux dans l’état de l’art. Pour simplifier les notations, on considérera
parfois de façon implicite que les valeurs sont dans la base Ba. L’algorithme 17 a été publié
dans [19] (conférence CHES 2013).
Le but de l’algorithme d’Euclide étendu binaire est d’utiliser le fait que l’on soit capable
d’effectuer des divisions par 2 et des modulo 2 très efficacement (vu que l’on va utiliser le
plus-minus, il faut savoir faire de même pour 4). Si c’est évident en représentation binaire
de position, ceci l’est beaucoup moins dans la représentation RNS. En RNS, on peut se
placer dans 3 stratégies.
Première stratégie, on choisit un élément mγ premier avec la base Ba tel qu’il soit un
multiple de 4 (par exemple mγ = 2w avec w > 1). Ainsi, la réduction modulo 4 devient très
simple : il suffit de tester les 2 derniers bits du reste de la valeur testée en mγ. Cependant,
dans ce cas, on ne peut pas diviser par 2 ou 4 modulo mγ. Pour récupérer le résultat d’une
division par 4, on réalise d’abord la division dans la base Ba, qui est choisie impaire, en
effectuant une multiplication par 4
−1 mod Ma. Ensuite, on envoie le résultat dans mγ grâce
à une extension de base à partir de Ba. On doit donc calculer la formule du CRT pour mγ :
|X|mγ =
Xn
i=1
ξa,i ·
Ma
ma,i
mγ
− |q · Ma|mγ
mγ
.
Cette accumulation là n’est pas parallèle, elle prendra donc n cycles sur un Rower (bloc
d’arithmétique modulaire de w bits, voir la figure 1.9 section 1.3.5). On peut paralléliser
une partie de ces cycles avec les calculs sur la base Ba si un Rower dédié au modulo mγ est
rajouté (engendrant un Rower qui ne sera utilisé que pour l’inversion). L’autre possibilité
est de réserver un Rower d’un autre modulo lorsqu’on en a besoin, ce qui veut dire que toute
l’architecture attend ces n cycles dans le cas d’une architecture complètement parallèle.
Par soucis de simplicité du contrôle, on préfère garder les calculs sur les différents canaux
de la base Ba synchronisés.
La deuxième stratégie est de choisir directement un élément de Ba, par exemple ma,1,
égal à 2
w. L’idée est que lorsque l’on calcule
−→
U /2 dans Ba, on va faire notre multiplication
par l’inverse de 2 dans tous les moduli de Ba sauf ma,1, dans lequel on va juste faire un
décalage. Ce décalage est une division par 2 du reste de U modulo 2, mais n’est pas une
division par 2 modulo 2
w. Pour bien expliquer le phénomène, posons U un entier pair et2.2. INVERSION MODULAIRE PLUS-MINUS EN RNS 73
Algorithme 17: Inversion modulaire plus-minus proposée PM-MI (version binaire).
Entrées :
−→
A , P > 2 avec pgcd(A, P) = 1
Pré-calculs :
−→
C ,
−−→
C/2 ,
−−−−−→
(3 C/4) ,
−−−−−−−→
(P T −1
a
)/4 ,
−−−−−−−−→
(−P T −1
a
)/4 ,
−−−−−−−→
(P T −1
a
)/2 ,
−→
Ta ,
−−→
T
−1
a
, |P|4
Sortie :
−→
S =
−−−−−→
|A−1
|P , 0 6 S < 2 P
1 lu ← 0, Uc1 ←
−→
C /* Uc1 = b0 */
2 Uc3 ←
−→
P ×
−−→
T
−1
a +
−→
C /* Uc3 = Pb*/
3 bU1 ← 0, bU3 ← |P|4
4 lv ← 0, Vc1 ←
−−→
T
−1
a +
−→
C /* Vc1 = b1 */
5 Vc3 ←
−→
A ×
−−→
T
−1
a +
−→
C /* Vc3 = Ab */
6 bV1 ← 1, bV3 ← mod4(Vc3)
7 tant que Vc3 6= b1 and Uc3 6= b1 and Vc3 6= −c1 and Uc3 6= −c1 faire
8 tant que |bV3
|2 = 0 faire
9 si bV3 = 0 alors r ← 2 sinon r ← 1
10 Vc3 ← div2r \(Vc3, r, bV3
)
11 Vc1 ← div2r \(Vc1, r, bV1
)
12 bV3 ← mod4(Vc3), bV1 ← mod4(Vc1), lv ← lv + r
13 Vc∗
3 ← Vc3 , Vc∗
1 ← Vc1
14 si |bV3 + bU3
|4 = 0 alors
15 Vc3 ← div2r \(Vc3 + Uc3 −
−→
C , 2, 0),
16 Vc1 ← div2r \(Vc1 + Uc1 −
−→
C , 2, |bV1 + bU1
|4)
17 sinon
18 Vc3 ← div2r \(Vc3 − Uc3 +
−→
C , 2, 0),
19 Vc1 ← div2r \(Vc1 − Uc1 +
−→
C , 2, |bV1 − bU1
|4)
20 si lv > lu alors
21 Uc3 ← Vc∗
3
, bU3 ← bV3
22 Uc1 ← Vc∗
1
, bU1 ← bV1
23 swap(lu, lv)
24 bV3 ← mod4(Vc3), bV1 ← mod4(Vc1)
25 lv ← lv + 1
26 si Vc3 = b1 alors retourner (Vc1 −
−→
C )
−→
Ta +
−→
P
27 sinon si Uc3 = b1 alors retourner (Uc1 −
−→
C )
−→
Ta +
−→
P
28 sinon si Vc3 = −c1 alors retourner −(Vc1 −
−→
C )
−→
Ta +
−→
P
29 sinon retourner −(Uc1 −
−→
C )
−→
Ta +
−→
P74 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
posons Ku et ru tels que U = Kuma,1 + ru = Ku2
w + ru. Nous obtenons :
U
2
=
Ku
2
2
w +
ru
2
=
Ku
2
ma,1 +
ru
2
si Ku pair ,
U
2
= Ku 2
w−1 +
ru
2
= Ku
ma,1
2
+
ru
2
si Ku impair ,
(2.1)
si nous divisons U par 2. Si Ku est pair alors on a bien ru
2 = |
U
2
|ma,1
. Par contre, si
Ku est impair ru
2 = |
U
2
|ma,1/2
, il nous manque le bit de poids fort. Ce n’est pas forcé-
ment un problème car si U est représentable dans Ba (c’est à dire pas de dépassement
de la représentation en base Ba), alors U/2 est représentable dans cette nouvelle base
Ba = (ma,1/2, ma,2, . . . , ma,n). À chaque division par 2, le premier modulo de la base Ba
sera ainsi « divisé par 2 », jusqu’à ce que ma,1 = 1. Calculer Ku pour chaque division coû-
terait trop cher, c’est pourquoi il faut diviser par 2 la valeur ma,1 pour considérer tout le
temps le pire cas (impair) de l’équation 2.1. Lorsque ma,1 = 1, on doit faire une extension
de base à partir des moduli « fixes » de la base Ba, c’est à dire (ma,2, . . . , ma,n), vers 2
w,
ce qui permet de remettre ma,1 à sa valeur initiale. On peut remarquer qu’en réalité, si
on divise par 2 une certaine valeur U et par une autre V alors ces 2 valeurs ne seront
pas représentées tout à fait sur la même base : le premier élément de Ba sera ma,1/2 pour
l’un et ma,1 pour l’autre. Il faut donc associer un compteur à chaque donnée traitée dans
l’algorithme afin de savoir exactement dans quelle base elle est représentée. L’avantage de
cette deuxième solution par rapport à la première vient du fait qu’elle nécessite beaucoup
moins d’extensions de base vers le modulo valant 2
w. De plus, le modulo 2
w est directement
inclus dans la base Ba, et n’est pas un modulo supplémentaire. Par contre, cette
solution impose un contrôle complexe pour gérer le fait que ma,1 change suivant le nombre
de divisions par 2. De plus, dans un algorithme d’Euclide étendu binaire, il faut effectuer
des opérations du type (U + V )/2. Pour pouvoir faire la somme, il faut que U et V soient
représentés de la même façon (c’est à dire après le même nombre de divisions par 2). Si
ce n’est pas le cas, il faut que celui qui ait été le plus été divisé, disons U, soit étendu
pour être représenté dans la même base que V . Cette extension arrive alors avant qu’on
ait ma,1 = 1 pour la valeur U, elle est en quelque sorte « prématurée » car l’extension de
base aurait pu arriver plus tard s’il n’y avait pas eu le calcul de l’opération (U + V )/2.
Pour finir, la troisième stratégie est celle que nous avons retenue. Elle consiste à choisir
une base sans aucun modulo pair, ainsi les divisions (exactes) par 2 et 4 sont très faciles.
En contrepartie, il faut trouver un moyen d’obtenir efficacement nos valeurs modulo 2 et 4.
L’algorithme 17 présente la méthode proposée. Avant de définir précisément les différentes
fonctions et notations de l’algorithme, on peut remarquer tout de suite que l’on retrouve
la structure de l’algorithme d’Euclide étendu binaire, avec le test plus-minus modulo 4 en
ligne 14.
Tout d’abord, notre algorithme prend en entrée la valeur à inverser
−→
A , et retourne
l’inverse de cette valeur dans [0, 2P] (comme pour les valeurs de sortie des multiplications
de Montgomery). Il faut noter que notre inversion ne tient pas compte du fait que l’entrée
est en représentation de Montgomery ou non. Si c’est le cas, il suffit de multiplier notre
entrée par M−2
a modulo P avant d’appliquer notre algorithme, pour obtenir l’inverse dans
la représentation de Montgomery. Ensuite, l’algorithme utilise des valeurs dans une repré-
sentation Xb, que l’on peut voir comme une fonction affine appliquée à la représentation
RNS habituelle de
−→
X . Celle-ci sera définie dans les détails sur les fonctions mod4 et div2r \.2.2. INVERSION MODULAIRE PLUS-MINUS EN RNS 75
Avant le début de la boucle principale, on retrouve la même initialisation que pour
l’algorithme 11 dans sa version RNS, avec quelques petits rajouts. Les variables lu et lv
vont permettre de compter le nombre de fois que U3 et V3 respectivement ont été divisés
par 2. C’est ce qui permet aux méthodes utilisant l’astuce plus-minus de faire en sorte que
l’algorithme converge bien. Ensuite, les valeurs bU1
, bU3
, bV1
et bV3
stockent tout simplement
leur valeur en indice modulo 4.
La boucle principale se termine lorsque l’une des valeurs Uc3 ou Vc3 vaut 1 en valeur
absolue. Comme pour l’algorithme d’Euclide étendu binaire, on a toujours |U1A|P = U3 et
|V1A|P = V3, donc si par exemple Uc3 = −c1 alors −U1 est bien l’inverse de A modulo P.
Après la boucle principale, suivant la raison de la terminaison de la boucle, on convertit
la valeur Uc3 ou Uc3 en représentation RNS classique. Dans la suite, nous écrirons valeurs
globales pour évoquer les valeurs Vc1, Vc1, Uc3 et Vc3.
Pour détailler la boucle principale (lignes 7–25), nous allons maintenant définir nos
fonctions de base mod4 et div2r \.
Comme expliqué précédemment, dans le cas d’une base avec seulement des éléments
impairs, la réduction modulo 4 n’est pas facile, à la différence d’une représentation binaire
de position. Pour ce faire, on va repartir du théorème chinois des restes X =
Pn
i=1 ξa,i
Ma
ma,i
−
qMa toujours avec ξa,i =
xa,i
Ma
ma,i −1
ma,i
et q =
Pn
i=1 ξa,i
Ma
ma,i
Ma
. Si nous prenons modulo
4 la formule du CRT, on obtient :
|X|4 =
Xn
i=1
|ξa,i|4 ·
Ma
ma,i
4
− |q · Ma|4
4
. (2.2)
Pour faciliter ce calcul, on va choisir une base Ba telle que |ma,i|4 = 1 pour tous les
moduli. En fait, en dehors de l’unique modulo pair s’il y en a un, les éléments de la base
valent 1 ou 3 modulo 4. Dans les implantations cryptographiques de l’état de l’art, deux
bases sont toujours choisies pour pouvoir effectuer les réductions modulaires. On a donc
déjà en moyenne n moduli tels que |ma,i|4 = 1, cette contrainte n’en est donc pas vraiment
une, ou alors très faible. L’équation 2.2 devient :
|X|4 =
Xn
i=1
|ξa,i|4 − |q|4
4
. (2.3)
La fonction mod4 va calculer l’équation 2.3, en évaluant les deux termes |
Pn
i=1 ξa,i|
4
et
|q|4 puis en les soustrayant modulo 4. Pour calculer le premier terme, les n EMM ξa,i =
xa,i
Ma
ma,i −1
ma,i
doivent être effectuées. En réalité, elles peuvent être effectuées une seule
fois, au début de l’algorithme. Calculer ces n produits pour une valeur
−→
X est en fait le
calcul du produit RNS
−→
X ×
−−→
T
−1
a
. Il se trouve qu’une fois cette multiplication faite pour
toutes les valeurs globales, toutes les autres opérations faites sont des additions de valeurs
globales (ou de pré-calculs) et des divisions par 2 et 4. Le facteur
−−→
T
−1
a
est donc bien
conservé tout au long de l’algorithme (on peut remarquer que c’est la première partie de la
représentation Xb). Finalement, le calcul de ce premier terme se résume à une somme des
n composantes de Xb modulo 4.
Le calcul du second terme q se base, pour des raisons d’efficacité matérielle, sur l’approximation
proposée par Kawamura et al. dans [64] et présentée en section 1.3.2. On76 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
calcule donc :
q
0 =
$
σ0 +
Xn
i=1
trunc(ξa,i)
2
w
%
, (2.4)
toujours avec trunc qui approche son opérande par ses t bits de poids forts (les autres
étant mis à 0). Comme expliqué précédemment, t dépend des bases et de P, mais dans
nos implantations FPGA et tailles de corps, t sera fixé à 6. Nous n’allons pas détailler au
cas par cas pour chacune des bases la raison qui fait que c’est une valeur suffisante, mais
donner un argumentaire qui fonctionne pour toutes nos bases. Pour appliquer le théorème 5
présenté à la section 1.3.2, on doit avoir εmax < σ0 < 1. Généralement dans l’état de l’art,
on a σ0 = 0.5 (voir [52, 64]). On rappelle que εmax est l’erreur maximale que peut causer
l’utilisation de l’approximation de Kawamura et al. [64], définie par εmax = n(τ + δ).
On rappelle aussi que τ représente l’erreur due à l’utilisation de la fonction trunc et δ
représente l’erreur faite en approximant les moduli par 2
w. Dans nos implantations, (τ +δ)
est proche de 1
2
t car les moduli ont été choisis très proches de 2
w. Ainsi, pour t = 6 on a
(τ +δ) ≈
1
64 . Le plus grand n implanté est n = 22 (voir la table 5.5), donc εmax ≈
22
64 < 0.5,
donc on peut appliquer le théorème 5 de Kawamura et al. même pour notre plus grand n.
On peut maintenant remarquer que les valeurs ξa,i ont déjà été calculées grâce à la représentation
Xb. De plus, les auteurs de [64] ont prouvé que q
0 = q lorsque 0 6 n · errmax 6
σ0 < 1 et 0 6 X 6 (1 − σ0)Ma avec errmax désignant l’erreur d’approximation maximale.
Autrement dit, il faut que le produit Ma des éléments de la base soit suffisamment grand
devant X, l’élément pour lequel on calcule le CRT, pour « contenir » l’erreur d’approximation.
Il faut donc d’abord borner les valeurs qui sont traitées (classiquement par P où un
petit multiple de P pour les besoins de la réduction modulaire ou les calculs sur les courbes),
puis définir une base pour que le théorème soit satisfait. Dans le résultat [52] de l’état de
l’art de l’implantation ECC en RNS, les paramètres choisis sont Ma > 45P, 0 6 X < 3P et
σ0 = 0.5. Nous nous placerons dans ce cas pour nos implantations. Pour conclure, le calcul
de q coûte n additions de t bits pour évaluer l’équation 2.4. Nous avons alors au total n additions
de t bits et n additions de mots de 2 bits pour évaluer l’intégralité de l’équation 2.3.
À la différence de l’algorithme d’Euclide étendu binaire, les valeurs globales peuvent
être négatives à cause des soustractions lignes 18 et 19 de l’algorithme 12, dues à l’astuce
plus-minus. Si S = V3 − U3 est négatif par exemple, alors puisque le CRT est pris modulo
Ma, la représentation de S en RNS sera en réalité
−−−−−→
Ma − S . Si par exemple S = −1
alors sa représentation est
−−−−−→
Ma − 1 , on obtient donc un vecteur représentant un nombre
arbitrairement proche de Ma. Or il nous faut garantir X 6 (1 − σ0)Ma pour garantir le
résultat de l’approximation de Kawamura et al. équation 2.4. Nous avons donc introduit
une constante additive dans la représentation Xb afin de résoudre ce problème. Toutes les
valeurs globales de notre algorithme PM-MI sont assurées d’être supérieures à −P. L’idée
est donc de choisir une constante C0 telle que |C0|4 = 0 et C0 > P, ainsi on a X +C0 > 0 et
|X +C0| = |X|4. On peut par exemple choisir C0 = 4P, ainsi nos conditions sont réunies et
le résultat est toujours juste modulo P. Plus exactement, si l’algorithme retourne X + C0,
on a le bon résultat modulo P, mais dans l’intervalle [3P, 5P] au lieu de [0, 2P] (nous avons
quand même effectué la correction à la fin de notre algorithme 12).
Nous avons maintenant toutes les briques pour construire notre représentation :
Xb = (
−→
X +
−→
C0 ) ×
−−→
T
−1
a =
−→
X ×
−−→
T
−1
a +
−→
C ,2.2. INVERSION MODULAIRE PLUS-MINUS EN RNS 77
où
−→
C =
−→
C0 ×
−−→
T
−1
a
. Cette deuxième version de l’équation sera utilisée pour simplifier certaines
explications futures. La représentation Xb permet finalement, d’une part, d’économiser
les multiplications par
−−→
T
−1
a
tout au long de l’algorithme et, d’autre part, de toujours
être dans l’intervalle adéquat pour effectuer l’approximation de q et être efficace en matériel.
Maintenant que nous avons réglé la question du calcul de mod4, il nous faut être capable
de faire les divisions par 2 ou par 4 modulo P, tout en conservant la représentation Xb tout
au long de l’algorithme. La définition de div2r \ dépend de la valeur |P|4. Nous allons
considérer par exemple que |P|4 = 3. La fonction div2r \ a 3 entrées, Xb, r et bX. La donnée
à diviser est Xb, r permet de choisir entre une division par 2 ou par 4 et enfin bX est la
valeur modulo 4 de X. En fait, l’entrée r n’est utile que pour les applications de la fonction
à Vc1 ou Vc1 ± Uc1. En effet, pour V3 par exemple, on divise par 2 (resp. par 4) exclusivement
lorsqu’on est divisible par 2 (resp. 4), r pourrait donc être déduit directement de bV3
.
Cependant, les opérations sur V1, elles, dépendent aussi bien de r (et donc de bV3
) que de
bV1
. Supposons que r = 1, alors :
div2r \(X, b 1, bX) = Xb
2
+ |bx|2 ·
−−−−→
P T −1
a
2
+
−→
C
2
(2.5)
permet d’effectuer la division par 2 tout en conservant la représentation Xb. Si X est
impair, le deuxième terme de l’équation 2.5, c’est à dire
−−−−→
P T −1
a
2
, corrige le premier terme
pour obtenir (X + P)/2.
La division par 4 modulo P est un peu plus complexe mais reprend exactement le même
modèle. Maintenant suit la définition générale complète de div2r \ :
div2r \(X, r, b b X) = Xb
2r
+ f(|bX|2r) ·
−−−−→
P T −1
a
2r
+
−−−−−−−→
(2r − 1)C
2r
, (2.6)
où f permet de sélectionner ce qu’il faut rajouter comme multiple de
−−−−→
P T −1
a
2r
pour obtenir
le bon résultat modulo P. Si |bX|2r ∈ {0, 1, 2}, alors f(|bX|2r) = |bX|2r, si |bX|2r = 3
alors f(|bX|2r) = −1. Ainsi on a toujours X + f(|bX|2r) · P ≡ X mod P d’une part, et
|X + f(|bX|2r) · P|
2r = 0 d’autre part, ce qui nous permet de faire la division exacte par
2r. Si on a |P|4 = 1, il suffit d’échanger les valeurs de f(1) et f(3). On remarque qu’on
retrouve bien l’équation 2.5 si on pose r = 1. Pour vérifier que la représentation Xb est bien
conservée, on obtient en développant :
div2r \(X, r, b b X) = Xb
2r
+ f(|bX|2r) ·
−−−−→
P T −1
a
2r
+
−−−−−−−→
(2r − 1)C
2r
=
−−−−−−−−→
XT −1
a + C
2r
+ f(|bX|2r) ·
−−−−→
P T −1
a
2r
+
−−−−−−−→
(2r − 1)C
2r
=
−−−−−−−−−−−−−−−−→
(X + f(|bX|2r)P)T
−1
a
2r
+
−→
C
=
d
X
2r
P
.
Le coût de div2r \est d’une multiplication par canal et 2 additions, soient n EMM+2n EMA.
Puisque l’on additionne à notre entrée des constantes, on peut pré-calculer ces sommes là78 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
pour descendre à n EMM + n EMA (6 sommes à pré-calculer).
Pour finir, nous allons maintenant détailler la boucle principale (lignes 7–25) qui est
le cœur de notre algorithme. Tout d’abord, comme pour les autres algorithmes d’Euclide
étendus binaires, on effectue une boucle où on divise Vc3 tant qu’il est pair. Vu qu’on a la
valeur modulo 4 de Vc3, on peut directement diviser par 4 pour réduire le nombre de tours.
Pour chaque division par 2 ou 4, on reporte la même opération modulo P sur la valeur Vc1.
On calcule ensuite les nouvelles valeurs modulo 2 ou 4 de Vc1 et Vc3, puis on met à jour le
compteur du nombre de divisions par 2 qu’on a effectué sur Vc3, c’est à dire lv. Après cette
boucle, on stocke les valeurs de Vc3 et Vc1 en prévision d’un échange avec les valeurs Uc3 et Uc1.
Vient ensuite le test plus-minus, qui n’appelle pas la fonction mod4, il suffit de traiter avec
les valeurs bV3
et bU3 directement. On divise la somme ou la différence en conséquence, en
corrigeant les entrées pour qu’elles aient le bon format pour div2r \. Par exemple, lorsque
l’on calcule Vc3 + Vc1, le terme additif C est compté 2 fois : on soustrait donc le terme en
trop. Ces corrections peuvent aussi être incluses dans les pré-calculs, nécessitant 8 valeurs
supplémentaires. On compare finalement lv et lu pour équilibrer le nombre de divisions
entre les 2 opérandes. On rappelle que ce sont des petits nombres : lu, lv < log2 P.
Remarque. Le but de l’utilisation du plus-minus est initialement d’éviter les comparaisons
difficiles. On les évite en réalisant des modulo 4 efficacement. Il se trouve que
lorsqu’on possède une telle fonction, on pourrait penser qu’on est forcément capable de
comparer 2 nombres (et d’utiliser l’algorithme d’Euclide étendu binaire en RNS). Il est
vrai que si X < Y , alors le CRT effectué sur
−−−−→
X − Y retourne l’entier X −Y +Ma. Puisque
tous les moduli ma,i sont impairs, Ma est impair donc |X − Y + Ma|2 6= |X − Y |2. On
rappelle que |X − Y |2 peut être obtenu à partir de bX et bY . Inversement, si X > Y ,
|X − Y +Ma|2 = |X − Y |2, ce qui nous donne un test pour comparer X et Y . Le problème
est que notre fonction mod4 utilise une approximation (celle de [64]), qui ne garantit plus
un résultat juste quand on calcule |X − Y + Ma|2, on ne peut donc pas faire de comparaison
avec notre proposition en utilisant [64]. Si par contre on est capable d’évaluer de façon
exacte le modulo en utilisant une conversion vers la représentation MRS (en utilisant [120]),
alors on a plus besoin de l’astuce plus-minus, mais la fonction mod4 coûterait alors bien plus
cher que celle proposée car la conversion vers le MRS coûte n(n−1)
2
EMM, et est en plus dif-
ficilement parallélisable et donc non adaptée à l’architecture Cox-Rower (voir section 1.3.2).
Pour conclure cette section, on peut remarquer que tout l’algorithme s’effectue sur une
seule base au lieu de 2 pour l’algorithme FLT-MI. Ceci est dû au fait que l’on n’a pas besoin
d’extension de base. En fait, il y a quand même une évaluation du CRT, mais réduite
modulo 4, avec un coût très faible par rapport à une véritable extension. Effectuer ce petit
calcul dans le Cox revient à extraire l’information minimale pour faire l’algorithme, là où
une extension dans un modulo pair (comme les premières stratégies proposées) complique
les calculs sans accélérer l’algorithme. Dans la section 2.4 sera fournie une évaluation du
coût à partir de statistiques sur le nombre de tours de boucle.
2.3 Algorithme binaire-ternaire plus-minus en RNS
L’algorithme binaire d’Euclide est basé sur la facilité des divisions par 2 et des réductions
modulo 2 dans la représentation binaire. Bien que nous ayons adapté cet algorithme
pour le RNS de façon efficace dans la section précédente, cette section pose la question
de la possibilité d’étendre un tel algorithme vers d’autres tests de divisibilité. Un nou-2.3. ALGORITHME BINAIRE-TERNAIRE PLUS-MINUS EN RNS 79
vel algorithme d’inversion modulaire, appelé algorithme binaire-ternaire plus-minus RNS
(BTPM-MI), et qui utilise des réductions modulo 3, 6 et 12 en plus de celles par 2 et 4 de
la section précédente, est proposé. L’algorithme complet est présenté algorithme 18. Il n’a
pas encore été implanté sur FPGA, ce qui est une première perspective de travail.
Avant de présenter le nouvel algorithme, nous allons nous demander ce que sont les
divisons par 2 et 4 en RNS. Ce ne sont pas simplement des décalages à la manière de la
représentation binaire standard. Elles peuvent être effectuées de 2 façons différentes. La
première solution consiste à multiplier par 2
−1 mod ma,i et 4
−1 mod ma,i pour chacun des
ma,i, afin d’utiliser une architecture similaire à celle de l’état de l’art [52]. En effet, cette
architecture peut très bien effectuer des multiplications par des constantes, comme requis
pour les calculs dans ECC, mais ne possède rien de particulier pour des divisions par 2.
Dans une telle architecture, diviser par 2, 6, 12, 2 ou 4 est donc aussi dur : il faut juste
multiplier par l’inverse du diviseur dans chacun des ma,i. Cela induit quand même d’avoir
pré-calculé les différents inverses, et donc de les stocker.
Une autre solution peut être utilisée, basée sur des décalages. En effet, même si un
décalage sur toute la représentation RNS n’a pas de sens (ou en tout cas pas celui que l’on
recherche), on peut comprendre ce qu’il se passe au niveau de chacun des moduli. Du fait
que les valeurs sur chacun des canaux soient en représentation binaire classique, on sait
ce qu’est un décalage. Par contre, les calculs sur les canaux sont des calculs modulaires,
c’est pour ça qu’on ne peut pas simplement décaler sur toute la longueur du vecteur RNS.
Par exemple, soit ma,i impair et xa,i une valeur du canal que l’on souhaite diviser par 2.
Si xa,i est pair, un décalage suffit pour effectuer la division. Si xa,i est impair, l’opération
à effectuer est s =
xa,i+ma,i
2
car dans ce cas s ≡ xa,i/2 mod ma,i et on a bien 0 < s < ma,i
(xa,i < ma,i). Les désavantages de cette méthode sont que, dans notre architecture actuelle,
basée sur celle de l’état de l’art [52], une addition coûte autant qu’une multiplication (voire
plus cher en temps). En effet, l’architecture est optimisée pour accélérer la réduction modulaire
(ce qui est normal au vu du coût de celle-ci), les Rowers contiennent donc des
multiplieurs-accumulateurs pour calculer rapidement l’extension de base. Une addition requiert
donc 2 cycles (on calcule a×1+b×1 en réalité). Utiliser une multiplication est donc
plus avantageux sur cette architecture. De plus, elle implique un contrôle interne à chacun
des moduli, car les xa,i sur les différents canaux sont indépendamment pairs ou impairs.
Ainsi, cette division par 2 impliquerait une addition uniquement sur une partie des moduli,
ce qui complique par rapport au contrôle habituel où les calculs sur tous les Rowers sont
synchronisés et de même nature.
Pour une future implantation FPGA, les deux solutions doivent être évaluées en matériel.
Bien qu’il soit immédiat d’utiliser la multiplication par l’inverse (et plus simple en
terme de contrôle), il est difficile a priori de comparer les 2 approches. Si l’implantation
de la division par 2 ou 4 avec décalage se révèle bien plus efficace, cela réduirait alors l’intérêt
alors de l’utilisation de divisions par 3 (sauf si une technique peu coûteuse peut être
utilisée pour diviser par 3). À partir de maintenant, pour l’évaluation de l’algorithme et
les comparaisons, nous allons considérer que les divisions exactes par de petites constantes
sont faites uniquement en multipliant par l’inverse pré-calculé, c’est à dire qu’une division
par 2 ou par 4 vaut autant qu’une division par 3 ou 6.
Avant de détailler l’algorithme 18, nous allons évaluer l’autre opération critique qu’est la
réduction modulaire par 3. En effet, la réduction modulo 4 a déjà été traitée dans la section80 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
Algorithme 18: Inversion modulaire binaire-ternaire plus-minus proposée
(BTPM-MI).
Entrées :
−→
A , P > 2 avec gcd(A, P) = 1
Pré-calculs :
−→
Ta ,
−−→
T
−1
a
, |P|4 et l’ensemble de pré-calculs pour Divup
Sortie :
−→
S =
−−−−−→
|A−1
|P , 0 6 S < 2 P
1 lu ← 0, lv ← 0, Uc1 ← b0 , Vc1 ← b1, Vc3 ← Ab
2 bU1 ← 0, tU1 ← 0, bU3 ← |P|4, tU3 ← |P|3
3 bV1 ← 1, tV1 ← 1, bV3 ← mod4(Vc3), tV3 ← mod3(Vc3)
4 tant que Vc3 6= b1 et Uc3 6= b1 et Vc3 6= −c1 et Uc3 6= −c1 faire
5 tant que |bV3
|2 = 0 ou tV3 = 0 faire
6 Divup
Vc3, bV3
, tV3
, Vc1, bV1
, tV1
, v
7 Vc∗
3 ← Vc3 , Vc∗
1 ← Vc1
8 si |tV3 + tU3
|3 = 0 alors
9 si |bV3 + bU3
|4 = 0 alors
10 r = 1
11 Vc3 ← div12 \(Vc3 + Uc3 −
−→
C , 0, 0)
12 Vc1 ← div12 \(Vc1 + Uc1 −
−→
C , |bV1 + bU1
|4, |tV1 + tU1
|3)
13 sinon
14 r = 0
15 Vc3 ← div6 [(Vc3 + Uc3 −
−→
C , 2, 0)
16 Vc1 ← div6 [(Vc1 + Uc1 −
−→
C , |bV1 + bU1
|4, |tV1 + tU1
|3)
17 sinon
18 si |bV3 − bU3
|4 = 0 alors
19 r = 1
20 Vc3 ← div12 \(Vc3 − Uc3 +
−→
C , 0, 0)
21 Vc1 ← div12 \(Vc1 − Uc1 +
−→
C , |bV1 − bU1
|4, |tV1 − tU1
|3)
22 sinon
23 r = 0
24 Vc3 ← div6 [(Vc3 − Uc3 +
−→
C , 2, 0)
25 Vc1 ← div6 [(Vc1 − Uc1 +
−→
C , |bV1 − bU1
|4, |tV1 − tU1
|3)
26 si lv > lu alors
27 Uc3 ← Vc∗
3
, bU3 ← bV3
, tU3 ← tV3
28 Uc1 ← Vc∗
1
, bU1 ← bV1
, tU1 ← tV1
29 swap(lu, lv)
30 bV3 ← mod4(Vc3), tV3 ← mod3(Vc3)
31 bV1 ← mod4(Vc1), tV1 ← mod4(Vc1)
32 lv ← lv + r + γ
33 si Vc3 = b1 alors retourner (Vc1 −
−→
C )
−→
Ta +
−→
P
34 sinon si Uc3 = b1 alors retourner (Uc1 −
−→
C )
−→
Ta +
−→
P
35 sinon si Vc3 = −c1 alors retourner −(Vc1 −
−→
C )
−→
Ta +
−→
P
36 sinon retourner −(Uc1 −
−→
C )
−→
Ta +
−→
P2.3. ALGORITHME BINAIRE-TERNAIRE PLUS-MINUS EN RNS 81
précédente, la combinaison avec une réduction modulo 3 nous permet automatiquement
d’obtenir les valeurs modulo 6 et 12. En repartant encore de la formule du CRT que l’on
prend modulo 3, on obtient :
|X|3 =
Xn
i=1
ξa,i − q
3
, (2.7)
en choisissant Ba tel que |ma,i|3 = 1 pour tout i. Dans cette équation, une seule ré-
duction modulo 3 est effectuée après la somme (à la différence de l’équation 2.3 où les
réductions sont faites au fur et à mesure). En représentation binaire de position, la réduction
modulo 3 de ξa,i va dépendre de tous les bits de ξa,i à la différence du modulo 4 qui
ne dépend que des 2 derniers. Ainsi, effectuer la somme des ξa,i avant de réduire semble le
meilleur choix, une future évaluation FPGA devra être effectuée. Le coût d’une réduction
modulaire est donc de n EMA et 1 réduction modulo 3 de w + log2 n bits. Le calcul de q est
déjà effectué par le modulo 4 lorsque modulo 4 et modulo 3 sont effectués conjointement. Le
calcul efficace de valeurs modulo 3, et plus généralement modulo un petit nombre premier
sera étudié dans le chapitre 5.
Nous allons maintenant étudier la structure globale de l’algorithme 18 et détailler les
sous-fonctions qui le composent. La structure est très similaire à celle du PM-MI. On retrouve
en premier lieu la boucle sur la parité de Vc3, qui peut maintenant être effectuée aussi
lorsque Vc3 est divisible par 3 (tX représente la valeur de X modulo 3 dans l’algorithme).
Par soucis de clarté, les calculs de cette sous-boucle sont encapsulés dans la fonction Divup
(détaillée dans la suite). Ensuite vient une nouvelle forme du plus-minus. Il se trouve que
si X et Y ne sont ni multiples de 2, ni de 3 alors X + Y ou X − Y est un multiple de 6. Il
suffit de remarquer que les seules valeurs possibles pour X et Y sont 1 et 5 modulo 6. On
sait déjà que X + Y et X − Y sont tous deux pairs, il ne nous reste plus qu’à procéder à
un test de la somme modulo 3 pour effectuer le nouveau plus-minus. Aux lignes 9 et 18 de
l’algorithme 18, on teste si le chemin choisi par le plus-minus n’est pas seulement divisible
par 6 mais aussi par 12. Puisque nous avons déjà les valeurs de U3 et V3 modulo 4, ce test
en plus ne coûte rien. Par contre, la division par 12 engendrée demandera des pré-calculs
supplémentaires (bien qu’une bonne partie des pré-calculs nécessaires à la division par 12
modulo P sont déjà pré-calculés pour les divisions par 4 et 6). Enfin, une dernière diffé-
rence avec le PM-MI se trouve dans le contrôle de la taille des valeurs. Pour cette version
binaire-ternaire, lu et lv comptabilisent le nombre de divisions par 2 et par 3 qui ont été
effectuées sur Uc3 et Vc3. Ces compteurs permettent en fait d’approcher la taille de nos valeurs
globales tout au long de l’algorithme, c’est d’autant plus vrai si A a un nombre de
bits proche de log2 P, ce qui est le cas en pratique pour un élément de FP pris au hasard.
Pour comptabiliser une division par 3 on va donc ajouter log2 3 à lu ou lv, ou plutôt
une valeur approchée γ. Pour l’évaluation de notre algorithme section 2.4, γ = 1.5 permet
d’obtenir de bons résultats. En pratique, l’augmentation de la précision de γ est négligeable.
La fonction Divup est détaillée dans l’algorithme 19. Cette fonction est une adaptation
des lignes 10, 11 et 12 de l’algorithme 12. On se retrouve maintenant avec 5 cas à traiter
car Vc3 peut être divisé par 2, 3, 4, 6 ou 12. La fonction change directement la valeur de ses
entrées : elle divise et effectue une mise à jour des valeurs nécessaires. Les différentes fonctions
div2 [ à div12 \ sont construites exactement sur le modèle de div2r \, elles retournent les
résultats des divisions modulo P dans la représentation Xb. D’ailleurs div2 [ et div4 [ sont les
deux sous-cas de la fonction div2r \ définie pour le PM-MI. Les fonctions mod4 et mod3 ont82 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
Algorithme 19: Fonction Divup.
Entrées : Vc3, bV3
, tV3
, Vc1, bV1
, tV1
,v
Pré-calculs :
−−→
C/2 ,
−−−−−→
(2 C/3) ,
−−−−−→
(3 C/4) ,
−−−−−→
(5 C/6) ,
−−−−−−−→
(11 C/12) ,
−−−−−−−−→
(P T −1
a
)/12 ,
−−−−−−−→
(P T −1
a
)/6 ,
−−−−−−−→
(P T −1
a
)/4 ,
−−−−−−−→
(P T −1
a
)/3
−−−−−−−−−→
(5P T −1
a
)/12 ,
−−−−−−−→
(P T −1
a
)/2 ,
−−−−−−−−−→
(−P T −1
a
)/12 ,
−−−−−−−−→
(−P T −1
a
)/6
−−−−−−−−→
(−P T −1
a
)/4 ,
−−−−−−−−→
(−P T −1
a
)/3 ,
−−−−−−−−−−→
(−5P T −1
a
)/12
Sorties : Vc3, bV3
, tV3
, Vc1, bV1
, tV1
, lv
1 cas où bV3 = 0 et tV3 = 0
2 Vc3 ← div12 \
Vc3, bV3
, tV3
3 Vc1 ← div12 \
Vc1, bV1
, tV1
4 bV3 ← mod4(Vc3), bV1 ← mod4(Vc1)
5 tV3 ← mod3(Vc3), tV1 ← mod3(Vc1)
6 v ← v + γ + 2
7 cas où bV3 = 2 et tV3 = 0
8 Vc3 ← div6 [
Vc3, bV3
, tV3
9 Vc1 ← div6 [
Vc1, bV1
, tV1
10 bV3 ← mod4(Vc3), bV1 ← mod4(Vc1)
11 tV3 ← mod3(Vc3), tV1 ← mod3(Vc1)
12 v ← v + γ + 1
13 cas où bV3 = 0 et tV3
6= 0
14 Vc3 ← div4 [
Vc3, bV3
,
15 Vc1 ← div4 [
Vc1, bV1
,
16 tV3 ← update3(tV3
, bV3
, bV3
), tV1 ← update3(tV1
, bV1
, bV3
)
17 bV3 ← mod4(Vc3), bV1 ← mod4(Vc1)
18 v ← v + 2
19 cas où bV3
6= 0, 2 et tV3 = 0
20 Vc3 ← div3 [
Vc3, tV3
21 Vc1 ← div3 [
Vc1, tV1
,
22 bV3 ← update4(bV3
, tV3
), bV1 ← update4(bV1
, tV1
)
23 tV3 ← mod3(Vc3), tV1 ← mod3(Vc1)
24 v ← v + γ
25 cas où bV3 = 2 et tV3
6= 0
26 Vc3 ← div2 [
Vc3, bV3
27 Vc1 ← div2 [
Vc1, bV1
28 tV3 ← update3(tV3
, bV3
, bV3
), tV1 ← update3(tV1
, bV1
, bV3
)
29 bV3 ← mod4(Vc3), bV1 ← mod4(Vc1)
30 v ← v + 1
31 retourner Vc3, bV3
, tV3
, Vc1, bV1
, tV1
, lv2.4. COMPARAISON AVEC L’ÉTAT DE L’ART 83
déjà été expliquées précédemment, il ne manque plus qu’à détailler les fonctions update3
et update4. Ces fonctions évaluent respectivement la nouvelle valeur modulo 3 ou modulo
4 lorsqu’on a pas besoin de faire tout le calcul mod3 ou mod4. Par exemple, ligne 13 de
l’algorithme 19 commence le cas ou Vc3 doit être divisé par 4. Dans ce cas, nous n’avons
pas besoin de mod3 pour calculer la nouvelle valeur tV3
. La fonction update3(tV3
, bV3
, bV3
)
en ligne 16 va retourner tV3
· 4
−1 mod 3 = tV3
et tV3
· 2
−1 mod 3 = 2tV3 mod 3 à la ligne
28. Les opérations sur Vc1 étant plus complexes que celles sur Vc3, la fonction update3 retourne
un résultat de la forme (tV1 + cP) · 4
−1 mod 3. En effet, dans le cas de Vc1 on doit
effectuer une division modulo P et non pas une simple division exacte. Le c est celui qui
est calculé pour effectuer la division avec div4 [, par exemple si bV1 = 2, alors on calcule
(tV1 + 2P)· 4
−1 mod 3 (la valeur de c est déterminée dans l’équation 2.6). Finalement, lorsqu’on
calcule update3(tV1
, bV1
, bV3
), la première entrée correspond à ce qu’on doit modifier,
la seconde permet de déterminer le c qu’on doit ajouter et la troisième quelle division nous
avons effectué sur Vc1. La fonction update4 effectue la même chose mais pour la mise à jour
des valeurs modulo 4 lorsqu’on divise par 3. Il n’y a plus que 2 entrées pour update4 car
elle est utilisée que dans un seul cas (ligne 19 de l’algorithme 19).
Avec Divup défini, l’algorithme est maintenant complètement décrit. Pour résumer,
l’algorithme utilise le fait que les divisions par 2 et par 3 sont aussi difficiles et que la
réduction par 3 n’est pas très difficile. Ainsi, grâce à ces plus grandes divisions on va avancer
plus vite dans l’algorithme et réduire le nombre d’itérations de la boucle principale. En fait,
comme on le verra dans la partie comparaison, le nombre d’itérations de la boucle interne
va augmenter un petit peu mais ce surcoût sera largement compensé par la réduction du
nombre d’itérations de la boucle principale. On pourrait avoir dans l’idée d’utiliser d’autres
diviseurs, plus grands (par exemple 5 ou 7) afin de réduire encore le nombre d’itérations.
En effet, la division ne coûte pas plus cher et la réduction modulaire par 5 ou 7 serait même
presque gratuite : en effet dans l’équation 2.7 de réduction modulo 3 on effectue la somme
puis on réduit par 3 les w + log2 n bits obtenus. Cette somme est en fait commune aux
réductions modulo 3, 5 et 7, le surcoût serait juste une réduction modulo 5 et une modulo
7 de ce petit nombre. Nous verrons dans le chapitre 5 comment factoriser ces réductions
modulaires dans la numération simple de position pour d’autres applications. Le problème
de cette approche pour l’inversion est qu’elle rajoute, en contrepartie, beaucoup de pré-
calculs et beaucoup de cas pour la fonction Divup. La liste des pré-calculs est déjà bien
rallongée entre ceux de l’algorithme 12 et ceux (cumulés) des algorithmes 18 et 19. Rajouter
de plus grandes valeurs augmenterait grandement le nombre de pré-calculs. De plus, le gain
en terme du nombre d’opérations s’amenuise : une valeur globale a une probabilité 1
5
d’être
multiple de 5, 1
7
d’être multiple de 7 et ainsi de suite. Nous pensons donc qu’il est très
probablement préférable de s’arrêter au modulo 3.
2.4 Comparaison avec l’état de l’art
2.4.1 Complexité du FLT-MI
L’algorithme de l’état de l’art (FLT-MI) ainsi que les deux algorithmes proposés dans
nos travaux (PM-MI et BTPM-MI) effectuent O(`) itérations de la boucle principale pour
des opérandes en entrée de ` bits. La principale différence vient donc du coût des calculs
internes à cette boucle. Pour l’évaluation de complexité on introduit certaines notations
pour les opérations élémentaires :
– cox-add est une addition de deux éléments de t bits (effectuée dans le Cox) ;84 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
– mod4-add est une addition de deux éléments de 2 bits modulo 4 (ces opérations sont
comptées mais leur coût est très faible comparé aux EMA et EMM) ;
– mod3 est une réduction modulo 3 sur w + log2 n bits.
Dans le but d’évaluer le coût de la version FLT-MI présentée dans l’algorithme 16, on
doit évaluer le coût de chaque itération de la boucle principale. En moyenne, MM est exécutée
avec une probabilité 1/2 à la ligne 5 et celle présente à la ligne 6 est toujours effectuée.
Chaque itération calcule donc 1.5 MM. Nous considérons ici qu’une MM coûte 2n
2 + 6n EMM,
2n
2 + n EMA et 2n cox-add, comme Gandino et al. [48] (voir section 1.3.3 pour l’évaluation
de MM). Pour conclure, l’algorithme 16 a une complexité moyenne de O(` × n
2
).
On peut remarquer qu’à travers ce chapitre, nous avons exclusivement considéré le cas
de l’extension de base utilisant le CRT (notée CRTBE) avec la méthode de Kawamura et
al. [64]. L’autre méthode principale est d’utiliser les extensions de base en passant par le
MRS (notée MRSBE [120]). Comme déjà mentionné, cette méthode est moins parallélisable
et donc moins bien adaptée à notre implantation matérielle. Même en mettant de côté
cet aspect implantation pour se concentrer uniquement sur le nombre d’opérations, la
multiplication modulaire via MRS coûte 3n
2+ 4n EMM, donc plus cher que la CRTBE. Nous
avons présenté dans l’état de l’art des optimisations proposées par Bajard et al. dans [12]
pour réduire ce coût, grâce à des bases bien choisies. Même si ces optimisations réduisent
le coût en EMM et EMA de MRSBE, elles ne sont toujours pas suffisamment parallélisables
pour les considérer dans le cadre de l’architecture RNS ECC de l’état de l’art. On pourrait
effectuer une étude plus fine, mais la complexité de FLT-MI en EMM et EMA ne varie pas
énormément en choisissant l’une ou l’autre des extensions de base. Dans les deux cas,
FLT-MI est en O(` × n
2
) EMM et EMA. Nous allons voir que de toute façon, les gains obtenus
grâce à nos algorithmes sont tels qu’il n’est pas nécessaire de faire différentes études de
cas. Pour conclure, dans un contexte matériel, il suffit de se concentrer sur CRTBE pour
effectuer notre comparaison.
2.4.2 Complexité de PM-MI et BTPM-MI
Afin d’évaluer le coût de l’algorithme 17 PM-MI, on doit d’abord estimer le coût de mod4
et div2r \. Le calcul de mod4 comprend le calcul de q, qui requiert n cox-add et la somme
modulo 4 finale, qui requiert n mod4-add (|q|4 +
Pn
i=1 |ξa,i|4). Comme expliqué dans la
section 2.2, div2r \ coûte n EMM (la multiplication par 4
−1 ou 2
−1
) et n EMA (grâce aux
pré-calculs des sommes des constantes).
Ensuite, il faut évaluer le nombre d’itérations de la boucle interne (lignes 8–12) ainsi
que le coût de chacune de celles-ci. En fait, la probabilité qu’une première itération ait lieu
est de 1
2
(on teste si |V3|2 = 0). Une seconde itération n’arrive que si V3 est un multiple de 8,
puisque s’il était juste un multiple de 4, on aurait divisé par 4 durant la première itération.
On a donc une probabilité 1
8
d’avoir 2 itérations. En continuant ainsi, la probabilité de faire
une j
e
itération est de 1
2·4
j−1
. Finalement, en moyenne on obtient 1
2
P∞
j=0
1
4
j =
2
3
itérations
de la boucle interne pour une itération de la boucle principale. Dans une itération de la
boucle interne, 2 mod4 et 2 div2r \ sont effectués, menant à 2n cox-add, 2n + 2 mod4-add,
2n EMM et 2n EMA.
Après la boucle interne, la fin de la boucle principale va calculer 2 div2r \ et 2 mod4
(lignes 14–25). On peut voir que les entrées de div2r \ sont de la forme Xb ± Yb ±
−→
C , mais
ces additions sont directement intégrées dans les pré-calculs. Aucun nouveau pré-calcul2.5. ARCHITECTURE ET IMPLANTATION FPGA 85
n’est nécessaire, juste un peu de contrôle sur le choix de la constante que l’on ajoute. Pour
ne pas compliquer inutilement l’écriture mathématique de div2r \, nous avons préféré cette
présentation dans l’algorithme. Finalement, le coût des lignes 14–25 est de 2n EMM, 4n EMA,
2n cox-add et 2n + 2 mod4-add.
Une évaluation complète du nombre de tours de boucle de cet algorithme est complexe.
Nous avons effectué des tests sur plus de 700 000 valeurs avec des tailles ` cryptographiques
(voir les standards du NIST [91]). En moyenne nous obtenons 0.71` itérations de boucle
principale par inversion. Dans [66, p. 348–353], ce nombre est évalué à environ 0.70597`
pour l’algorithme d’Euclide étendu binaire classique, on est donc très proche de ce résultat
théorique. Pour conclure sur notre premier algorithme, sa complexité moyenne est de
O(` × n) EMM et EMA contre O(` × n
2
) pour l’état de l’art FLT-MI.
Pour chiffrer le coût de notre second algorithme 18, nous avons aussi effectué 700 000
tests pour avoir une moyenne du nombre de chacune des différentes opérations. Il y a moins
d’itérations de boucle principale que dans le PM-MI simple, en moyenne 0.46` au lieu de
0.71`. En revanche, il y a plus d’itérations de la boucle interne, ce qui est normal puisqu’on
a plus de diviseurs. En moyenne, on a observé 3/4 itérations de boucle interne pour 1 tour
de boucle principale, contre 2/3 pour le PM-MI. Finalement le nombre d’opérations a été
réduit avec le nouvel algorithme.
Les tables 2.1 et 2.2 donnent le détail du nombre d’opérations pour certaines tailles de
corps et certaines bases pour les 3 algorithmes (nos 2 propositions et l’état de l’art). Le
nombre de multiplications et d’additions élémentaires a été très significativement réduit par
rapport au FLT-MI avec nos deux algorithmes. Le nombre de multiplications élémentaires
EMM (qui est la métrique classique utilisée pour comparer les algorithmes RNS) est divisé
par 12 à 37 avec le PM-MI et par 18 à 54 par le BTPM-MI comparé au FLT-MI, suivant les
différents paramètres ` et n choisis. Par exemple, pour un P tiré aléatoirement de 192 bits
avec n = 12 et w = 17, alors FLT-MI requiert 103140 EMM contre seulement 5474 EMM pour
PM-MI et 3744 pour BTPM-MI en moyenne. Bien sûr, à cause de la différence de complexité
en n, plus la base a d’éléments, plus le rapport entre nos algorithmes et le FLT-MI est grand.
Par exemple, pour une taille de mots élémentaires fixée w, n va croître avec ` = dlog2 Pe
puisque par définition, n × w = `.
Comme présenté finalement dans la figure 2.1, BTPM-MI permet de réduire le nombre
de EMM de 30 % et celui des EMA de 20 %, quelle que soit la taille du corps ` et quel que soit
le nombre d’éléments dans la base n par rapport à PM-MI, le rapport des complexités étant
constant.
2.5 Architecture et implantation FPGA
L’algorithme de l’état de l’art FLT-MI et notre inversion PM-MI ont été implantés en
FPGA. La version binaire-ternaire BTPM-MI ne dispose pas encore d’implantation, mais les
premiers éléments présentés dans la section 2.4 semblent prometteurs. Nous avons comme
objectif final la conception complète d’un cryptoprocesseur RNS pour ECC. Nous avons
donc implanté une architecture Cox-Rower très similaire à celle de Guillermin [52], qui
est l’état de l’art en terme de performances pour un cryptoprocesseur ECC en RNS avec
protection contre certaines attaques par canaux cachés.86 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
nombre d’opérations
Algo. ` n × w EMM EMA cox-add mod4-add mod3
FLT-MI
192
12 × 17 103140 85950 6876 0 0
9 × 22 61884 48991 5157 0 0
7 × 29 40110 30083 4011 0 0
256
12 × 22 137700 114750 9180 0 0
9 × 29 82620 65407 6885 0 0
8 × 33 67320 52020 6120 0 0
384
18 × 22 434322 382617 20682 0 0
aléa. 14 × 29 273462 233247 16086 0 0
12 × 33 206820 172350 13788 0 0
521
19 × 29 652080 577980 29640 0 0
16 × 33 474240 411840 24960 0 0
15 × 36 421200 362700 23400 0 0
FLT-MI
192
12 × 17 137520 114600 9168 0 0
9 × 22 85512 65322 6876 0 0
7 × 29 53480 40110 5348 0 0
256
12 × 22 183600 153000 12240 0 0
9 × 29 110160 87210 9180 0 0
8 × 33 89760 69360 8160 0 0
384
18 × 22 579096 510156 27576 0 0
NIST 14 × 29 364616 310996 21448 0 0
12 × 33 275760 229800 18 384 0 0
521
19 × 29 869440 770640 39520 0 0
16 × 33 632320 549120 33280 0 0
15 × 36 561600 483600 31200 0 0
Table 2.1 – Nombre d’opérations pour l’algorithme FLT-MI appliqué aux P standardisés
du NIST et à des P aléatoires.
0
5000
10000
15000
20000
25000
30000
150 200 250 300 350 400 450 500 550
log P
n = 12 canaux
PM−MI EMA
BTPM−MI EMA
PM−MI EMM
BTPM−MI EMM
0
2000
4000
6000
8000
10000
12000
14000
16000
4 6 8 10 12 14 16 18 20
n
log P = 192 bits
PM−MI EMA
BTPM−MI EMA
PM−MI EMM
BTPM−MI EMM
Figure 2.1 – Comparaison du nombre d’opérations EMM et EMA entre PM-MI et BTPM-MI,
en fonction de log2 P pour n fixé (à gauche) et en fonction de n pour log2 P fixé (à droite).2.5. ARCHITECTURE ET IMPLANTATION FPGA 87
nombre d’opérations
Algo. ` n × w EMM EMA cox-add mod4-add mod3
PM-MI
192
12 × 17 5474 8750 5474 5474 0
9 × 22 4106 6562 4106 4106 0
7 × 29 3193 5104 3193 3193 0
256
12 × 22 7282 11656 7282 7282 0
9 × 29 5461 8742 5461 5461 0
8 × 33 4854 7771 4854 4854 0
384
18 × 22 16487 26376 16487 16487 0
14 × 29 12823 20514 12823 12823 0
12 × 33 10991 17584 10991 10991 0
521
19 × 29 23446 37522 23446 23446 0
16 × 33 19744 31597 19744 19744 0
15 × 36 18510 29622 18510 18510 0
BTPM-MI
192
12 × 17 3744 6994 2868 2868 269
9 × 22 2808 5245 2151 2151 269
7 × 29 2184 4079 1673 1673 269
256
12 × 22 4988 9313 3821 3821 359
9 × 29 3741 6985 2865 2865 359
8 × 33 3325 6208 2547 2547 359
384
18 × 22 11215 20928 8588 8588 538
14 × 29 8723 16277 6680 6680 538
12 × 33 7476 13952 5725 5725 538
521
19 × 29 16055 29951 12293 12293 730
16 × 33 13520 25222 10352 10352 730
15 × 36 12675 23646 9705 9705 730
Table 2.2 – Nombre moyen d’opérations pour les algorithmes proposés PM-MI et BTPM-MI
appliqués aux tailles de corps standards du NIST.88 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
Rower 1
w
w
Rower 2
w
w
. . .
. . .
Rower n
w
w
Cox
s q
. . .
.
.
.
. . .
t + 2
.
.
.
registres
I/O
w
canal 1
w w
canal 2
w w
canal n
w w
. . .
. . .
CTRL
Figure 2.2 – Architecture globale Cox-Rower implantée similaire à celle proposée dans [52],
avec Cox adapté à l’inversion PM-MI.2.5. ARCHITECTURE ET IMPLANTATION FPGA 89
CTRL
(partagé)
reg. local
{en, r/w}
Unité arithmétique
(pipeline 6 étages)
{rst, mode, . . . }
w w
w
w w
ENTRÉE
w
SORTIE
w
cmp
w
= b1 = −c1
Mém. Mult.
≈ 2n × w w
@1
Mém. Mod.
ha,i, hb,i
@2
dlog2
ha,ie
Mém. Add.
17 × w
@3
w
Figure 2.3 – Architecture du Rower implanté pour l’inversion PM-MI.
L’architecture globale est décrite dans la figure 2.2. En dehors du Cox, cette architecture
globale est partagée par les 2 implantations, les autres composants étant ensuite
spécialisés et optimisés en interne pour chacune des versions. Comme expliqué dans l’état
de l’art 1.3.5, cette architecture Cox-Rower est complètement parallélisée, un Rower de w
bits pour 2 canaux (un dans chaque base) pour effectuer des extensions de base. C’est aussi
le cas pour notre algorithme car, même s’il n’utilise qu’une seule base, le reste des calculs
pour ECC nécessitera 2 bases et des extensions de bases. Les signaux de contrôle, d’horloge
et de reset ne sont représentés que partiellement dans la figure 2.2. Les lignes se terminant
par les cercles blancs représentent des signaux de contrôle ( ).
La figure 2.3 présente la structure d’un élément rower. Chacun contient une unité
arithmétique (AU) pour les calculs sur les opérandes de w bits, des registres locaux et des
mémoires contenant les valeurs pré-calculées. L’unité arithmétique implantée est la même
que celle décrite dans [52], dans la version pipelinée à 6 étages spécialement conçue pour les
calculs ECC (voir section 1.3.5 et figure 1.9). La mémoire « Mém. Mod. » contient l’élément
de chacune des bases correspondant à notre Rower. Ils sont stockés sous la forme ha,i et hb,i
tels que ma,i = 2w − ha,i et mb,i = 2w − hb,i. Notre implantation PM-MI utilise 21 valeurs
pré-calculées stockées comme constantes dans les mémoires du Rower, et utilisées comme
constantes multiplicatives (dans la mémoire « Mém. Mult. ») ou additives (dans « Mém.
Add. »), en plus des valeurs stockées pour pouvoir effectuer une réduction modulaire de
Montgomery RNS (nécessaires pour les calculs ECC).
La principale différence dans les Rowers entre la version FLT-MI et la version PM-MI
sont les comparaisons sur la sortie de l’unité arithmétique (la figure 2.3 montre la version
PM-MI). Celles-ci sont rajoutées pour tester la condition de la boucle principale.
L’unité Cox dans l’architecture originale est utilisée pour calculer la somme q définie90 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
dans l’équation 1.13. Le Cox original est présenté dans la figure 1.8 de la section 1.3.5. C’est
la même unité qui est implantée pour l’algorithme FLT-MI, c’est à dire juste un accumulateur
qui somme n termes de t bits. Pour l’algorithme PM-MI, on utilise le Cox de façon
intensive pour nos calculs modulaires. On l’a donc modifié pour que cette somme soit faite
en un cycle. Dans nos implantations, le Cox n’était pas sur le chemin critique (situé au
niveau de l’unité arithmétique), mais il se peut que pour un plus grand n ou un plus grand
t il le soit. Cette somme pourrait alors être effectuée en 2 cycles par exemple ou 3. Le fait
que le calcul soit fait en un cycle a permis d’avoir un contrôle un peu plus simple.
L’autre différence vient du fait que le nouveau Cox calcule aussi une somme modulo 4,
et reçoit donc maintenant d’un côté les t bits de poids fort des différents restes et de l’autre
leurs 2 bits de poids faible pour la somme s =
Pn
i=1 |ξa,i|4
4
. Dans la figure 2.2, les petits
carrés représentent juste l’extraction et le routage des t+2 bits en provenance des w bits en
sortie des Rowers. Les sorties du Cox sont s et q, et sont envoyées au contrôle qui calculera
l’adresse @3, que ce soit pour corriger l’extension de base, ou effectuer le calcul adéquat
dans la fonction div2r \ de l’algorithme PM-MI.
Les valeurs globales de l’algorithme sont stockées dans les 4 registres globaux (en haut
de la figure 2.2), contenant donc les valeurs RNS de n mots de w bits. Ces mots sont
assignés à travers les n canaux, chaque canal ayant une entrée et une sortie spécifique.
Les communications avec l’hôte sont effectuées à travers le port I/O de w bits (en haut à
gauche) via ces registres.
Les deux versions de l’architecture ont été implantées sur un FPGA Virtex 5 à l’aide de
l’outil Xilinx ISE 14.6. Pour ` = 192 bits, le FPGA XC5VLX50T a été utilisé (il fait partie
des petits FPGA de la famille Virtex 5), un FPGA plus grand (XC5VLX220) ayant été
utilisé pour les autres tailles de corps. Les processus de synthèse et placement/routage ont
été effectués pour des efforts standards d’optimisation en vitesse. Deux variantes ont été
implantées, avec et sans blocs dédiés activés, afin de mesurer l’impact des blocs matériels
DSP et BRAM (36Kb pour les FPGA Virtex 5). Nous avons implanté un certain nombre
de bases avec différents compromis (n, w) pour les différentes tailles de corps. Pour ` = 192,
256 et 521 bits, trois paires (n, w) ont été implantées. Pour avoir une courbe un peu plus
précise sans avoir un temps de développement trop long, nous avons choisi d’implanter 4
paires en plus pour la taille 384, menant donc à un total de 7 pour ce corps.
Les résultats complets d’implantation sont présentés dans la table 2.3 pour les implantations
avec blocs DSP et BRAM. La table 2.4 présente les résultats obtenus en désactivant
les BRAM et les blocs DSP dans l’outil Xilinx ISE 14.6. On peut remarquer que dans
certains cas, l’outil a quand même forcé l’utilisation de quelques blocs DSP malgré leur
désactivation. Les résultats en terme de temps d’exécution dans la figure 2.4 et les résultats
en terme de surface sont résumés dans les figures 2.5 et 2.6.2.5. ARCHITECTURE ET IMPLANTATION FPGA 91
Surface Freq. Nombre Temps
Algo. ` n × w slices (FF/LUT) DSP BRAM MHz de cycles µs
FLT-MI
192
12 × 17 2473 (2995/7393) 26 0 186 13416 72.1
9 × 22 2426 (3001/7150) 29 0 185 11272 60.9
7 × 29 2430 (3182/6829) 48 0 107 9676 90.4
256
12 × 22 3303 (3960/9524) 38 0 190 15397 126.2
9 × 29 3181 (3845/9444) 63 9 114 13093 114.9
8 × 33 3065 (3838/8629) 56 8 105 12325 117.3
384
22 × 18 4839 (6479/14642) 66 0 162 39971 246.7
20 × 20 4972 (6037/15476) 62 0 180 37159 206.4
18 × 22 4782 (5920/14043) 56 0 178 34359 193.0
17 × 23 4818 (5830/14181) 53 0 180 32941 183.0
14 × 29 5554 (5910/16493) 98 14 110 28416 258.3
12 × 33 5236 (5710/15418) 84 12 107 25911 242.1
10 × 40 11536 (7230/36503) 84 19 103 23099 224.3
521
19 × 29 7344 (8113/21286) 128 19 120 51580 429.8
16 × 33 6960 (7578/21282) 112 16 115 45334 394.2
15 × 36 8006 (8550/27514) 128 15 90 43252 480.5
PM-MI
192
12 × 17 2332 (3371/6979) 26 0 187 1753 9.3
9 × 22 2223 (3217/6706) 29 0 187 1753 9.3
7 × 29 2265 (3336/6457) 48 0 120 1753 14.6
256
12 × 22 2660 (3970/8638) 38 0 155 2333 15.0
9 × 29 2934(4014/8117) 63 9 103 2333 22.6
8 × 33 2688 (3838/7779) 56 16 105 2333 22.1
384
22 × 18 5338 (6805/17620) 66 0 141 3518 25.0
20 × 20 4201 (5977/12472) 62 0 148 3518 23.8
18 × 22 4064 (5932/13600) 56 0 152 3518 23.1
17 × 23 3956 (5848/12902) 53 0 150 3518 23.4
14 × 29 4873 (6134/14347) 98 14 102 3518 34.4
12 × 33 4400 (5694/12764) 84 24 103 3518 34.1
10 × 40 9510 (7222/33451) 0 24 102 3518 34.5
521
19 × 29 8044(8295/25983) 128 19 106 4750 44.8
16 × 33 7275 (7553/22906) 112 32 108 4750 44.0
15 × 36 8315 (8550/28438) 128 30 92 4750 51.6
Table 2.3 – Résultats d’implantation FPGA post placement/routage des algorithmes
FLT-MI et PM-MI sur Xilinx Virtex 5 avec blocs DSP et BRAM activés dans ISE 14.6.92 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
Surface Freq. Nombre Temps
Algo. ` n × w slices (FF/LUT) DSP BRAM MHz de cycles µs
FLT-MI
192
12 × 17 4071 (4043/12864) 4 0 128 13416 104.8
9 × 22 4155 (3816/13313) 4 0 122 11272 92.3
7 × 29 4575 (3952/15264) 0 0 126 9676 76.7
256
12 × 22 5334 (5092/17557) 4 0 122 15397 126.2
9 × 29 5940 (5073/20097) 0 0 126 13093 103.9
8 × 33 6416 (5116/20828) 0 0 104 12325 118.5
384
22 × 18 8325 (7783/27330) 4 0 121 39971 330.3
20 × 20 7826 (7847/27310) 4 0 120 37159 309.7
18 × 22 7559 (7831/27457) 0 0 163 34359 210.7
17 × 23 8104 (7547/27645) 4 0 123 32941 262.8
14 × 29 9393 (7818/30536) 0 0 126 28416 225.5
12 × 33 9888 (7640/31599) 0 0 107 25911 242.1
10 × 40 10314 (7630/33911) 0 0 106 23099 217.9
521
19 × 29 12072(10629/43347) 0 0 118 51580 437.1
16 × 33 12306(10169/43732) 0 0 100 45334 453.3
15 × 36 13438 (10324/45615) 0 0 87 43252 497.1
PM-MI
192
12 × 17 3899 (4212/12519) 4 0 150 1753 11.6
9 × 22 3809 (3986/12782) 4 0 146 1753 12.0
7 × 29 4341 (4107/14981) 0 0 141 1753 12.4
256
12 × 22 4970(5037/16926) 4 0 123 2333 19.0
9 × 29 5791 (5288/1966) 0 0 128 2333 18.2
8 × 33 6100 (5292/20512) 0 0 107 2333 21.8
384
22 × 18 9305 (8111/29280) 4 0 125 3518 28.1
20 × 20 9046 (8158/29605) 4 0 127 3518 27.7
18 × 22 7677 (8053/28306) 0 0 168 3518 20.9
17 × 23 7536 (7467/25493) 4 0 121 3518 29.1
14 × 29 9119(8113/30619) 0 0 127 3518 27.7
12 × 33 9780 (7908/31902) 0 0 108 3518 32.5
10 × 40 10111 (7495/33169) 0 0 100 3518 35.1
521
19 × 29 14089 (11010/48858) 0 0 115 4750 41.3
16 × 33 14397 (10489/48037) 0 0 105 4750 45.2
15 × 36 15181 (10704/51922) 0 0 92 4750 51.6
Table 2.4 – Résultats d’implantation FPGA post placement/routage des algorithmes
FLT-MI et PM-MI sur Xilinx Virtex 5 avec blocs DSP et BRAM désactivés dans ISE 14.6.2.5. ARCHITECTURE ET IMPLANTATION FPGA 93
50
0
500
450
400
350
300
250
200
150
100
s] µ temps inversion [
192 bits
FLT−MI
PM−MI
256 bits 384 bits 521 bits
9
8
7
6
5
4
10
facteur accel.
50
0
500
450
400
350
300
250
200
150
100
s] µ temps inversion [
FLT−MI
PM−MI
12
11
10
9
8
7
6
5
7 8 9 10 11 12
facteur accel.
n
8 9 10 11 12 n
10 12 14 16 18 20 22 n
15 16 17 18 19 n
Figure 2.4 – Courbes des temps d’exécution et facteurs d’accélération des implantations FPGA des algorithmes FLT-MI et PM-MI, avec blocs
DSP et BRAM activés (en haut) et désactivés (en bas) ; pour 4 tailles de corps du NIST et différentes paires (n, w).94 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
0
500
1000
1500
2000
2500
3000
3500
4000
7 9 12
slices
FLT−MI 192 bits
7 9 12
PM−MI 192 bits
8 9 12
FLT−MI 256 bits
8 9 12
PM−MI 256 bits
0
10
20
30
40
50
60
70
80
7 9 12
# blocks (DSP / BRAM)
n
DSP
BRAM
7 9 12
n
8 9 12
n
8 9 12
n
Figure 2.5 – Histogramme des surfaces occupées pour les implantations sur FPGA Virtex 5
pour les corps du NIST de 192 et 256 bits.
Avant d’analyser ces figures, nous présentons des arguments pour expliquer pourquoi
nos implantations FLT-MI peuvent être utilisées comme référence afin de se comparer à
l’état de l’art. Premièrement, nous avons implanté le FLT-MI avec un algorithme LSBF
comme dans l’implantation ECC de l’état de l’art [52], tout en utilisant les astuces proposées
(après la publication de [52]) pour l’exponentiation dans [48] pour accélérer les
exponentiations RNS. L’algorithme a été implanté dans la version poids faibles en tête
(algorithme 16) comme expliqué précédemment, afin de paralléliser le carré et la multiplication.
Ensuite, il est difficile d’estimer l’efficacité d’architectures parallèles pour l’inversion
modulaire en RNS dans l’état de l’art. Guillermin dans [52] estime qu’il y a jusqu’à 10 %
de cycles d’attente dans les Rowers pour une multiplication scalaire complète en RNS (en
comptant l’inversion). Ces cycles d’attente arrivent durant l’inversion et les conversions
RNS/binaire et binaire/RNS. Nous avons considéré que ces cycles d’attente provenaient de
l’inversion modulaire. En réalité, les opérations de conversions sont négligeables comparées
à la complexité de l’inversion. De plus, l’algorithme d’exponentiation RNS utilisé dans [52]
génère de nombreux cycles d’attente à cause des dépendances entre chaque itération de la
boucle principale de l’algorithme d’exponentiation. On peut donc estimer que la plupart de
ces cycles d’attente proviennent de l’inversion. En partant de cette hypothèse, le nombre
de cycles d’attente avec le FLT-MI dans l’architecture de l’état de l’art [52] est d’environ 60
à 65 % du nombre total de cycles pour l’inversion. Nos implantations du FLT-MI ont elles
entre 25 et 40 % de cycles d’attente (cela peut être facilement expliqué par le fait que dans
nos implantations, le contrôle est dédié à notre opération d’inversion). On peut donc considérer
que notre implantation du FLT-MI est un bon point de comparaison avec l’état de l’art.
La figure 2.4 permet de comparer les temps d’exécution obtenus et de mesurer l’écart
entre les deux solutions en indiquant l’accélération obtenue entre le FLT-MI et le PM-MI.
On peut donc voir que suivant les paramètres, on peut aller de 5 à 12 fois plus vite que
la solution de l’état de l’art. On peut observer que le rapport des temps obtenus semble
linéaire en n. C’est particulièrement clair sur le facteur d’accélération obtenu sur le corps2.5. ARCHITECTURE ET IMPLANTATION FPGA 95
0
2000
4000
6000
8000
10000
12000
10 12 14 17 18 20 22
slices
FLT−MI 384 bits
10 12 14 17 18 20 22
PM−MI 384 bits
15 16 19
FLT−MI 521 bits
15 16 19
PM−MI 521 bits
0
20
40
60
80
100
120
10 12 14 17 18 20 22
# blocks (DSP / BRAM)
n
DSP
BRAM
10 12 14 17 18 20 22
n
15 16 19
n
15 16 19
n
Figure 2.6 – Histogramme des surfaces occupées pour les implantations sur FPGA Virtex 5
pour les corps du NIST de 384 et 521 bits.
de 384 bits qui bénéficie de plus de points de mesure, en doublant n, on double quasiment
le facteur d’accélération obtenu. C’est une conséquence directe des complexités des deux
algorithmes détaillés en section 2.4. Pour rappel, la complexité du PM-MI est en O(` × n)
contre O(` × n
2
) pour le FLT-MI, le rapport des deux est bien en O(n) en nombre d’opé-
rations élémentaires.
On peut remarquer que pour le PM-MI, le nombre de cycles ne dépend pas des paramètres
n ou w (on ne compte pas les cycles de lecture de l’opérande ou d’écriture de
la sortie) mais seulement de la taille du corps. C’est tout simplement parce que l’on calcule
sur une architecture complètement parallèle. Ainsi, il y a n unités arithmétiques pour
O(`×n) opérations, on obtient bien alors un temps en O(`) constant lorsque ` est fixé. Les
variations du temps d’exécution sont donc dues aux variations de la fréquence d’horloge
données par l’outil ISE.
A contrario, les implantations FLT-MI ont une complexité de O(` × n
2
) opérations sur
les canaux. Puisque nous avons implanté une architecture parallèle avec n Rowers pour
autant de canaux, le nombre de cycles a une complexité de O(` × n), et dépend donc de n.
Si nous choisissons un petit n, les éléments de la base seront grands (si n = 4 pour un
corps de 384 bits par exemple, on se retrouve avec des moduli de presque une centaine de
bits). Ce qui implique que les unités arithmétiques deviennent significativement plus lentes
(la fréquence chute à cause d’aussi grandes unités). D’un autre côté, un grand n implique
un plus grand nombre de cycles. Pour atteindre l’inversion FLT-MI la plus rapide possible,
il faut réussir à trouver le meilleur compromis sur la taille des moduli. Cette taille dépend
bien sûr du matériel sur lequel l’implantation est faite.
Ce compromis ne s’applique pas simplement au FLT-MI, mais à tout algorithme RNS
utilisant des extensions de base, notamment les calculs sur les courbes elliptiques. Un autre
point positif du PM-MI est qu’il ne dépend pas directement de ce compromis, on peut donc
concevoir les unités pour avoir la multiplication scalaire la plus rapide qui soit, sans se96 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNS
soucier de l’impact qu’il pourrait avoir sur le temps d’exécution de notre algorithme d’inversion.
En d’autres termes, notre algorithme est très flexible au niveau du choix de la base
RNS.
Pour conclure l’analyse de ces implantations, on peut observer que les deux algorithmes
aboutissent à des coûts en surface proches pour presque tous les paramètres, comme on peut
le voir sur les figures 2.5 et 2.6. On peut observer quelques petites différences, comme par
exemple sur la figure 2.6 avec n = 12 et ` = 384, l’implantation PM-MI a consommé moins
de slices mais plus de BRAM que le FLT-MI. Les implantations étant extrêmement proches
(en dehors du contrôle), il est normal que nous obtenions des résultats proches. Pour finir,
on peut observer qu’il y a une chute de fréquence dans la table 2.3 entre les cas où w < 25
et les cas où w ≥ 25. C’est dû au fait que les multiplieurs intégrés dans les blocs DSP soient
des multiplieurs 25 × 18 bits pour entiers signés, ils permettent d’effectuer directement des
multiplications de 24 × 17 bits sur les moduli. Le synthétiseur a réussi à mieux utiliser ces
multiplieurs pour des tailles de mots w < 25, ce qui donne des fréquences plus élevées pour
ces w là. Lorsque w ≥ 25, des combinaisons plus complexes des multiplieurs sont effectuées,
ce qui explique cette chute de fréquence.
2.6 Validation
Les algorithmes proposés ne sont pas ici prouvés en détail, mais de forts arguments
sont présentés dans cette section pour leur validation.
Premièrement, la structure globale de l’algorithme 17 est la même que celle de l’algorithme
d’Euclide binaire pour le calcul du pgcd avec plus-minus présenté dans [22]. Cela
implique que si les opérations internes au RNS sont correctement effectuées, alors l’algorithme
est correct. De plus, presque toutes les opérations nécessaires à l’algorithme sont
juste des opérations classiques du RNS, additions et multiplications par des constantes.
La fonction mod4 détaillée précédemment est basée sur l’évaluation du CRT, utilisant la
méthode de Kawamura et al. [64]. Nous nous assurons ensuite d’être dans le bon intervalle
pour appliquer leur approximation, grâce à la représentation Xb.
Finalement, un total de 700 000 valeurs aléatoires (entre 0 et 3P) ont été testées sur les
modulo P-160, P-192, P-256, P-384 et P-521 (voir [91]) en utilisant Maple 15. Pour chacune
des tailles implantées sur FPGA et chacun des deux algorithmes (FLT-MI et PM-MI), une
paire (n, w) a été testée sur 10 000 valeurs aléatoires en simulation VHDL (les autres implantations
ont été testées au travers de 1000 valeurs à inverser). Ces tests ont été effectués
en générant des fichiers de test VHDL avec Sage 5.2, les simulations ont été effectuées avec
ModelSim 6.6 et enfin la vérification des résultats effectuée par Sage elle aussi.
Quant à la version BTPM-MI (algorithme 18), il n’a pas encore été implanté en FPGA, sa
validation a donc été effectuée seulement sur Maple 15 aussi avec 700 000 valeurs générées
aléatoirement. Du côté de la validation théorique, on peut observer que les opérations
internes de cet algorithme sont des adaptations de l’algorithme 17, et utilisent donc les
mêmes arguments. Dans cet algorithme, comme dans l’algorithme d’Euclide étendu et sa
variante binaire, on a toujours V1A + V2P = V3 et U1A + U2P = U3. C’est juste qu’en plus
de gérer les divisions par 2 comme en binaire, on reporte aussi les divisions par 3. C’est
aussi toujours cette condition qui fait qu’à la fin de l’algorithme, on a bien calculé l’inverse.
Les opérations modulo 3, 6 et 12 permettent juste d’atteindre le résultat avec moins de2.7. CONCLUSION 97
tours de boucles, puisqu’on divise plus rapidement que dans la version purement binaire.
2.7 Conclusion
Dans ce chapitre ont été présentés deux nouveaux algorithmes permettant de calculer
l’inversion modulaire en RNS. Ces algorithmes, comme la plupart des algorithmes RNS
utilisés en cryptographie, sont basés sur des idées qui ont été proposées dans le cas standard,
mais où certaines difficultés techniques empêchaient leur réalisation en RNS. Le premier
(PM-MI) est basé sur la version binaire de l’algorithme d’Euclide étendu, le second (BTPM-MI)
propose une variante binaire-ternaire. Ces algorithmes ont la particularité de ne nécessiter
qu’une seule base RNS, aucune extension de base n’étant requise.
Pour nos divers ensembles de paramètres cryptographiques, le nombre de multiplications
élémentaires est réduit très significativement : on divise par un facteur 12 à 37 ce
nombre pour le PM-MI et de 18 à 54 pour le BTPM-MI, comparé à l’algorithme basé sur
le petit théorème de Fermat. Les algorithmes PM-MI et FLT-MI ont été implantés sur 32
ensembles de paramètres différents sur FPGA. Les résultats obtenus montrent des surfaces
très similaires, et des implantations PM-MI qui sont 5 à 12 fois plus rapides que l’état de
l’art.
Enfin, nous prévoyons d’implanter le nouvel algorithme binaire-ternaire sur FPGA, et
d’étudier son coût en temps et surface comparé au PM-MI et d’intégrer ces algorithmes dans
une implantation complète d’une multiplication scalaire ECC en RNS.98 CHAPITRE 2. INVERSION MODULAIRE RAPIDE EN RNSChapitre 3
Décomposition et réutilisation
d’opérandes pour la multiplication
modulaire RNS
Ce chapitre est basé sur un travail en partie présenté lors de la conférence ASAP
2014 [20] sur la multiplication modulaire. Cet algorithme est, à notre connaissance, le
premier à proposer une réduction du coût de la multiplication pour certains cas particuliers,
comme le carré modulaire ou une multiplication par une constante. Pour des opérandes
de n moduli, on obtient pour ces cas particuliers une complexité inférieure à 2n en terme
de multiplications élémentaires (EMM) en utilisant des extensions sur des bases réduites,
c’est-à-dire sur moins de moduli que l’état de l’art. Nous verrons que ces cas ou motifs de
calcul particuliers se retrouvent dans les algorithmes d’exponentiation et dans les formules
de courbes elliptiques.
3.1 Algorithme de multiplication modulaire RNS proposé
L’algorithme que nous avons proposé va décomposer le calcul de la multiplication modulaire
en 2 parties. La première partie effectue des calculs indépendants pour chacun des
deux opérandes, et la seconde combine les résultats de la première et, cette fois-ci, dépend
des 2 opérandes. Lorsqu’on réutilise un des opérandes pour une nouvelle multiplication
modulaire, la partie des calculs qui dépend uniquement de cette opérande va pouvoir être
réutilisée, à la différence des algorithmes de l’état de l’art. En effet, dans l’état de l’art, un
carré suivi d’une réduction modulaire en RNS coûte exactement le même prix qu’une multiplication
modulaire. C’est la même chose si on multiplie par une constante ou plusieurs
fois par la même valeur dans une séquence d’opérations.
Plus précisément, l’idée de notre algorithme est de décomposer dans un premier temps
chacun des opérandes en 2 sous-valeurs. Ces sous-valeurs sont ensuite utilisées pour fabriquer
une valeur sur 3n/2 moduli au lieu de 2n, c’est-à-dire un nombre de taille 3
2
log2 P
bits au lieu de 2 log2 P. Cette réduction du nombre total de moduli réduit le nombre de
valeurs pré-calculées à stocker.
Pour les motifs comme le carré ou la multiplication par une constante, l’étape de dé-
composition est effectuée une seule fois, ce qui va permettre de gagner en terme de nombre
d’opérations. Par exemple, lors d’une exponentiation avec l’algorithme « échelle de Mont-
99100CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
gomery » (voir l’algorithme 22), un motif très utile est A ← BC, D ← B2
. Dans un tel cas,
on remarque que la décomposition de B n’est effectuée qu’une seule fois, pour la première
multiplication et pour le carré. On gagne donc ici 2 étapes de décomposition, par rapport
à un motif A ← BC, D ← EF.
Nous allons maintenant détailler les différentes étapes de notre algorithme. Notre algorithme
de multiplication (appelé SPRR, voir section 3.1.1) est divisé en 3 étapes : premiè-
rement, la décomposition Split, ensuite la réduction partielle PR (pour partial reduction)
pour obtenir des valeurs de 3
2
log2 P bits, et enfin la réduction finale correspondant au dernier
R de SPRR. Cette réduction utilise l’algorithme MR (réduction de Montgomery RNS) de
l’état de l’art [48] (algorithme 15), pour obtenir une valeur de log2 P +ε bits (typiquement
ε = 1, 2 ou 3), c’est-à-dire une valeur inférieure à αP avec un petit α. L’algorithme complet
est détaillé en section 3.1.2.
3.1.1 L’étape de décomposition
Afin d’expliquer ce qui est réalisé, nous allons d’abord détailler le flot de calcul qui
est effectué dans les entiers (c’est-à-dire sans prendre en compte les détails de la représentation
RNS). Toujours à des fins de compréhension, on va directement considérer ici que
nous avons 3 bases, Ba, Bb et Bc, de n/2 moduli (3 « demi-bases »). On pourrait choisir
d’autres paramètres pour la taille des bases, mais dans les cas que nous allons étudier dans
ce chapitre, les meilleurs résultats sont obtenus dans ce cas précis.
Tout d’abord, durant l’étape de décomposition, les opérandes X et Y vont être décomposés
en un couple reste/quotient par Ma. L’algorithme 20 présente comment est faite cette
décomposition Split. Après l’algorithme Split, on obtient en sortie X = KxMa + Rx et
Y = KyMa+Ry. La première extension de base BE (ligne 1) convertit le reste de l’entrée X
modulo Ma (noté Rx) dans les bases Bb et Bc. Il y a ici une réduction implicite par Ma dans
la base Ba. À partir du reste, il est facile de calculer le quotient Kx ligne 2 dans les bases Bb
et Bc. Les lignes 3 à 5 ne sont utiles que si on utilise l’extension de base de Kawamura [64],
et seront expliquées dans le paragraphe suivant. Si on utilise une extension de base via
MRS [12,120], ces lignes sont inutiles. On remarque que X est une valeur de ` bits puisque
c’est un élément modulo P, donc Kx est une valeur de `/2 bits. Kx peut ainsi être extrait
à partir d’une seule des deux demi-bases Bb ou Bc (ligne 6). Dans l’algorithme présenté,
on suppose qu’on fait l’extension de base à partir de Bb. Il se peut en fait que X soit de
taille ` + ε bits en étant dans le domaine de Montgomery, mais ça ne va pas changer les
résultats obtenus. À la fin de l’algorithme, nous avons donc Kx et Rx dans les 3 demi-bases.
Si nous utilisons l’algorithme d’extension de base de Kawamura et al. [64], qui est plus
efficace que l’extension de base via MRS [120], alors l’approximation qu’elle implique lors
de la première extension de base ligne 1 de l’algorithme 20 peut retourner Rx, ou la valeur
approchée R0
x = Rx + Ma. Ceci requiert d’agrandir un peu la valeur de Mb. Dans le cas
d’une d’approximation de Rx par R0
x = Rx + Ma, on remarque que le calcul ligne 2 de
l’algorithme 20 donne K0
x = Kx − 1. Si Kx ≥ 1, alors K0
x ≥ 0, et il n’y a aucun impact sur
le reste de l’algorithme, car malgré l’approximation on a quand même X = K0
xMa + R0
x
.
Par contre, si Kx = 0 on obtient K0
x = −1, qui ne satisfait plus les hypothèses du théorème
de Kawamura et al. (théorème 5). C’est le seul cas spécial à traiter ici. Pour pallier ce
problème, il suffit de tester si K0
x = −1 dans Bb et si c’est le cas, de corriger avec K0
x = 03.1. ALGORITHME DE MULTIPLICATION MODULAIRE RNS PROPOSÉ 101
et R0
x = Rx − Ma (lignes 3-5 de l’algorithme 20). Si l’architecture implantée utilise l’inversion
modulaire PM-MI présentée au chapitre 2, ce test d’égalité avec −1 est déjà présent en
matériel en sortie des Rowers. Dans la suite de ce chapitre, sauf mention contraire, nous ne
distinguerons plus Kx de K0
x
(respectivement Rx de R0
x
).
La seconde extension de base ligne 6, elle, doit être exacte, sous peine d’obtenir un
résultat faux. Pour rappel, il faut pour cela que (1 − σ0)Mb > Kx, ce qui peut se traduire
par (1 − σ0)Mb >
αP
Ma
. Cela implique donc une contrainte sur la taille de Mb et sur la base
Bb pour satisfaire le théorème 4 (cas exact de Kawamura et al.). Les propositions 1 et 2 de
la section 3.1.2 intègrent ces contraintes, qui sont ensuite expliquées dans la section 3.1.3
de démonstration.
Algorithme 20: Étape de décomposition (Split).
Entrée :
−−−→
Xa|b|c
, X < αP
Pré-calcul :
−−−−−−−→
M−1
a
b|c
Sorties :
−−−−−−→
(Kx)a|b|c
,
−−−−−−→
(Rx)a|b|c avec
−−−→
Xa|b|c =
−−−−−−→
(Kx)a|b|c ×
−−−−−−→
(Ma)a|b|c +
−−−−−−→
(Rx)a|b|c
1
−−−−−→
(Rx)b|c ← BE −−−−→
(Rx)a , Ba, Bb|c
2
−−−−−→
(Kx)b|c ←
−−→
Xb|c −
−−−−−→
(Rx)b|c
×
−−−−−−−→
M−1
a
b|c
3 si
−−−−−→
(Kx)b|c =
−→
−1 alors
4
−−−−−→
(Kx)b|c ←
−→
0 /*correction de l’erreur d’extension de base */
5
−−−−−→
(Rx)b|c ←
−−−−−→
(Rx)b|c −
−−−−−→
(Ma)b|c
6
−−−−→
(Kx)a ← BE −−−−→
(Kx)b , Bb, Ba
7 retourner
−−−−−−→
(Kx)a|b|c
,
−−−−−−→
(Rx)a|b|c
Pour réduire le nombre de calculs, on peut observer que la multiplication ligne 2 de
l’algorithme 20 par
−−−−−−−→
M−1
a
b|c
peut être combinée avec celle par
−−−−−→
T
−1
b
b
, dans la première
ligne de l’algorithme 14 d’extension de base (pour la seconde extension de base de l’algorithme
20). Nous sauvons ainsi nb EMM. Comme indiqué dans la table 3.2, on pré-calcule
alors
−−−−−−−−−→
M−1
a T
−1
b
b
. Cette table inclut les pré-calculs des BE utilisées dans Split.
Finalement, le coût de l’algorithme Split est (na + na(nb + nc))+(nb + nbna)+nc EMM,
pour les deux extensions de base. Dans notre cas, c’est-à-dire avec na = nb = nc = n/2, le
coût total est alors 3
4
n
2+
3
2
n EMM. Pour conclure, on peut voir l’étape Split comme une sorte
de décomposition à la manière de Karatsuba-Ofman [63]. Dans le cas de Karatsuba-Ofman,
on effectue ensuite 3 multiplications au lieu de 4. Dans notre cas, nous allons voir que nous
allons réduire une valeur représentée sur 3
2
n au lieu de 4
2
n = 2n moduli. L’analogie s’arrête
ici, la multiplication de Karatsuba-Ofman ne semblant pas s’appliquer (de façon efficace)
à la représentation RNS, car c’est une représentation des nombres non positionnelle.102CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
3.1.2 Algorithme de multiplication modulaire SPRR
Notre méthode complète est présentée dans l’algorithme 21 et illustrée sur la figure 3.1.
On suppose que les entrées de la multiplication modulaire sont inférieures à αP.
Algorithme 21: Multiplication modulaire proposée SPRR.
Entrées :
−−−→
Xa|b|c
,
−−−→
Ya|b|c
, avec X, Y < αP
Pré-calcul : D = |M−1
a
|P
Sortie :
−−−→
Va|b|c avec V ≡
XY M−1
a M−1
b
P
et V < αP
1 (
−−−−−−→
(Kx)a|b|c
,
−−−−−−→
(Rx)a|b|c
) ← Split(
−−−→
Xa,b,c )
2 (
−−−−−−→
(Ky)a|b|c
,
−−−−−−→
(Ry)a|b|c
) ← Split(
−−−→
Ya,b,c )
3
−−−→
Ua|b|c ← PR −−−−−−→
(Kx)a|b|c
,
−−−−−−→
(Rx)a|b|c
,
−−−−−−→
(Ky)a|b|c
,
−−−−−−→
(Ry)a|b|c
, D
4
−−−→
Va|b|c ← MR(
−→
Ub ,
−−→
Ua|c
)
5 retourner
−−−→
Va|b|c
Après les deux étapes Split aux lignes 1 et 2, une opération PR de réduction partielle
est utilisée (et détaillée juste ensuite) qui permet d’obtenir une valeur sur 3
2
n moduli,
c’est-à-dire de taille 3
2
log2 P. Enfin, ligne 4, on effectue une dernière réduction en utilisant
l’algorithme 15 de réduction de Montgomery en RNS sur ces bases réduites. Après les
décompositions lignes 1 et 2, on a :
|X Y |P =
KxKyM2
a + (KxRy + KyRx)Ma + RxRy
P
. (3.1)
Afin de faire une réduction partielle à partir de l’équation 3.1, nous allons supposer la
relation qui suit entre la base Ba et P.
Hypothèse 1 (H1). Soit D = |M−1
a
|P , c’est-à-dire l’inverse de Ma modulo P. On suppose
alors qu’il existe µ, avec µ très petit (typiquement 1, 2 ou 3) tel que µP + 1 = Ma × D.
Sous cette hypothèse H1, nous définissons U comme
U = KxKyMa + (KxRy + KyRx) + RxRyD ≡ |X Y D|P
. (3.2)
En choisissant na = n/2, les tailles de Ma, Rx, Kx et D sont très proches de `/2
bits et on a log2 U ≈
3
2
log2 P sous H1. Ainsi, puisque na = nb = nc = n/2, il suffit de
calculer U sur les bases Ba, Bb et Bc (
3n
2 moduli en tout). Plus précisément, en posant
C(α, µ) = α
2
µ
D + 4α + 4µMa, on a :
0 6 U < C(α, µ)P + 4Ma. (3.3)
Ce résultat sera prouvé en section 3.1.3. Pour bien comprendre ce qu’implique cette
inégalité, il faut tout d’abord voir qu’on peut négliger 4α dans l’expression de C(α, µ),
car en pratique α est pris petit (typiquement α = 2 ou 3, cf. [10, 52, 64]). Ensuite, l’impact
du terme 4Ma est très limité, car pour notre algorithme log2 Ma <
`
2
. Pour résumer,
U est borné par un entier Γ de la forme Γ = (γ1D+γ2Ma)P, avec γ1 et γ2 des petits entiers.
La première conclusion est que si log2 Ma ≈
`
2
, on a log2 D ≈
`
2
et donc log2 Γ ≈
3`
2
(on
rappelle que dlog2 Pe = `). La deuxième conclusion est que la taille de U est directement3.1. ALGORITHME DE MULTIPLICATION MODULAIRE RNS PROPOSÉ 103 extension de base BE calculs dans 1 base
Split PR MR
base
Ba
Xa
Ya
Ua
Kx
Ky
Ry = Ya
Rx = Xa
Qa Sa
base
Bb
Xb
Yb
Rx Kx
Ry Ky
Ub Qb Sb
base
Bc
Xc
Yc
Rx Kx
Ry Ky
Uc Qc Sc
Figure 3.1 – Flot de calcul dans l’algorithme SPRR.
liée aux tailles de Ma et D, et plus précisément à max(dlog2 Mae , dlog2 De).
Nous allons maintenant justifier le choix d’une base Ba avec n/2 moduli et la nécessité
de la condition H1. Dans notre algorithme, nous voulons minimiser la taille de U, autrement
dit avoir une réduction partielle la plus efficace possible. Ainsi, la réduction finale
MR est effectuée sur le moins de moduli possibles, nous permettant de réduire le coût des
extensions de bases. Il nous faut donc minimiser max(dlog2 Mae , dlog2 De). À cause du fait
que D = |M−1
a
|P , il est impossible que Ma et D aient une taille plus petite que `/2 tous les
deux à la fois, tout simplement parce que MaD > P et donc log2 Ma + log2 D > `. Ainsi,
la borne sur U est proche d’être minimale lorsque log2 Ma ≈ log2 D ≈ `/2, ce qui explique
notre choix de départ sur le nombre de moduli de Ba et la nécessité de la condition H1.
Remarque. Si on ne s’autorisait aucune condition liant la base Ba et P, alors D serait
un élément quelconque de FP , de taille `. Dans ce cas, on aurait log2 U > 2` et la dernière
étape de l’algorithme MR coûterait exactement une réduction modulaire de Montgomery
en RNS de l’état de l’art. Avec en plus le coût des autres étapes, notre algorithme serait
finalement bien plus coûteux que l’état de l’art.
L’étape PR de l’algorithme 21 calcule U à partir de l’équation 3.2. Cette opération coûte
au premier abord 6 multiplications RNS sur chacun des 3n
2 moduli (c.-à-d. 9n EMM). En
utilisant la méthode de Karatsuba-Ofman sur l’équation 3.2, on obtient :104CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
U =KxKyMa + (KxKy + RxRy − (Kx − Rx)(Ky − Ry)) + RxRyD
=KxKy(Ma + 1) + RxRy(D + 1) − (Kx − Rx)(Ky − Ry) . (3.4)
On a donc plus que 5 multiplications par moduli menant à 7.5n EMM. On remarque que
dans la première base Ba, la multiplication par (Ma + 1) n’en est pas vraiment une car cela
revient à multiplier par 1. Cela réduit le coût d’une EMM par élément de Ba, on obtient 7n
EMM en tout.
Enfin, le calcul de U peut être réduit dans certains cas particuliers. Par exemple, si
nous calculons un carré, alors l’équation 3.2 ne requiert plus que 3 multiplications dans Ba
(KxRx et (RxRy)D), ce qui mène à un coût total de 6.5n pour PR.
Dans la séquence d’opérations (|XY |P , |XZ|P ), les calculs Kx(Ma + 1) et Rx(D + 1)
sont communs aux deux multiplications, ces calculs peuvent donc être factorisés. Dans ce
cas, il ne reste plus que 3 EMM par canal sur Ba, Bb et Bc d’après l’équation 3.4, menant à
un coût total de 4.5n pour PR.
Dans le cas d’une multiplication par une constante C, le coût peut être réduit à 3n en
calculant directement
U = Kx|C|P + Rx|CD|P .
Pour ce dernier cas, il n’y a plus que 2 multiplications par canal, on obtient bien 3n EMM
au total.
La dernière étape de l’algorithme applique la réduction modulaire RNS de l’état de
l’art (algorithme 15), mais seulement sur 3
2
n moduli. La base de départ est la base Bb et
celle d’arrivée est Ba|b
, la concaténation de Ba et Bc. Le coût de cette dernière étape est
2nb(na + nc) + 2(na + nc) + nb = n
2 +
5
2
n EMM. Ce coût prend en compte les améliorations
proposées par Guillermin [52] et Gandino et al. [48] qui sont basées sur la factorisation
de certains pré-calculs. L’amélioration de Gandino et al. nécessitant un changement de la
représentation RNS dans une des bases ne semble pas utilisable ici de façon efficace.
La proposition 1 résume toutes les conditions requises pour appliquer notre multiplication.
Sa preuve est donnée dans la section 3.1.3.
Proposition 1 (sous l’hypothèse H1). Soit P un grand entier, premier avec les 3 bases
RNS notées Ba, Bb et Bc. Si Mb >
1
α−2
(C(α, µ) + 1), Mc >
(α−2)P
Ma
et X, Y < αP alors,
en sortie de l’algorithme 21, on a
−−−→
Va|b|c = |XY M−1
a M−1
b
|P avec V < αP.
Ce théorème peut être réécrit facilement pour une autre hypothèse H2, très proche
de H1.
Hypothèse 2 (H2). Soit D = | − M−1
a
|P , c’est-à-dire l’inverse de (−Ma) modulo P. On
suppose alors qu’il existe µ, avec µ très petit (typiquement 1, 2 ou 3) tel que µP − 1 =
Ma × D.
L’hypothèse H2 sera utilisée pour des applications du logarithme discret dans les corps
finis comme les cryptosystèmes de type Diffie-Hellman. Sous l’hypothèse H2, nous redéfi-
nissons U avec
U = KxKyMa + (KxRy + KyRx) − RxRyD + MaP ≡ |X Y (−D)|P
.
On a rajouté le terme MaP à l’expression de U pour s’assurer qu’elle soit bien positive.
Cette variation H2 de l’hypothèse H1 définit aussi une nouvelle version de la proposition.
La seule différence provient de la condition sur la taille de Mb.3.1. ALGORITHME DE MULTIPLICATION MODULAIRE RNS PROPOSÉ 105
Proposition 2 (sous l’hypothèse H2). Soit P un grand entier, premier avec les 3 bases
RNS notées Ba, Bb et Bc. Si Mb >
1
α−2
(C(α, µ) + Ma + 1), Mc >
(α−2)P
Ma
et X, Y < αP
alors, en sortie de l’algorithme 21, on a
−−−→
Va|b|c = |XY M−1
a M−1
b
|P avec V < αP.
Nous ne traitons pas dans cette section du coût de l’algorithme complet car nous verrons
dans la section 3.2 que ce coût dépend fortement de la séquence de calculs dans laquelle on
l’utilise. Ceci est bien illustré dans la figure 3.1, où les étapes Split des 2 entrées sont complètement
indépendantes. Ces étapes Split peuvent être factorisées avec d’autres appels
de SPRR réutilisant l’un des opérandes. Dans le cas d’un carré, un seul Split est effectué.
L’étude du coût de l’algorithme n’a d’intérêt que dans les motifs d’opérations utilisés dans
les différentes applications.
Pour conclure la présentation de notre algorithme, on peut remarquer que pour pouvoir
enchaîner les multiplications, il nous faut convertir les entrées dans le domaine de
Montgomery. Les entrées sont ainsi de la forme X0 = |XMaMb|P et Y
0 = |Y MaMb|P , et
l’algorithme SPRR retourne alors |XY MaMb|P . On garde ainsi la même représentation que
l’état de l’art, mais sur moins de moduli.
3.1.3 Preuve des propositions 1 et 2
Nous allons démontrer dans cette sous-section les bornes des propositions 1 et 2. Les dé-
monstrations étant très similaires pour les deux propositions, on va tout d’abord se focaliser
sur le cas de la proposition 1, c’est-à-dire en considérant H1. Pour commencer, nous allons
étudier la taille de U, sortie du calcul de l’étape PR. Cette étape fait le lien entre les extensions
de base de l’étape Split et celles de la réduction finale MR (ligne 4 de l’algorithme 21).
Par définition du reste de la division euclidienne, on a 0 6 Rx, Ry < Ma. De plus, sous
l’hypothèse H1 on a MaD = µP + 1, et puisque X < αP alors :
0 6 Kx 6
αP
Ma
6
αP
µP + 1
D < α
µ
D .
Comme expliqué dans la section 3.1.1, si l’approximation de l’extension de base de
Kawamura et al. [64] nous fait commettre une approximation dans le calcul, on obtiendra
à la sortie de Split les valeurs R0
x = Rx + Ma et K0
x = Kx − 1. Nous n’avons ici pas de
moyen de détecter si Kx ou K0
x a été calculé (sauf pour le cas précis où K0
x = −1), on va
donc considérer des encadrements plus larges −1 6 Kx, Ky <
α
µ
D et 0 6 Rx, Ry < 2Ma.
On obtient alors la borne supérieure suivante sur U :
U = Kx(KyMa) + KxRy + KyRx + Rx(RyD)
<
α
µ
D(αP) + 2αP + 2αP + 4Ma (µP + 1)
<
α
2
µ
D + 4α + 4µMa
P + 4Ma
6 C(α, µ)P + 4Ma ,
où C(α, µ) =
α
2
µ
D + 4α + 4µMa
permet de simplifier l’écriture. On rappelle que l’on
se place sous l’hypothèse H1, et que log2 U ≈
3`
2
.106CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
Pour que U ≡ |XY D|P , il ne faut pas qu’une réduction implicite se produise. Tout
d’abord, nous pouvons remarquer que U n’est jamais négatif car, en sortie de Split, Kx
et Rx ne sont jamais négatifs. Nous rappelons que les effets générés par l’approximation
due à l’utilisation de l’extension de base de Kawamura et al. sont gérés à l’intérieur de la
fonction Split. Pour qu’il n’y ait pas de réduction implicite, il faut aussi que le produit
de tous les moduli soit supérieur à U. Ceci explique que l’on ait besoin de 3 demi-bases, et
pas seulement 2, afin de disposer des 3n
2 moduli nécessaires à la représentation de U. En
effet, la troisième base Bc n’est en réalité pas nécessaire pour réaliser les étapes Split et
PR. Par contre, elle est requise pour effectuer notre dernière étape, pour avoir le nombre
minimal de moduli requis pour représenter U. C’est pourquoi il faut que les calculs soient
aussi réalisés sur cette base. On choisit donc Mb et Mc tels que MaMbMc > C(α, µ)P +4Ma.
On va tout d’abord fixer les conditions sur Mb, puis en déduire la condition sur Mc.
Nous commençons par Mb car c’est Mb qui va jouer le rôle de la première base dans
l’algorithme 15 MR et qui va impacter la taille de la sortie de l’algorithme SPRR. Nous
souhaitons que les éléments retournés par l’algorithme SPRR soient inférieurs à αP pour
être réutilisés ensuite comme une entrée dans un autre appel de SPRR. L’algorithme 15 MR
est ici appliqué avec Bb comme première base et Ba|c comme seconde base. On rappelle
que la base Ba|c est la concaténation des bases Ba et Bc, et a deux fois plus d’éléments
que Bb. Le résultat de SPRR est le résultat de l’algorithme MR appliqué ligne 4, c’est-à-dire
U+Qa|cP
Mb
(voir algorithme 15). En partant de U+Qa|cP
Mb
< αP on obtient :
0 6
U
Mb
<
α −
Qa|c
Mb
P < (α − 2) P , (3.5)
car Qa|c < 2Mb. Cela vient du fait que Qa|c est la sortie de la première extension de
base (ligne 2 de l’algorithme 15). On rappelle que dans le cas de la première extension de
base de l’algorithme 15, la résultat n’est pas forcément exact, c’est pourquoi on considère
Qa|c < 2Mb et non pas seulement Qa|c < Mb. On déduit finalement une condition suffisante
sur Mb pour satisfaire l’équation 3.5, en utilisant la borne sur U. En remarquant que
4Ma
P < 1, on peut choisir Mb tel que :
Mb >
1
α − 2
(1 + C(α, µ)) >
1
α − 2
4Ma + C(α, µ)P
P
>
U
(α − 2)P
. (3.6)
On remarque qu’en appliquant cette condition, Mb est forcément plus grand que 4Ma, ce
qui permet de remplir directement la condition pour effectuer l’étape Split avec l’extension
de base de Kawamura et al. [64].
Pour conclure, nous allons donner une version simplifiée de la condition sur Mc, en
supposant l’équation 3.6. Il faut que le produit de tous les éléments des 3 demi-bases,
c’est-à-dire MaMbMc soit supérieur à U. On peut donc transcrire cette condition par :
MaMbMc > C(α, µ)P + 4Ma .
Pour simplifier le choix de Bc et donc de Mc, on peut directement utiliser la condition sur
Mb (équation 3.6) en lieu et place de Mb, nous menant à la condition M c > (α − 2) P
Ma
.
On vérifie alors bien :
MaMbMc > (α − 2)PMb > C(α, µ)P + 4Ma .3.1. ALGORITHME DE MULTIPLICATION MODULAIRE RNS PROPOSÉ 107
Nous avons ici démontré que les bornes sur Mb et Mc étaient suffisantes pour obtenir
le résultat souhaité à la fin de l’algorithme SPRR, sous l’hypothèse H1. Si maintenant
nous considérons H2, très peu de changements sont à effectuer. En effet, H2 implique une
modification de la définition de U, qui pour rappel devient :
U = KxKyMa + (KxRy + KyRx) − RxRyD + MaP ≡ |X Y (−D)|P
.
Pour que U soit toujours positif, nous avons rajouté un terme MaP car par définition
MaP > RxRyD. Cet ajout est reporté sur la borne sur U qui devient
U 6 (C(α, µ) + Ma) P + 4Ma .
Finalement, la condition suivante est obtenue :
Mb >
1
α − 2
(1 + Ma + C(α, µ)) >
1
α − 2
4Ma + PMa + C(α, µ)P
P
>
U
(α − 2)P
.
Le passage de la condition H1 à H2 ne change par contre en rien la condition sur Mc.
3.1.4 Sélection des paramètres
Pour utiliser efficacement l’algorithme SPRR, nous avons besoin des conditions H1 et
H2 pour que U puisse être représenté sur seulement 3n
2 moduli (cf. section 3.1.3). Ainsi, on
utilise MR sur une demi-base Bb et une base complète Ba|c
(à la fin de l’algorithme SPRR) au
lieu des 2 bases complètes que l’on a dans l’état de l’art [48, 52, 64]. Nous verrons dans la
section 3.3.1 qu’il est possible de se passer des hypothèses H1 et H2 pour certains motifs
de calcul très particuliers.
Pour satisfaire les hypothèses H1 et H2, deux stratégies peuvent être adoptées. Premiè-
rement, si nous supposons que P est fixe, il nous faut alors trouver une base Ba satisfaisant
H1 ou H2. Ainsi, nous pourrions utiliser notre algorithme pour tous les cryptosystèmes,
avec les paramètres standards pour P, comme ceux pour ECC [91]. Malheureusement, nous
n’avons, jusqu’à présent, pas trouvé de bonne méthode de sélection des moduli pour parvenir
à satisfaire l’une des 2 hypothèses. Si nous choisissions de façon aléatoire Ba pour un
P fixé, alors U aurait une taille de 2` au lieu de 3`
2
.
L’autre stratégie est de considérer le problème dans l’autre sens, et de trouver un P qui
satisfasse l’hypothèse H1 ou H2 à partir d’une base Ba donnée. Par exemple, dans le cas de
H2, on a P =
MaD−1
µ
avec µ petit. En pratique, on peut choisir µ = 1, tester des valeurs
aléatoires pour D (de taille `/2 bits) et tester si MaD − 1 est un nombre premier. Cette
stratégie fonctionne mais empêche l’utilisation des P des standards pour ECC. Bien sûr,
on ne peut pas appliquer SPRR à RSA car sa sécurité est directement liée à la valeur du
module RSA et à sa factorisation, on ne va donc pas utiliser ses propriétés pour accélérer
les calculs. Pour le logarithme discret, le paramètre P est généré avec une certaine forme,
dont H2 est un sous-cas (cf. section 3.2.1).
Choisir de nouveaux P pour les courbes elliptiques n’est pas un problème. En effet,
jusqu’à maintenant les attaques n’arrivent pas à exploiter les caractéristiques du corps de
base, mais portent sur les propriétés de la courbe (notamment son cardinal). C’est pour
cela que les standards du NIST [91] proposent des corps spécialement conçus pour être très
efficaces en numération simple de position binaire (le binaire « classique »). Par exemple,108CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
le corps standardisé P521 = 2521 − 1 permet des réductions modulaires rapides, comme
expliqué dans la section 1.2.2. De la même façon, des paramètres P peuvent être générés
pour être favorables à une utilisation du RNS. De même, nous verrons dans la section 3.2.1
que l’hypothèse H2 peut être utilisée pour générer des paramètres pour les cryptosystèmes
Elgamal et Diffie-Hellman.
Nous allons maintenant discuter de l’utilisation des 3 bases Ba, Bb et Bc. Tout d’abord,
nous soulignons que Ba a un statut particulier dû à son implication dans les deux hypothèses
H1 et H2. Ceci étant dit, les deux autres bases pourraient voir leurs rôles échangés
dans une des étapes. En fait, si la base Bb est utilisée pour effectuer la deuxième extension
de base de l’étape Split et la première de la réduction MR finale, c’est pour factoriser
certains pré-calculs, réutilisés pour ces 2 opérations. On sauve ainsi (n
2/4) + (n/2) mots
élémentaires de w bits à stocker (EMW pour elementary memory word).
Dans le cadre d’une analyse plus fine des paramètres, on peut noter que la taille de Mb
est plus grande de quelques bits que celle de Ma. Par exemple, pour µ = 1 et α = 3, la
condition de la proposition 1 devient Mb > 9D + 4Ma + 16. Ces quelques bits supplémentaires
peuvent être facilement obtenus, en prenant par exemple un ou deux éléments de
Ba avec w − 1 bits et un ou deux de Bb avec w + 1 bits. Ce genre d’effet a été ici négligé
pour les décomptes d’opérations. Nous avons supposé que les multiplications de w, w + 1
et w − 1 bits ont toutes le même coût. C’est notamment le cas lorsqu’on utilise les blocs
multiplieurs dans les FPGA, qui ont une taille fixée, tant que w + 1 est plus petit ou égal
à la taille limite supportée par un bloc multiplieur.
3.2 Applications
Les performances théoriques de notre méthode SPRR sont comparées ci-dessous à la
multiplication de Montgomery RNS de l’état de l’art [48]. Nous allons analyser dans cette
section le nombre de multiplications modulaires élémentaires de w bits (EMM) et le nombre
de mots mémoire élémentaires (EMW). Le nombre d’EMM est la métrique utilisée pour effectuer
les comparaisons dans l’état de l’art [12, 48, 95]. La plupart du temps en RNS, il y a,
à peu près, autant de multiplications que d’additions élémentaires, car les parties les plus
coûteuses du calcul modulaire en RNS sont les extensions de base. Ces extensions, que
ce soit avec le CRT ou via le MRS, utilisent grossièrement le même nombre d’additions
et de multiplications (succession de multiplications-additions). Les coûts ici seront donc
exprimés en nombre de multiplications. Enfin, une dernière métrique globale sera proposée,
le produit EMM × EMW. En RNS, le nombre de pré-calculs est important, c’est pourquoi
cette métrique est prise en compte. Cette métrique permet, dans une certaine mesure, de
donner une idée des améliorations que l’on peut espérer sur le compromis temps-surface
pour une implantation matérielle du SPRR. On peut d’ailleurs noter que pour réduire le
coût en surface d’une implantation RNS, on peut réduire le nombre de Rowers, mais par
contre la quantité de pré-calculs à stocker, elle, ne change pas. La part de circuit allouée
à la mémoire sera donc de plus en plus importante vis-à-vis de celle allouée aux Rowers
lorsqu’on cherchera a obtenir une implantation compacte.
La table 3.1 présente le coût théorique de certaines opérations (en EMM), classiques en
cryptographie asymétrique, pour quelques motifs d’opérations dans le corps. Pour ces opé-
rations, nous considérons directement la représentation de Montgomery en RNS afin de
simplifier les notations, autrement dit |AB|P est en fait |ABMaMb|P . Nous verrons ensuite3.2. APPLICATIONS 109
Opérations |AB|P |A2
|P |Cst × A|P
MM [EMM] 2n
2 + 4n 2n
2 + 4n 2n
2 + 4n
SPRR [EMM] 2.5n
2 + 12.5n 1.75n
2 + 10.5n 1.75n
2 + 7n
Table 3.1 – Comparaison du coût théorique d’opérations courantes en cryptographie, en
nombre de multiplications élémentaires EMM (Cst est une constante).
Split PR MR
−−−−−→
T
−1
a
a
: n/2
−−−→
Da|b|c
: 3n/2
−−−−−−−−−−→
−P
−1T
−1
b
b
: n/2
−−−−−→
(Ta,i)
b|c
: n
2/2
−−−→
Pa|b|c
: 3n/2
−−−−→
(Tb,i)
c
: n
2/4
−−−−−→
(Ma)
b|c
: n
−−−−−→
(−Mb)
c
: n/2
−−−−−−→
M−1
a
c
: n/2
−−−−−−−−−−→
M−1
b
T
−1
a|c
a|c
: n
−−−−−−−−−→
M−1
a T
−1
b
b
: n/2
−−−−−−→
Ta|c,i
b
: n
2/2
−−−−→
(Tb,i)
a
: n
2/4
−−−−−→
Ma|c
b
: n/2
−−−−−−→
(−Mb)a
: n/2
Total : 3n
2/2 + 17n/2
Table 3.2 – Décompte du nombre de pré-calculs à stocker en mots de w bits (EMWs) pour
notre algorithme SPRR.
que grâce aux factorisations (notamment des Splits) et à la réutilisation d’opérandes, le
coût total peut être bien plus réduit dans une séquence d’opérations que dans la somme des
opérations individuelles. Dans la table 3.1, nous voyons notamment que la multiplication
modulaire coûte moins cher avec l’algorithme de l’état de l’art dans le cas de 2 opérandes
distinctes, c’est-à-dire |AB|P . Par contre, le carré modulaire et la multiplication par une
constante coûtent moins cher (du moins asymptotiquement) que l’algorithme de l’état de
l’art, et c’est là l’intérêt de la solution proposée.
Pour parvenir à ce résultat, il nous faut d’abord compter pour chacune des opérations
le nombre d’étapes Split requises, puis rajouter le coût de l’étape PR en utilisant les optimisations
proposées dans la section 3.1 et enfin rajouter le coût d’une réduction finale MR
sur bases réduites. Pour |AB|P , on a besoin de deux Split, de l’étape PR sans optimisation
particulière (autre que l’utilisation de Karatsuba) et enfin d’une réduction MR, ce qui donne
2×
3
4
n
2 +
3
2
n
+ (7n) +
n
2 +
5
2
n
=
5
2
n
2 +
25
2
n = 2.5n
2 + 12.5n EMM. Le carré |A2
|P ne né-
cessite lui qu’un seul Split. De plus, on peut gagner un peu sur l’étape PR en économisant
certains produits, ce qui nous donne
3
4
n
2 +
3
2
n
+ (6.5n) +
n
2 +
5
2
n
= 1.75n
2 + 10.5n
EMM. Enfin, en multipliant par une constante, on réduit le coût de PR à 3n au lieu de 6.5n
pour le carré, ce qui donne 1.75n + 7n.
La table 3.2 présente le décompte des valeurs à pré-calculer pour notre algorithme,110CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
étape par étape, en mots mémoire élémentaires EMW. Grâce à la réduction du nombre de
moduli de 2n à
3
2
n et à l’utilisation d’extensions de base uniquement sur des bases réduites,
le nombre d’EMW est réduit. En effet, dans l’article de Gandino et al. [48], le nombre de pré-
calculs s’élève à 2n
2 + 10n contre 3
2
n
2 +
17
2
n pour notre algorithme SPRR. La figure 3.2
illustre le rapport SPRR / MM en terme de EMW. On peut observer jusqu’à 25 % de réduction
du nombre d’EMM, avec au moins 20% de réduction dès que n est supérieur à 5.
0.7
0.8
0.9
1.0
10 20 30 40 50 60 70
SPRR / MM
n
MEMOIRE EMW
Figure 3.2 – Rapport du nombre d’EMW pré-calculés de notre solution SPRR vis à vis de
l’état de l’art MM, pour des nombres de moduli classiques en cryptographie asymétrique.
3.2.1 Application au logarithme discret
Nous allons ici étudier l’application de l’algorithme SPRR au cas des exponentiations
dans FP pour des cryptosystèmes comme Diffie-Hellman [38] et Elgamal [44].
Comme décrit dans le chapitre 1, pour ces cryptosystèmes basés sur le logarithme discret,
on choisit un P premier de 1024 à 3072 bits avec P −1 = V Q et Q un premier de 160 à
256 bits. En fait, cette condition correspond à l’hypothèse H2, avec µ = 1 et D un multiple
de Q : P − 1 = V Q = MaV
0Q = MaD. On peut alors générer P sous cette hypothèse, et
l’utiliser pour les calculs de logarithme discret. On calcule ensuite des exponentiations de
G où G est un générateur du sous-groupe d’ordre Q de F
∗
p
.
Une première application pour le SPRR est l’algorithme 22, la très utilisée « échelle de
Montgomery » (voir [62]), utilisé comme protection contre certaines attaques par canaux
cachés. Pour chacun des bits de l’exposant, deux multiplications sont effectuées. On remarque
que pour ces 2 multiplications modulaires, on a seulement 2 opérandes différentes,
R0 et R1, ce qui implique seulement 2 étapes Split. Dans ce motif de calcul, notre algorithme
va donc être efficace, avec un coût de 3.5n
2 + 19n EMMs contre 4n
2 + 8n EMMs
pour MM. Si on prend aussi en compte la mémoire pour le coût global, nous obtenons
5.25n
4 + 58.25n
3 + 161.5n
2 EMM × EMW pour SPRR contre 8n
4 + 56n
3 + 80n
2 EMM × EMW pour
MM.
La figure 3.3 illustre ces résultats théoriques pour l’échelle de Montgomery, mais aussi
pour l’algorithme LSBF 5 présenté au chapitre 1 avec une notation additive de la loi
de groupe. Dans cet algorithme, si le bit d’exposant vaut 1, on effectue le même motif
d’opérations que dans le cas de l’échelle de Montgomery. Lorsque ce bit vaut 0, seul un
carré est effectué, ce qui reste un bon motif d’opérations pour effectuer notre algorithme. Les
résultats entre les deux exponentiations sont très similaires comme le montre la figure 3.3,
que ce soit en terme de nombre d’opérations EMM ou en coût global EMM × EMW. Les tailles
habituelles pour ces exponentiations sont 1024 et 2048 bits, et correspondent à n = 33 et
n = 66 pour des mots de w = 32 bits (voir la table 1.6). Pour n = 33 et n = 66, on obtient
respectivement une réduction de 4 % et 9 % du nombre d’EMM et jusqu’à 30 % de réduction
sur le coût total EMM × EMW.3.2. APPLICATIONS 111
Algorithme 22: Exponentiation « échelle de Montgomery » [62].
Entrées : G, E = (et−1, . . . , e0)2
Sortie : S = GE mod P
1 R0 ← 1; R1 ← G
2 pour de j = t − 1 à 0 faire
3 si ej = 0 alors
4 R1 ← R0R1; R0 ← R2
0
5 sinon
6 R0 ← R0R1; R1 ← R2
1
7 retourner R0
0.7
0.8
0.9
1.0
1.1
1.2
10 20 30 40 50 60 70
SPRR / MM
n
Exponentiation LSBF [EMM]
Exponentiation LSBF [EMM*EMW]
0.7
0.8
0.9
1.0
1.1
1.2
SPRR / MM
Exponentiation de Montgomery [EMM]
Exponentiation de Montgomery [EMM*EMW]
Figure 3.3 – Comparaison théorique des performances (EMM) et du coût (EMM × EMW) des
algorithmes SPRR et MM pour les algorithmes d’exponentiations 22 (échelle de Montgomery)
et 5 (LSBF, poids faibles en tête).112CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
3.2.2 Applications aux courbes elliptiques
Nous allons maintenant présenter des exemples d’applications de notre algorithme sur
des formules d’opérations sur les points d’une courbe elliptique, comme l’addition et le
doublement. Nous présentons ici trois ensembles de formules. Afin d’évaluer les différents
coûts, nous avons procédé de la même façon que pour le logarithme discret. Nous n’allons
pas ici détailler ces calculs car, d’une part, dans le prochain chapitre nous présentons un
bien meilleur algorithme de multiplication applicable uniquement pour les courbes elliptiques
et d’autre part, la complexité des formules rend ce décompte fastidieux. Ces résultats
sont présentés car ils montrent tout de même comment se comporte notre algorithme sur
diverses applications d’additions ou de doublements de points. Pour le décompte des opé-
rations en utilisant l’algorithme SPRR, nous avons d’abord compté le nombre d’éléments à
décomposer en utilisant Split, puis le nombre d’appels à PR en adaptant le coût suivant
que l’on effectue une multiplication, un carré ou un produit par une constante. Enfin, le
nombre de MR sur base réduite est exactement le nombre de réductions MR de l’état de l’art.
Ces décomptes mènent finalement aux résultats présentés dans les tables 3.3, 3.4 et 3.5.
Ces tables fournissent des complexités dépendantes de n et sont illustrées graphiquement
dans les figures 3.4 et 3.5.
Le premier ensemble de formules est présenté dans la table 3.3. Ce sont les formules issues
de [17] qui sont applicables pour le cas classique des courbes représentées par l’équation
de Weierstrass courte en coordonnées Jacobiennes. On rappelle que les coordonnées Jacobiennes
sont définies par (X, Y, Z) avec x = X/Z2
et y = Y /Z3
. D’après [17], ce sont celles
qui requièrent le moins d’opérations pour ces courbes là avec ces coordonnées. Cette table
propose les coûts pour 3 opérations de points : le doublement, le triplement et l’addition
mixte. L’addition mixte est une addition où l’un des deux points en entrée est représenté
en coordonnées affines (c.-à-d. Z = 1), elle est donc moins coûteuse qu’une addition avec
deux points quelconques. Lorsqu’on utilise l’algorithme 5 pour effectuer la multiplication
scalaire, alors le point P, fixe, va être représenté en coordonnées affines afin de pouvoir faire
une addition mixte. Ces formules d’addition mixte sont d’autant plus intéressantes avec le
SPRR car elles permettent plus de réutilisation qu’une addition de points quelconques. On
fournit aussi les résultats pour le doublement de point et le triplement, utilisé pour accélérer
la multiplication scalaire en utilisant le recodage de clé DBNS, voir par exemple [40]. On
remarque que pour ces formules, notre algorithme est toujours asymptotiquement meilleur
que MM, que ce soit en nombre d’opérations EMM ou en coût global EMM×EMW. Par contre, les
constantes devant n étant plus grandes, nous verrons que ces formules ne sont meilleures
que pour de hauts niveaux de sécurité.
Un autre exemple de formules est fourni dans la table 3.4, issu de [8] et utilisé dans l’implantation
ECC de l’état de l’art en RNS [52]. Ces formules ont été spécialement adaptées
pour le RNS et pour l’utilisation de l’échelle de Montgomery en tant que contre-mesure.
Ces formules ont été proposées afin de réduire le nombre de réductions modulaires RNS,
notamment via l’utilisation de motifs de type « sommes de produits » avant de procéder
à la réduction modulaire. Ces formules ont la particularité de proposer un doublement de
point plus cher qu’une addition en RNS avec l’algorithme de l’état de l’art MM, comme le
montre la table 3.4. Pour ces formules, on observe que l’addition de points est toujours
meilleure avec l’algorithme de l’état de l’art MM, alors que le doublement est meilleur avec
SPRR, toujours grâce à un plus haut taux de réutilisation. En tenant compte du fait que pour
chaque bit de clé, on effectue une addition et un doublement dans l’algorithme échelle de
Montgomery, on a alors une meilleure complexité asymptotique pour notre algorithme SPRR.3.2. APPLICATIONS 113
Formules MM SPRR
A1 = Z2
1
U2 = X2A1
S2 = Y2Z1A1
H = U2 − X1
H2 = H2 EMM : EMM :
P1 + P2 I = 4H2 20 n
2 + 50n 17.5 n
2 + 95 n
J = HI
(mADD) R = 2(S2 − Y1) EMM × EMW : EMM × EMW :
V = X1I 40 n
4 + 300 n
3 + 500 n
2 26.25 n
4 + 291.25 n
3 + 807.5 n
2
X3 = R2 − J − 2V
Y3 = R(V − X3) − 2Y1J
Z3 = (Z1 + H)
2 − A1 − H2
A = X2
1
B = Y
2
1
C = B2
D = Z2
1
S = 2
(X1 + B)
2 − A − C
EMM : EMM :
2 P1 M = 3A + aD2 20 n
2 + 48 n 16 n
2 + 100.5 n
T = M2 − 2S
X3 = T EMM × EMW : EMM × EMW :
Y3 = M(S − T) − 8C 40 n
4 + 296 n
3 + 480 n
2 24 n
4 + 286.75 n
3 + 854.25 n
2
Z3 = (Y1 + Z1)
2 − B − D
A = X2
1
B = Y
2
1
C = Z2
1
D = B2
M = 3A + aC2
N = M2 EMM : EMM :
3 P1 E = 6
(X1 + B)
2 − A − D
− N 28 n
2 + 72 n 23 n
2 + 160 n
F = E2
T = 16D EMM × EMW : EMM × EMW :
U = (M + E)
2 − N − F − T 56 n
4 + 424 n
3 + 720 n
2 34.5 n
4 + 435.5 n
3 + 1360 n
2
X3 = 4(X1F − 4BU)
Y3 = 8Y1 (U(T − U) − EF)
Z3 = (Z1 + E)
2 − C − F
Table 3.3 – Coûts en multiplications EMM et coûts globaux EMM × EMW des algorithmes MM
et SPRR pour les formules efficaces issues de [17] pour courbes sous forme de Weierstrass
courte (y
2 = x
3 + ax + b, avec a quelconque), en coordonnées Jacobiennes.114CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
Formules MM SPRR
A = Z1X2 + Z2X1
B = 2X1X2 EMM : EMM :
P1 + P2 C = 2Z1Z2 12n
2 + 34n 12.75n
2 + 67n
D = aA + bC
Z3 = A2 − BC EMM × EMW : EMM × EMW :
X3 = BA + CD + 2XGZ3 24n
4 + 168n
3 + 340n
2 19.125n
4 + 209.375n
3 + 569.5n
2
E = Z2
1
F = 2X1Z1 EMM : EMM :
G = X2
1
14n
2 + 32n 12.25n
2 + 75n
2 P1 H = −4bE
I = aE EMM × EMW : EMM × EMW :
X3 = F H + (G − I)
2 28n
4 + 204n
3 + 320n
2 18.375n
4 + 216.625n
3 + 637.5n
2
Z3 = 2F(G + I) − EH
Table 3.4 – Coûts en multiplications EMM et coûts globaux EMM × EMW des algorithmes
MM et SPRR pour les formules optimisées RNS issues de [8] pour les courbes sous forme
de Weierstrass courte (y
2 = x
3 + ax + b, avec a quelconque), en coordonnées (X, Z) et
adaptées à l’échelle de Montgomery.
Le troisième ensemble de formules concerne les opérations de points sur les courbes
d’Edwards [43], qui sont de la forme x
2 + y
2 = c
2
(1 + dx2y
2
) avec d /∈ {0, 1}. Ces formules
utilisent les coordonnées inversées proposées dans [16], où les points sont représentés par
(Z/X, Z/Y ). Les formules présentées dans la table 3.5 sont une amélioration de celles disponibles
dans [16], et présentées dans [17] comme les moins coûteuses pour ces courbes en
nombre de multiplications modulaires. On constate dans ce cas aussi que le gain en terme
de complexité dépend du niveau de réutilisation que les formules permettent, les gains se
situent donc principalement dans les doublements et triplements.
Pour finir, les figures 3.4 et 3.5 résument les gains théoriques que l’on obtient pour
nos différents ensembles de formules. Dans ces figures, ADD représente l’addition, mADD
l’addition mixte, DBL le doublement et TPL le triplement de points.
La figure 3.4 détaille les résultats pour les formules utilisant les coordonnées Jacobiennes
pour la forme de Weierstrass courte. La courbe inférieure représente exactement les résultats
de complexité de la table 3.3, avec le coût en EMM de chacune des opérations de points.
On remarque que le doublement est meilleur avec le SPRR à partir de n = 13 moduli, alors
que le doublement et l’addition mixte ne le sont qu’à partir de 18. Les courbes présentées
dans la partie supérieure de la figure 3.4 combinent ces coûts pour refléter le gain sur
une multiplication scalaire. Le motif 2DBL+mADD correspond ainsi à un algorithme de
doublement et addition, le motif 2DBL+mADD+TPL correspond lui à un algorithme de
multiplication scalaire utilisant le recodage DBNS du scalaire (voir [40]). Ce dernier motif
surestime un peu le nombre d’additions par rapport au nombre de doublements et triplements,
afin de simplifier l’expression (ce qui désavantage un peu notre algorithme). Le coût
en EMM des deux motifs sont très proches. On remarque que notre algorithme est meilleur
que MM pour n > 16, en nombre d’opérations effectuées. C’est le cas si les calculs sont
effectués sur un corps de 521 bits avec w = 32. Sur une plateforme avec une contrainte sur
la taille des moduli, comme dans [5] où w = 16 pour du calcul sur GPU. Alors les courbes
sur 384 et 521 bits correspondent respectivement à n = 24 et n = 34, où notre algorithme3.2. APPLICATIONS 115
Formules MM SPRR
A = Z1Z2
B = dA2
C = X1X2 EMM : EMM :
P1 + P2 D = Y1Y2 26n
2 + 60n 25.75n
2 + 131.5n
E = CD
(mADD) H = C − D
I = (X1 + Y1) − C − D EMM × EMW : EMM × EMW :
X3 = c(E + B)H 52n
4 + 380n
3 + 600n
2 38.625n
4 + 416.125n
3 + 1117.75n
2
Y3 = c(E − B)I
Z3 = AHI
A = X2
1
B = Y
2
1
C = A + B EMM : EMM :
2 P1 D = A − B 18n
2 + 36n 15.75n
2 + 86.5n
E =
(X1 + Y1)
2 − C
X3 = CD EMM × EMW : EMM × EMW :
Y3 = E(C − u2Z2
1
) ? 36n
4 + 252n
3 + 360n
2 23.625n
4 + 263.625n
3 + 367.625n
2
Z3 = cDE
A = X2
1
B = Y
2
1
C = Z2
1
EMM : EMM :
D = A + B 30n
2 + 60n 24.75n
2 + 144.5n
F = D2
3 P1 E = 4(D − u1 C) ?
H = 2D(B − A) EMM × EMW : EMM × EMW :
S = F − AE 60n
4 + 420n
3 + 600n
2 37.125n
4 + 402.125n
3 + 614.125n
2
Q = F − BE
T = Q2
X3 = (H + Q)
(Q + X1)
2 − T − A
Y3 = 2(H − S)SY1
Z3 = S
(Q + Z1)
2 − T − C
Table 3.5 – Coûts en multiplications EMM et coûts globaux EMM×EMW pour les algorithmes MM
et SPRR des formules issues de [17] pour courbes d’Edwards, avec les coordonnées inversées.
Note ? : u1 = c
2d and u2 = 2 u1 pour une courbe définie par x
2 + y
2 = c
2
(1 + dx2y
2
).116CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
0.8
0.9
1
1.1
1.2
1.3
1.4
5 10 15 20 25 30 35 40
SPRR / MM
n
mADD
DBL
TPL
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
SPRR / MM
EMM | 2DBL+mADD+TPL
EMM | 2DBL+mADD
EMM*EMW | 2DBL+mADD+TPL
EMM*EMW | 2DBL+mADD
Figure 3.4 – Comparaison des performances et des coûts théoriques entre les algorithmes
SPRR et MM pour les formules présentées à la table 3.3 (en bas) et pour des combinaisons
classiques présentes dans les algorithmes de multiplication scalaire.
est meilleur que MM de 4.5% et 9.5% respectivement. La figure supérieure propose aussi
une métrique du coût global, avec le produit opérations EMM/mémoire EMW pour les deux
motifs. Suivant cette métrique EMM × EMW, notre algorithme est moins coûteux que l’algorithme
de l’état de l’art, même pour des petites valeurs de n > 5. Ainsi, pour une base
n > 16, on obtient avec SPRR une réduction de plus de 25 % du coût global par rapport à MM.
La figure 3.5 présente les résultats pour les deux autres ensembles de courbes. Ces
résultats sont clairement moins bons que ceux obtenus avec les formules utilisant l’addition
mixte. Sur la partie inférieure de la figure 3.5 sont présentés les résultats pour l’échelle de
Montgomery et les formules de la table 3.4. Le coût global est réduit à partir de n = 9 mais
le nombre d’opérations est toujours plus grand que pour l’algorithme de l’état de l’art.
De même pour la partie supérieure représentant les calculs sur les courbes d’Edwards.
Le coût global est cette fois-ci meilleur très rapidement, lorsque n > 5, mais le nombre
d’opérations est tout juste équivalent lorsqu’on atteint n = 26. Ces courbes montrent
clairement que le coût de l’algorithme SPRR dépend grandement de la séquence de calcul
sur laquelle il est appliqué et des réutilisations qui sont faites. De plus, les gains étant sur
des complexités asymptotiques, ils sont bien plus clairs et importants pour les algorithmes
d’exponentiation que pour la cryptographie sur courbes elliptiques. Nous verrons dans le
chapitre 4 un algorithme qui ne sera pas applicable pour les exponentiations mais bien plus
adapté aux calculs sur courbes elliptiques.
3.3 Exponentiation rapide RNS sans hypothèse sur P
Cette section va présenter de nouveaux algorithmes d’exponentiation rapide pour le
RNS 1
, réduisant le nombre d’opérations par rapport à l’algorithme de l’état de l’art [48].
Ces algorithmes reprennent les idées qui sont à la base de la multiplication SPRR afin de
profiter des réutilisations des opérandes dans certains algorithmes d’exponentiation. Si ces
algorithmes sont présentés dans une section à part, c’est qu’ils n’utilisent pas directement
1. Ces résultats ne sont pas dans le papier d’ASAP 2014 [20]3.3. EXPONENTIATION RAPIDE RNS SANS HYPOTHÈSE SUR P 117
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
5 10 15 20 25 30 35 40
SPRR / MM
n
EMM | DBL+ADD
EMM*MEM | DBL+ADD
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
SPRR / MM
EMM | 2DBL+ADD
EMM| TPL+2DBL+ADD
EMM*MEM | 2DBL+ADD
EMM*MEM | TPL+2DBL+ADD
Figure 3.5 – Comparaison des performances et des coûts théoriques entre les algorithmes
SPRR et MM pour des combinaisons classiques des formules présentées à la table 3.4 (en bas)
et table 3.5 présentes dans les algorithmes de multiplication scalaire.
le SPRR à la différence des exponentiations étudiées dans la section 3.2.1. En effet, ces
nouveaux algorithmes vont accélérer les exponentiations sans aucune hypothèse sur P et
réduisent encore le nombre de multiplications élémentaires EMM par rapport à l’utilisation
de SPRR. En contrepartie, le nombre de moduli est 2n (comme pour l’algorithme de l’état
de l’art). De plus, ils augmentent le nombre de pré-calculs à stocker par rapport au SPRR
et à l’algorithme de l’état de l’art [48]. Enfin, ces algorithmes sont basés sur un motif
d’opération particulier, certains algorithmes, comme par exemple l’échelle de Montgomery,
ne calculent pas ce motif et ne sont donc pas accélérés par rapport au SPRR.
3.3.1 Un nouvel algorithme d’exponentiation RNS
Algorithme 23: Exponentiation carré et multiplication (source [51]).
Entrées : k = (k`−1, . . . , k1, k0)2, G ∈ Z/PZ
Sortie : Gk mod P
1 S ← 1
2 pour i de ` − 1 à 0 faire
3 S ← S
2 mod P
4 si ki = 1 alors S ← S × G
5 retourner S
Le calcul que nous allons étudier et accélérer dans cette partie est X2C mod P, où
C est une constante pré-calculée. On retrouve ce motif dans l’algorithme 23, qui est l’exponentiation
équivalente à la multiplication scalaire de l’algorithme 6 (présenté dans la
section 1.1.4). L’algorithme 23 présenté suppose que l’on soit déjà en représentation de
Montgomery RNS (ou dans la version améliorée de Gandino et al. [48]) et retourne le
résultat dans cette même représentation. Ce n’est pas sur ces conversions que portent les
améliorations, et ces conversions initiales et finales sont négligeables par rapport au coût de
l’exponentiation. Avant d’analyser notre algorithme, nous allons d’abord expliquer l’idée,118CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
proche du SPRR, qui lui sert de base.
On remarque que lorsque ki = 1 dans l’algorithme 23, on effectue la séquence de calcul
S ← S
2 mod P puis S ← S × G mod P, c’est-à-dire S
2G mod P avec G constant. Pour
accélérer ce calcul, nous allons décomposer S en (Ks, Rs) comme pour le SPRR. Pour ce
faire, on va utiliser à nouveau l’algorithme 20 Split, toujours avec na = nb = n/2 mais
par contre avec nc = n. Nous avons bien, comme annoncé, na + nb + nc = 2n moduli.
On rappelle que le coût de cet algorithme est (na + na(nb + nc)) + (nb + nbna) + nc EMM,
c’est-à-dire
n
2 +
3n
2
4
+
n
2 +
n
2
4
+ n = n
2 + 2n EMM dans notre cas. Après avoir obtenu
(Ks, Rs), on remarque que :
S
2G ≡
K2
sM2
a + 2KsRsMa + R
2
s
G mod P
≡ K2
s
|M2
aG|P + KsRs|2MaG|P + R
2
s
|G|P mod P
≡ Ks
Ks|M2
aG|P + Rs|2MaG|P
+ R
2
s
|G|P mod P . (3.7)
Si on pose U2 = Ks
Ks|M2
aG|P + Rs|2MaG|P
+ R2
s
|G|P , alors log2 U2 ≈ 2`. Comme cela
sera montré plus loin dans cette section, on peut borner U2 plus précisément par :
U2 < 12P
2 + M2
aP , (3.8)
en supposant que S < 3P. En calculant U2, nous avons obtenu une valeur telle que
U2 ≡ S
2G mod P de taille 2` + ε bits. Il suffit alors de choisir la base Bc pour pouvoir
effectuer une réduction modulaire de Montgomory RNS MR prenant en entrée cette valeur
de 2` + ε et de réduire.
Prenons l’exemple d’une exponentiation pour RSA 2048 bits, avec log2 P = 2048 (bien
sûr ici P n’est pas premier). Supposons que S est représenté dans le domaine de Montgomery,
avec S < 3P. Dans cet exemple, la valeur à réduire S
2G est de taille 6148 bits, le but
est d’obtenir un résultat de 2050 bits (car inférieur à 3P). Supposons que n = 66 et w = 32,
alors Ma est un nombre de 33 · 32 = 1056 bits. En appliquant la borne de l’équation 3.8, on
obtient log2 U2 < 4161. En effet, log2
(M2
aP) = 2 log2
(Ma) + log2
(P) = 2112 + 2048 = 4160
et log2
(12P
2
) = 4+2 log2 P = 4100. Pour résumer, on obtient U2 un peu plus grand que P
2
,
en ayant seulement décomposé S puis calculé l’équation 3.7. Nous avons donc déjà parcouru
la moitié du chemin pour passer de 6144 à 2049 bits, pour le coût du Split et de 5 multiplications
RNS sur 2n moduli pour évaluer U2. On obtient n
2 + 2n+ 5 · 2 ·n = n
2 + 12n EMM
pour cette première partie. Ensuite, on applique la réduction MR de l’état de l’art qui coûte
2n
2 + 2n EMM. Dans notre algorithme 24, les constantes pré-calculées pour le calcul de U2
sur la base Bc permettent d’inclure directement le calcul de la ligne 1 de l’algorithme 15 MR
ainsi que la ligne 1 de l’algorithme 14 BE, réduisant le coût du MR final à 2n
2 +n. Le coût de
l’opération S
2G mod P est donc de 3n
2 + 13n EMM, contre 4n
2 + 8n EMM pour l’état de l’art.
Dans l’état de l’art, on effectue en fait 2 multiplications sur les 2n moduli suivies de 2 MR
d’où 2(2n
2+2n)+2n EMM. Pour notre exemple avec n = 66, on obtient 13926 EMM au lieu de
17952 EMM pour effectuer le carré et la multiplication lorsque ki = 1 dans l’algorithme, soit
environ une réduction de 22.5 %. Puisqu’on a en moyenne autant de 0 que de 1 dans ki
, le
rapport des complexités en EMM pour l’exponentiation complète entre notre algorithme et
l’état de l’art est 2n
2+4n+3n
2+13n
3(2n2+4n) =
5n
2+17n
6n2+12n
. Pour n = 66, on a une réduction du nombre
d’EMM de 15.0 % et pour n = 34 (pour RSA-1024 par exemple) on a un gain de 13.4 %. La
figure 3.6 illustre ce ratio pour n > 5. On remarque que la convergence vers 1
6
est rapide,
on atteint un réduction de 10 % dès n > 15.3.3. EXPONENTIATION RAPIDE RNS SANS HYPOTHÈSE SUR P 119
Algorithme 24: Exponentiation RNS revisitée
Entrées : k = (k`−1, . . . , k1, k0)2
Pré-calculs :
−−−−−−−−−−−−−−−−→
M−1
c,i P
−1
|GM2
a
|P
c
,
−−−−−−−−−−−−−−−−→
M−1
c,i P
−1
|2GMa|P
c
,
−−−−−−−−−−−→
M−1
c,i P
−1G
c
dans Bc
Pré-calculs :
−−−−−−−−−→
|GM2
a
|P
a|b
,
−−−−−−−−−−→
(|2GMa|P )a|b
,
−−→
Ga|b dans Ba|b
Sortie :
−−−−→
|Gk
|P dans Ba|b|c
1
−−−→
Sa|b|c ←
−→
1
2 pour i de ` − 1 à 0 faire
3 si ki = 0 alors
4
−−−→
Sa|b|c ←
−−−→
Sa|b|c ×
−−−→
Sa|b|c
5
−−−→
Sa|b|c ← MR(
−→
Sc ,
−−→
Sa|b
)
6 sinon
7 (
−→
Ks ,
−→
Rs ) ← Split(
−→
S )
8
−−→
Sa|b ←
−−−−−→
(Ks)a|b ×
−−−−−→
(Ks)a|b ×
−−−−−−−−−→
|GM2
a
|P
a|b
+
−−−−→
(Rs)a|b ×
−−−−−−−−−−→
(|2GMa|P )a|b
9
−−→
Sa|b ←
−−→
Sa|b +
−−−−→
(Rs)a|b ×
−−−−→
(Rs)a|b ×
−−→
Ga|b
10
−→
Sc ←
−−−−→
(Ks)c ×
−−−−−−−−−−−−−−−−→
M−1
c,i P
−1
|GM2
a
|P
c
+
−−−−→
(Rs)a|b ×
−−−−−−−−−−−−−−−−→
M−1
c,i P
−1
|2GMa|P
c
11
−→
Sc ←
−−−−→
(Ks)c ×
−→
Sc +
−−−→
(Rs)c ×
−−−→
(Rs)c ×
−−−−−−−−−−−→
M−1
c,i P
−1G
c
12
−−−→
Sa|b|c ← MR(
−→
Sc ,
−−→
Sa|b
)
13 retourner
−−−→
Sa|b|c
La proposition ci-dessous résume les conditions pour lesquelles l’algorithme 24 retournera
un résultat exact.
Proposition 3.
Soient Ba, Bb et Bc trois bases RNS telles que MaMb > 3P, avec blog2 Mac = blog2 Mbc
et Mc > 12P + M2
a
. Alors la sortie
−−−→
Sa|b|c de l’algorithme 24 est telle que Sa|b|c < 3P et
Sa|b|c ≡ Gk mod P.
Si nous revenons à l’exemple RSA 2048 bits avec n = 66 et w = 32, nous pouvons
remarquer que nous avons déjà MaMb > 3P, puisque MaMb est un entier de 2112 bits,
contre 2050 pour 3P. Ensuite, la condition Mc > 12P + M2
a
implique, entre autres, que
log2 Mc > 2113, on aura donc au moins un moduli de Bc avec un bit supplémentaire
(2113 = 66 · 32 + 1).
Pour conclure, on peut noter que la modification effectuée pour le cas ki = 1 n’altère
pas la représentation de Montgomery. En effet, lorsque ki = 1, nous calculons la réduction
modulaire MR sur la valeur U2, avec U2 ≡ S
2R2G mod P, le résultat est donc bien
S
2RG mod P.
Analyse détaillée de l’algorithme
Nous allons ci-dessous montrer la borne présentée précédemment dans l’équation 3.8,
et en déduire les conditions de la proposition 3. Ensuite nous discuterons du surcoût en
terme de pré-calculs nécessaires.120CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
0.7
0.8
0.9
1.0
1.1
1.2
10 20 30 40 50 60 70
Algo. 24 / RNS−ME
n
EMM
Figure 3.6 – Rapport du nombre d’EMM entre notre algorithme 24 et l’algorithme de l’état
de l’art [48].
On rappelle tout d’abord que l’on a toujours Ks <
3P
Ma
et Rs < 2Ma (à cause de
l’approximation dans l’extension de base de Kawamura et al. [64]). Ensuite, les bases Ba, Bb
et Bc sont choisies pour satisfaire les conditions d’utilisation de l’algorithme MR, c’est-à-dire
telles que Mc > 3P et MaMb > 3P. On obtient alors la borne suivante sur U2 :
U2 = Ks
Ks|M2
aG|P + Rs|2MaG|P
+ R
2
s
|G|P
6 K2
sP + KsRsP + R
2
sP
<
9P
3
M2
a
+ 6P
2 + M2
aP
< P2
3MaMb
M2
a
+ 6
+ M2
aP
< 12P
2 + M2
aP .
De plus, on rappelle que Ba et Bb sont toutes deux composées de n/2 moduli de w bits,
donc log2
Mb
Ma
< 1, autrement dit Mb
Ma
< 2. Nous allons maintenant déduire les différentes
conditions sur les trois bases Ba, Bb et Bc. Tout d’abord, pour que la représentation de
U2 soit exacte, il faut MaMbMc > U2. De plus, pour pouvoir effectuer une autre itération
de la boucle de l’algorithme 24, il faut qu’en sortie de l’itération on ait S < 3P. Comme
pour l’analyse du SPRR, on déduit la condition sur Mc à partir du calcul effectué dans la
réduction finale MR. La contrainte est donc U2+QP
Mc
< 3P. De plus :
U2 + QP
3P
<
U2
3P
+
2Mc
3
< 4P +
M2
a + 2Mc
3
, (3.9)
car Q < 2Mc (Q est la sortie de l’extension de base de Kawamura et al. à partir de Mc).
Il suffit donc de choisir Mc > 4P +
M2
a+2Mc
3
, c’est-à-dire Mc > 12P + M2
a
.
L’utilisation de l’algorithme 24 impose de stocker plus de pré-calculs que l’exponentiation
de l’état de l’art [48] tout simplement parce que les appels à MR dans l’algorithme sont
les mêmes que ceux de l’état de l’art, et requièrent exactement le même nombre de pré-
calculs, c’est-à-dire 2n
2 + 10n EMW. De plus, il faut compter les pré-calculs pour la fonction
Split. Ceux-ci ont été détaillés dans la table 3.2 pour le cas où na = nb = nc = n/2. Dans
notre cas nc = n, ce qui nous mène à n
2 + 4n EMW. Enfin, le calcul de U2 dans chacune
des bases requiert 6n EMW pour les 3 valeurs pré-calculées dans chacune des bases. Nous
obtenons donc un total de 3n
2 + 20n EMW contre 2n
2 + 10n EMW.
3.3.2 Autres algorithmes d’exponentiation
Notre algorithme est basé sur le fait que le motif S
2G mod P se comporte très bien
lorsqu’on le décompose avant de calculer la réduction, grâce au fait qu’il y a beaucoup de3.3. EXPONENTIATION RAPIDE RNS SANS HYPOTHÈSE SUR P 121
Algorithme 25: Exponentiation RNS régulière revisitée.
Entrée : k = (k`−1, . . . , k1, k0)2
Pré-calculs :
−−−−−−−−−−−−−−−−→
M−1
c,i P
−1
|GM2
a
|P
c
,
−−−−−−−−−−−−−−−−→
M−1
c,i P
−1
|2GMa|P
c
,
−−−−−−−−−−−→
M−1
c,i P
−1G
c
dans Bc
Pré-calculs :
−−−−−−−−−→
|GM2
a
|P
a|b
,
−−−−−−−−−−→
(|2GMa|P )a|b
,
−−→
Ga|b dans Ba|b
Pré-calculs :
−−−−−−−−−−−−−−→
M−1
c,i P
−1
|M2
a
|P
c
,
−−−−−−−−−−−−−−−→
M−1
c,i P
−1
|2Ma|P
c
,
−−−−−−−−−→
M−1
c,i P
−1
c
dans Bc
Pré-calculs :
−−−−−−−−→
|M2
a
|P
a|b
,
−−−−−−−−→
(|2Ma|P )a|b
,
−−→
1a|b dans Ba|b
Sortie :
−−−−→
|Gk
|P dans Ba|b|c
1
−−−→
Sa|b|c ←
−→
1
2 pour i de ` − 1 à 0 faire
3 (
−→
Ks ,
−→
Rs ) ← Split(
−→
S )
4 si ki = 0 alors
5
−−→
Sa|b ←
−−−−−→
(Ks)a|b ×
−−−−−→
(Ks)a|b ×
−−−−−−−−→
|M2
a
|P
a|b
+
−−−−→
(Rs)a|b ×
−−−−−−−−→
(|2Ma|P )a|b
6
−−→
Sa|b ←
−−→
Sa|b +
−−−−→
(Rs)a|b ×
−−−−→
(Rs)a|b ×
−−→
1a|b
7
−→
Sc ←
−−−−→
(Ks)c ×
−−−−−−−−−−−−−−→
M−1
c,i P
−1
|M2
a
|P
c
+
−−−−→
(Rs)a|b ×
−−−−−−−−−−−−−−−→
M−1
c,i P
−1
|2Ma|P
c
8
−→
Sc ←
−−−−→
(Ks)c ×
−→
Sc +
−−−→
(Rs)c ×
−−−→
(Rs)c ×
−−−−−−−−−→
M−1
c,i P
−1
c
9 sinon
10
−−→
Sa|b ←
−−−−−→
(Ks)a|b ×
−−−−−→
(Ks)a|b ×
−−−−−−−−−→
|GM2
a
|P
a|b
+
−−−−→
(Rs)a|b ×
−−−−−−−−−−→
(|2GMa|P )a|b
11
−−→
Sa|b ←
−−→
Sa|b +
−−−−→
(Rs)a|b ×
−−−−→
(Rs)a|b ×
−−→
Ga|b
12
−→
Sc ←
−−−−→
(Ks)c ×
−−−−−−−−−−−−−−−−→
M−1
c,i P
−1
|GM2
a
|P
c
+
−−−−→
(Rs)a|b ×
−−−−−−−−−−−−−−−−→
M−1
c,i P
−1
|2GMa|P
c
13
−→
Sc ←
−−−−→
(Ks)c ×
−→
Sc +
−−−→
(Rs)c ×
−−−→
(Rs)c ×
−−−−−−−−−−−→
M−1
c,i P
−1G
c
14
−−−→
Sa|b|c ← MR(
−→
Sc ,
−−→
Sa|b
)
15 retourner
−−−→
Sa|b|c
réutilisations (un carré et une multiplication par une constante). Pour d’autres algorithmes,
comme l’algorithme 5 carré et multiplication poids faibles en tête, on ne multiplie pas par
une constante ce qui, semble-t-il, rend inapplicable l’astuce que nous avons utilisé ici. Il en
va de même pour l’échelle de Montgomery, qui peut profiter du SPRR pour l’accélérer mais
pas du motif ici présent.
On peut par contre adapter notre algorithme pour être régulier, en effectuant une
multiplication et un carré à chaque fois. L’algorithme 25 présente un exemple d’adaptation
de notre précédent algorithme 24, en version régulière. On utilise en fait la même méthode
que pour calculer S
2G mod P pour calculer S
2
· 1 mod P. On remarque alors qu’un tel
algorithme coûterait 4n
2 + 8n avec la multiplication RNS de l’état de l’art (coût de 2 MM)
par itération de boucle, contre 3n
2 + 13n pour l’algorithme 25 (une réduction de 22.5 %
pour RSA-2048 avec n = 66). L’algorithme 25 requiert 6n EMW de plus que sa version non
régulière, c’est-à-dire 3n
2 + 26n EMW en tout.
Enfin, il est aussi possible d’adapter les algorithmes fenêtrés qui utilisent S
2G mod P,122CHAPITRE 3. DÉCOMPOSITION ET RÉUTILISATION D’OPÉRANDES EN RNS
comme la version exponentiation de l’algorithme 7 présenté dans la section 1.1.4.
3.4 Conclusion
Dans ce chapitre a été proposée une nouvelle façon d’aborder la multiplication modulaire
RNS, dont la caractéristique principale est de pouvoir accélérer les calculs lorsque les
opérandes sont réutilisés plusieurs fois, grâce à des décompositions de ces opérandes. Les
cas les plus simples de réutilisation sont les multiplications par une constante et les carrés.
Nous avons tout d’abord proposé un algorithme de multiplication, permettant l’utilisation
d’un nombre réduit de moduli (3n/2 au lieu de 2n pour l’état de l’art). Ainsi, l’algorithme
de multiplication proposé réduit le nombre de pré-calculs de 20 % à 25 % pour les
paramètres étudiés. De plus, le nombre d’opérations élémentaires peut être réduit jusqu’à
10 % pour des applications cryptographiques sur de grands corps ou entiers (ECC et DH).
Ainsi, nous nous attendons à ce que le coût d’une implantation matérielle de l’algorithme
soit réduit par rapport à la solution de l’état de l’art sur des applications cryptographiques
sur de grands paramètres. La contrainte de cet algorithme est qu’il nécessite une certaine
condition sur le corps de base.
En reprenant certaines idées de l’algorithme de multiplication modulaire, il est possible
de trouver certaines séquences de calcul très efficaces lorsqu’il y a des réutilisations
d’opérandes. Nous avons alors proposé un algorithme d’exponentiation qui requiert moins
de multiplications que l’algorithme de l’état de l’art. De plus, cet algorithme ne nécessite
aucune condition sur le corps ou l’anneau sur lequel on calcule, il est donc utilisable pour
les calculs RSA. Nous obtenons une réduction du nombre de multiplications élémentaires
de 15 % pour RSA 2048 bits. Une version régulière de l’algorithme est aussi proposée, ré-
duisant de 22 % le nombre de multiplications élémentaires, toujours pour RSA 2048 bits,
par rapport à un algorithme de type double-and-add always ou échelle de Montgomery.
De futurs travaux porteront sur une étude plus approfondie des motifs qui peuvent être
accélérés en RNS et sur une implantation matérielle complète, pour étudier plus précisé-
ment les gains et les surcoûts obtenus.Chapitre 4
Multiplication modulaire RNS
mono-base
Dans ce chapitre, un autre algorithme de multiplication modulaire RNS est proposé. Ce
nouvel algorithme est applicable pour la multiplication modulo P, pour P bien choisi, dans
un contexte de cryptographie sur courbes elliptiques. À notre connaissance, c’est le premier
algorithme effectuant une multiplication modulaire sur seulement n moduli, c’est à dire
sur une seule base dans les notations classiques. Le nombre d’opérations élémentaires est
fortement réduit par rapport à la multiplication RNS de l’état de l’art et la multiplication
SPRR du chapitre 3. On obtient de bons résultats même pour des petites valeurs de n. Ces
travaux sont en cours, seuls des premiers résultats d’implantation matérielle sont fournis.
4.1 La multiplication modulaire RNS à base unique SBMM
Le nouvel algorithme que nous proposons utilise une variation de la représentation
RNS, où un élément de FP , noté X, n’est plus représenté par
−→
X , mais par
−−→
Kx et
−→
Rx avec
la relation
−→
X =
−−−−−−−−−→
KxMa + Rx . Nous retrouvons en quelque sorte la décomposition proposée
dans le chapitre 3 pour la multiplication SPRR. Dans le chapitre 3, on utilisait cette
décomposition pour factoriser certains calculs internes à la multiplication modulaire, les
entrées et sorties étant en représentation RNS classique. Dans notre nouvelle proposition,
nous représentons les éléments de FP uniquement grâce à ces décompositions. Un élément
de FP , noté X, sera donc maintenant représenté par la paire de vecteurs RNS (
−−→
Kx ,
−→
Rx ).
Chacun des vecteurs
−−→
Kx et
−→
Rx est défini sur n moduli, au lieu d’avoir un seul vecteur
RNS,
−→
X , sur 2n moduli comme dans l’état de l’art.
Notre nouvel algorithme de multiplication modulaire, appelé SBMM pour single base
modular multiplication, est présenté algorithme 26. Avant de détailler les conditions sur
ses entrées, sorties et évaluer son coût, nous allons présenter les idées sous-jacentes. Tout
d’abord, par soucis de clarté, nous allons découper la base RNS en deux demi-bases Ba
et Bb de n/2 moduli (un peu comme pour le SPRR sauf qu’il n’y a maintenant plus que 2
demi-bases). Nous rappelons que Ma désigne le produit des éléments de Ba (ici produit de
n/2 moduli). La première idée importante de l’algorithme est l’utilisation de cette représentation
décomposée, nous allons voir ci-dessous comment l’algorithme tire parti de celle-ci.
La deuxième idée de notre nouvel algorithme SBMM est de lier Ma et P via la condition
M2
a = P + c, avec c très petit. Les meilleurs résultats sont obtenus avec M2
a = P + 2,
nous allons nous tenir à ce cas pour la présentation de l’algorithme. Pour c quelconque,
123124 CHAPITRE 4. MULTIPLICATION MODULAIRE RNS MONO-BASE
Algorithme 26: Multiplication modulaire RNS mono-base SBMM.
Paramètres : Ba tel que M2
a = P + 2 et Bb tel que Mb > 6Ma
Entrées :
−−−−−→
(Kx)a|b
,
−−−−−→
(Rx)a|b
,
−−−−−→
(Ky)a|b
,
−−−−−→
(Ry)a|b avec Kx, Rx, Ky, Ry < Ma
Sorties :
−−−−−→
(Kz)a|b
,
−−−−−→
(Rz)a|b avec Kz < 5Ma et Rz < 6Ma
1
−−→
Ua|b ←
−−−−−−−−−−−→
2KxKy + RxRy
2
−−→
Va|b ←
−−−−−−−−−−−→
KxRy + RxKy /*astuce de Karatsuba-Ofman utilisable ici*/
3
−−−−−→
(Ku)a|b
,
−−−−−→
(Ru)a|b
← CSplit(
−−→
Ua|b
)
4
−−−−−→
(Kv)a|b
,
−−−−−→
(Rv)a|b
← CSplit(
−−→
Va|b
)
5 retourner −−−−−−−−−→
(Ku + Rv)a|b
,
−−−−−−−−−−−→
(2 · Kv + Ru)a|b
une démonstration générale sera proposée dans la section 4.2.1. Cette contrainte étant très
forte, elle ne peut être appliquée que dans le cadre d’ECC, et pas sur le logarithme discret
à la différence de SPRR. Nous allons voir que cette condition va permettre d’effectuer la
multiplication modulaire RNS de manière analogue à ce qui est proposé dans les standards
ECC du NIST [91] pour la représentation binaire classique, c’est-à-dire analogue à la multiplication
modulo un nombre premier pseudo-Mersenne en base 2.
L’algorithme SBMM vient du constat suivant. Supposons que X et Y soient deux éléments
de FP , et soient (Kx,Rx) et (Ky,Ry) leurs décompositions en quotient/reste par Ma. On
rappelle que Ma est le produit des éléments de Ba. Alors en calculant le produit XY , on
obtient :
XY = KxKyM2
a + (KxRy + KyRx)Ma + RxRy mod P (4.1)
≡ 2 KxKy + RxRy + (KxRy + KyRx)Ma mod P (4.2)
≡ 2 KxKy + RxRy + (KxKy + RxRy − (Kx − Rx)(Ky − Ry))Ma mod P (4.3)
≡ U + V Ma mod P (4.4)
grâce au fait que M2
a mod P = 2.
Ce résultat ressemble à l’équation 3.2 obtenue au chapitre 3, mais avec des contraintes
différentes. Le passage de l’équation 4.2 à l’équation 4.3 est juste une application de l’astuce
de Karatsuba-Ofman [63]. On remarque qu’on ne peut pas calculer l’équation 4.4 avec
seulement n moduli car V Ma est un entier de 3`
2
bits (et nécessite donc 3n
2 moduli pour
être représenté). Par contre, U et V sont eux représentables dans notre base Ba|b
, on peut
donc les calculer avec U = (2KxKy + RxRy) et V = (KxRy + KyRx). Cela vient du fait
que Kx, Ky, Rx, Ry < Ma et Mb > 6Ma, on obtient donc U, V < 3M2
a < MaMb. Le calcul
de U et V ne requiert que des opérations efficaces en RNS (multiplications et additions).
Ensuite, on peut découper U et V grâce à l’algorithme 27, noté CSplit pour compact split,
qui exécute en fait la même fonction que Split du chapitre 3, mais pour seulement 24.1. LA MULTIPLICATION MODULAIRE RNS À BASE UNIQUE SBMM 125
demi-bases. En utilisant une nouvelle fois la propriété M2
a = P + 2 on obtient finalement :
XY ≡ U + V Ma mod P
≡ KuMa + Ru + KvM2
a + RvMa mod P
≡ (Ku + Rv)Ma + Ru + 2Kv mod P
≡ KzMa + Rz mod P.
Dans cette équation, Kz < 4Ma et Rz < 5Ma, ce qui implique que KzMa + Rz < 5 P.
Nous avons ainsi réduit le produit, ou presque, car quelques soustractions par P peuvent
être requises. De même, Kz et Rz peuvent être un peu plus grands que les entrées Kx, Rx, Ky
et Ry, à quelques soustractions par Ma près. La démonstration de ces bornes et les consé-
quences de la différence entre les tailles des entrées et celles des sorties seront détaillées
dans la section 4.2.3.
Algorithme 27: Étape de décomposition compacte CSplit.
Entrée :
−−→
Xa|b
Pré-calculs :
−−−−−−→
M−1
a
b
Sorties :
−−−−−→
(Kx)a|b
,
−−−−−→
(Rx)a|b avec
−−→
Xa|b =
−−−−−→
(Kx)a|b ×
−−−−−→
(Ma)a|b +
−−−−−→
(Rx)a|b
1
−−−−→
(Rx)b ← BE −−−−→
(Rx)a , Ba, Bb
2
−−−−→
(Kx)b ←
−→
Xb −
−−−−→
(Rx)b
×
−−−−−−→
M−1
a
b
3 si
−−−−→
(Kx)b =
−→
−1 alors
4
−−−−→
(Kx)b ←
−→
0 /* correction d’une erreur avec la BE de Kawamura */
5
−−−−→
(Rx)b ←
−−−−→
(Rx)b −
−−−−→
(Ma)b
6
−−−−→
(Kx)a ← BE −−−−→
(Kx)b , Bb, Ba
7 retourner
−−−−−→
(Kx)a|b
,
−−−−−→
(Rx)a|b
Pour résumer, on peut considérer que les valeurs sont représentées en numération de
position de base Ma, avec une « partie haute » Kx et une « partie basse » Rx, Kx et Rx étant
représentées en RNS en base Ba|b par
−−−→
(Kx) a|b et
−−−→
(Rx) a|b
. On applique ensuite deux fois la
propriété P+2 = M2
a
, qu’on peut qualifier de propriété « à la Mersenne », pour réduire notre
valeur. La similitude avec la réduction modulo un premier pseudo-Mersenne vient du fait
que, dans les 2 cas, la multiplication modulaire se résume à découper le résultat du produit
en utilisant la forme de P, puis à additionner les morceaux obtenus. Dans notre algorithme
SBMM, deux découpages intermédiaires, pour U et V , en partie haute et partie basse sont
nécessaires entre les deux applications de P + 2 = M2
a
. Une grosse différence avec une
multiplication modulo un premier pseudo-Mersenne en représentation classique est, qu’ici,
ce n’est pas la partie multiplication qui est coûteuse, mais le découpage en partie haute
et partie basse (alors qu’en représentation binaire classique, cette opération est gratuite).
Dans l’algorithme 26, les lignes 1 et 2 calculent U et V : on applique une première fois
M2
a = P + 2. Ensuite les lignes 3 et 4, découpent U et V grâce à la fonction CSplit, ce qui
représente 4 extensions de base. Cependant, ces 4 extensions de bases ne portent que sur
les deux demi-bases Ba et Bb. Puisque le coût d’une extension est quadratique en n, le coût126 CHAPITRE 4. MULTIPLICATION MODULAIRE RNS MONO-BASE
de ces 4 petites extensions est équivalent au coût d’une seule grande entre deux bases de
n moduli chacune. Nous allons voir dans la section 4.2.4 que notre algorithme coûte bien
moins de multiplications élémentaires EMM que l’algorithme de l’état de l’art et qu’il en va
de même pour le nombre de pré-calculs EMW.
4.2 Analyse de l’algorithme SBMM
4.2.1 Généralisation du paramètre c
Dans l’analyse de cet algorithme 26, nous allons étudier le cas plus général P +c = M2
a
,
avec c un petit nombre positif, et démontrer les bornes que cela induit. Tout d’abord, on
remarque que c ne doit pas être un carré, sinon
P = M2
a − c = (Ma +
√
c)(Ma −
√
c) ,
c’est à dire P n’est pas premier. Le plus petit c possible est 2, avec Ma impair (c’est à dire
Ba n’est composée que d’éléments impairs). Nous n’étudierons pas ici le cas c négatif, car il
introduit un certain nombre de valeurs négatives qu’il faut pouvoir gérer correctement en
RNS. Le cas c négatif semble donc moins intéressant. Pour commencer, nous allons dans
un premier temps supposer que les extensions de base sont exactes, par exemple en utilisant
les extensions de base via MRS. Les valeurs qui sont transférées d’une base à l’autre,
comme Ru ou Ku, sont donc transférées sans erreur d’approximation.
En suivant le même cheminement que dans la section précédente, mais pour un c quelconque,
on obtient :
XY ≡ c KxKy + RxRy + (KxRy + KyRx)Ma mod P
≡ U + V Ma mod P
≡ (Ku + Rv)Ma + Ru + cKv mod P
≡ KzMa + Rz mod P .
Ici, seules les expressions de U et Rz changent, devenant U = c KxKy + RxRy et Rz =
Ru + cKv. Nous allons maintenant démontrer les bornes sur Ma et Mb. Pour représenter
U et V sur la base Ba|b
, il faut que U, V < MaMb. On peut borner U et V par :
U = c KxKy + RxRy < cM2
a + M2
a 6 (c + 1)M2
a
V = KxRy + KyRx < 2M2
a
.
Il suffit donc que Mb > (c + 1)Ma pour représenter U et V (on rappelle que c > 2).
Il nous faut maintenant être en mesure de représenter les valeurs en sortie, Kz et Rz.
On rappelle que Ku est le quotient de U par Ma, et que U < (c + 1)M2
a
, on a donc
Ku < (c + 1)Ma. Par définition, Ru étant le reste de la division on a Ru < Ma. De même
on a Kv < 2Ma et Rv < Ma. On en conclut :
Kz = Ku + Rv < (c + 2)Ma
Rz = Ru + cKv < (2c + 1)Ma .4.2. ANALYSE DE L’ALGORITHME SBMM 127
On va donc choisir Bb pour avoir Mb > (2c + 1)Ma. En prenant c = 2, on obtient
Kz < 4Ma et Rz < 5Ma. On ne retrouve pas exactement les bornes du cas c = 2 de
l’algorithme 26 pour les sorties Kz et Rz car celles-ci sont calculées pour l’extension de
base de Kawamura et al. [64]. On remarque par contre que les éléments en sortie sont
plus grands que ceux en entrée : pour limiter cette croissance on choisira c le plus petit
possible. Avec une demi-base Ba ne contenant que des éléments impairs, on peut facilement
trouver des bases avec M2
a = P + 2 et P premier. Si on préfère une base Ba avec
un moduli pair, on ne peut alors pas avoir mieux que M2
a = P + 3. Avoir un peu de latitude
sur c peut être intéressant pour avoir un plus grand choix de bases. On peut même
encore augmenter ces choix en cherchant des bases avec M2
a = µP + c avec µ très petit.
Bien sûr, en se donnant plus de choix pour P on est contraint d’agrandir encore la base Mb.
4.2.2 Utilisation de l’extension de base de Kawamura et al.
Considérons maintenant l’utilisation de l’extension de base de Kawamura et al. [64].
Comme pour le SPRR et pour MM, on ne peut pas effectuer de manière exacte la première
extension de base en utilisant l’extension de base de Kawamura et al. [64], nous sommes
dans le cas du théorème 5. La stratégie sera ici la même que pour le SPRR. Si il y a
une erreur, elle se produira lors du calcul de
−−−−→
(Ru)b (respectivement
−−−→
(Rv)b ) à la ligne 1
de l’algorithme 27. Supposons que l’extension de base produise par erreur
−−−−→
(R0
u
)b avec
−−−−→
(R0
u
)b =
−−−−−−−−→
(Ru + Ma)b (resp.
−−−→
(R0
v
)b =
−−−−−−−−→
(Rv + Ma)b ) dans la base Bb. Alors, le calcul à la
ligne 2 de l’algorithme 27 donne :
−−−−→
(K0
u
)b =
−→
Ub −
−−−−→
(R
0
u
)b
×
−−−−−−→
M−1
a
b
=
−→
Ub −
−−−−→
(Ru)b −
−−−−→
(Ma)b
×
−−−−−−→
M−1
a
b
=
−−−−−−−→
(Ku − 1)b .
Le calcul ne change donc rien au fait que U = K0
uMa + R0
u dans la base Bb. Par contre,
si Ku = 0, il est possible que l’on ait K0
u = −1, impliquant une réduction implicite par
Mb dans la demi-base Bb, ce qui empêche de retourner le bon résultat lors de la deuxième
extension de base à la ligne 3 de l’algorithme 27. Pour contrer ce problème, il suffit de vérifier
que K0
u 6= −1 dans la base Bb. Si K0
u = −1 dans Bb, alors on corrige en effectuant
−−−−→
(Ku)b = 0
et
−−−−→
(Ru)b =
−−−−−−−−→
(R0
u + Ma)b dans la seconde base après la ligne 2 de l’algorithme 27 et avant
l’extension de base. Le comparateur utilisé pour K0
u 6= −1 est déjà présent en matériel si on
utilise l’algorithme d’inversion PM-MI (cf. chapitre 2). Nous n’avons pas approfondi d’autres
solutions pour régler ce cas spécial car il n’arrivera pas, en pratique, dans la plupart des
applications. En effet, supposons que X soit un élément quelconque de FP d’au moins 160
bits, ce qui est le plus petit standard du NIST [91]. Alors, avoir Kx = 0 est équivalent à
avoir X < Ma, avec log2 Ma ≈ 80 bits au minimum, plus généralement log2 Ma ≈ `/2. On
a donc une probabilité 1
2
80 de tomber sur Kx = 0. En dehors de la gestion de ce cas très
particulier, il est aussi à noter que les valeurs Kz et Rz sont potentiellement plus grandes
en utilisant une extension de base approchée. Plus exactement, avec l’extension de base de
Kawamura et al., on obtient les bornes Ru, Rv < 2Ma, ce qui implique :
Kz = Ku + Rv < (c + 3)Ma
Rz = Ru + cKv < (2c + 2)Ma .
On retrouve bien les bornes présentées dans l’algorithme 26 sur Kz et Rz.128 CHAPITRE 4. MULTIPLICATION MODULAIRE RNS MONO-BASE
4.2.3 Compression des sorties de l’algorithme
Nous allons maintenant discuter du problème de la taille des sorties de l’algorithme.
En effet, par exemple si c = 2, les entrées de l’algorithme sont inférieures à Ma alors qu’en
sortie on a Kz < 5Ma et Rz < 6Ma. Ainsi en réappliquant successivement SBMM, on obtient
Kz,2 < 87Ma et Rz,2 < 121Ma puis Kz,3 < 29780Ma et Rz,2 < 42109Ma etc. La taille
des opérandes va ainsi croître de façon exponentielle si on applique récursivement et sans
contrôle l’algorithme SBMM.
Une première façon de procéder pour ce contrôle est d’effectuer une nouvelle réduction
après un certain nombre d’itérations. Nous verrons dans l’exemple proposé à la fin de
cette sous-section que dans les calculs nécessaires aux doublements et additions de points
d’ECC, un certain nombre de multiplications sont complètement indépendantes. Ainsi, si
par exemple 4 multiplications indépendantes sont effectuées, leurs sorties ont toutes la
même taille. On doit donc déduire du flot de calcul la taille maximale des sorties de l’algorithme
SBMM afin de choisir Mb suffisamment grand pour garantir X = KxMa+Rx < MaMb.
Comme la taille des sorties croît très vite, seulement 2 ou 3 multiplications successives
peuvent être effectuées avant une réduction modulaire de contrôle. Pour effectuer cette
réduction à partir de notre algorithme, il suffit de l’appliquer sur la valeur à réduire, par
exemple (Kz,Rz), et la valeur 1, représentée par (0,1).
Algorithme 28: Compression d’une valeur représentée par (K, R).
Entrées :
−−−−−→
Ka|b|mγ
et
−−−−−→
Ra|b|mγ
avec K, R < mγ − 1
Pré-calcul :
M−1
a
mγ
Sorties :
−−−−−−−→
(Kc)a|b|mγ
,
−−−−−−−→
(Rc)a|b|mγ
avec Kc, Rc < 2Ma + 6
1 |Rk|mγ ← BE −−→
Ka , Ba, mγ
/*
−−−−→
(Rk)a =
−−→
Ka */
2 Kk ←
(K − Rk)M−1
a
mγ
3
−−−→
(Rk)b ←
−→
Kb −
−−−−→
(Kk)b ×
−−−−→
(Ma)
b
4 |Rr|mγ ← BE −→
Ra , Ba, mγ
/*
−−−−→
(Rr)a =
−→
Ra */
5 Kr ←
(R − Rr)M−1
a
mγ
6
−−−→
(Rr)b ←
−→
Rb −
−−−−→
(Kr)b ×
−−−−→
(Ma)
b
7 return
−−−−−−−−−−−−→
(Kr + Rk)a|b|mγ
,
−−−−−−−−−−−−→
(Rr + 2Kk)a|b|mγ
Une autre méthode, plus rapide mais nécessitant un peu de matériel supplémentaire, est
présentée dans l’algorithme 28. Il suffit de remarquer que les valeurs en sortie de l’algorithme
Kz et Rz, sont proches de Ma. En effet, on a Kz < 5Ma et Rz < 6Ma. Soit (
−→
K a|b
,
−→
R a|b
) une
valeur en sortie de l’algorithme 26. Supposons qu’on décompose K en K = KkMa + Rk
et R en R = KrMa + Rr. On a alors Kk < 5 et Kr < 6. On peut donc calculer une
extension de base à partir de Ba vers un modulo supplémentaire mγ, premier avec Ma,
puis obtenir la valeur exacte de ces quotients, du moment que mγ > 6. Il faut quand même
avoir K mod mγ et R mod mγ dans ce modulo supplémentaire avant de pouvoir faire la
division. On peut choisir mγ comme une petite puissance de 2, et choisir un élément de
Bb, disons mb,1, égal à 2
w. On peut ensuite déduire directement la valeur de K mod mγ et
R mod mγ à partir des bits de poids faibles modulo mb,1. On remarque que puisque Kr et
Kk sont très petits, nous n’avons pas besoin d’extension de base pour les représenter dans4.2. ANALYSE DE L’ALGORITHME SBMM 129
Opération P1 + P2 2 P1
A = Z1X2 + Z2X1 E = Z
2
1
B = 2X1X2 F = 2X1Z1
C = 2Z1Z2 G = X2
1
Formules D = aA + bC H = −4bE
Z3 = A2 − BC I = aE
X3 = BA + CD + 2XGZ3 X3 = F H + (G − I)
2
Z3 = 2F(G + I) − EH
Table 4.1 – Formules optimisées RNS issues de [8] pour les courbes sous forme de Weierstrass
courte, en coordonnées (X, Z) et adaptées à l’échelle de Montgomery.
Ba et Bb. En effet, on a (kr)a,i = (kr)b,i = Kr et (kk)a,i = (kk)b,i = Kk pour tout i. Après
avoir obtenu Kk et Kr, on peut utiliser le fait que M2
a = 2 mod P pour obtenir :
X ≡ KMa + R mod P
≡ KkM2
a + RkMa + KrMa + Rr mod P
≡ (Rk + Kr)Ma + 2Kk + Rr mod P
≡ KcMa + Rc mod P .
La valeur retournée par la compression est donc (Kc, Rc). On note que Rk et Rr sont
tous deux inférieurs à 2Ma si on utilise l’extension de base de Kawamura et al., impliquant
Kc < 2Ma + 6 et Rc < 2Ma + 10. Si deux valeurs (Kx, Rx) et (Ky, Ry) provenant
d’une compression à l’aide de l’algorithme 28 sont utilisées en entrée de l’algorithme 26
de multiplication SBMM, on obtient alors en sortie Kz < 14Ma et Rz < 19Ma au lieu
de Kz < 5Ma et Rz < 6Ma. Pour pouvoir réutiliser l’algorithme de compression, il suf-
fit de prendre mγ > 19. Le plus simple est de prendre mγ = 32, en choisissant la base
Ba sans modulo pair. Pour ne pas avoir besoin d’utiliser systématiquement la fonction de
compression, on peut augmenter la valeur de mγ afin d’augmenter la correction maximale
que l’on peut effectuer. Par exemple, si on enchaîne deux multiplications modulaires sans
utiliser de compression, on obtient en sortie Kz < 753Ma et Rz < 1065Ma. En prenant
mγ = 211 = 2048, on peut se permettre de n’effectuer qu’une compression toutes les 2 multiplications.
Nous allons voir maintenant un exemple pour lequel il est utile de n’effectuer
qu’une compression toutes les 2 multiplications.
Un exemple d’utilisation de la fonction de compression est illustré à la figure 4.1. Dans
cette exemple, on suppose l’exécution d’une addition de points suivie d’un doublement, avec
les formules de la table 4.1 (issues de [8]). On utilise l’algorithme de multiplication SBMM
pour calculer les différentes valeurs intermédiaires des formules, et le résultat est compressé
en parallèle par la fonction de compression. Pour presque tous les calculs, l’algorithme SBMM
reçoit en entrée des valeurs compressées. Il y a deux cas pour lesquels SBMM va recevoir en
entrée des valeurs qui ne l’ont pas été. Le premier cas est le calcul de X3 dans l’opération
ADD. En effet, le calcul de X3 dans ce cas requiert la valeur Z3, qui n’a pas encore eu
le temps d’être compressée : on est donc obligé de prendre directement le résultat de
la multiplication SBMM. On se retrouve donc dans le cas où mγ est choisi pour pouvoir
enchaîner 2 multiplications SBMM, celle de Z3 et celle de X3. On compressera directement
X3 ensuite. On retrouve un cas similaire pour le calcul de X3 dans le calcul DBL, où la130 CHAPITRE 4. MULTIPLICATION MODULAIRE RNS MONO-BASE
A C B D Z3 X3 E F G H I X3 Z3
A C B D Z3 X3 E F G H I X3 Z3
· · ·
· · ·
ADD DBL
SBMM
Compression
temps
Figure 4.1 – Exemple fictif de flot d’exécution utilisant SBMM et la fonction de compression
en parallèle, sur les formules d’addition et doublement de points définies à la table 4.1, avec
2 dépendances de données non satisfaites à temps entre la compression et SBMM.
valeur I, qui n’a pas encore été compressée, est utilisée. Finalement, cet exemple présente
une façon d’effectuer le SBMM et la fonction de compression en parallèle, qui pourra être
implantée dans le futur pour une multiplication scalaire complète.
4.2.4 Analyse des coûts en EMM et EMW
Pour commencer nous allons analyser le coût de l’algorithme 26 en nombre d’opé-
rations. Nous allons nous contenter de compter ici les multiplications élémentaires EMM,
comme sont faits habituellement les décomptes de l’état de l’art et comme ce qui a été fait
pour le chapitre 3. Dans tous les cas, que ce soit pour notre algorithme ou pour l’état de
l’art, les nombres d’EMM et d’EMA sont égaux (ou presque), car les deux algorithmes n’effectuent
quasiment que des multiplications suivies d’accumulations. De plus, dans le cas
de l’algorithme 26, nous n’allons pas compter les multiplications par 2 que l’on trouve aux
lignes 1 et 5 car on peut les voir comme une simple addition.
Les lignes 1, 2 et 5 de l’algorithme SBMM coûtent 4n EMM, qui peuvent être réduites à
3n EMM en utilisant l’astuce de Karatsuba-Ofman [63] pour calculer les lignes 1 et 2. Le
choix de l’utilisation de cette astuce dépend de l’architecture implantée, car elle introduit
notamment des dépendances de données entre les lignes 1 et 2, alors qu’elles sont indépendantes
telles qu’écrites dans l’algorithme SBMM. En plus de ces opérations, on effectue deux
appels à CSplit. Le coût de CSplit est en fait le même que celui de la fonction Split, en
considérant que les 2 premières bases ont le même nombre d’éléments égal à n/2, et que
la troisième base n’a aucun élément. On obtient, pour chacun des appels de CSplit, un
nombre d’EMM de :
na + na(nb + nc) + nb + nbna + nc = 2
n
2
4
+
n
2
=
n
2
2
+ n .
Le coût total de l’algorithme est donc n
2 + 5n EMM pour effectuer une multiplication modulo
P, contre 2n
2 + 4n avec l’algorithme de l’état de l’art [48]. Par contre, ce coût ne
prend pas en compte une éventuelle compression des données en sortie. La fonction de
compression proposée dans l’algorithme 28 effectue 2 extensions de base de Ba vers mγ4.2. ANALYSE DE L’ALGORITHME SBMM 131
aux lignes 1 et 4, puis 2 multiplications sur mγ aux lignes 2 et 5, et finalement 2 multiplications
sur Bb. Les extensions de base coûtent n/2 EMM sur Ba et n/2 multiplications
sur mγ chacune. On compte ici les multiplications modulo mγ à part, car généralement
ces multiplications seront sur 5, 6 ou 12 bits alors que les EMM correspondront à des multiplications
sur w bits (16 ou 32 par exemple). De plus, une EMM est une multiplication
modulo un nombre pseudo-Mersenne, alors que mγ est une puissance de 2 : la réduction
modulaire est donc immédiate pour mγ. On notera γEMM ces multiplications modulo mγ.
On obtient au total 2n EMM et (n + 2) γEMM. Le coût total de l’algorithme SBMM suivi de la
fonction de compression est donc de n
2 + 7n EMM et (n + 2) γEMM contre 2n
2 + 4n EMM dans
l’état de l’art. On a donc divisé par 2, environ, le nombre d’EMM par rapport à l’état de l’art.
Nous allons maintenant analyser la parallélisation que propose l’algorithme SBMM et la
fonction de compression, car c’est une caractéristique essentielle de la représentation RNS.
Dans l’état de l’art, on utilise généralement n unités arithmétiques, par exemple n Rowers,
qui correspondent à un élément pour chacune des bases. Dans l’algorithme de l’état de
l’art, on utilise uniquement des opérations sur des bases complètes de n moduli, qui se
parallélisent donc très bien sur les n Rowers. Notre algorithme 26 calcule, lui, sur les 2
« demi-bases » Ba et Bb de n/2 moduli. Plus précisément, on trouve 2 cas distincts. Soit
l’algorithme 26 effectue la même opération sur les deux bases en même temps, comme aux
lignes 1, 2 et 5. Dans ce cas, on peut voir Ba|b comme une base complète de n moduli,
et paralléliser sur les n Rowers comme d’habitude. Soit, les 2 appels à CSplit, lignes 3
et 4, n’effectuent leurs calculs que sur l’une des 2 demi-bases à la fois. Chacun des CSplit
va donc opérer sur seulement n/2 moduli. Ce n’est en réalité pas un problème car les 2
appels à la fonction CSplit sont complètement indépendants : on peut donc les effectuer
en parallèle, chacun sur n/2 moduli. Toutes les opérations de l’algorithme 26 sont donc
parallélisables sur n Rowers facilement, comme pour l’algorithme de l’état de l’art MM [99]
et ses améliorations [6, 48, 64].
La fonction de compression, présentée algorithme 28, est proposée pour une architecture
où les calculs sur mγ peuvent être effectués en parallèle des calculs sur les bases Ba et
Bb. Par exemple, en ayant une sorte de petit Rower supplémentaire, calculant modulo 2
6
ou 2
12. Ainsi, les lignes 2, 5, et les opérations sur mγ à l’intérieur des extensions de base
sont faites en parallèle des autres calculs sur les 2 bases Ba et Bb. Ensuite, les calculs aux
lignes 3 et 6, effectués sur la base Bb, sont complètement indépendants : ils peuvent être
effectués en même temps, chacun sur n/2 Rowers. Il en va de même pour les calculs sur Ba
effectués par les deux BE aux lignes 1 et 4.
La table 4.2 présente le décompte des pré-calculs pour notre nouvel algorithme. Les pré-
calculs du SBMM viennent tous des pré-calculs nécessaires à la fonction CSplit, qui utilise
exactement les mêmes astuces que Gandino et al. [48] pour effectuer les extensions de base.
Par exemple, les valeurs dans Bb sont multipliées par le pré-calcul
−−−−−→
T
−1
b
b
, de la même
façon que Gandino et al. ont proposé dans [48]. La différence avec la contribution [48],
c’est qu’ici on opère sur des demi-bases, et que nous ne faisons plus les calculs pour la
réduction de Montgomery mais pour la fonction de décomposition CSplit. Les n/2 valeurs
−−−−−→
T
−1
a
a
et les n
2/4
−−−−−−−−→
−1
ma,iMb,j
b
permettent d’effectuer la première extension de base de
CSplit, effectuée à la ligne 1 de l’algorithme CSplit, et permettent d’effectuer en même
temps −
−−−−→
(Rx)b ×
−−−−−−→
M−1
a
b
de la ligne 2. Cette contraction d’opérations requiert le stockage
de la valeur
−−−−−−→
(−Ma)
b
pour obtenir
−−−−→
(Rx)b , car on obtient −
−−−−→
(Rx)b ×
−−−−−−→
M−1
a
b
à la sortie132 CHAPITRE 4. MULTIPLICATION MODULAIRE RNS MONO-BASE
SBMM Compression
−−−−−→
T
−1
a
a
: n/2
−−−−−−−−−−−→
−Ma × T
−1
b
b
: n/2
−−−−−−−−→
−1
ma,iMb,j
b
: n
2/4 |Ma,i|mγ
: n/2*
−−−−−−→
Mb,j
Ma
b
: n/2 |−Ma|mγ
: 1*
−−−−→
(Tb,i)
a
: n
2/4
M−1
a
mγ
: 1*
−−−−−−→
(−Ma)
b
: n/2
−−−−−→
T
−1
b
b
: n/2
−−−−−−→
(−Mb)a
: n/2
−−−→
(Tb)
b
: n/2
Total : n
2/2 + 4n + 2 EMW
Table 4.2 – Décompte du nombre de pré-calculs à stocker en mots de w bits (EMW) de
notre algorithme SPRR. Note * : les valeurs notées * sont en réalité plus petites que w bits.
Algorithme coût en multiplications coût en mémoire pré-calculée
MM 2n
2 + 4n EMM 2n
2 + 10n EMW
SBMM n
2 + 5n EMM n
2
2 + 3n EMW
SBMM + compression (n
2 + 7n) EMM + (n + 2) γEMM n
2
2 + 4n + 2 EMW
÷2 ÷4
Table 4.3 – Comparaison du nombre de multiplications élémentaires et du nombre de mots
mémoire élémentaires à stocker pour les algorithmes MM et SBMM, avec et sans compression
des sorties.
de la première extension de base. Le vecteur
−−−−−−→
Mb,j
Ma
b
permet d’effectuer
−→
Xb ×
−−−−−−→
M−1
a
b
.
Les valeurs
−−−−→
(Tb,i)
a
et
−−−−−−→
(−Mb)a
sont utilisées pour la deuxième extension de base de la
fonction CSplit. Pour la compression,
−−−−−−−−−−−→
−Ma × T
−1
b
b
sert à calculer
−−−→
(Rk)b et
−−−→
(Rr)b aux
lignes 3 et 6 de l’algorithme 28. Si on stocke
−−−−−−−−−−−→
−Ma × T
−1
b
b
plutôt que
−−−−−−→
(−Ma)
b
, c’est
parce que dans la seconde demi-base Bb, les valeurs sont toutes multipliées par
−−−−−→
T
−1
b
b
car
on utilise la représentation de Gandino et al. [48]. Ensuite, les n/2 valeurs |Ma,i|mγ
sont
nécessaires pour calculer le CRT modulo mγ, et |−Ma|mγ
permet de corriger le calcul du
CRT avec l’astuce de Kawamura et al. [64]. Enfin,
M−1
a
mγ
permet de calculer Kk et Kr
dans l’algorithme 28. La table 4.3 résume et compare les coûts en calcul et en mémoire
entre l’algorithme de l’état de l’art MM et l’algorithme SBMM, avec et sans compression des
sorties de celui-ci.4.3. IMPLANTATION FPGA 133
4.3 Implantation FPGA
Nous allons présenter dans cette section nos premiers résultats d’implantation. Ce sont
des résultats partiels, car les implantations ont été effectuées durant la rédaction du document
de thèse. Ils ne sont pas encore suffisamment optimisés, l’architecture devrait notamment
être modifiée pour mieux profiter de notre algorithme. Nous nous sommes ici
comparés aux multiplieurs modulaire RNS, tels qu’implantés pour le chapitre 2 sur l’inversion
modulaire RNS PM-MI. Des premiers gains intéressants sont observés et présentés
ci-dessous.
4.3.1 Architecture implantée
Tout d’abord, afin d’effectuer une implantation matérielle, il faut générer les diffé-
rents paramètres de notre représentation. Pour des paramètres w et n choisis, nous avons
tiré au hasard n/2 éléments parmi les nombres pseudo-Mersenne impairs de la forme
ma,i = 2w − ha,i, avec ha,i < 2
w
2 . Avant d’inclure un nouvel élément dans la base, on
vérifie qu’il soit bien premier avec le produit des éléments déjà sélectionnés. Arrivé à n/2
éléments, on teste si P = M2
a + 2 est un nombre premier. La fonction de test utilisée est
simplement la fonction isprime de Maple, qui n’effectue qu’un test probabiliste. Il est extrêmement
probable que le P trouvé soit premier, mais un test déterministe de primalité
devrait être effectué pour une réelle implantation cryptographique sur le P choisi. Générer
les P pseudo-premiers est rapide, puisqu’en 15 secondes Maple génère plus de 10 000 P
différents de 512 bits, correspondants à 10 000 bases Ba différentes. Une fois P et la base
Ba déterminés, il ne manque plus qu’à choisir une base Bb qui soit composée de nombres
premiers avec Ma, de sorte à remplir la condition Mb > 6Ma (au minimum). Pour pouvoir
utiliser la fonction de compression, on rappelle que la condition est en fait Mb > 19Ma, on
a donc Mb qui a 5 bits de plus que Ma.
La figure 4.2 présente l’architecture implantée de notre algorithme SBMM. Notre implantation
utilise ici n/2 Rowers « habituels », et un petit Rower supplémentaire. Le petit Rower
supplémentaire est en fait dédié à la seconde base, car elle est doit être plus grande que la
première comme expliqué précédemment. Dans nos implantations, la base Ba est constituée
de n/2 moduli de w bits, et la base Bb est composée de n/2 moduli de w bits et d’un petit
modulo de 6 bits. Le petit Rower est dédié à ce modulo de 6 bits, que l’on prend égal à
2
6
. On rappelle que Mb est plus long d’au moins 5 bits que Ma pour pouvoir utiliser la
fonction de compression. Si dans nos résultats d’implantation le modulo supplémentaire
est de 6 bits, c’est dû à une estimation de la condition d’utilisation grossière de la fonction
de compression que nous avions faite dans un premier temps. La figure reprend les mêmes
codes que la figure 2.2 présentée dans le chapitre 2. Les petits cercles sont toujours les
signaux de contrôle et les carrés sont toujours la sélection des 6 bits de poids forts parmi
les w bits entrant. On a rajouté ici des petits rectangles permettant de passer de 6 bits à
w bits, tout simplement en concaténant w − 6 zéros devant les 6 bits entrant. Cela permet
un contrôle plus simple, car on considère la sortie du petit Rower comme celle des autres
Rowers pour les extensions de base.
Les Rowers utilisés sont les mêmes que ceux implantés dans le chapitre 2 pour l’inversion
PM-MI, et le petit Rower supplémentaire lui est très simple, car il calcule simplement
des opérations modulo 2
6
. Comme les autres Rowers, il est doté de 6 étages de pipeline,
afin de simplifier le contrôle. Ce modulo supplémentaire n’est pas obligatoire pour obtenir134 CHAPITRE 4. MULTIPLICATION MODULAIRE RNS MONO-BASE
canal 1
rower 1
w
w
x1 y1
w
canal 2
rower 2
w
w
x2 y2
w
. . .
canal n
2
rower n
2
w
w
x n
2
y n
2
w
canal n
2 + 1
rower
n
2 + 1
6
6
x n
2 +1 y n
2 +1
6
6
cox
. . .
1
6
w
Sortie
w w w
w
CTRL
Figure 4.2 – Architecture de la multiplication modulaire SBMM implantée, avec un modulo
de 6 bits supplémentaire pour la base Bb.
Mb plus grand de 5 bits que Ma. En effet, on peut aussi choisir la base Bb avec des moduli
de w + 1 bits au lieu de w bits. L’avantage d’une telle solution est que, premièrement, elle
peut être moins chère en surface que notre implantation si w + 1 est plus petit ou égal
à la taille maximale supportée par les multiplieurs câblés du FPGA. Deuxièmement, le
petit Rower supplémentaire implique 2 cycles supplémentaires dans notre implantation de
l’algorithme SBMM, par rapport à cette solution. Mais pour implanter cette solution, il faut
réaliser des Rowers et un Cox qui gèrent 2 tailles d’éléments, w et w + 1. Par manque de
temps, nous avons décidé de garder les Rowers qui ne gèrent qu’une seule taille, et d’implanter
un petit Rower supplémentaire.
Notre implantation ne concerne pour le moment que l’algorithme SBMM, sans la fonction
de compression. Même si nous avons pris une base Bb telle que la fonction de compression
soit utilisable, notre implantation va juste calculer le résultat d’une multiplication modulaire.
Le résultat n’est pas compressé, il est inférieur à 6P. La compression est censée être
effectuée en parallèle sur un petit modulo supplémentaire mγ. Avec l’architecture illustrée
figure 4.2, ces calculs peuvent être effectués sur le Rower supplémentaire qui n’est utilisé
que la moitié du temps : lorsque l’on calcule sur la base Bb. Il suffira de s’occuper des
compressions lorsque les calculs sur les autres Rowers seront faits sur la base Ba. Si on
implante des Rowers gérant aussi des éléments de w + 1 bits, on est obligés de rajouter un
petit Rower supplémentaire, qui dans ce cas pourra être utilisé en parallèle des calculs sur
Ba, mais aussi en parallèle des calculs sur Bb.
Nous avons choisi d’implanter une architecture sur n/2 Rowers plutôt que sur n Rowers4.3. IMPLANTATION FPGA 135
Slices nb. nb. nb. Fréq. temps
Algo. ` n × w (FF/LUT) DSP BRAM cycles (MHz) (ns)
192 12 × 17 2011(2956/5906) 26 0 50 208 240
MM 384 12 × 33 3304(5692/10455) 84 12 50 118 424
512 16 × 33 6180(7557/15240) 112 16 58 116 500
192 12 × 16* 1476(1973/4604) 15 0 58 223 260
SBMM 384 12 × 32* 2256(3818/8415) 42 6 58 124 467
512 16 × 32* 3400(4960/10877) 57 8 66 123 535
Table 4.4 – Résultats d’implantation des deux algorithmes de multiplication modulaire
sur FPGA Virtex 5 (XC5VLX50T pour 192 bits, XC5VLX220 pour 384 et 512 bits). Les
temps sont donnés pour une exécution unique. Notation * : un modulo supplémentaire de
6 bits est rajouté à la seconde demi-base Bb.
parce qu’il était plus simple d’adapter nos anciennes implantations à ce cas là. Une première
façon d’obtenir une implantation sur n Rowers de notre algorithme est de doubler le
nombre de total de Rowers (y compris le petit Rower), et d’effectuer les lignes 2 et 4 de l’algorithme
26 en parallèle. En effet, ces deux opérations sont complètement indépendantes.
Les autres opérations de l’algorithme 26 sont effectuées sur les 2 demi-bases Ba et Bb, donc
déjà sur n moduli. Dans tous les cas, ce nouvel algorithme opérant sur des demi-bases, il
doit être évalué sur au moins deux architectures, une avec n/2 Rowers et une avec n Rowers.
4.3.2 Résultats d’implantation
0
1000
2000
3000
4000
5000
6000
192 384 512
log P
nombre de slices
MM
SBMM
0
20
40
60
80
100
120
192 384 512
log P
nombre de blocs DSP et BRAM
BRAM(MM)
DSP(MM)
DSP(SBMM)
BRAM(SBMM)
Figure 4.3 – Comparaison en surface des implantations FPGA de MM et SBMM, en nombre
de slices et en nombre de blocs dédiés (DSP et BRAM).
Les résultats obtenus pour les deux algorithmes sont présentés dans la table 4.4 et
sont illustrés par la figure 4.3 pour les résultats de surface et la figure 4.4 pour le temps
d’exécution. Les tailles de corps implantées sont 192 et 384 bits, qui sont des tailles de
corps standardisées par le NIST [91], et 512 bits. Le standard du NIST propose l’utilisation
de courbes définies sur 521 bits car P = 2521 − 1 est premier, et permet d’avoir une136 CHAPITRE 4. MULTIPLICATION MODULAIRE RNS MONO-BASE
0
100
200
300
400
500
600
192 384 512
log P
temps d’une multiplication [ns]
MM
SBMM
Figure 4.4 – Comparaison du temps d’exécution des implantations FPGA de MM et SBMM.
multiplication modulaire très efficace, en représentation binaire classique. Dans notre cas,
nous avons pris un premier de 512 bits car il est facile d’en trouver tels que P = M2
a − 2.
Les mots sont de taille 16 bits pour le corps de 192 bits et 32 bits pour les autres pour
l’algorithme SBMM, alors que l’on a w = 17 et w = 33 bits pour l’algorithme MM de l’état de
l’art. Cela est dû au fait que dans notre implantation, les bits supplémentaires nécessaires
sont fournis par le petit Rower supplémentaire.
Les résultats présentés à la table 4.4 ont été obtenus sur FPGA Virtex 5, XC5VLX50T
pour 192 bits et XC5VLX220 pour 384 et 512 bits. Grâce à notre algorithme, avec l’architecture
proposée, nous obtenons une implantation bien plus compacte, pour un faible
surcoût en temps. Comme illustré dans la figure 4.3, pour 192, 384 et 512 bits nous obtenons
respectivement une réduction du nombre de slices de 27 %, 32 % et 45 %. De plus, le
nombre de blocs DSP est respectivement réduit de 43 %, 50 % et 50 % et nous avons divisé
par 2 le nombre de BRAM pour les 3 corps. En contrepartie, nous obtenons un surcoût
en temps d’exécution de 8 %, 10 % et 7 % respectivement pour les corps de 192, 384 et
512 bits, illustré dans la figure 4.4. Comme pour nos propositions des chapitres 2 et 3, nos
gains sont plus importants lorsque n devient grand, c’est à dire lorsque nous travaillons
sur des hauts niveaux de sécurité. Nous rappelons enfin que l’implantation de notre nouvel
algorithme n’a pas encore été optimisée, faute de temps.
4.4 Conclusion
Dans ce chapitre nous avons présenté des travaux introduisant un nouvel algorithme de
multiplication modulaire RNS, appelé SBMM, utilisable pour la cryptographie sur courbes
elliptiques. Grâce à des P bien choisis et à des décompositions semblables à celles présentées
dans le chapitre 3 sur le SPRR, nous avons divisé par 2 le nombre de multiplications
modulaires élémentaires et par 4 le nombre de pré-calculs par rapport à l’algorithme de
l’état de l’art. Des premiers résultats d’implantation sur FPGA, partiels, permettent de
calculer une multiplication modulaire RNS avec une surface jusqu’à 2 fois plus petite, pour
un surcoût en temps d’exécution de seulement 10 % (au plus) pour nos implantations.4.4. CONCLUSION 137
Ces travaux étant en cours, des implantations plus poussées seront réalisées, avec notamment
l’implantation d’un doublement et d’une addition de points utilisant notre algorithme,
associée à une fonction de compression pour pouvoir enchaîner les multiplications
SBMM. Une implantation orientée vitesse sera aussi réalisée, qui devrait être bien plus rapide
que les implantations de l’état de l’art, pour un faible surcoût en surface.
Enfin, ces travaux devront être valorisés via une implantation complète d’une multiplication
scalaire, combinés avec les travaux sur l’inversion modulaire présentés dans le
chapitre 2.138 CHAPITRE 4. MULTIPLICATION MODULAIRE RNS MONO-BASEChapitre 5
Tests de divisibilité multiples
Dans cette section, issue de notre publication [18], nous présentons un opérateur arithmétique
matériel dédié aux tests de divisibilité par plusieurs petites constantes sur des
grands entiers (comme des scalaires ECC). Ces grands entiers, de plusieurs centaines de
bits, sont représentés en multi-précision. La méthode proposée permet de n’effectuer qu’un
très faible nombre de calculs pour chaque mot de la représentation multi-précision. Par
exemple, elle permet de tester la divisibilité par (2a
, 3, 5, 7, 9), où 1 ≤ a ≤ 12, beaucoup
plus efficacement qu’en testant la divisibilité par chacune des petites constantes séparé-
ment. La méthode proposée a été implantée et validée sur circuit FPGA. Ce chapitre ne
traite pas spécifiquement du RNS, mais de calculs simultanés sur des petits moduli, ou
bien de recodage à bases multiples de clés pendant la multiplication scalaire [25], ce qui
est complémentaire au reste des travaux de la thèse. Enfin, ce chapitre n’utilise pas les
notations utilisées pour le RNS, de nouvelles notations seront définies spécifiquement.
5.1 Introduction
Dans certaines applications particulières, il est nécessaire de pouvoir tester rapidement
si un entier est divisible par des constantes comme 2, 3, 5 ou d’autres petits premiers et
des petites puissances de ces nombres comme 3
2
. Ceci se fait assez facilement, en logiciel
et en matériel, pour une seule constante et sur un nombre à tester de taille modérée (de la
taille d’un mot machine en logiciel ou de quelques dizaines de bits en circuit). Mais lorsqu’il
s’agit d’effectuer ces tests sur de grands entiers de plusieurs centaines de bits ou plus
(p. ex. pour des tailles de nombres utilisés en cryptographie asymétrique) et pour plusieurs
constantes à la fois, ceci nécessite des calculs élémentaires bien plus nombreux et ainsi des
opérateurs coûteux à implanter en matériel. Ceci limite considérablement l’application de
méthodes utilisant des tests de divisibilité de grands entiers en matériel.
Par exemple, en cryptographie sur courbes elliptiques, une façon d’accélérer la multiplication
scalaire est de faire appel à des algorithmes de recodage en bases multiples. Ces
recodages permettent de réduire significativement le nombre total d’opérations à effectuer
sur les points de la courbe elliptique considérée. En base double (2, 3), on représente un
nombre par une somme de termes de la forme ±2
e1 3
e2
, voir [40] par exemple. Pour des
bases multiples comme (2, 3, 5, 7), la représentation se fait via la somme de termes de la
forme ±2
e1 3
e2 5
e3 7
e4
, voir [73] par exemple. Notre équipe travaille sur de tels recodages qui
nécessitent des tests de divisibilité efficaces par les différents éléments des bases multiples
(et si possible des petites puissances de ces premiers).
139140 CHAPITRE 5. TESTS DE DIVISIBILITÉ MULTIPLES
Dans ce chapitre, nous présentons une méthode permettant d’effectuer simultanément,
rapidement, et sur des petits circuits, les tests de divisibilité par plusieurs petites constantes
comme (2a
, 3, 5, 7, 9), avec a petit, sur de très grands entiers de plusieurs centaines de bits et
représentés en multi-précision (c.-à-d. sous forme de vecteurs de mots de taille modérée). La
méthode proposée repose sur l’adaptation d’une très ancienne méthode décrite par Blaise
Pascal [93, 103]. Nous l’avons adaptée au cas de la divisibilité par plusieurs constantes et
en matériel.
La section 5.2 présente les notations utilisées dans ce chapitre et quelques hypothèses
qui seront utiles pour les implantations matérielles. L’état de l’art du domaine est présenté
en section 5.3. La section 5.4 présente la version simple en base 2, directement issue de la
méthode de Pascal, de l’opérateur de divisibilité et son implantation FPGA. La section 5.5
présente notre amélioration de la méthode en utilisant une base intermédiaire plus grande
de type 2
v
. Nous donnons aussi les résultats d’implantation FPGA pour cette amélioration.
La section 5.6 décrit brièvement des comparaisons avec d’autres travaux proches. Enfin, la
section 5.7 présente la conclusion et quelques perspectives.
5.2 Notations et hypothèses d’implantation matérielle
L’entier naturel x est l’opérande dont la divisibilité doit être testée. Il est représenté en
numération simple de position de base 2 (la notation binaire standard, cf. [85, p. 27] par
exemple) sur n bits. On a donc :
x = (xn−1xn−2 . . . x1x0)2 =
nX−1
i=0
xi2
i
.
La notation ()2 signifie que les éléments entre parenthèses sont les bits de la représentation
de base 2 avec les poids faibles à droite. Dans nos applications cibles — l’implantation
matérielle de crypto-processeurs ECC — les nombres ont des tailles dans l’intervalle
n ∈ [160, 600] bits, mais notre méthode fonctionne directement pour des tailles plus importantes.
L’extension au cas des entiers relatifs est triviale et ne sera pas décrite dans ce
chapitre (car peu utile dans nos applications en cryptographie).
En pratique dans le circuit, un tel grand entier est représenté — et donc stocké — en
multi-précision par un vecteur de t mots de taille w bits. Le nombre t de mots nécessaires
pour représenter les entiers de n bits est donné par la relation : w · (t − 1) < n ≤ w · t.
Si besoin, le mot de poids le plus fort est complété par des zéros (0-padding). On note
x
(j)
, avec 0 ≤ j < t, le j-ième mot de la représentation multi-précision de x en partant
des poids faibles. Le stockage de x en multi-précision est illustré au niveau architecture en
figure 5.1. L’adresse du j-ième mot de x est entrée dans le bloc mémoire et le contenu de ce
mot x
(j)
sort sur le port de lecture. Dans nos implantations matérielles en FPGA, ce bloc
mémoire sera implanté en LUT (look-up table) afin de pouvoir mesurer l’impact de n et
w sur la surface de circuit utilisée. Bien évidement, notre méthode s’applique directement
aux implantations avec des blocs dédiés de mémoire câblée des FPGA modernes (p. ex. les
BRAM des FPGA Xilinx).
Nous noterons D l’ensemble des l diviseurs par lesquels on souhaite tester la divisibilité
de x, on a ainsi D = (d1, d2, . . . , dl). Nous désignons par d un des éléments de D (quand
sa position dans D n’a pas d’importance afin d’alléger les notations). Les diviseurs de D5.3. ÉTAT DE L’ART 141
x
(0) =
x
(1) =
x
(t−1) = xt·w−1 xt·w−2 . . . x(t−1)·w+1 x(t−1)·w
✳
✳
✳
x2·w−1 x2·w−2 . . . xw+1 xw
xw−1 xw−2 . . . x1 x0
w ❜✐ts
t ♠♦ts
x
(j)
w
j
dlog2
(t)e
Figure 5.1 – Stockage de l’argument x sur t mots de w bits.
envisagés pour les tests sont des petits nombres premiers comme 2, 3, 5 ou 7 ainsi que
quelques puissances limitées de ces premiers comme 2
a
(avec a ≤ w en pratique dans
l’architecture) ou 3
2
.
Les réalisations matérielles de ce chapitre ont été décrites en VHDL puis implantées
sur un FPGA XC5VLX50T en utilisant l’environnement ISE 12.4, tous deux de la société
Xilinx, avec des paramètres d’effort standard pour la synthèse et le placement/routage.
Dans la suite, nous résumerons les résultats d’implantation, obtenus par les outils, en termes
de nombre de cycles d’horloge, de surfaces exprimées en slices et de fréquences d’horloge.
Les surfaces seront aussi indiquées en nombre de LUT (à 6 entrées dans Virtex 5) et nombre
de bascules (FF pour flip-flop). Pour information, un XC5VLX50T contient 7 200 slices de
4 LUT-6 et 4 FF par slice.
5.3 État de l’art
Il existe de nombreuses références qui présentent des tests de divisibilité. Par exemple,
les tests élémentaires comme la divisibilité par 3, 5, 9 ou 10 en base 10 se trouvent dans
les livres de mathématiques pour le collège. Des listes plus étoffées de tests de divisibilité
en bases 10 et 2 se trouvent sur des sites comme Wikipédia. Enfin, des livres bien plus
techniques comme [124] proposent des astuces logicielles pour effectuer certains tests très
rapidement en utilisant de courtes séquences d’instructions arithmétiques et logiques. Mais
il existe très peu de référence sur l’implantation matérielle de ces tests, en particulier pour
des grands nombres (cf. section 5.6). Toutes ces méthodes utilisent, plus ou moins directement
et avec des adaptations, l’idée de base présentée ci-dessous.
Blaise Pascal (1623–1662) a proposé une méthode générale permettant de tester la divisibilité
de x par d dans une représentation de base b quelconque (avec x en numération
simple de position, c.-à-d. x =
Pn−1
i=0 xib
i
). Cette méthode est décrite dans une publication
posthume, en latin, de 1819 [93] 1
. Une analyse moderne et en anglais de ce texte se trouve
dans [103] (on trouve sur Internet une version équivalente de ce texte et en français sous
le titre « La machine à diviser de Monsieur Pascal »). Cette méthode est souvent appelée
ruban de Pascal. La méthode décrite par Pascal est peut-être encore plus ancienne, mais
nous ne connaissons pas de texte antérieur présentant cette méthode en base b quelconque.
Pascal a remarqué que les valeurs des restes b
i mod d, avec i ∈ N et d premier avec la
base b, forment une séquence périodique très simple dans certains cas. Dans la suite de ce
1. Nous remercions Christiane Frougny pour nous avoir fourni les références historiques sur le sujet.142 CHAPITRE 5. TESTS DE DIVISIBILITÉ MULTIPLES
chapitre, nous nous limiterons au cas de la base b = 2 ou b = 2v avec v petit. La table 5.1
présente les restes 2
i mod d pour d ∈ {3, 5, 7} et i ≤ 16. Chaque ligne de la table 5.1
présente le ruban de Pascal correspondant à d.
i
d 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
3 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1
5 1 3 4 2 1 3 4 2 1 3 4 2 1 3 4 2 1
7 2 1 4 2 1 4 2 1 4 2 1 4 2 1 4 2 1
Table 5.1 – Rubans de Pascal pour la divisibilité par d ∈ {3, 5, 7} (les valeurs sont 2
i mod
d).
À partir de la table 5.1, on peut utiliser le ruban de Pascal pour tester facilement la
divisibilité par d = 3, pour lequel la séquence périodique est (2 1)∗
. Ce ruban indique que :
x mod 3 = (. . . + 25x5 + 24x4 + 23x3 + 22x2 + 21x1 + x0) mod 3
= (. . . + 2 x5 + x4 + 2 x3 + x2 + 2 x1 + x0) mod 3
=
X(2x2i+1 + x2i)
| {z }
α
mod 3
Cela signifie qu’il faut commencer par sommer les sous-mots de taille 2 bits de type
(x2i+1 x2i)2 sur toute la largeur de l’opérande. La somme obtenue est alors congrue à 3 dans
le cas où x est divisible par 3. En appliquant récursivement cette méthode sur l’écriture de
la somme obtenue pour α (la taille de α dépend de t), comme illustré à la figure 5.2, on
obtient une valeur pour laquelle il suffit de tester si elle est égale à 0 ou à 3. Si la valeur
finale obtenue est différente de 0 et de 3 alors x n’est pas divisible par d = 3.
x
(j)
2
0
2
1
2
2
2
3
2
4
2
5
2
6
2
7
2
8
2
9
. . . + +
+
+
. . .
application du
ruban de Pascal
pour d = 3
Figure 5.2 – Application récursive du ruban de Pascal pour d = 3.
Cette méthode s’applique directement au cas d = 7 pour lequel la séquence périodique5.4. UTILISATION DIRECTE DES RUBANS DE PASCAL EN BASE 2 143
est (4 2 1)∗
. Ce qui signifie qu’il faut faire la somme α (spécifique à cette valeur de d) des
sous-mots de taille 3 bits et de la forme (x3i+2 x3i+1 x3i)2 le plus possible (en appliquant
la décomposition récursivement), puis enfin tester si la somme réduite finale est égale à 0
ou 7.
Mais dans le cas d = 5, la séquence périodique est (3 4 2 1)∗
. On ne peut plus faire la
somme par sous-mots de taille 4 bits du fait du facteur 3 (3 n’étant pas une puissance de
2). Pour résoudre ce problème, deux solutions s’offrent à nous : considérer 3 = 1+ 2 ou bien
considérer 3 ≡ −2 mod 5. La première solution consiste à utiliser le bit de rang 4i+3 comme
entrée de l’addition aux rangs 4i + 1 et 4i simultanément. La seconde nécessite d’utiliser
la représentation en complément à deux pour effectuer toutes les sommes intermédiaires
pour obtenir α.
Le test de divisibilité par 2
a avec a ∈ N est trivial pour x représenté en base 2. Il suffit
en effet de regarder si les a bits de poids faibles sont nuls ou non.
5.4 Utilisation directe des rubans de Pascal en base 2
Dans un premier temps, nous avons utilisé directement la méthode des rubans de Pascal
en base 2, c.-à-d. en considérant les sommes de sous-mots de 2 bits pour d = 3 et 3 bits
pour d = 7 par exemple. L’architecture correspondante est présentée en figure 5.3. Nous
avons implanté une version pour D = (21...a
, 3, 5, 7). Les blocs de somme « P » calculent
la valeur de α propre à chaque diviseur d de D différent de 2
1...a. En plus, dans ces blocs,
nous appliquons le ruban de Pascal pour chaque d afin de réduire la taille du registre
d’accumulation. Donc, nous n’accumulons pas réellement la somme α, mais la somme α
après application du ruban de Pascal. Lors de cette accumulation/réduction, il faut traiter
les t mots de l’opérande x. Les blocs « R », quant à eux, effectuent les toutes dernières
applications du ruban de Pascal ainsi que le test final (p. ex. tester si on a une valeur égale
à 0 ou à d). Les signaux d’horloge et de contrôle ne sont pas représentés sur la figure 5.3.
.
.
.
t mots
w bits
mem. x
x
(j) CTRL
j
w
P pour d = 3
3
reg.
R pour d = 3
divisible par 3
1
w
P pour d = 5
5
reg.
R pour d = 5
divisible par 5
1
w
P pour d = 7
4
reg.
R pour d = 7
divisible par 7
1
w
divisible
par d = 21...a
divisible par 2
1...a
a
Figure 5.3 – Architecture des tests de divisibilité par D = (21...a
, 3, 5, 7) en utilisant
directement les rubans de Pascal en base 2.
Nous avons testé les deux solutions pour le test de divisibilité par d = 5 : considérer
3 = 1 + 2 ou bien considérer 3 ≡ −2 mod 5. C’est la version non signée, 3 = 1 + 2, qui
s’avère être la plus efficace en vitesse et en surface. Ceci est très probablement lié au surcoût
de l’extension de signe pour les additions/soustractions en complément à deux.
L’architecture de la figure 5.3 permet de tester la divisibilité par chacun des éléments
de D de façon simultanée et en un seul parcours des mots de la représentation de x. Le
nombre de cycles d’horloge nécessaire est t+O(1) où la constante dépend de la taille w des
mots. Le paramètre w influence grandement les performances et la taille de l’opérateur.144 CHAPITRE 5. TESTS DE DIVISIBILITÉ MULTIPLES
Les longueurs des séquences périodiques de restes 2
i mod d pour d = 3, 5, 7 sont respectivement
2, 4, 3 (voir table 5.1). Afin d’éviter un décodage complexe, nous utilisons le plus
petit commun multiple de ces longueurs pour la valeur de w. Dans notre cas particulier, on
a donc w = ppcm(2, 4, 3) = 12. En pratique, on peut utiliser des multiples du ppcm. Nous
avons testé w = 12 et w = 24 (de plus grandes valeurs réduisent beaucoup la fréquence
d’horloge et nécessitent l’introduction d’étages de pipeline supplémentaires).
Les résultats d’implantation en FPGA sont résumés dans la table 5.2 pour des opérandes
de n = 160 bits (la plus petite taille utile pour nos applications ECC) et pour des tests
de divisibilité par D = (21...a
, 3, 5, 7). Nous avons utilisé a = 12 quelque soit la valeur w.
Ce choix du paramètre a limité à 12 est justifié par des évaluations statistiques sur nos
applications ECC.
surface fréquence nombre
w t slices (FF/LUT) MHz de cycles
12 14 37 (90/100) 418 t + 3
24 7 42 (100/105) 408 t + 4
Table 5.2 – Résultats d’implantation sur FPGA des tests de divisibilité par D =
(21...a
, 3, 5, 7) utilisant directement les rubans de Pascal en base 2 et pour n = 160 bits.
Dans la table 5.2, nous exprimons le nombre de cycles d’horloge nécessaire pour effectuer
les tests de divisibilité simultanés en fonction de t (le nombre de mots de x). En effet, il faut
lire chaque mot pour accumuler sa contribution à α. La valeur de t utilisée est déterminée
par les paramètres n et w (n pour l’application et w pour l’architecture). On rappelle que
w · (t − 1) < n ≤ w · t. La fréquence de l’opérateur, quant à elle, dépend fortement des
paramètres t et w (et donc indirectement aussi de n).
Notre méthode fonctionne sans aucun problème pour des tailles plus importantes que
n = 160. Le surcoût en surface de circuit est alors celui du stockage d’arguments de plus
grande taille. Ces plus grands arguments nécessitent un compteur de boucle un peu plus
large (la taille du compteur étant en dlog2
(t)e). Enfin, nous avons validé fonctionnellement
nos opérateurs par des simulations aléatoires intensives.
5.5 Amélioration via les rubans de Pascal en grande base 2
v
Appliquer directement la méthode des rubans de Pascal à des tests de divisibilité plus
nombreux, comme D = (21...a
, 3, 5, 7, 9, 11, 13), complique sensiblement le contrôle et augmente
le nombre de registres internes utilisés pendant la boucle d’accumulation. La table 5.3
fournit les rubans de Pascal pour d ∈ {9, 11, 13} à partir des bits de x (c.-à-d. les restes
sont les valeurs 2
i mod d). Elle montre clairement qu’avec des valeurs de d plus grandes,
la longueur des séquences périodiques et leur « complexité » (forme des coefficients) croît
de façon importante. Devoir organiser le décodage de ce qu’il convient de faire de chaque
bit en fonction du ppcm de ces longueurs va engendrer un contrôle bien plus complexe. De
plus, il faut accumuler les valeurs α propres à chaque diviseur d dans des registres distincts.
Afin d’étudier les liens entre les longueurs et la forme des séquences périodiques dans
les rubans de Pascal d’une part, et les performances et le coût des opérateurs nécessaires
pour des tests plus complexes d’autre part, nous avons modifié différents paramètres arithmétiques
et de l’architecture.5.5. AMÉLIORATION VIA LES RUBANS DE PASCAL EN GRANDE BASE 2
V 145
i
d 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
9 2 1 5 7 8 4 2 1 5 7 8 4 2 1 5 7 8 4 2 1
11 6 3 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 1
13 11 12 6 3 8 4 2 1 7 10 5 9 11 12 6 3 8 4 2 1
Table 5.3 – Rubans de Pascal en base 2 pour d ∈ {9, 11, 13} (les valeurs sont 2
i mod d).
En faisant varier ces paramètres, nous avons remarqué une propriété très intéressante si
l’on considère les restes de sous-mots au lieu des restes des bits (au sens arithmétique) directement.
Supposons que l’on découpe les mots de w bits en sous-mots de v bits avec v ≤ w,
c.-à-d. que l’on lit les chiffres de x en base b = 2v
. En considérant les restes
2
v
i mod d
au lieu de 2
i mod d, on obtient des séquences périodiques très intéressantes pour certaines
valeurs de v et de d. En particulier pour v = 12, on obtient les rubans de Pascal présentés
à la table 5.4 pour d ∈ {3, 5, 7, 9, 11, 13, 16, 25}. Dans cette table, les valeurs sont les restes
2
12i mod d pour 0 ≤ i ≤ 9.
i
d 9 8 7 6 5 4 3 2 1 0
3 1 1 1 1 1 1 1 1 1 1
5 1 1 1 1 1 1 1 1 1 1
7 1 1 1 1 1 1 1 1 1 1
9 1 1 1 1 1 1 1 1 1 1
11 3 9 5 4 1 3 9 5 4 1
13 1 1 1 1 1 1 1 1 1 1
17 16 1 16 1 16 1 16 1 16 1
25 6 11 16 21 1 6 11 16 21 1
Table 5.4 – Rubans de Pascal en base 2
12 pour d ∈ {3, 5, 7, 9, 11, 13, 16, 25} (les valeurs
sont
2
12i mod d).
Les lignes qui correspondent aux diviseurs 3, 5, 7, 9 et 13 de la table 5.4 présentent la
même séquence périodique (1)∗
. Ces lignes signifient que les tests correspondants peuvent
être effectués en utilisant un unique registre d’accumulation. Le même accumulateur est
alors partagé pendant les t cycles de l’accumulation, puis il faut effectuer une réduction
finale propre à chaque diviseur dans notre nouvelle architecture illustrée en figure 5.4. L’optimisation
provient de l’accumulation d’une seule valeur α partagée par tous les diviseurs
ayant (1)∗
comme séquence périodique. Afin de tirer parti de cette propriété, il convient
de choisir pour w un multiple de v (c.-à-d. w = v, w = 2 · v, w = 3 · v, . . . ). Dans notre cas,
nous avons implanté la version améliorée pour v = 12 et w ∈ {12, 24}. Dans cette version,
la sortie du registre d’accumulation est plus grande (w + dlog2
(t)e bits) que les sorties des
registres de la figure 5.3. Les blocs de réduction « R0 » propres à chaque diviseur utilisent
la technique spécifique de base b = 2 présentée en section 5.3 (figure 5.2).
Les résultats d’implantation en FPGA pour notre méthode améliorée sont donnés dans
la table 5.5 pour des opérandes de n = 160, 256 et 521 bits (qui correspondent à des
tailles cryptographiques assez classiques pour ECC) et pour des divisibilités par D =146 CHAPITRE 5. TESTS DE DIVISIBILITÉ MULTIPLES
.
.
.
t mots
w bits
mem. x
x
(j) CTRL
j
w est un multiple de v
w
+
w + dlog2
(t)e
reg.
R0 pour d = 3
divisible par 3
1
R0 pour d = 5
divisible par 5
1
R0 pour d = 7
divisible par 7
1
R0 pour d = 9
divisible par 9
1
R0 pour d = 13
divisible par 13
1
w
divisible
par d = 21...a
divisible par 2
1...a
a
Figure 5.4 – Architecture des tests de divisibilité par D = (21...a
, 3, 5, 7, 9, 13) en utilisant
l’amélioration en base 2
v des rubans de Pascal.
(21...a
, 3, 5, 7, 9, 13). Ici aussi, nous avons utilisé a = 12 pour les différentes valeurs de w.
surface fréquence nombre
n w t slices (FF/LUT) MHz de cycles
160
12 14 49 (112/135) 454 t + 3
24 7 72 (176/198) 490 t + 4
256
12 22 54 (127/149) 460 t + 3
24 11 74 (188/205) 495 t + 4
521
12 44 56 (129/155) 424 t + 3
24 22 74 (192/208) 485 t + 4
Table 5.5 – Résultats d’implantation sur FPGA des tests de divisibilité par D =
(21...a
, 3, 5, 7, 9, 13) utilisant l’amélioration des rubans de Pascal en base 2
12 et pour
n ∈ {160, 256, 521} bits.
5.6 Comparaisons
On trouve dans [47] une application du RNS au test de divisibilité en matériel mais
sans aucun résultat d’implantation. La méthode décrite dans [47] suppose que l’opérande
x soit représenté en RNS ce qui n’a pas vraiment de sens pour les applications envisagées
en cryptographie ECC. On peut représenter les coordonnées des points d’une courbe elliptique
(éléments d’un corps fini) avantageusement en RNS, comme le montrent les premiers
chapitres de ce document. Mais nous ne connaissons pas de proposition de cryptosystème
dans lequel le scalaire k est représenté en RNS pour l’opération de multiplication scalaire
[k]P.
On trouve sur Internet le texte correspondant à un poster [101] prétendument publié
à la conférence FCCM (Field-Programmable Custom Computing Machines) 2002 mais ce
papier n’est pas dans la liste des posters ou papiers présentés à la conférence (ni pour
les autres années à FCCM, ni sur DBLP et IEEEXplore qui stockent pourtant toutes les
publications à FCCM, ni dans une autre conférence). Ce texte présente, sans aucun détail,
des résultats d’implantation en FPGA de tests de divisibilité pour des nombres en multiprécision
avec un temps de calcul qui semble quadratique (en tous cas non-linéaire). Notre
méthode a un temps de calcul seulement linéaire en t+O(1) cycles et où le terme constant5.7. CONCLUSION 147
est tout petit (3 ou 4 selon les versions).
Nous ne connaissons pas d’autre référence qui traite d’implantation matérielle de tests
de divisibilité pour des grands entiers et qui en détaille les performances. Ceci est probablement
lié au fait que l’utilisation de tels tests de divisibilité sur des grands nombres
en matériel est rarissime. Nous espérons que ce travail permettra d’utiliser ces tests de
divisibilité du fait de leur assez bonne efficacité.
5.7 Conclusion
Nous avons proposé une architecture d’opérateur arithmétique matériel dédié aux tests
de divisibilité par des petites constantes pour de grands entiers. La méthode proposée permet
d’effectuer simultanément différents tests comme les divisibilités par (21...a
, 3, 5, 7, 9, 13)
avec a ≤ 12 en une seule lecture des chiffres de l’opérande à tester. Les résultats d’implantation
FPGA montrent que ces tests s’effectuent très rapidement (tant au niveau de la
fréquence de l’opérateur que du nombre de cycles d’horloge nécessaire) et enfin sur de
petits circuits.
Dans l’avenir, nous souhaitons pouvoir évaluer l’utilisation d’autres propriétés arithmétiques
pour permettre les tests de divisibilité par encore plus de diviseurs.148 CHAPITRE 5. TESTS DE DIVISIBILITÉ MULTIPLESConclusion
Pour conclure ce document de thèse, nous allons rappeler les différentes contributions
proposées puis présenter certaines perspectives pour des travaux futurs sur le RNS.
Tout d’abord, est présenté au chapitre 2, un nouvel algorithme d’inversion modulaire
en RNS, appelé PM-MI, basé sur l’algorithme d’Euclide étendu classique, et une variante
« binaire-ternaire ». Nous avons obtenu de très bons résultats, aussi bien théoriques que
d’implantation sur FPGA. Notre algorithme PM-MI divise de 12 à 37 fois le nombre de
multiplications modulaires élémentaires EMM par rapport à l’inversion RNS de l’état de
l’art, et sa variante binaire-ternaire de 18 à 54 fois, pour les paramètres (standards) testés.
De plus, l’implantation du PM-MI pour 4 tailles standardisées par le NIST [91] donne des
inversions 5 à 12 fois plus rapides sur FPGA Virtex 5 que celle de l’état de l’art, avec un
surcoût en surface très faible. Notre algorithme est d’ailleurs désavantagé par l’architecture,
car nous nous sommes fixés comme contrainte de garder l’architecture ECC en RNS
de l’état de l’art, et de n’apporter que de petites modifications. En effet, l’architecture doit
en premier lieu être adaptée aux calculs pour ECC plutôt que pour l’inversion, car c’est
la multiplication scalaire [k]P d’ECC qui prend la majorité du temps. Notre algorithme
utilise bien plus d’additions que de multiplications, à la différence de l’algorithme de l’état
de l’art. L’architecture implantée favorisant les multiplications au profit des additions, le
temps d’exécution de notre algorithme pourrait être amélioré sur une architecture mieux
adaptée. Deux pistes dans la lignée de ces travaux sont à exploiter pour les compléter. Premièrement,
il faudra faire une implantation complète d’une multiplication scalaire, avec
cette inversion pour mieux mesurer son impact en terme de surface sur la totalité du cryptoprocesseur
ECC. Deuxièmement, les améliorations théoriques apportées par la variante
binaire-ternaire devront être complétées via une implantation matérielle, qui sera comparée
à l’implantation du PM-MI binaire.
Le chapitre 3, lui, présente deux contributions, avec certaines idées en commun. La
première contribution est un algorithme de multiplication modulaire en RNS, nommé SPRR,
qui via des décompositions permet de tirer parti des réutilisations d’opérandes. Il permet,
par exemple, de réduire le coût d’un carré par rapport à l’algorithme de l’état de l’art, mais
nécessite que le corps dans lequel on travaille ait une forme particulière. Cette contrainte
est compatible avec les exponentiations pour le logarithme discret, on obtient pour cellesci
jusqu’à 10 % de réduction du nombre de EMM, et un nombre de pré-calculs réduit de
25 %. Pour ECC, les résultats obtenus dépendent fortement de la réutilisation d’opérandes
que l’on retrouve dans les formules. Les résultats sont globalement moins bons que pour
les exponentiations. Nous avons testé trois jeux de formules d’opérations sur les points,
pour différents choix de courbes et de coordonnées. Le nombre de pré-calculs est toujours
réduit de 25 % environ, mais le nombre de multiplications modulaires élémentaires EMM est
plus élevé de 5 à 20 % pour 2 des jeux de formules testés. Par contre, Le dernier jeu de
149150 CONCLUSION
formules permet de réduire jusqu’à 10 % le nombre d’EMM pour des grands paramètres ECC.
Nous souhaitons étudier dans l’avenir l’impact de cet algorithme sur les possibilités d’aléa
qu’offre le RNS pour protéger le circuit. En effet, une partie des moduli (n/2 précisément),
sont fixés car ils sont liés au corps sur lequel on calcule. Ensuite, nous souhaitons implanter
en FPGA l’algorithme afin de tester le réel impact de nos métriques dans un cas concret.
Pour les exponentiations nécessaires au logarithme discret, nous avons réduit le nombre
d’opérations et le nombre de pré-calculs, nous nous attendons à des résultats d’implantation
un peu meilleurs que l’état de l’art.
La seconde contribution du chapitre 3 est un nouvel algorithme d’exponentiation RNS,
qui, cette fois, n’impose aucune contrainte sur le corps (ou l’anneau) sur lequel on calcule.
Cet algorithme est utilisable pour RSA, à la différence du SPRR. On améliore le nombre
d’EMM de plus de 15 % pour un algorithme de type carrés et multiplications par rapport à
l’algorithme d’exponentiation RNS de l’état de l’art, et de 22 % pour un algorithme protégé
SPA de type « échelle de Montgomery ». De plus, cet algorithme, à la différence du SPRR,
est complètement compatible avec les protections basées sur le RNS du type LRA [11]. En
contrepartie, on a un surcoût en mémoire de 50 %, cet algorithme est destiné à des implantations
focalisées sur la vitesse d’exécution. Comme pour le SPRR, cette exponentiation
devra être testée en matériel pour juger réellement du compromis temps surface qu’elle offre.
La dernière contribution sur la représentation RNS et son utilisation pour ECC est
présentée au chapitre 4. Ce chapitre traite d’un nouvel algorithme de multiplication modulaire
en RNS, le SBMM, utilisable pour ECC mais pas pour les exponentiations RSA, ni
pour celles du logarithme discret. Dans ce chapitre sont définis des nombres premiers P,
qui ont une forme très particulière, et qui sont liés à une base RNS. Une des idées de
ce chapitre est de générer des premiers P, qui sont au RNS ce que les nombres premiers
pseudo-Mersenne sont à la représentation binaire classique. Notre algorithme de multiplication
SBMM tire parti de cette forme particulière. On obtient un algorithme qui requiert
2 fois moins d’EMM, qui divise par 4 le nombre de pré-calculs, et qui requiert 2 fois moins
de moduli que l’état de l’art. Des premiers résultats d’implantation sont fournis, avec des
gains en surface de 30 à 50 % (en slices, blocs DSP et BRAM), pour un surcoût en temps
de moins de 10 % (notre nouvelle implantation n’étant pas encore optimisée). Par contre,
notre algorithme retourne des sorties un peu plus grandes que les entrées, ce qui contraint
à utiliser une fonction de compression. Des solutions ont été proposées pour celle-ci, ne
demandant a priori que peu de matériel, et pouvant être effectuées en parallèle des autres
calculs. Il manque à implanter ces compressions, et à implanter une séquence d’opérations
complète correspondant à une multiplication scalaire, pour étudier l’impact de celles-ci. De
plus, une implantation orientée vitesse devra aussi être réalisée, où l’on espère diviser par
2 (ou presque), le temps d’exécution, pour un surcoût en surface très faible.
Le chapitre 5 est consacré à une contribution à part dans les travaux de thèse, puisqu’il
ne traite pas du RNS. Ce chapitre présente une proposition architecturale qui permet de
factoriser certains calculs, lorsqu’on effectue des tests de divisibilité simultanés, par des
petites constantes, sur de grands entiers (typiquement des tailles cryptographiques). Ces
petites constantes sont soit des nombres premiers, soit des petites puissances de nombre premier,
pour une application de notre opérateur à un recodage multi-bases, par exemple dans
les travaux [25] effectués dans l’équipe. Un exemple d’ensemble de diviseurs est 2
a
, 3, 5, 7, 9.
Notre proposition permet notamment, à moindre coût, d’avoir plus de tests de divisibilité,
avec des divisibilités plus compliquées à tester, grâce à l’étude des rubans de Pascal de ces
diviseurs pour des grandes bases 2
w. Les premiers résultats FPGA sont intéressants, car ils151
donnent des opérateurs petits et très rapides, ce qui permet leur utilisation efficace pour
un recodage multi-bases, en parallèle des calculs de la multiplication scalaire. Ces travaux
devront être étendus, en particulier en définissant un modèle du coût de l’implantation
matérielle sur FPGA de ces multi-tests, pour un ensemble de diviseurs donné. Une étude
plus poussée avec beaucoup d’implantations devra être effectuée.
Pour conclure, les travaux de cette thèse ont permis au RNS de bénéficier de nouvelles
optimisations, analogues à celles que l’on trouvait en représentation classique, mais qui
n’existait pas jusqu’à maintenant en RNS. La représentation RNS bénéficiait déjà d’une
adaptation optimisée de l’algorithme de réduction de Montgomery. Nos travaux permettent
de profiter aussi, maintenant, d’une adaptation de l’algorithme d’Euclide étendu, d’un équivalent
aux multiplications modulo un nombre pseudo-Mersenne, et d’un carré modulaire
moins cher qu’une multiplication modulaire quelconque. Certains de ces nouveaux outils
restreignant l’utilisation des contre-mesures basées sur le RNS, du type LRA [11], on se
retrouve face à deux voies possibles pour le RNS. D’un côté, une utilisation du RNS en
tant que contre-mesure, de l’autre côté une utilisation du RNS en tant qu’arithmétique
à hautes performances. Dans tous les cas, un premier travail qui pourrait faire suite à
ces travaux est l’étude de nos nouveaux algorithmes, dans un cadre plus étendu que celui
que nous nous sommes imposés. En effet, nous sommes restés sur la base de l’architecture
Cox-Rower de l’état de l’art, permettant une extension de base de Kawamura et al. [64]
efficace. Peut-être que pour mieux profiter de nos propositions, des nouveaux Rowers, une
nouvelle architecture ou même d’autres choix pour les extensions de base seraient plus
judicieux. Après un certain nombre d’améliorations, il est parfois nécessaire de remettre
certaines choses à plat, c’est peut-être ce qui attend les implantations RNS. De plus, il
sera important dans l’avenir de donner, à un moment donné, une description précise de
quelques configurations complètes de paramètres pour ECC en RNS (corps, base RNS,
extension de base et tout autre algorithme utilisé), afin de faciliter l’implantation du RNS
pour ceux qui voudraient l’utiliser. En effet, le RNS permettait déjà d’avoir des implantations
cryptographiques performantes. Avec les nouvelles propositions de cette thèse et les
futurs travaux de recherche, il est possible que la représentation devienne si efficace qu’une
standardisation des paramètres ECC favorisant le RNS devienne intéressante. La recherche
autour du RNS étant actuellement active, et ses possibilités d’évolutions très nombreuses,
le temps n’est sûrement pas encore venu pour une telle standardisation. Peut-être que dans
quelques années, l’arithmétique RNS pour la cryptographie sera suffisamment mature pour
franchir le cap de paramètres lui étant dédiés dans les standards.152 CONCLUSIONBibliographie personnelle
Publications
K. Bigou et A. Tisserand. RNS modular multiplication through reduced base
extensions. Dans Proc. 25th IEEE International Conference on Application-specific Systems,
Architectures and Processors (ASAP), pages 57–62. IEEE, juin 2014.
K. Bigou et A. Tisserand. Improving modular inversion in RNS using the plusminus
method. Dans Proc. Cryptographic Hardware and Embedded Systems (CHES), volume
8086 of LNCS, pages 233–249. Springer, août 2013.
K. Bigou, T. Chabrier, et A. Tisserand. Opérateur matériel de tests de divisibilité
par des petites constantes sur de très grands entiers. Dans Actes ComPAS’13 /
SympA’15 - Symposium en Architectures nouvelles de machines, janvier 2013.
Exposés
IEEE International Conference on Application-specific Systems, Architectures and Processors
(ASAP, juin 2014) :
RNS modular multiplication through reduced base extensions.
Conférence d’Informatique en Parallélisme, Architecture et Système (ComPAS, avril
2014) Track meilleures contributions scientifiques du GDR ASR :
Improving modular inversion in RNS using the plus-minus method.
Rencontres Arithmétiques de l’Informatique Mathématique (RAIM, novembre 2013) :
Inversion modulaire RNS sur FPGA.
Workshop on Cryptographic Hardware and Embedded Systems (CHES, août 2013) :
Improving modular inversion in RNS using the plus-minus method.
Crypto’Puces (avril 2013) :
Avancées sur l’utilisation de la représentation RNS pour la cryptographie sur
courbes elliptiques.
Journées Codage et Cryptographie (C2, octobre 2012) :
Cryptographie sur courbes elliptiques en représentation modulaire des nombres
(RNS).
Journées Thèses DGA-MI (septembre 2012) :
Use of Residue Number System for ECC.
153154 BIBLIOGRAPHIEBibliographie
[1] Stratix III Device Handbook, volume 1. March 2010.
[2] Xilinx UG193 Virtex-5 FPGA XtremeDSP Design Considerations v3.5. January
2012.
[3] L. Adleman. A subexponential algorithm for the discrete logarithm problem with
applications to cryptography. In Proc. 20th Annual Symposium on Foundations of
Computer Science (SFCS), pages 55–60, October 1979.
[4] D. Agrawal, B. Archambeault, J.R. Rao, and P. Rohatgi. The EM side-channel(s).
In Proc. Cryptographic Hardware and Embedded Systems (CHES), volume 2523 of
LNCS, pages 29–45. Springer, August 2002.
[5] S. Antao, J.-C. Bajard, and L. Sousa. RNS-based elliptic curve point multiplication
for massive parallel architectures. The Computer Journal, 55(5):629–647, May 2012.
[6] J.-C. Bajard, L.-S. Didier, and P. Kornerup. An RNS Montgomery modular multiplication
algorithm. IEEE Transactions on Computers, 47(7):766–776, July 1998.
[7] J.-C. Bajard, L.-S. Didier, and P. Kornerup. Modular multiplication and base extensions
in residue number systems. In Proc. 15th Symposium on Computer Arithmetic
(ARITH), pages 59–65. IEEE, April 2001.
[8] J.-C. Bajard, S. Duquesne, and M. D. Ercegovac. Combining leak-resistant arithmetic
for elliptic curves defined over Fp and RNS representation. Technical Report 311,
IACR Cryptology ePrint Archive, May 2010.
[9] J.-C. Bajard, J. Eynard, and F. Gandino. Fault detection in RNS Montgomery
modular multiplication. In Proc. 21th Symposium on Computer Arithmetic (ARITH),
pages 119–126. IEEE, April 2013.
[10] J.-C. Bajard and L. Imbert. A full RNS implementation of RSA. IEEE Transactions
on Computers, 53(6):769–774, June 2004.
[11] J.-C. Bajard, L. Imbert, P.-Y. Liardet, and Y. Teglia. Leak resistant arithmetic.
In Proc. Cryptographic Hardware and Embedded Systems (CHES), volume 3156 of
LNCS, pages 62–75. Springer, 2004.
[12] J.-C. Bajard, M. Kaihara, and T. Plantard. Selected RNS bases for modular multiplication.
In Proc. 19th Symposium on Computer Arithmetic (ARITH), pages 25–32.
IEEE, June 2009.
[13] J.-C. Bajard, N. Meloni, and T. Plantard. Study of modular inversion in RNS. In
Proc. Advanced Signal Processing Algorithms, Architectures, and Implementations
XV, volume 5910, pages 247–255. SPIE, July 2005.
[14] J.-C. Bajard and N. Merkiche. Double level montgomery Cox-Rower architecture,
new bounds. Technical Report 440, IACR Cryptology ePrint Archive, June 2014.
155156 BIBLIOGRAPHIE
[15] P. Barrett. Implementing the Rivest Shamir and Adleman public key encryption
algorithm on a standard digital signal processor. In Proc. 6th International Cryptology
Conference (CRYPTO), volume 263 of LNCS, pages 311–323. Springer, 1986.
[16] D. J. Bernstein and T. Lange. Inverted edwards coordinates. In Proc. 17th International
Symposium on Applied Algebra, Algebraic Algorithms and Error-Correcting
Codes (AAECC), volume 4851 of LNCS, pages 20–27. Springer, December 2007.
[17] D. J. Bernstein and T. Lange. Explicit-formulas database. http://www.
hyperelliptic.org/EFD, 2014. April update.
[18] K. Bigou, T. Chabrier, and A. Tisserand. Opérateur matériel de tests de divisibilité
par des petites constantes sur de très grands entiers. In Proc. ComPAS’13 /
SympA’15 - Symposium en Architectures nouvelles de machines, January 2013.
[19] K. Bigou and A. Tisserand. Improving modular inversion in RNS using the plus-minus
method. In Proc. 15th Cryptographic Hardware and Embedded Systems (CHES),
volume 8086 of LNCS, pages 233–249. Springer, August 2013.
[20] K. Bigou and A. Tisserand. RNS modular multiplication through reduced base extensions.
In Proc. 25th IEEE International Conference on Application-specific Systems,
Architectures and Processors (ASAP), pages 57–62. IEEE, June 2014.
[21] D. Boneh, R. A. DeMillo, and R. J. Lipton. On the importance of checking cryptographic
protocols for faults. In Proc. 16th International Conference on the Theory and
Application of Cryptographic (EUROCRYPT), volume 1233 of LNCS, pages 37–51.
Springer, May 1997.
[22] R. P. Brent and H. T. Kung. Systolic VLSI arrays for polynomial GCD computation.
IEEE Transactions on Computers, C-33(8):731–736, August 1984.
[23] E. Brier and M. Joye. Weierstraß elliptic curves and side-channel attacks. In Proc.
5th International Workshop on Practice and Theory in Public Key Cryptosystems
(PKC), volume 2274 of LNCS, pages 335–345. Springer, 2002.
[24] Certicom Research. Certicom ECC challenge, 2009.
[25] T. Chabrier and A Tisserand. On-the-fly multi-base recoding for ECC scalar multiplication
without pre-computations. In Proc. 21th Symposium on Computer Arithmetic
(ARITH), pages 219–228. IEEE, April 2013.
[26] P. W. Cheney. A digital correlator based on the residue number system. IRE Transactions
on Electronic Computers, EC-10(1):63–70, March 1961.
[27] R. C. C. Cheung, S. Duquesne, J. Fan, N. Guillermin, I. Verbauwhede, and G. X. Yao.
FPGA implementation of pairings using residue number system and lazy reduction.
In Proc. 13th Cryptographic Hardware and Embedded Systems (CHES), volume 6917
of LNCS, pages 421–441. Springer, September 2011.
[28] D. V. Chudnovsky and G. V. Chudnovsky. Sequences of numbers generated by
addition in formal groups and new primality and factorization tests. Advances in
Applied Mathematics, 7(4):385–434, 1986.
[29] M. Ciet, M. Neve, E. Peeters, and J.-J. Quisquater. Parallel FPGA implementation
of RSA with residue number systems - can side-channel threats be avoided? In Proc.
46th Midwest Symposium on Circuits and Systems (MWSCAS), volume 2, pages
806–810. IEEE, December 2003.
[30] C. C. Cocks. A note on ‘non-secret encryption’. CESG Memo, 1973.
[31] H. Cohen and G. Frey, editors. Handbook of Elliptic and Hyperelliptic Curve Cryptography.
Chapman & Hall/CRC, 2005.BIBLIOGRAPHIE 157
[32] H. Cohen, A. Miyaji, and T. Ono. Efficient elliptic curve exponentiation using mixed
coordinates. In Proc. 4th International Conference on the Theory and Application on
Cryptology and Information Security (ASIACRYPT), volume 1514 of LNCS, pages
51–65. Springer, October 1998.
[33] J.-S. Coron. Resistance against differential power analysis for elliptic curve cryptosystems.
In Proc. 1st Cryptographic Hardware and Embedded Systems (CHES),
volume 1717 of LNCS, pages 292–302. Springer, August 1999.
[34] R. E. Crandall. Method and apparatus for public key exchange in a cryptographic
system, October 1992. US Patent 5,159,632.
[35] P. de Fermat. Œuvres de Fermat, tome II, Correspondance. Gauthier-Villars, 1894.
[36] J.-P. Deschamps and J. L. Imana an G. D. Sutter. Hardware Implementation of
Finite-Field Arithmetic. McGraw-Hill, 2009.
[37] J.-P. Deschamps and G. Sutter. Hardware implementation of finite-field division.
Acta Applicandae Mathematicae, 93(1-3):119–147, September 2006.
[38] W. Diffie and M. E. Hellman. New directions in cryptography. IEEE Transactions
on Information Theory, 22(6):644–654, November 1976.
[39] V. Dimitrov, L. Imbert, and P. K. Mishra. Efficient and secure elliptic curve point
multiplication using double-base chains. In Proc. 11th International Conference on
the Theory and Application on Cryptology and Information Security (ASIACRYPT),
volume 3788 of LNCS, pages 59–78. Springer, December 2005.
[40] V. Dimitrov, L. Imbert, and P. K. Mishra. The double-base number system and its application
to elliptic curve cryptography. Mathematics of Computation, 77(262):1075–
1104, April 2008.
[41] J. D. Dixon. The number of steps in the Euclidean algorithm. Journal of number
theory, 2(4):414–422, 1970.
[42] S. Duquesne. RNS arithmetic in F
k
p and application to fast pairing computation.
Journal of Mathematical Cryptology, 5:51–88, June 2011.
[43] H. M. Edwards. A normal form for elliptic curves. Bulletin of the American Mathematical
Society, 44(3):393–422, July 2007.
[44] T. Elgamal. A public key cryptosystem and a signature scheme based on discrete
logarithms. IEEE Transactions on Information Theory, 31(4):469–472, July 1985.
[45] M. Esmaeildoust, D. Schinianakis, H. Javashi, T. Stouraitis, and K. Navi. Efficient
RNS implementation of elliptic curve point multiplication over GF(p). IEEE Transactions
on Very Large Scale Integration (VLSI) Systems, 21(8):1545–1549, August
2013.
[46] Euclide. Les quinze livres des éléments géométriques d’Euclide. D. Henrion, 1632.
[47] D. Gamberger. Incompletely specified numbers in the residue number systemdefinition
and applications. In Proc. 9th IEEE Symposium on Computer Arithmetic
(ARITH), pages 210–215. IEEE Computer Society, September 1999.
[48] F. Gandino, F. Lamberti, G. Paravati, J.-C. Bajard, and P. Montuschi. An algorithmic
and architectural study on Montgomery exponentiation in RNS. IEEE
Transactions on Computers, 61(8):1071–1083, August 2012.
[49] H. L. Garner. The residue number system. IRE Transactions on Electronic Computers,
EC-8(2):140–147, June 1959.158 BIBLIOGRAPHIE
[50] C. Giraud. An RSA implementation resistant to fault attacks and to simple power
analysis. IEEE Transactions on Computers, 55(9):1116–1120, September 2006.
[51] D. M. Gordon. A survey of fast exponentiation methods. Journal of algorithms,
27(1):129–146, 1998.
[52] N. Guillermin. A high speed coprocessor for elliptic curve scalar multiplications over
Fp. In Proc. 12th Cryptographic Hardware and Embedded Systems (CHES), volume
6225 of LNCS, pages 48–64. Springer, August 2010.
[53] N. Guillermin. A coprocessor for secure and high speed modular arithmetic. Technical
Report 354, IACR Cryptology ePrint Archive, 2011.
[54] N. Guillermin. Implémentation matérielle de coprocesseurs haute performance pour
la cryptographie asymétrique. PhD thesis, Université Rennes 1, January 2012.
[55] N. Gura, A. Patel, A.S. Wander, H. Eberle, and S.C. Shantz. Comparing elliptic
curve cryptography and RSA on 8-bit CPUs. In Proc. 6th Cryptographic Hardware
and Embedded Systems (CHES), volume 3156 of LNCS, pages 119–132. Springer,
August 2004.
[56] T. Güneysu and C. Paar. Ultra high performance ECC over NIST primes on commercial
FPGAs. In Proc. Cryptographic Hardware and Embedded Systems (CHES),
volume 5154 of LNCS, pages 62–78. Springer, 2008.
[57] D. Hankerson, A. J. Menezes, and S. Vanstone. Guide to Elliptic Curve Cryptography.
Springer, 2004.
[58] H. Hasse. Zur theorie der abstrakten elliptischen funktionenkörper i. die struktur der
gruppe der divisorenklassen endlicher ordnung. Journal für die reine und angewandte
Mathematik, 175:55–62, 1936.
[59] H. Heilbronn. On the average length of a class of finite continued fractions. In Number
Theory and Analysis, pages 87–96. Springer, 1969.
[60] W. K. Jenkins and B. J. Leon. The use of residue number systems in the design of
finite impulse response digital filters. IEEE Transactions on Circuits and Systems,
24(4):191–201, April 1977.
[61] M. Joye and J.-J. Quisquater. Hessian elliptic curves and side-channel attacks.
In Proc. Cryptographic Hardware and Embedded Systems (CHES), volume 2162 of
LNCS, pages 402–410. Springer, May 2001.
[62] M. Joye and S.-M. Yen. The Montgomery powering ladder. In Proc. 4th International
Workshop on Cryptographic Hardware and Embedded Systems (CHES), volume 2523
of LNCS, pages 291–302. Springer, August 2002.
[63] A. Karatsuba and Y. Ofman. Multiplication of multi-digit numbers on automata.
Doklady Akad. Nauk SSSR, 145(2):293–294, 1962. Translation in Soviet PhysicsDoklady,
44(7), 1963, p. 595-596.
[64] S. Kawamura, M. Koike, F. Sano, and A. Shimbo. Cox-Rower architecture for fast
parallel Montgomery multiplication. In Proc. 19th International Conference on the
Theory and Application of Cryptographic (EUROCRYPT), volume 1807 of LNCS,
pages 523–538. Springer, May 2000.
[65] T. Kleinjung, K. Aoki, J. Franke, A. K. Lenstra, E. Thomé, J. W. Bos, P. Gaudry,
A. Kruppa, P. L. Montgomery, D. Osvik, H. te Riele, A. Timofeev, and P. Zimmermann.
Factorization of a 768-bit RSA modulus. In Proc. 30th International
Cryptology Conference (CRYPTO), volume 6223 of LNCS, pages 333–350. Springer,
2010.BIBLIOGRAPHIE 159
[66] D. E. Knuth. Seminumerical Algorithms, volume 2 of The Art of Computer Programming.
Addison-Wesley, 3rd edition, 1997.
[67] N. Koblitz. Elliptic curve cryptosystems. Mathematics of computation, 48(177):203–
209, 1987.
[68] P. C. Kocher. Timing attacks on implementations of Diffie-Hellman, RSA, DSS,
and other systems. In Proc. 16th International Cryptology Conference (CRYPTO),
volume 1109 of LNCS, pages 104–113. Springer, August 1996.
[69] P. C. Kocher, J. Jaffe, and B. Jun. Differential power analysis. In Proc. 19th International
Cryptology Conference (CRYPTO), volume 1666 of LNCS, pages 388–397.
Springer, 1999.
[70] A. K. Lenstra and Lenstra H. Jr. (editors). The development of the number field
sieve, volume 1554. Springer, 1993.
[71] Z. Lim and B. J. Phillips. An RNS-enhanced microprocessor implementation of
public key cryptography. In Proc. 41th Asilomar Conference on Signals, Systems
and Computers, pages 1430–1434. IEEE, November 2007.
[72] Z. Lim, B. J. Phillips, and M. Liebelt. Elliptic curve digital signature algorithm over
GF(p) on a residue number system enabled microprocessor. In Proc. IEEE Region
10 Conference (TENCON), pages 1–6, January 2009.
[73] P. Longa and C. Gebotys. Fast multibase methods and other several optimizations
for elliptic curve scalar multiplication. In Proc. 12th International Conference on
Practice and Theory in Public Key Cryptography (PKC), volume 5443 of LNCS,
pages 443–462. Springer, March 2009.
[74] Y. Ma, Z. Liu, W. Pan, and J. Jing. A high-speed elliptic curve cryptographic processor
for generic curves over GF(p). In Proc. 20th Selected Areas in Cryptography(SAC),
LNCS, pages 421–437. Springer, 2013.
[75] E. Martín-López, A. Laing, T. Lawson, R. Alvarez, X.-Q. Zhou, and J. L. O’Brien.
Experimental realization of Shor’s quantum factoring algorithm using qubit recycling.
Nature Photonics, 6(11):773–776, 2012.
[76] R. P. McEvoy, C. C. Murphy, W. P. Marnane, and M. Tunstall. Isolated WDDL: A
hiding countermeasure for differential power analysis on FPGAs. ACM Transactions
on Reconfigurable Technology and Systems, 2(1):3, March 2009.
[77] A. J. Menezes, T. Okamoto, and S.A. Vanstone. Reducing elliptic curve logarithms to
logarithms in a finite field. IEEE Transactions on Information Theory, 39(5):1639–
1646, Sep 1993.
[78] A. J. Menezes, P. C. Van Oorschot, and S. A. Vanstone. Handbook of applied cryptography.
CRC press, 1996.
[79] M. Mersenne. Cogitata physico-mathematica , in quibus tam naturae quam artis effectus
admirandi certissimis demonstrationibus explicantur. A. Bertier Parisiis, 1644.
[80] V. Miller. Use of elliptic curves in cryptography. In Proc. 5th International Cryptology
Conference (CRYPTO), volume 218 of LNCS, pages 417–426. Springer, 1985.
[81] P. K. Mishra and V. Dimitrov. Efficient quintuple formulas for elliptic curves and
efficient scalar multiplication using multibase number representation. In Proc. 10th
International Conference on Information Security (ISC), volume 4779 of LNCS, pages
390–406. Springer, October 2007.
[82] P. L. Montgomery. Modular multiplication without trial division. Mathematics of
Computation, 44(170):519–521, April 1985.160 BIBLIOGRAPHIE
[83] F. Morain and J. Olivos. Speeding up the computations on an elliptic curve using
addition-subtraction chains. RAIRO Informatique Théorique et Applications,
24(6):531–543, 1990.
[84] A. Moss, D. Page, and N. P. Smart. Toward acceleration of RSA using 3D graphics
hardware. In Proc. 11th IMA International Conference on Cryptography and Coding,
pages 364–383. Springer, December 2007.
[85] J.-M. Muller. Arithmétique des ordinateurs. Masson, 1989.
[86] B. Möller. Securing elliptic curve point multiplication against side-channel attacks.
In Information Security, volume 2200 of LNCS, pages 324–334. Springer, 2001.
[87] H. Nozaki, M. Motoyama, A. Shimbo, and S. Kawamura. Implementation of RSA
algorithm based on RNS Montgomery multiplication. In Proc. 3rd Cryptographic
Hardware and Embedded Systems (CHES), volume 2162 of LNCS, pages 364–376.
Springer, May 2001.
[88] National Security Agency/Central Security Service (NSA/CSS). Suite B implementer’s
guide to NIST SP 800-56A, 2009.
[89] National Security Agency/Central Security Service (NSA/CSS). Suite B implementer’s
guide to FIPS 186-3(ECDSA), 2010.
[90] National Institute of Standards and Technology (NIST). FIPS 197, advanced encryption
standard (AES), 2001.
[91] National Institute of Standards and Technology (NIST). FIPS 186-4, digital signature
standard (DSS), 2013.
[92] A. Omondi and B. Premkumar. Residue number systems: theory and implementation.
Imperial College Press, 2007.
[93] B. Pascal. Œuvres complètes, chapter De Numeribus Multiplicibus, vol. 5, pages
117–128. Librarie Lefèvre, 1819.
[94] G. Perin, L. Imbert, L. Torres, and P. Maurine. Electromagnetic analysis on RSA
algorithm based on RNS. In Proc. 16th Euromicro Conference on Digital System
Design (DSD), pages 345–352. IEEE, September 2013.
[95] B. J. Phillips, Y. Kong, and Z. Lim. Highly parallel modular multiplication in the
residue number system using sum of residues reduction. Applicable Algebra in Engineering,
Communication and Computing, 21(3):249–255, May 2010.
[96] S.C. Pohlig and M.E. Hellman. An improved algorithm for computing logarithms
over GF(p) and its cryptographic significance. IEEE Transactions on Information
Theory, 24(1):106–110, Jan 1978.
[97] J.M. Pollard. A Monte Carlo method for factorization. BIT Numerical Mathematics,
15(3):331–334, 1975.
[98] K. C. Posch and R. Posch. Base extension using a convolution sum in residue number
systems. Computing, 50(2):93–104, 1993.
[99] K. C. Posch and R. Posch. Modulo reduction in residue number systems. IEEE
Transactions on Parallel and Distributed Systems, 6(5):449–454, May 1995.
[100] J.-J. Quisquater and D. Samyde. Electromagnetic analysis (EMA): Measures and
counter-measures for smart cards. In Proc. International Conference on Research in
Smart Cards (E-smart), volume 2140 of LNCS, pages 200–210. Springer, September
2001.BIBLIOGRAPHIE 161
[101] E. Raman, L. N. Chakrapani, K. Sankaranarayanan, and R. Parthasarathi. A scalable
reconfigurable architecture for divisibility testing of variable long precision numbers.
http://www.cs.virginia.edu/~ks4kk/pubs/ekadhika_fccm02.pdf. (personnal
website from one author).
[102] R. L. Rivest, A. Shamir, and L. Adleman. A method for obtaining digital signatures
and public-key cryptosystems. Communications of the ACM, 21(2):120–126,
February 1978.
[103] J. Sakarovitch. Elements of Automata Theory, chapter Prologue: M. Pascal’s Division
Machine, pages 1–6. Cambridge, 2009.
[104] D. M. Schinianaki, A. P. Fournaris, H. E. Michail, A. P. Kakarountas, and
T. Stouraitis. An RNS implementation of an Fp elliptic curve point multiplier. IEEE
Transactions on Circuits and Systems I: Regular Papers, 56(6):1202–1213, June 2009.
[105] D. Schinianakis and T. Stouraitis. A RNS montgomery multiplication architecture.
In Proc. IEEE International Symposium on Circuits and Systems (ISCAS), pages
1167–1170, May 2011.
[106] D. Schinianakis and T. Stouraitis. An RNS modular multiplication algorithm. In
Proc. 20th International Conference on Electronics, Circuits, and Systems (ICECS),
pages 958–961. IEEE, Dec 2013.
[107] D. Schinianakis and T. Stouraitis. Multifunction residue architectures for cryptography.
IEEE Transactions on Circuits and Systems I: Regular Papers, 61(4):1156–1169,
April 2014.
[108] D. Schinianakis and T. Stouraitis. An RNS barrett modular multiplication architecture.
In Proc. IEEE International Symposium on Circuits and Systems (ISCAS),
pages 2229–2232, June 2014.
[109] D.M. Schinianakis, A.P. Kakarountas, and T. Stouraitis. A new approach to elliptic
curve cryptography: an RNS architecture. In Proc. 13th IEEE Mediterranean
Electrotechnical Conference (MELECON), pages 1241–1245, May 2006.
[110] I. Semaev. Evaluation of discrete logarithms in a group of p-torsion points of an
elliptic curve in characteristic p. Mathematics of Computation, 67(221):353–356,
1998.
[111] O. Sentieys and A. Tisserand. Architecture reconfigurables FPGA. In Technologies
logicielles Architectures des systèmes, volume H 1 196, pages 1–22. Techniques de
l’Ingénieur, August 2012.
[112] A. P. Shenoy and R. Kumaresan. Fast base extension using a redundant modulus in
RNS. IEEE Transactions on Computers, 38(2):292–297, February 1989.
[113] P.W. Shor. Algorithms for quantum computation: discrete logarithms and factoring.
In Proc. 35th Symposium on Foundations of Computer Science (FOCS), pages 124–
134. IEEE, November 1994.
[114] N. P. Smart. The discrete logarithm problem on elliptic curves of trace one. Journal
of Cryptology, 12(3):193–196, 1999.
[115] M. Soderstrand, W. K. Jenkins, G. Jullien, and F. Taylor, editors. Residue Number
System Arithmetic - Modern Applications in Digital Signal Processing. IEEE, 1986.
[116] J. A. Solinas. Generalized mersenne numbers. Technical report, CORR-99-39 Center
for Applied Cryptographic Research, University of Waterloo, 1999.
[117] J. Stein. Computational problems associated with Racah algebra. Journal of Computational
Physics, 1(3):397–405, February 1967.162 BIBLIOGRAPHIE
[118] D. Suzuki. How to maximize the potential of FPGA resources for modular exponentiation.
In Proc. 9th Cryptographic Hardware and Embedded Systems (CHES),
volume 4727 of LNCS, pages 272–288. Springer, September 2007.
[119] A. Svoboda and M. Valach. Operátorové obvody (operator circuits in czech). Stroje
na Zpracování Informací (Information Processing Machines), 3:247–296, 1955.
[120] N. S. Szabo and R. I. Tanaka. Residue arithmetic and its applications to computer
technology. McGraw-Hill, 1967.
[121] R. Szerwinski and T. Guneysu. Exploiting the power of GPUs for asymmetric cryptography.
In Proc. 10th International Workshop on Cryptographic Hardware and
Embedded Systems (CHES), volume 5154 of LNCS, pages 79–99. Springer, August
2008.
[122] K. Tiri and I. Verbauwhede. A logic level design methodology for a secure DPA resistant
ASIC or FPGA implementation. In Proc. Conference on Design, Automation
and Test in Europe (DATE) - Volume 1, page 10246. IEEE, 2004.
[123] A.S. Wander, N. Gura, H. Eberle, V. Gupta, and S.C. Shantz. Energy analysis of
public-key cryptography for wireless sensor networks. In Proc. 3rd IEEE International
Conference on Pervasive Computing and Communications (PerCom), pages 324–328.
IEEE, March 2005.
[124] H. S. Warren. Hacker’s Delight. Addison-Wesley, 2003.
[125] A. C.-C. Yao. On the evaluation of powers. SIAM Journal on Computing, 5(1):100–
103, 1976.
[126] G. Yao, J. Fan, R. Cheung, and I. Verbauwhede. Novel RNS parameter selection
for fast modular multiplication. IEEE Transactions on Computers, 63(8):2099–2105,
Aug 2014.
[127] G. X. Yao, J. Fan, R. C. C. Cheung, and I. Verbauwhede. Faster pairing coprocessor
architecture. In Proc. 5th Pairing-Based Cryptography (Pairing), volume 7708 of
LNCS, pages 160–176. Springer, May 2012.
[128] S.-M. Yen and M. Joye. Checking before output may not be enough against faultbased
cryptanalysis. IEEE Transactions on Computers, 49(9):967–970, Sep 2000.
[129] S.-M. Yen, S. Kim, S. Lim, and S. Moon. A countermeasure against one physical
cryptanalysis may benefit another attack. In Proc. 3rd International Conference on
Information Security and Cryptology (ICISC), volume 2288 of LNCS, pages 414–427.
Springer, December 2001.Étude théorique et implantation matérielle d’unités de calcul en représentation
modulaire des nombres pour la cryptographie sur courbes elliptiques
Ces travaux de thèse portent sur l’accélération de calculs de la cryptographie sur courbes
elliptiques (ECC) grâce à une représentation peu habituelle des nombres, appelée repré-
sentation modulaire des nombres (ou RNS pour residue number system). Après un état de
l’art de l’utilisation du RNS en cryptographie, plusieurs nouveaux algorithmes RNS, plus
rapides que ceux de l’état de l’art, sont présentés. Premièrement, nous avons proposé un
nouvel algorithme d’inversion modulaire en RNS. Les performances de notre algorithme
ont été validées via une implantation FPGA, résultant en une inversion modulaire 5 à 12
fois plus rapide que l’état de l’art, pour les paramètres cryptographiques testés. Deuxiè-
mement, un algorithme de multiplication modulaire RNS a été proposé. Cet algorithme
décompose les valeurs en entrée et les calculs, afin de pouvoir réutiliser certaines parties
lorsque c’est possible, par exemple lors du calcul d’un carré. Il permet de réduire de près
de 25 % le nombre de pré-calculs à stocker et jusqu’à 10 % le nombre de multiplications
élémentaires pour certaines applications cryptographiques (p. ex. le logarithme discret).
Un algorithme d’exponentiation reprenant les mêmes idées est aussi présenté, réduisant le
nombre de multiplications élémentaires de 15 à 22 %, contre un surcoût en pré-calculs à
stocker. Troisièmement, un autre algorithme de multiplication modulaire RNS est proposé,
ne nécessitant qu’une seule base RNS au lieu de 2 pour l’état de l’art, et utilisable uniquement
dans le cadre ECC. Cet algorithme permet, pour certains corps bien spécifiques, de
diviser par 2 le nombre de multiplications élémentaires et par 4 les pré-calculs à stocker.
Les premiers résultats FPGA donnent des implantations de notre algorithme jusqu’à 2 fois
plus petites que celles de l’algorithme de l’état de l’art, pour un surcoût en temps d’au plus
10 %. Finalement, une méthode permettant des tests de divisibilités multiples rapides est
proposée, pouvant être utilisée en matériel pour un recodage de scalaire, accélérant certains
calculs pour ECC.
Theoretical Study and Hardware Implementation of Arithmetical Units in
Residue Number System (RNS) for Elliptic Curve Cryptography
The main objective of this PhD thesis is to speedup elliptic curve cryptography (ECC)
computations, using the residue number system (RNS). A state-of-art of RNS for cryptographic
computations is presented. Then, several new RNS algorithms, faster than state-of-art
ones, are proposed. First, a new RNS modular inversion algorithm is presented. This algorithm
leads to implementations from 5 to 12 times faster than state-of-art ones, for the
standard cryptographic parameters evaluated. Second, a new algorithm for RNS modular
multiplication is proposed. In this algorithm, computations are split into independant
parts, which can be reused in some computations when operands are reused, for instance
to perform a square. It reduces the number of precomputations by 25 % and the number of
elementary multiplications up to 10 %, for some cryptographic applications (for example
with the discrete logarithm). Using the same idea, an exponentiation algorithm is also proposed.
It reduces from 15 % to 22 % the number of elementary multiplications, but requires
more precomputations than state-of-art. Third, another modular multiplication algorithm
is presented, requiring only one RNS base, instead of 2 for the state-of-art. This algorithm
can be used for ECC and well-chosen fields, it divides by 2 the number of elementary
multiplications, and by 4 the number of precomputations to store. Partial FPGA implementations
of our algorithm halves the area, for a computation time overhead of, at worse,
10 %, compared to state-of-art algorithms. Finally, a method for fast multiple divisibility
tests is presented, which can be used in hardware for scalar recoding to accelerate some
ECC computations.
De l’auto-´evaluation aux ´emotions : approche
neuromim´etique et bay´esienne de l’apprentissage de
comportements complexes impliquant des informations
multimodales
Adrien Jauffret
To cite this version:
Adrien Jauffret. De l’auto-´evaluation aux ´emotions : approche neuromim´etique et bay´esienne
de l’apprentissage de comportements complexes impliquant des informations multimodales.
Other. Universit´e Paris Sud - Paris XI, 2014. French. .
HAL Id: tel-01082116
https://tel.archives-ouvertes.fr/tel-01082116
Submitted on 12 Nov 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.Université Paris Sud - Ecole doctorale d’Informatique
THÈSE
présentée pour obtenir le titre de DOCTEUR en Informatique
DE L’AUTO-ÉVALUATION AUX ÉMOTIONS - APPROCHE
NEUROMIMÉTIQUE ET BAYESIENNE DE
L’APPRENTISSAGE DE COMPORTEMENTS COMPLEXES
IMPLIQUANT DES INFORMATIONS MULTIMODALES
par
Adrien Jauffret
LIMSI - CNRS / Université Paris Sud 11 / UPR3251
ETIS - ENSEA / Université de Cergy-Pontoise / CNRS UMR 8051
Soutenue le 11 juillet 2014 devant le jury composé de :
P. GAUSSIER, ETIS, ENSEA - Université de Cergy-Pontoise - CNRS Co-directeur de thèse
P. TARROUX, LMSI-CNRS, Université Paris-Sud Co-directeur de thèse
D. FILLIAT, INRIA/ENSTA ParisTech FLOWERS Rapporteur
N. ROUGIER, Mnemosyne, INRIA Bordeaux Rapporteur
P. BONNIFAIT, Heudiasyc, Université Technologique de Compiègne Examinateur
B. POUCET, LNC, CNRS - Université Aix-Marseille Examinateur
M. SEBAG, LRI, CNRS - Université Paris-Sud ExaminateurRemerciements
Je tiens tout d’abord à remercier les membres de mon jury pour avoir accepté d’évaluer la
valeur scientifique de mes travaux. J’aimerais exprimer toute mon estime à mes rapporteurs,
David Filliat et Nicolas Rougier, pour avoir accepté de lire et commenter mon manuscrit ainsi
que Philippe Bonnifait, Bruno Poucet et Michèle Sébag pour leur temps et pour les discussions
intéressantes que nous avons eu lors de ma soutenance.
Je remercie également mon encadrant, Nicolas Cuperlier, ainsi que mes directeurs de thèse,
Philippe Gaussier et Philippe Tarroux, pour m’avoir guidé tout au long de ces années. J’ai pris
plaisir à partager avec eux ma passion pour les créatures artificielles, la cybernétique et les
neurosciences. Leurs enseignements ont largement contribué à faire de moi le Jedi que je suis
devenu ainsi qu’à transformer peu à peu cette passion en une vocation.
Je tiens à remercier Inbar Fijalkow et Mathias Quoy, respectivement ex-directrice et directeur
du laboratoire ETIS, pour m’avoir accueilli pendant ces années de thèse.
Merci également à Astrid et Nelly pour leur humour et bonne humeur ainsi que pour avoir su
brillamment faire face avec moi à l’incroyable paperasse administrative que requiert une thèse
co-encadrée par deux universités très différentes.
Je remercie bien évidemment tous les membres du laboratoire pour l’indulgence dont ils
ont fait preuve face à mes nombreuses pirouettes linguistiques ainsi que pour l’effervescence
intellectuelle que nos débats éclectiques ont pu me procurer.
Merci à Pierre A., Cyril, Arnaud, Ghilès, Julien, Frederic, Christophe, Matthieu et Sofiane pour
m’avoir permis de m’intégrer au sein du laboratoire et me frotter au monde de la recherche alors
que je n’étais encore que stagiaire.
Merci également à la nouvelle génération : Abdelhak, Alexandre, David, Khursheed, Souheil,
Ali, Raphael, Moeed et Artem ainsi qu’à mes jeunes padawans, Marwen et Caroline.
Merci à Pierre D., Antoine, Sylvain, Joanna, Quang, Kasia, Loïc, Abdel, Rahima et bien
sur Ramesh pour l’esprit d’équipe dont ils font preuve et avec qui je construis jour après jour
l’avenir de Partnering-Robotics.
Je tiens également à remercier mes collègues artificiels au même titre que mes collègues
humains (bien que moins stimulants sur le plan conversationnel) : merci à Robulab, Roburoc,
Berenson, Alvex et finalement Diya One pour leur patience et leur dévouement face aux nombreuses
expériences que je leur ai fait subir.
Enfin, comment ne pas remercier mes parents, Chantal et Daniel, ainsi que ma soeur, Mathilde,
pour le soutien qu’ils m’ont offert tout au long de ces 27 années à leur côté.
J’aimerais également remercier, et surtout m’excuser auprès de Fabien et Léo ainsi que toutes
les personnes que je n’ai pas cité pour ces nombreuses soirées lors desquelles mon travail est
passé au premier plan.
Pour terminer, j’aimerais souligner le fait que cette thèse n’aurait sûrement pas été ce qu’elle
est sans la présence et le soutien inconditionnel de Charlotte, mon affordance émotionnelle et
ma moitié.
- 3 -Synopsis
Cette thèse a pour objectif la conception d’une architecture de contrôle bio-inspirée permettant
à un robot de naviguer de manière autonome sur de grandes distances. Du point de vue des
sciences cognitives, le modèle développé permet également d’améliorer la compréhension des
mécanismes biologiques impliqués. De précédents travaux ont montré qu’un modèle de cellules
de lieu, enregistrées chez le rat, permettait à un robot mobile d’apprendre des comportements de
navigation robustes, tels qu’une ronde ou un retour au nid, à partir d’associations entre lieu et
action. L’apprentissage et la reconnaissance d’un lieu ne reposaient alors que sur des informations
visuelles. L’ambiguïté de certaines situations visuelles (e.g. un long couloir) ne permettait
pas de naviguer dans de grands environnements.
L’ajout d’autres modalités constitue une solution efficace pour augmenter la robustesse de la
localisation dans des environnements complexes. Cette solution nous a permis d’identifier les
briques minimales nécessaires à la fusion d’informations multimodales, d’abord par le biais
d’un conditionnement simple entre 2 modalités sensorielles, puis par la formalisation d’un mod-
èle, plus générique, de prédictions inter-modales. Ce modèle générique permet à un ensemble
de modalités d’apprendre à s’inter-prédire dans des situations usuelles. C’est un mécanisme bas
niveau qui permet de générer une cohérence perceptive, en ce sens que l’ensemble des modalités
sensorielles s’entraident pour ne renvoyer qu’une perception claire et cohérente aux mécanismes
décisionnels de plus haut niveau. Les modalités les plus corrélées sont ainsi capables de
combler les informations manquantes d’une modalité défaillante (cas pathologique). Ce mod-
èle implique la mise en place d’un système de prédiction et donc une capacité à détecter de la
nouveauté dans ses perceptions. Ainsi, le modèle est également capable de détecter une situation
inattendue ou anormale et possède donc une capacité d’auto-évaluation : l’évaluation de ses
propres perceptions. Partant de ce modèle de prédictions inter-modales, capable d’une première
auto-évaluation, nous nous sommes ensuite mis à la recherche des propriétés fondamentales à
tout système pour l’évaluation de ses comportements.
La première propriété essentielle a été de constater qu’évaluer un comportement sensorimoteur
revient à reconnaître une dynamique entre sensation et action, plutôt que la simple reconnaissance
d’un pattern sensoriel. La première brique du modèle encapsule donc ce couplage entre
sensation et action, formant ainsi un modèle interne minimaliste des interactions du robot avec
son environnement. Ce modèle interne de la dynamique du comportement est la base sur laquelle
le système fera des prédictions.
La seconde propriété essentielle est la capacité à extraire l’information importante de ce modèle
interne par le biais de calculs statistiques. Il est nécessaire que le robot apprenne à capturer les
invariants statistiques en supprimant l’information incohérente. Nous avons donc montré qu’il
était possible d’estimer une densité de probabilité par le biais d’une réduction des erreurs quadratiques
moyennes, c’est à dire un simple conditionnement. Cet apprentissage statistique permet
de réaliser l’équivalent d’une inférence bayésienne, puisque le système estime la probabilité de
reconnaître un comportement à partir de la reconnaissance d’informations statistiques apprises
sur ce comportement. C’est donc par la mise en cascade de simples conditionnements que le
système peut apprendre à estimer les moments statistiques d’une dynamique comportementale
(moyenne, variance, asymétrie, etc...). La non-reconnaissance de cette dynamique lui permet de
détecter qu’une situation est anormale.
Mais détecter un comportement inhabituel ne nous renseigne pas pour autant sur son inefficacité.
Le système doit également surveiller l’évolution de cette anomalie dans le temps pour pouvoir
juger de la pertinence du comportement. Nous montrerons comment un contrôleur émotionnel
- 5 -Synopsis
peut faire usage de cette détection de nouveauté pour réguler le comportement et ainsi permettre
au robot d’utiliser la stratégie la plus adaptée à la situation rencontrée. Pour finir, nous avons mis
en place une procédure de frustration permettant au robot de lancer un appel à l’aide lorsqu’il
détecte qu’il se retrouve dans une impasse. Ce réseau de neurones permet au robot d’identifier
les situations qu’il ne maîtrise pas dans le but d’affiner son apprentissage, à l’instar de certains
processus développementaux.
Mots clés : robotique bio-inspirée, réseaux de neurones artificiels, navigation sensori-motrice,
auto-évaluation, meta-apprentissage, sélection de l’action.
- 6 -Abstract
The goal of this thesis is to build a bio-inspired architecture allowing a robot to autonomously
navigate over large distances. In a cognitive science point of view, the model also aim at improving
the understanding of the underlying biological mechanisms. Previous works showed that
a computational model of hippocampal place cells, based on neurobiological studies made on
rodent, allows a robot to learn robust navigation behaviors. The robot can learn a round or a
homing behavior from a few associations between places and actions. The learning and recognition
of a place were only defined by visual information and shows limitations for navigating
large environments.
Adding other sensorial modalities is an effective solution for improving the robustness of places
recognition in complex environments. This solution led us to the elementary blocks required
when trying to perform multimodal information merging. Such merging has been done, first,
by a simple conditioning between 2 modalities and next improved by a more generic model of
inter-modal prediction. In this model, each modality learns to predict the others in usual situations,
in order to be able to detect abnormal situations and to compensate missing information
of the others. Such a low level mechanism allows to keep a coherent perception even if one
modality is wrong. Moreover, the model can detect unexpected situations and thus exhibit some
self-assessment capabilities: the assessment of its own perception. Following this model of selfassessment,
we focus on the fundamental properties of a system for evaluating its behaviors.
The first fundamental property that pops out is the statement that evaluating a behavior is an
ability to recognize a dynamics between sensations and actions, rather than recognizing a simple
sensorial pattern. A first step was thus to take into account the sensation/action coupling
and build an internal minimalist model of the interaction between the agent and its environment.
Such of model defines the basis on which the system will build predictions and expectations.
The second fundamental property of self-assessment is the ability to extract relevant information
by the use of statistical processes to perform predictions. We show how a neural network
can estimate probability density functions through a simple conditioning rule. This probabilistic
learning allows to achieve bayesian inferences since the system estimates the probability of
observing a particular behavior from statistical information it recognizes about this behavior.
The robot estimates the different statistical momentums (mean, variance, skewness, etc...) of a
behavior dynamics by cascading few simple conditioning. Then, the non-recognition of such a
dynamics is interpreted as an abnormal behavior.
But detecting an abnormal behavior is not sufficient to conclude to its inefficiency. The system
must also monitor the temporal evolution of such an abnormality to judge the relevance of the
behavior. We show how an emotional meta-controller can use this novelty detection to regulate
behaviors and so select the best appropriate strategy in a given context. Finally, we show
how a simple frustration mechanism allows the robot to call for help when it detects potential
deadlocks. Such a mechanism highlights situations where a skills improvement is possible, so
as some developmental processes.
Keywords : bio-inspired robotics, artificial neural-networks, sensory-motor navigation, selfassessment,
metalearning, action selection.
- 7 -Table des matières
Introduction 13
1 Outils du cybernéticien 25
1.1 Une brève introduction aux réseaux de neurones artificiels . . . . . . . . . . . 26
1.2 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3 Compétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.3.1 Winner Takes All . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.4.1 Champs de neurones dynamiques . . . . . . . . . . . . . . . . . . . . 33
1.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2 Modèles de navigation en robotique 41
2.1 Navigation nautique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.1.1 Navigation côtière . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.1.2 Navigation à l’estime . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.1.3 Navigation astronomique . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.2 Navigation en robotique classique . . . . . . . . . . . . . . . . . . . . . . . . 44
2.3 Navigation animale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3.1 Intégration de chemin . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.2 Région hippocampique et cellules de lieu . . . . . . . . . . . . . . . . 49
2.4 Navigation robotique bio-inspirée . . . . . . . . . . . . . . . . . . . . . . . . 53
2.4.1 Modèles inspirés des insectes . . . . . . . . . . . . . . . . . . . . . . 53
2.4.2 Modèles inspirés des mammifères . . . . . . . . . . . . . . . . . . . . 55
2.5 Per-Ac : un modèle de couplage sensori-moteur pour la perception . . . . . . . 56
2.5.1 Modèle de cellules de lieu visuelles . . . . . . . . . . . . . . . . . . . 56
2.5.2 Modèle d’intégration de chemin . . . . . . . . . . . . . . . . . . . . . 61
3 Un parallèle entre formalisme neuronal et bayésien 63
3.1 Limitations du modèle actuel . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2 Approche bayésienne et notion d’inférence . . . . . . . . . . . . . . . . . . . 65
3.3 Notre modèle de cellules de lieu d’un point de vue bayésien . . . . . . . . . . . 68
3.3.1 Description générale du problème . . . . . . . . . . . . . . . . . . . . 69
3.3.2 Factorisation immédiate . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3.3 Factorisation retardée . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
- 9 -TABLE DES MATIÈRES
3.4 Pondération statistique des amers . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.4.1 Un modèle neuronal de l’estimation de densité de probabilité . . . . . . 73
3.4.2 Expérience : estimons la dispersion de l’azimut de chaque amer : P(A/S) 75
3.4.3 Expérience : estimons la dispersion globale de l’azimut : P(A) . . . . . 76
3.5 Une approche statistique de la reconnaissance de lieu . . . . . . . . . . . . . . 79
3.5.1 Modèle de cellules de lieux probabilistes . . . . . . . . . . . . . . . . 79
3.5.2 Expérience : estimation de la probabilité d’être dans un lieu sachant les
observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4 Localisation à partir d’informations idiothétiques 87
4.1 Les cellules de grilles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2 Un modèle plausible de cellules de grille . . . . . . . . . . . . . . . . . . . . . 91
4.2.1 Description du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2.2 Structure des expériences . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3.1 Expérience 1 - exploration aléatoire, sans recalibration . . . . . . . . . 94
4.3.2 Expérience 2 - recalibration de l’intégration de chemin à l’aide d’un
retour au nid périodique. . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3.3 Expérience 3 - De la cellule de grille à la cellule de lieu . . . . . . . . . 99
4.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5 Fusion d’informations multimodales 105
5.1 Cohérence et conflits sensoriels . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.1.1 Conflits bénins entre modalités externes . . . . . . . . . . . . . . . . . 106
5.1.2 Conflits majeurs et ruptures perceptives . . . . . . . . . . . . . . . . . 108
5.2 Un couplage bi-modale par simple conditionnement . . . . . . . . . . . . . . . 109
5.3 Robustesse de la localisation : une expérience sur robot réel . . . . . . . . . . . 110
5.3.1 A propos de la topologie des cellules de grille . . . . . . . . . . . . . . 112
5.3.2 Robustesse de la reconnaissance des lieux aux ambiguïtés visuelles . . 114
5.3.3 A propos du problème du kidnapping . . . . . . . . . . . . . . . . . . 114
5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.4.1 Vers un modèle générique de prédiction intermodale . . . . . . . . . . 117
6 Un modèle générique de détection de nouveauté pour l’auto-évaluation 119
6.1 Modèles computationnels de détection de nouveauté . . . . . . . . . . . . . . 121
6.2 Modèle des perceptions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.3 Modèle de détection de nouveauté . . . . . . . . . . . . . . . . . . . . . . . . 125
6.4 Expériences et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
7 De l’évaluation à la régulation 135
7.1 Un modèle de contrôleur émotionnel au second-ordre . . . . . . . . . . . . . . 137
7.2 Sélection et coopération de stratégie . . . . . . . . . . . . . . . . . . . . . . . 138
7.3 Expérience : La frustration et son rôle communicatif dans le développement de
l’autonomie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
- 10 -TABLE DES MATIÈRES
7.3.1 Résultats en simulations . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.3.2 Expérience sur robot réel . . . . . . . . . . . . . . . . . . . . . . . . . 140
7.4 Expérience : Le stress et son rôle actif dans la régulation des comportements . . 143
7.4.1 Résultats en simulations . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Conclusion 149
A Strategie de suivi de route 181
A.1 Un algorithme minimaliste pour réaliser un comportement de suivi de route . . 181
B Outils de simulation de réseaux de neurones 185
B.1 Coeos : une interface graphique de conception d’architectures neuronales . . . 185
B.2 Promethe : un simulateur temps-réel et distribué de réseaux de neurones . . . . 186
C Plates-formes robotiques 189
C.1 Plate-forme d’intérieur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
C.2 Plate-forme d’extérieur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
C.3 Communication réseau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
- 11 -People say to me, "Are you looking for the ultimate laws of physics ?"
No, I’m not. I’m just looking to find out more about the world. If it turns
out there is a simple ultimate law that explains everything, so be it, that
would be very nice to discover. If it turns out it’s like an onion with millions
of layers... then that’s the way it is. But either way, Nature is there
and she’s going to come out the way She is. So therefore when we go to
investigate we shouldn’t predecide what it is we’re trying to do, except to
find more about it.
– R. Feynman
Introduction
Les premiers jalons historiques de l’intelligence artificielle (IA) remontent à l’antiquité
et commencent avec "le vieux souhait de jouer à Dieu" [McCorduck, 2004]. Ainsi, les concepts
de machines pensantes et de créatures artificielles apparaissent déjà dans la mythologie
grecque, dont les légendes de Talos de Crete, le robot de bronze d’Héphaïstos ou encore
Galatée de Pygmalion sont de bons exemples. Entre le 19ème et le 20ème siècle, les êtres artifi-
ciels sont progressivement devenus des lieux communs de fiction comme en témoigne l’oeuvre
"Frankenstein" de [Shelley, 1823] ou "R.U.R."(Rossum’s Universal Robots) de [Apek and Wyllie,
2010] puis les romans précurseurs d’Asimov [Asimov, 2004] ou d’Arthur C. Clarke [Clarke
and Kubrick, 1999].
L’étude du raisonnement formel a lui aussi été développé par de nombreux philosophes et math-
ématiciens depuis l’antiquité (parmis les plus notables : Aristote, Euclide, Al-Khawarizmi puis
Leibniz). En se basant sur ces études, les fondateurs de l’IA ont proposé des algorithmes capables
d’imiter, étape par étape, le raisonnement permettant à l’être humain de résoudre des
puzzles et réaliser des déductions logiques [Hart et al., 1968; Poole et al., 1998; Nilsson, 1998].
Le champ de recherche de l’IA à été fondé en 1956 lors d’une conférence incluant notamment
John McCarthy, Marvin Minsky, Allen Newell et Herbert Simon qui devinrent leaders de ce domaine
plusieurs dizaines d’années durant [Crevier, 1993]. Ces pionniers étaient profondément
optimistes à propos de l’avenir de ce nouveau domaine. Simon avaient même prédit : "les machines
seront capables, d’ici une vingtaine d’années, d’accomplir toutes tâches qu’un humain
peut réaliser" [Simon, 1965] et Minsky écrivit : "dans une génération ... le problème de l’intelligence
artificielle sera globalement résolu" [Minsky, 1967].
Cette vision de l’intelligence a permis quelques avancées majeures dans la résolution automatique
de problèmes d’algèbre, la preuve de théorèmes logiques, la réalisation de systèmes experts
ou encore la création d’agents conversationnels. La victoire de Deep Blue contre le champion
d’echec Garry Kasparov en 1997 a marqué les esprits [Newborn and Newborn, 1997]. Mais
la capacité de cette approche a vite trouvé une limite dés lors qu’elle se confrontait au monde
réel continu, dynamique et incertain. La puissance de calcul limitée des machines et l’explosion
combinatoire engendrée par la résolution de tâches même triviales constituent les premières
limitations de l’approche [Moravec, 1988]. La comprehension par la machine du sens commun
associé aux concepts manipulés en est une autre. Ces programmes ne savent pas plus qu’ils effectuent
des démonstrations géométriques ou algébriques que Deep Blue ne savait qu’il jouait
aux échecs. Ces cas représentent plus des opérations intellectuelles assistées par ordinateur que
de l’intelligence à proprement parler.
La raison de cet echec est que la majeure partie des travaux effectués dans le domaine de l’IA
13INTRODUCTION
reposent sur une représentation symbolique du monde. Les symboles représentent des étiquettes
que l’on associe à des concepts, tel qu’une chaise ou un ballon. L’agent se voit attribuer une base
prédéfinies de symboles avec lesquels il peut jongler. Selon ce point de vue, l’intelligence d’un
agent se résume donc à la manipulation de symboles. Mais l’approche fait face à un problème
fondamental (le “Symbol Grounding Problem”) [Harnad, 1990] puisque manipuler des symboles
ne permet pas de comprendre pour autant leur sens dans le monde réel.
[Searle, 1999] eu l’idée d’une expérience de pensée démontrant l’echec de l’approche symbolique
: "Supposons que l’on soit dans une pièce fermée avec la possibilité de recevoir et d’envoyer
des symboles (via un clavier et un écran, par exemple). On dispose de caractères chinois et de
règles de travail (instructions) permettant de produire certaines suites de caractères en fonction
des caractères introduits dans la pièce, sur le modèle des organismes de vente par correspondance
qui traitent leur courrier client en plaçant des réponses préparées à l’avance, et déjà
imprimées, dans des enveloppes. Si l’on fournit une histoire suivie d’une question, toutes deux
écrites en chinois, l’application des règles ne peut que conduire à donner la bonne réponse,
mais sans que l’opérateur ait compris quoi que ce soit, puisqu’il ne connaît pas le chinois. Il
aura juste manipulé des symboles qui n’ont pour lui aucune signification."
FIGURE 1 – Schéma extrait de [Bierre, 1985] repris par [Varela, 1996], illustrant les différentes complexités
de représentation du monde en fonction des limites et des règles de ce monde : "Pour l’espace
« échecs», il est possible de dessiner un réseau de relations dont les noeuds représentent chaque élément
pertinent. Dans le cas de l’espace «conduite automobile», une semblable tentative montre bien qu’audelà
de quelques éléments isolés, le réseau évolue rapidement vers une masse non-circonscrite de sens
commun."
Comment définir, en des termes interprétables par un programme, le concept communément
associé au mot "chaise" ? De toute évidence, définir ce mot en associant le symbole "Chaise" à
un ensemble d’images représentant toutes les chaises existantes n’est pas une bonne solution.
En plus d’un apprentissage laborieux, l’agent n’est alors pas capable de reconnaitre une chaise
qui ne lui a pas été présentée auparavant puisqu’il n’a pas saisi le sens de ce mot.
- 14 -INTRODUCTION
Robotique comportementale
À la fin des années 1980, plusieurs chercheurs plaident pour une approche de l’intelligence artificielle
complètement inédite, centrée sur la robotique. La théorie de l’énaction, proposée par
[Mataruna and Varela, 1980] met ainsi en avant l’importance du corps physique pour acquérir
une compréhension sensée du monde. La machine doit percevoir, bouger, survivre et évoluer
dans un environnement réel pour parvenir à le comprendre. L’intelligence n’est plus vue comme
un processus de réflexion détaché de l’environnement mais bien un processus de cognition "incarné"
au sein d’un corps mobile à la morphologie particulière. On parle alors d’embodiment
[J. Haugeland, 1995; Scheier and Pfeifer, 1997]. Ces capacités sensori-motrices sont essentielles
aux capacités de plus haut niveau et le raisonnement abstrait est en fait la capacité humaine la
moins importante (cf. le paradoxe de Moravec [Russell and Cohn, 2012]).
Selon ce point de vue, reconnaître une chaise c’est avant tout reconnaître un objet sur lequel
on peut s’asseoir. Le sens naît de l’interaction de l’agent avec son monde. Reconnaître un objet
c’est reconnaître ce que l’on peut faire avec. On notera que le sens que l’on donne au mot
"chaise" n’est valable que pour l’être humain et sa morphologie spécifique. Ce même objet n’a
certainement pas le même sens pour l’éléphant ou pour la mouche par exemple.
Dans le même temps, quelques chercheurs tentaient de reproduire les comportements élé-
mentaires de certains animaux [Walter, 1953; Braitenberg, 1984]. Suivant la mouvance bioinspirée,
les roboticiens s’intéressent alors aux modèles que pouvaient représenter les insectes
dont la morphologie est particulièrement adaptée à une réalisation robotique. L’un des premiers
à s’interesser aux insectes en tant que modèle fut Rodney Brooks qui suggéra que les robots
devaient d’abord pouvoir se comporter comme le plus primitif des animaux, avant de prétendre
à des capacités cognitives plus élaborées [Brooks, 1986; Arkin, 1998]. Ces études donnent
naissance à l’approche animat introduite par [Wilson, 1991] et dont le but est la réalisation d’animaux
artificiels en étudiant la cognition animale au niveau le plus simple pour grimper progressivement
en complexité et atteindre un jour l’intelligence humaine par le bas. L’approche ravive
des concepts nés de la cybernétique et de la régulation qui avaient perdu de leur impact depuis
les années soixante. La cybernétique, popularisée en 1948 par [Wiener, 1948], est une science
des systèmes autorégulés, qui étudie le concept de "feedback", ou boucle de retour. La discipline
s’intéresse moins aux composantes d’un système qu’à leurs interactions. Le comportement globale
du système est pris en compte avant tout le reste.
Cette thèse s’inscrit dans cette démarche et considére le comportement émergeant du système
comme un miroir de son intellect. Aussi, nous nous éloignerons d’une représentation symbolique
pour adopter une approche dite "sensori-motrice". C’est le couplage entre sensation et
action qui permettra au robot de se construire une représentation de son environnement.
Nous implémenterons nos solutions sous la forme de réseaux de neurones artificiels. Ces
derniers représentent un outil cadrant parfaitement avec l’approche de la cybernétique. L’intéraction
d’un grand nombre de neurones modélisés par des équations simples peut faire émerger des
capacités de catégorisation et des comportements complexes. L’une des propriétés essentielles
de tels réseaux est la possibilité d’apprendre i.e. de modifier le comportement du système au
fur et à mesure de ses expériences. Ces propriétés permettent d’obtenir de bonnes capacités de
généralisation et facilite également l’adaptation du comportement du robot lorsque l’environnement
change.
Les solutions industrielles classiques s’appuient généralement sur la programmation spéci-
- 15 -INTRODUCTION
fique du robot pour réaliser les tâches désirées. Bien souvent, les robots ne sont programmés que
pour réaliser une seule tâche de manière optimale. Les ingénieurs sont forcés de programmer
entièrement le comportement du robot pour l’adapter à chaque nouvelle tâche. Cette opération
nécessite des humains experts et se révèle très coûteuse en temps de développement.
Selon l’approche que nous adopterons ici, la programmation spécifique de tâches est remplacée
par l’apprentissage de celles-ci. Cependant, nous irons plus loin encore en concevant le robot
non pas comme une machine introvertie mais comme un système capable d’intéragir naturellement
avec un utilisateur pour affiner son apprentissage avec le temps. L’utilisateur n’a alors plus
besoin d’être expert ni de programmer le système pour chaque nouvelle tâche à résoudre.
Pour aboutir à ce type de solution, une démarche ascendante (bottom-up) et constructive
est nécessaire [Mataruna and Varela, 1980; Varela et al., 1993]. Suivant cette démarche, il convient
de développer progressivement la complexité du robot pour avoir la possibilité d’étudier
ses capacités lorsque ce dernier est plongé dans son environnement. Cette démarche tente de
faire émerger des théories de la pratique, et non l’inverse. Les modèles proposés s’inspirent de
principes minimalistes que l’on trouve en biologie animale. A l’inverse d’approches descendantes
(top-down) contraignant l’espace des possibles pour aboutir à la solution désirée, nous
laisserons apparaitre des propriétés émergentes, que l’on ne saurait imaginer si le robot et l’environnement
étaient considérés indépendamment.
Problématique
Cette thèse s’inscrit dans le câdre de la navigation robotique bio-inspirée en environnement
réel et implique la capacité pour un système mobile à se déplacer de manière autonome dans un
monde a priori dynamique et inconnu.
Pour se localiser et naviguer, un robot autonome peut utiliser de multiples solutions. Mais que ce
soit pour la modélisation des processus visuels ou pour la localisation, la cartographie, la navigation
et la planification, les mesures nécessaires sont fortement bruitées, ce qui justifie le recours
à des méthodes probabilistes. Les approches bayésiennes ont la faveur de la communauté robotique
pour conserver le contrôle sur les incertitudes pesant sur les données. Les approches neuromimétiques
fournissent des solutions robustes et originales pour résoudre le même problème.
Des travaux récents suggèrent que des processus statistiques sont à l’oeuvre dans le cerveau
et montrent comment certains codages par population de neurones implémentent les principes
de bases de l’approche bayésienne [Deneve S, 2004]. L’équipe Neurocybernétique d’ETIS et
l’équipe "Cognition, Perception et Usages" du LIMSI ont travaillé à la mise au point de modèles
bio-inspirés neuronaux et de modèles bayésiens pour la localisation et la navigation en robotique
autonome.
Les travaux de [P. Gaussier, 1997] ont montré il y a maintenant plus d’une dizaine d’années
qu’un système bio-inspiré pouvait par exemple apprendre à retourner vers un lieu en apprenant
un nombre très réduit de couples lieu-action dans le voisinage de ce lieu-but. L’emploi de mé-
canismes de compétition entre ces couples lieu-action permet la création d’un bassin d’attraction
qui attire immanquablement le robot sur le lieu cible pour peu que le point de départ appartienne
au même voisinage visuel. Le comportement du robot démontre ainsi sa reconnaissance du lieu
cible alors même que ce lieu n’a pas été codé en temps que tel dans le réseau.
D’autres travaux ont permis de montrer que ce type d’approche pouvait se généraliser à l’apprentissage
de rondes [Giovannangeli and Gaussier, 2010] ou à la reconnaissance active d’objets
- 16 -INTRODUCTION
[S. Leprêtre, 1999]. Cependant, même si dans ces tâches la capacité de généralisation tenait la
première place, on peut se poser la question de la capacité de ces approches à traiter des problèmes
de très grande taille. Que se passe t’il lorsque le nombre d’amers visuels utilisés ne se
compte plus en centaines mais en centaines de milliers voire millions ? Il est clair que la capacité
d’un simple mécanisme de compétition à proposer une interprétation correcte s’effondre avec
l’augmentation du nombre de vues apprises.
De récents travaux [Cuperlier et al., 2008] ont montré qu’une information de contexte pouvait
être apprise en ligne et utilisée à la fois pour limiter la compétition (augmenter le rapport signal
à bruit) mais aussi pour limiter la puissance de calcul nécessaire en ne calculant que l’activité
des neurones associés au bon contexte. Mais même avec ce genre de mécanisme, le robot peut se
trouver trop loin des lieux appris pour être attiré dans le bassin d’attraction désiré. Il peut alors
se mettre à errer indéfiniment sans rejoindre le lieu cible.
Cependant, l’observation interne de l’évolution du niveau de reconnaissance des lieux traduit
clairement cet échec. Un "observateur" interne pourrait donc qualifier le comportement du système.
L’enjeu dans la construction d’un tel système complexe doté d’une autonomie comportementale
est double. D’une part il est nécessaire que les futurs systèmes de traitement de l’information
soient à la fois fiables et flexibles, capable d’extraire de manière active les informations
de l’environnement qu’ils jugent pertinentes pour adapter leur comportement. D’autre part, ces
systèmes devront être capables d’auto-évaluer leurs performances afin de détecter les situations
d’échec ou de dead-lock (boucle sans fin). Ces situations peuvent se produire au cours d’interactions
dynamiques complexes, alors même que les comportements élémentaires du système sont
corrects.
Pour un robot, l’autonomie peut alors se traduire par l’expression de comportements adaptatifs
et non supervisés, lui permettant de détecter mais aussi de corriger des situations d’échec afin de
mener à bien les tâches nécessaires à sa mission dans l’environnement dans lequel il se trouve.
Rendre réellement utilisable les systèmes robotiques sophistiqués que l’on voit apparaître ces
dernières années (cf la création de Cap robotique pour fédérer les nombreuses initiatives industrielles
concernant les robots de services, les robots ludiques, les robots interactifs voire
humanoïdes comme Asimo de Honda, HRP2, ICub ou Nao d’Aldebaran robotics à Paris) passe
par la maitrise de systèmes informatiques complexes relevant le défi de l’autonomie et de l’adaptation
comportementale nécessitant la capacité à détecter des situations critiques et la capacité
à les résoudre. Ces compétences sont cruciales pour le développement de nouveaux produits
robotiques destinés à évoluer de manière autonome dans des environnements dynamiques a priori
inconnus.
La robotique autonome se développe en particulier en direction de deux types d’applications
: le véhicule autonome et la robotique d’assistance. Une amélioration du transport urbain
pourrait passer par la mise au point de véhicules capables de se diriger de façon automatique
d’un point à un autre en gérant les situations complexes et inattendues qu’il rencontrera lors de
son parcours. Le fait de naviguer sur de longues distances est susceptible d’induire une instabilité
de localisation si des informations de type GPS ne sont pas accessibles sur l’ensemble du trajet.
Le système devra identifier ces situations d’erreur et y remédier. De la même façon, la robotique
d’assistance supposera une capacité de navigation autonome, d’apprentissage des situations nouvelles
et de reconnaissance de lieux et d’objets mais également la capacité à reconnaître les
situations d’échec et à y remédier. Enfin, la maitrise du passage à l’échelle des mécanismes per-
- 17 -INTRODUCTION
mettant de reconnaître des milliers voire des millions de formes en temps réel et d’auto-adapter
le comportement du robot en cas d’échec est un défi incontournable pour l’ingénierie des systèmes
intelligents de demain.
Ces questions sont aussi au centre des sciences cognitives avec notamment un nombre de
plus en plus important de recherches sur le rôle des émotions dans nos processus cognitifs. Ces
processus peuvent être assimilés à des contrôleurs au second ordre, capablent à la fois de remettre
en cause la priorité de nos stratégies, ou de réaliser la fusion d’informations multimodales
pour fabriquer une perception stable et robuste du monde.
L’autonomie globale d’un système passe par 4 axes principaux que nous développerons progressivement
tout au long de ces travaux, à savoir :
- La sélection d’informations pertinentes par l’extraction de régularités statistiques.
- L’intégration d’information multimodale pour obtenir une perception robuste et stable.
- L’auto-évaluation des comportements sensori-moteurs exhibés par le robot, par l’ajout d’un
méta-prédicteur générique.
- La sélection et la régulation de ces comportements par le biais de processus émotionnels.
Extraction de régularités statistiques
Afin de se construire une perception robuste de son environnement, un système nécessite la
capacité à extraire de celui-ci l’information importante pour la tâche à réaliser. Les approches
statistiques fournissent des solutions efficaces pour filtrer l’espace des données que le système
perçoit en mettant en avant les informations les plus stables. Il est nécessaire que le robot apprenne
à capturer ces invariants statistiques en supprimant l’information instable ou trop bruitée.
Dans l’architecture actuelle, tous les amers visuels sont traités de manière identique. Pourtant
ces amers peuvent avoir des caractéristiques différentes (proximaux ou distaux) et être plus ou
moins pertinents selon la tâche envisagée. Il est donc nécessaire d’introduire une capacité à
prédire le déplacement de ceux-ci afin de les caractériser. Ceux dont la position angulaire reste
invariante (sur une certaine distance) et dont la signature est unique peuvent servir à reconnaitre
des lieux de manière robuste. Au contraire, un même amer perçu sous différentes positions angulaires
reflète clairement la présence d’un objet ambigu, redondant ou encore mobile, et ne
devrait pas être pris en compte par le système.
Un mécanisme de méta-contrôle sera donc nécessaire ici pour apprendre à caractériser les amers
visuels et moduler leur influence dans la reconnaissance des lieux. La constitution d’un tel mé-
canisme sera abordée selon les deux paradigmes : neuronal et bayésien. L’exploitation de ces
prédictions devrait permettre d’une part d’améliorer les performances du système (adaptation) et
d’autre part de définir un détecteur de nouveauté (curiosité, surprise. . . ) réagissant à des données
sortant de l’épure déterminée par un prédicteur neuronal (après apprentissage de la distribution
des données).
Intégration d’information multimodale
Dans une deuxième phase, nous chercherons à utiliser ces mêmes techniques pour maitriser des
tâches plus complexes telles que l’intégration d’informations proprioceptives dans le codage des
lieux. La nature même de cette intégration étant méconnue, différentes stratégies de fusion entre
ces informations seront explorées.
D’un point de vue modèle neurobiologique, la fusion d’informations visuelles avec des informa-
- 18 -INTRODUCTION
tions idiothétiques devrait conduire à une amélioration notable de la stabilité des champs de lieu
multimodaux en comparaison de champs issus d’une seule modalité. Cette fusion devra permettre
la création de cellules de lieux plus robustes à des changements de l’environnement (variation
de luminosité, perte d’amers lointains, fonctionnement épisodique de la modalité visuelle ...).
La recalibration de l’odométrie par des informations visuelles devrait également permettre d’améliorer
la fiabilité de ces informations lors de navigations dans de grands environnements (limitation de
la dérive idiothétique, robustesse aux fermetures de boucles et au kidnapping...).
L’impact des mécanismes de fusion/compétition entre modalités sur la stabilité et l’exactitude
de l’information de position (lieux) sera étudiée dans le cadre de tâches de navigation sensorimotrices
(ronde, retour à un lieu appris).
Auto-évaluation
Les travaux présentés dans cette thèse visent à doter nos systèmes robotiques de propriétés leur
permettant de sélectionner les informations les plus pertinentes et d’adapter jusqu’à leurs comportements
et leurs buts en fonction de l’évaluation de la situation rencontrée. Nous ferons l’hypothèse
que les mécanismes de fusion impliquent la nécessité de prédire l’apport d’une modalité
pour la reconnaissance d’un état de la même manière que juger le succès ou l’échec d’un
comportement nécessite la prédiction de l’évolution d’un certain nombre de variables liées à la
reconnaissance des états cibles. Il est donc légitime de supposer que ces différents problèmes
pourraient reposer sur un système de prédiction générique capable de capturer rapidement les
informations statistiques caractérisant une situation donnée pour faire des prédictions sur l’évolution
de cet état. L’incapacité à prédire l’état courant pourrait alors être vue comme un signal de
renforcement négatif impliquant la remise en cause du comportement en cours et l’apprentissage
de nouveaux états [P. Andry, 2002].
Processus émotionnels
Dans ce cadre, la modélisation des émotions semble indispensable à la fois au méta-contrôle
de nos mécanismes cognitifs [Damasio, 1995; LeDoux, 1992; Panksepp, 1998] mais aussi pour
communiquer de manière pré-verbale nos états internes. Les travaux en psychologie et neurobiologie
montrent l’importance d’introduire des mécanismes émotionnels au coeur même des systèmes
d’Intelligence Artificielle [Damasio, 1995; Picard, 1997; Canamero and Gaussier, 2004].
On retrouve ainsi toute une gamme de modèles permettant aux robots de détecter de la nouveauté,
de prédire le rythme d’une interaction [Andry et al., 2001], de devenir curieux [Oudeyer
et al., 2007] afin qu’ils puissent développer de manière autonome de nouvelles compétences
dans un cadre "open ended" (à horizon temporel ouvert). L’approche bio-inspirée basée sur des
modèles émotionnels pour le méta-contrôle est encore peu explorée [Balkenius et al., 2009;
Canamero and Gaussier, 2004; Mannella et al., 2008]. Nous nous intéresserons ainsi à comprendre
comment les émotions peuvent moduler les motivations ou les «drives» contrôlant un
robot.
Chez les mammifères, la régulation des comportements est liée aux interactions entre différentes
structures dites limbiques. Nos émotions régulent nos comportements (ex. en cas de
danger, arrêt des taches en cours et déclenchement d’un comportement de fuite ou d’agression)
mais elles sont elles même régulées par d’autres processus cognitifs (la surprise liée à la détection
d’une nouveauté par exemple). Différents courants théoriques s’affrontent et opposent des
modèles d’émotions élémentaires [Ekman, 1984] à des modèles dimensionnels (passage continu
- 19 -INTRODUCTION
d’une émotion à une autre) [Spencer, 1870; Wundt and Judd, 1897] et discutent de la primauté
des mécanismes cognitifs ou viscéraux dans la genèse des émotions.
Dans ces travaux, nous ne tenterons pas de prendre parti au départ sur ces questions mais
chercherons à utiliser dans un cadre restreint les données et modèles computationnels disponibles
sur la détection de nouveauté et la gestion des comportements (modèles des ganglions de la
bases, de l’hippocampe, de l’amygdale et du cortex préfrontal) pour en déduire les règles de
régulation les plus simples possibles et tester leurs effets comportementaux dans des tâches de
navigation autonome.
Portrait-Robot
Les travaux réalisés dans cette thèse ont été menés sur 2 robots mobiles : la plateforme
mobile d’intérieur Robulab, et celle adpatée à la navigation en environnement extérieur Roburoc
de Robosoft.
FIGURE 2 – Plateforme robotique mobile Robulab de Robosoft. Le robot est composé d’une base mobile, d’un corps
contenant le pc embarqué et d’une tête supportant la caméra sur servomoteur. La boussole est positionnée au sommet
d’un mat afin d’empécher d’éventuelles interférences par l’électronique embarquée. Le système de localisation n’est
jamais utilisé par le robot. Il permet seulement d’enregistrer la trajectoire de celui-ci.
Les plateformes sont composées de 3 parties distinctes, à savoir une base mobile (Robulab
PC/104) qui permet au robot de se mouvoir, un corps comprenant un coffre au sein duquel se
trouve un ordinateur embarqué (Carte mini ITX i7), puis une "tête" composée d’une caméra
montée sur servomoteur. Les robots sont également munies de microcontroleurs (Arduino) pour
contrôler le matériel embarqué ainsi que d’un routeur WiFi pour communiquer avec une ma-
- 20 -INTRODUCTION
FIGURE 3 – Plateforme robotique mobile Roburoc de Robosoft. La base mobile est munie de 4 roues motrices tout
terrain adaptées aux environnements extérieurs. Le corps contient le pc embarqué protégé à l’intérieur d’un coffre, un
pc portable permettant un contrôle du robot. La caméra est soutenue par une plateforme stabilisatrice. L’électronique
est recouverte d’un film transparent et l’ensemble est surmonté d’un parapluie dépliable afin de resister à l’humidité.
Une bâche étanche est transporté dans le sac à dos du robot en cas d’averse.
chine distante si besoin. Les 2 plateformes sont munies de capteurs de proximité utilisés pour
l’évitement d’obstacle, d’une boussole magnétique ainsi que d’autres capteurs plus spécifiques.
Nous classerons ces capteurs en deux catégories selon qu’ils mesurent un état interne au robot
ou bien un état externe relatif à son environnement. Dans le premier cas, nous parlerons de proprioception
ou de modalité sensorielle idiothétique (e.g odométrie, accéléromètre, gyroscope,
indicateur de charge de la batterie). Dans le second cas, nous parlerons d’extéroception ou de
modalité sensorielle allothétique (e.g. caméra, capteurs ultra-son, capteurs infra-rouges, capteur
thermique, boussole magnétique). Pour une liste complète du matériel embarqué, on pourra se
référer à l’annexe C.
Les 2 plateformes que nous utiliserons sont des robots mobiles à roues non holonômes. Cette
contrainte implique que le robot ne peut effectuer de translation omnidirectionelle. La locomotion
à l’aide de roues exploite la friction de contact, dont la nature (régularité, matériaux) à une
forte influence sur les propriétés du mouvement.
Dans le cas du robot d’intérieur (fig. 2), les 2 roues sont pleines et disposées de part et d’autre
de la base. Le centre instantané de rotation est donc situé au milieu des 2 roues ce qui permet
un rayon de braquage nul (rotation sur place à vitesse nulle). En condition intérieure (sol plan),
nous considèrerons qu’il y a roulement sans glissement de la roue sur le sol. Pour vérifier cette
condition, il est nécessaire que le contact soit ponctuel et que les roues soit indéformables.
Dans le cas du robot d’extérieur (fig. 3), les 4 roues tout terrain sont parallèles 2 à 2, ce qui ne
permet pas un rayon de braquage nul. De plus, alors qu’il est raisonnable de dire que des roues
pleines sont indéformables, cette hypothèse est fausse si l’on considère des roues équipées de
pneus. Une telle contrainte, ajoutée a celle d’un sol accidenté en environnement extérieur, im-
- 21 -INTRODUCTION
plique des glissements qui ne sont cette fois plus négligeables.
Plan de la thèse
Ce manuscrit se décompose en 7 chapitres distincts.
Dans le chapitre 1, j’essaierai d’aborder de manière didactique les outils nécessaires à la compréhension
des modèles et méthodes que nous utiliserons tout au long de ces travaux. Nous
aborderons les bases du formalisme neuronal, de l’apprentissage par conditionnement, de la
catégorisation, de la décision ainsi que de l’importance de l’aspect dynamique dans les processus
neuronaux.
Dans le chapitre 2, nous passerons en revue un état de l’art des modèles permettant la navigation
autonome d’un robot mobile. Après un bref rapprochement entre les méthodes historiques
utilisées pour la navigation maritimes et celles utilisées en robotique mobile, nous comparerons
les méthodes dites "classiques" avec d’autres modèles inspirés du comportement animal. Nous
verrons que les techniques de SLAM (Simultaneous Localisation And Mapping) se basent principalement
sur l’idée de la construction d’une carte interne détaillée de l’environnement. Cette
carte doit permettre au système de naviguer de manière précise dans cet environnement. Ces
méthodes classiques montrent leurs limites face à des environnements dynamiques et/ou de
grandes tailles. Nous verrons comment des solutions simples et robustes, abordant le problème
sous un autre angle, ont pu émerger de la nature. Dans le cadre de l’approche bio-inspiré, je
présenterais le modèle de cellules de lieux hippocampiques que nous exploiterons comme base
du modèle de navigation visuelle dans la suite de ces travaux.
Dans le chapitre 3, je présenterai un parallèle entre l’approche neuronale et l’approche
bayésienne en appliquant cette comparaison au modèle de navigation visuelle présenté précédemment.
Après une description des limitations du modèle d’apprentissage figé précédent, nous
procéderons à une ré-écriture du modèle sous une forme probabiliste. Je proposerai ensuite une
reflexion et des solutions au problème de l’extraction de l’information pertinente pour la tâche.
A partir de cette comparaison, je montrerai comment un robot est capable d’apprendre à prédire
un amer visuel à partir de la perception de son azimut (sa position angulaire). De la même
manière, je montrerai comment construire des cellules de lieu "probabilistes" en apprenant à
prédire un lieu à partir de la perception d’une constellation d’amers-azimuts donnée. Pour cela,
je proposerai un modèle neuronal capable d’estimer des densités de probabilités à partir d’observations
statistiques de l’environnement. Ce modèle de prédiction uni-modal constituera la
première brique d’auto-évaluation du système (l’évaluation de la pertinence des informations
qu’il reçoit).
Dans le chapitre 4, nous implémenterons une nouvelle stratégie de navigation basée sur une
localisation idiothétique, c’est à dire une représentation des lieux construite à partir d’informations
proprioceptives. En partant d’un mécanisme simple d’intégration de chemin (présenté au
chapitre 2), nous proposerons un modèle de cellules de grille, enregistrées dans le cortex entorhinal
dorso-médian des rats [Hafting et al., 2005]. Nous analyserons les possibilités et limitations
de ces cellules pour la navigation. Nous proposerons un modèle permettant d’obtenir des cellules
de lieu idiothétiques uniquement alimentées par l’information de ces cellules de grilles.
Après avoir analysé en détails ce nouveau modèle de cellules de lieu idiothétiques, nous nous
intéresserons dans le chapitre 5, à la manière dont peuvent être fusionnées les représentations
issues du modèle visuel et du modèle idiothétique. Nous proposerons un modèle de fusion simple
afin de générer des cellules de lieu multimodales, c’est à dire des cellules dont l’activation
- 22 -INTRODUCTION
dépend à la fois d’informations allothétiques et idiothétiques. Plusieurs expériences sur robot
réel rendront compte de la capacité du modèle à conserver une reconnaissance cohérentes lors
de perturbations extérieures (ambiguités visuelles, kidnapping et fermeture de boucle).
Pour finir, nous ouvrirons la discussion sur la fusion de modalités en proposant un modèle
générique pour l’intégration d’informations multi-modales (ne se limitant pas à 2 modalités).
Ce modèle de prédictions intermodales constituera la seconde brique d’auto-évaluation du système
(l’évaluation de l’adéquation existant entre ces différentes sensations).
Le chapitre 6 se focalisera sur l’auto-évaluation des comportements exhibés par le système.
En partant d’un état de l’art sur les modèles de détection de nouveauté et les théories de la
perception, je proposerai un modèle capable d’apprendre à reconnaitre la dynamique résultante
du couplage entre sensations et actions. L’apprentisssage de cette dynamique forme un mod-
èle interne des interactions du robot avec son environnement : un modèle de ses perceptions.
La surprise (erreur de prédiction) engendrée par une dynamique sensori-motrice inhabituelle
renseigne alors le système sur d’éventuelles anomalies de son comportement. Ce modèle de dé-
tection de nouveauté constituera la troisième brique d’auto-évaluation du système, l’évaluation
de son comportement.
Dans le chapitre 7, nous verrons que le fait de détecter un comportement inhabituel ne nous
renseigne pas pour autant sur son inefficacité. Le système doit également surveiller l’évolution
de la surprise dans le temps pour pouvoir juger de la pertinence de celle-ci. Je montrerais comment
un contrôleur émotionnel au second ordre peut faire usage de cette détection de nouveauté
pour réguler le comportement et ainsi permettre au robot d’utiliser la stratégie la plus adaptée à
la situation rencontrée. Par ailleurs, un modèle simpliste de frustration poussera le robot à initier
une intéraction avec son professeur lorsqu’il détecte qu’il se retrouve dans une impasse. Ce
mécanisme permet au robot d’identifier les situations qu’il ne maitrise pas dans le but d’affiner
son apprentissage par le biais d’une intéraction qu’il à lui même initié, à l’instar de certains
processus développementaux.
Pour finir, nous discuterons des différentes problématiques abordées ainsi que des apports
de ces travaux relatifs à l’autonomie en robotique mobile.
- 23 -Une chose est particulièrement frappante dans le cas de la colonie d’insectes : contrairement
à ce qui se passe avec le cerveau, nous n’avons aucun mal à admettre
deux choses : a) la colonie est composée d’individus ; b) il n’y a pas de centre ou de
“moi” localisé. Pourtant, l’ensemble se comporte comme un tout unitaire et, vu de
l’extérieur, c’est comme si un agent coordinateur était “virtuellement” présent au
centre. C’est ce que j’entends lorsque je parle d’un moi dénudé de moi : une configuration
globale et cohérente qui émerge grâce à de simples constituants locaux, qui
semble avoir un centre alors qu’il n’y en a aucun [...] pp. 85-87
– F. Varela. “Quel savoir pour l’Éthique”
CHAPITRE 1
Outils du cybernéticien
Le but de ce chapitre est de fournir une vue d’ensemble des outils nécessaires à la compréhension
des modèles et méthodes développé(e)s tout au long de ce manuscrit. Les notions
présentées seront abordées de manière volontairement didactique afin de rendre la lecture de
cette thèse accessible au lecteur non-initié.
Nous aborderons brièvement les bases du formalisme neuronal en présentant le fonctionnement
d’un neurone biologique et de son homologue, le neurone formel. Nous parlerons de groupe
neuronal pour désigner une population de neurones partageant des caractéristiques communes :
une fonction et/ou une règle d’apprentissage identique.
Nous introduirons ensuite le concept d’apprentissage, concept clé pour l’ensemble des applications
utilisant des réseaux de neurones artificiels. Un réseau de neurones peut apprendre en
modifiant la valeur de ses poids synaptiques en fonction des entrées qu’il reçoit. La modification
de ces poids autorise l’apprentissage d’associations et la catégorisation des signaux d’entrées en
différentes classes. Un signal de neuromodulation permet de moduler la vitesse d’apprentissage
du réseau.
Ces capacités d’apprentissages sont cruciales pour rendre un agent autonome et capable de faire
face aux aspects dynamiques, changeants et complexes du monde réel. Elles permettent de capturer
les régularités statistiques du monde en filtrant naturellement le bruit présent. Elles permettent
aussi à l’animal de s’adapter au mieux à son environnement, par la capacité à reconnaître
des lieux pour se déplacer efficacement, la capacité d’apprendre de ses erreurs ou encore celle
de détecter une situation anormale et fuir en cas de danger.
Le signal de neuromodulation peut provenir de stimuli externes (renforcement positif ou négatif
de la part de l’environnement ou d’un autre animal), mais il peut aussi être généré en interne
par certains mécanismes compétitifs et l’usage de seuils liés aux niveaux physiologiques de
l’animal (faim, soif, émotions, etc...). Ces mécanismes générant des signaux de modulation de
l’apprentissage et/ou du comportement ne sont pas directement liés à l’environnement et sont
principalement issus de décisions internes. Cela pose la question de comment fonctionnent ces
processus décisionnels à l’oeuvre dans le cerveau. De tels mécanismes sont utilisés dans le cadre
de l’apprentissage non-supervisé, c’est à dire un apprentissage autonome. L’agent prend la dé-
cision d’apprendre ou non en fonction de ses propres motivations et non de facteurs extérieurs.
L’apprentissage n’est pas la seule caractéristique intéressante de l’approche neuronale. Nous
aborderons succinctement l’intérêt du codage en population et celui des réseaux récurrents. Plus
particulièrement, nous nous attarderons sur les mécanismes de compétition, très utilisés dans
251.1. UNE BRÈVE INTRODUCTION AUX RÉSEAUX DE NEURONES ARTIFICIELS
mes travaux. L’intérêt d’une compétition réside dans le fait que des neurones en rivalité réalisent
un processus décisionnel doté de propriétés intéressantes. La décision, nous le verrons, est également
une caractéristique essentielle pour la survie et l’autonomie d’un agent.
1.1 Une brève introduction aux réseaux de neurones artificiels
Un réseau de neurones artificiels est un modèle computationnel utilisé pour réaliser un ensemble
de traitements en certains points semblables à son homologue biologique. Le premier
modèle mathématique du neurone biologique a été proposé par McCulloch et Pitts en 1943 [McCulloch
et al., 1943] et a été repris en 1958 par Rosenblatt [Rosenblatt, 1958] dans son célèbre
modèle du Perceptron. Le perceptron est un classifieur linéaire composé de couche de neurones
formant un réseau. Chaque neurone du réseau est une unité computationnel effectuant une
somme pondérée de ses entrées. L’information en entrée peut provenir d’un capteur (e.g. rétine)
ou bien de la sortie d’autres neurones. Chaque entrée e est pondérée d’un poids synaptique w,
modulant l’importance de certaines entrées par rapport à d’autres dans le résultat en sortie (voir
fig. 1.1).
Pour n entrées, le calcul de l’activité (ou potentiel) Pi d’un neurone i est donc défini tel que :
Pi =
Xn
1
xn.wn (1.1)
Ce potentiel de sortie peut ensuite subir une transformation non-linéaire par le biais d’une
fonction d’activation, usuellement un seuillage ou bien une base radiale (e.g. base sigmoïdale),
prodiguant ainsi nombre de propriétés intéressantes. Il est important de bien choisir la fonction
d’activation pour obtenir un modèle utile en pratique. Dans la suite de ces travaux, nous utiliserons
principalement une fonction d’activation linéaire ou bien un seuillage binaire tel que :
Seuillage binaire : Sb(P) =
1 si P > S
0 sinon. (1.2)
Avec S, un seuil particulier.
Bien que la réponse réelle d’un neurone biologique soit souvent impulsionnelle (spike), le mod-
èle approxime l’activité de sortie par un potentiel d’activité, ou fréquence moyenne de décharge.
Certains modèles plus fins prennent en compte cet aspect impulsionnel (spiking neurons) dont
le premier a été introduit par [Hodgkin and Huxley, 1952].
Nous allons maintenant nous concentrer plus précisément sur les règles qui permettent à ces
réseaux d’apprendre par association.
1.2 Conditionnement
L’apprentissage associatif, ou apprentissage par conditionnement est une des techniques
d’apprentissage les plus simples observée chez l’animal. C’est le physiologiste Pavlov qui,
le premier, introduisit la notion de conditionnement classique [Pavlov, 1927] illustré dans sa
fameuse expérience de conditionnement du chien (voir fig. 1.2). Pavlov avait remarqué que la
vue ou l’odeur de la nourriture (stimulus inconditionnel (US)) activait de manière réflexe une
- 26 -CHAPITRE 1. OUTILS DU CYBERNÉTICIEN
FIGURE 1.1 – Comparaison entre neurone biologique et neurone formel. A - Le neurone biologique intègre l’activité
présente sur ses dendrites (entrées). La fréquence (ou potentiel) de décharge de l’axone (sortie) dépend de
cette activité dendritique. Les terminaisons neuronales viennent se connecter aux dendrites d’autres neurones via
des synapses. B - Le fonctionnement du neurone formel est assez similaire : la sortie est fonction de la somme des
entrées par les poids synaptiques. L’utilisation d’une fonction d’activation radiale permet de traiter des problèmes
non-linéaires.
salivation de la part du chien. Pavlov présentait ensuite, de manière répétée, le son d’une cloche
(stimulus conditionnel (CS)) à chaque fois que la nourriture est présentée au chien. Au bout
d’un certain temps, le son de la cloche est associé à la nourriture et active donc la salivation du
chien, et ce même lorsque la nourriture n’est pas présentée. L’apprentissage consiste donc en
l’association d’un stimulus nouveau à un stimulus réflexe (e.g. si une réaction réflexe R survient
suite à la perception d’un stimulus particulier (e.g. une odeur), il est possible d’apprendre à
déclencher cette même réaction R suite à la perception d’un son en faisant systématiquement
précéder l’odeur par le son).
Quelques années plus tard, Thorndike et Skinner ont introduit la notion de conditionnement
instrumental (ou opérant) [Skinner, 1938] qui rend compte de l’aptitude des animaux à apprendre
le lien entre 2 événements et ce quel que soit la nature de ces événements (stimulus externe,
action, etc..). Skinner distingue le conditionnement opérant du conditionnement classique par le
fait que la réponse ne soit pas une réaction réflexe de l’organisme.
L’animal est donc capable d’apprendre une association entre 2 stimuli présentant un lien
apparent. Ce lien apparent amène au concept clé de corrélation. 2 stimuli sont corrélés s’ils
sont liés d’une manière ou d’une autre. Le type le plus simple de liaison est la relation affine.
Dans le cas de deux variables, elle se calcule au travers d’une régression linéaire. La mesure
de la corrélation linéaire entre les deux se fait alors par le calcul du coefficient de corrélation
linéaire. Ce coefficient est égal au rapport de leur covariance et du produit de leurs écarts types.
Le coefficient de corrélation est compris entre -1 (anti-corrélation) et 1 (corrélation maximum).
Attention toutefois à ne pas confondre corrélation et causalité. Deux événements peuvent être
corrélés sans pour autant impliquer un rapport de cause à effet. Par exemple, la probabilité de
mourir n’augmente pas lorsque l’on se trouve dans un lit d’hôpital, mais on y est généralement
pour soigner une maladie, et lorsque l’on est malade la probabilité de mourir est plus grande.
Confondre ces 2 concepts peut amener à des raisonnements biaisés comme en joue l’humoriste
Coluche :
« 1/3 des accidents de la route étant dus à des conducteurs alcooliques, qu’attend-on pour punir
les 2/3 de conducteurs sobres responsables de la majorité des accidents ? »
L’un des algorithmes applicables pour modéliser un conditionnement classique est le principe
de réduction des erreurs quadratiques moyennes (Least Mean Square (LMS)) proposé en 1960
par [Widrow and Hoff, 1960]. Cet algorithme permet un apprentissage supervisé d’un flux d’ac-
- 27 -1.2. CONDITIONNEMENT
FIGURE 1.2 – Conditionnement classique : A - La vue de la nourriture (stimulus inconditionnel) fait saliver le chien
de façon réflexe (poids synaptique = 1). B - Le son d’une cloche (stimulus neutre) n’a au départ aucun effet sur la
salivation (poids synaptique nul). C - Pendant la phase de conditionnement, on présente de façon répétée la nourriture
et le son de cloche simultanément. Le poids synaptique liant la cloche et la salivation se renforce progressivement. D
- Une fois le conditionnement terminé, le son de la cloche activera la salivation même en l’absence de nourriture.
tivité d’entrée. C’est une méthode d’optimisation qui consiste en la modification des poids
synaptiques w jusqu’à trouver l’erreur quadratique moyenne minimale entre l’entrée e et la
sortie désirée Sd.
Dans l’exemple suivant, nous considérons un réseau à 3 neurones. Un neurone code pour le signal
d’entrée Ei
, un autre pour la sortie désirée Sdj et enfin un troisième représente la sortie Sj
du système. Ici il n’y a donc qu’un seul poids synaptique wij , reliant l’entrée Ei à la sortie Sj .
Le système commence à apprendre lorsque qu’il existe une différence de potentiel entre la sortie
réelle S et la sortie désirée Sd. Son unique but est de faire diminuer cette différence en modi-
fiant la valeur du poids wij . L’adaptation du poids wij est d’autant plus forte que la différence
Sdj − Sj est grande. Voici l’équation décrivant cette règle d’apprentissage :
∆wij = λEi
.(Sdj − Sj ) (1.3)
Le paramètre λ permet de contrôler la vitesse d’apprentissage (λ < 1). A chaque itération, l’algorithme
calcule également la nouvelle valeur du poids wij et de la sortie Sj :
- 28 -CHAPITRE 1. OUTILS DU CYBERNÉTICIEN
wij (t + 1) = wij (t) + ∆wij (t) (1.4)
Ces apprentissages par conditionnement ont été largement utilisés dans le cadre de recherches
impliquant des réseaux de neurones artificiels [Grossberg and Morahan, 1971; Grossberg, 1972a;
Rescorla, 1967]. Il existe également d’autres méthodes d’apprentissage associatif comme la rè-
gle de Hebb [Hebb et al., 1949] ou encore la classe des apprentissages par renforcement initiée
par [Klopf and Laboratory, 1972; Klopf, 1975] puis adapté par [Anderson et al., 1983]. L’apprentissage
par renforcement fait référence à une classe de problèmes dont le but est d’apprendre
à partir d’expériences, ce qu’il convient de faire en différentes situations de façon à optimiser
une récompense au fil du temps. On peut par exemple considérer un agent autonome, plongé
au sein d’un environnement, devant prendre des décisions en fonction de son état courant. En
retour, l’environnement procure à l’agent des récompenses, qui peuvent être positives ou négatives.
L’agent cherche un comportement décisionnel optimal appelé stratégie ou politique : une
fonction associant à l’état courant l’action à exécuter. Cette politique est optimale si elle permet
à l’agent de maximiser la somme des récompenses au cours du temps.
Parmi les premiers algorithmes d’apprentissage par renforcement, on compte le TD-learning
(Temporal Difference learning) initié par [Sutton, 1988] et une de ses variantes célèbre : le
Q-learning (Quality learning) proposé par [Watkins and Dayan, 1992]. On pourra se référer à
[Wiering and van Otterlo, 2012] pour un état de l’art sur les différentes méthodes d’apprentissage
par renforcement.
Formellement, la base du modèle d’apprentissage par renforcement consiste en :
1. un ensemble d’états S de l’agent dans l’environnement.
2. un ensemble d’actions A que l’agent peut effectuer.
3. un ensemble de valeurs scalaires "récompenses" R que l’agent peut obtenir.
À chaque pas de temps t, l’agent perçoit son état St et l’ensemble des actions possibles dans
cet état A(st). Il choisit une action qui implique un changement d’état et parfois une récompense.
L’algorithme doit permettre à l’agent de développer une politique Π : S → A qui lui permette
de maximiser le cumul de récompenses R =
P
t
λt
.rt (λt est un facteur compris entre 0 et 1
permettant de prendre en compte les récompenses plus ou moins loin dans le futur pour le choix
des actions de l’agent).
L’apprentissage par renforcement est particulièrement adaptée aux problèmes nécessitant un
compromis entre la quête de récompenses à court terme et celle de récompenses à long terme.
Nous allons nous intéresser maintenant aux mécanismes génériques de compétition qui
seront utilisés tout au long de ces travaux.
1.3 Compétition
Les mécanismes de compétition sont un type de réseaux dont la topologie caractéristique (la
façon dont les neurones sont connectés à leur voisins) permet à chaque neurone de se mesurer
aux autres pour le partage de l’activité neuronale. La compétition est le résultat d’une dynamique
d’inhibition réalisée par le biais de connections latérales inhibitrices. Ces processus naturels
de compétition permettent une prise de décision, à l’instar d’un système de vote. Prendre des
décisions s’avère bien souvent être une caractéristique indispensable pour assurer la survie de
l’animal.
- 29 -1.3. COMPÉTITION
1.3.1 Winner Takes All
L’idée de base du Winner Takes All (WTA) provient des modèles connexionistes [Grossberg,
1976, 1988; Kohonen, 1984; Feldman and Ballard, 1982]. Ils permettent de simuler les mécanismes
de compétition existant au sein d’une population de neurones. Des liaisons inhibitrices
latérales permettent de simuler le processus de compétition. Après convergence, seul le neurone
ayant la plus grande activité reste actif et inhibe tous les autres [Rumelhart and Zipser, 1986;
Lippmann, 1987; Carpenter and Grossberg, 1988; Lee et al., 1999].
Considérons deux neurones i et j possédant chacun une seule entrée et une seule sortie (voir fig.
1.3). Une excitation en entrée activera le neurone concerné qui déchargera à son tour (potentiel
d’activité sur sa sortie). Supposons que les 2 neurones soit connecté entre eux par des connections
inhibitrices, de telle sorte que lorsque i est activé, il tende à inhiber j, et réciproquement.
Une liaison inhibitrice sera représentée par un poids synaptique négatif. Supposons maintenant
FIGURE 1.3 – Principe d’un mécanisme de compétition. A - Réseau minimaliste de compétition entre 2 neurones i
et j. Chaque neurone possède une seule entrée et une seule sortie. Chaque neurone est relié à l’autre par une connexion
inhibitrice (-1). Au temps t1, i et j reçoivent une excitation très similaire (respectivement 0.6 et 0.5). Au fil du temps,
le neurone le plus actif prend le dessus sur l’autre (t2, t3 puis t4). A régime permanent (t4), le réseau est parvenu à
prendre une décision. B - Un réseau de compétition comportant plus de neurones fonctionne selon le même principe :
chaque neurone tente d’inhiber les autres via des connections inhibitrices. Pour une prise de décision plus rapide, les
neurones peuvent s’auto-exciter via une connexion récurrente.
que les 2 neurones soient excités par une activité très similaire (e.g. 0.5 et 0.6), alors au fil du
temps le réseau s’éloignera de cet état instable. L’unité la plus active au départ tendra vers une
activité maximum et la moins active vers une activité minimum. Ce principe peut se généraliser
à un plus grand nombre d’unités. Il suffit que chaque neurone inhibe l’ensemble des autres neu-
- 30 -CHAPITRE 1. OUTILS DU CYBERNÉTICIEN
rones par des connections latérales négatives/inhibitrices. En plus des connections inhibitrices,
chaque neurone peut également s’auto-exciter par le biais d’un lien récurrent, ce qui accélére le
processus de déséquilibre.
La variation du potentiel d’action d’un neurone xi du groupe est définie par :
dxi
dt = αxi − β
X
K
k6=i
xk + Ii (1.5)
Avec K le nombre de neurones du groupe, Ii
l’activité entrante du neurone i, α ∈ 0, 1 le poids
du lien récurrent autoexcitateur du neurone i et β ∈ 0, 1 le poids des liens inhibiteurs provenant
des autres neurones du groupe.
Un réseau possédant ce type de topologie inhibitrice assure qu’un seul et unique neurone possède
tout le potentiel d’activité lorsque le réseau à atteint un régime permanent.
Ce mécanisme très simple permet de faire émerger une fonction de prise de décision en utilisant
un nombre minimum de règles rudimentaires impliquant un équilibre instable, sans besoin de
prescrire une procédure complète.
Le fait de jouer sur la fonction d’activation des neurones permet d’obtenir une compétition plus
ou moins stricte. Plusieurs gagnants peuvent ainsi être conservés ("Soft WTA" ou "k-WTA")
[Maass, 2000].
1.4 Classification
Pour reconnaître, apprendre et agir dans un environnement aussi complexe que celui que
nous connaissons, un des aspects nécessaires est de recourir à des méthodes de classification.
Ces méthodes permettent de capturer les caractéristiques importantes des signaux sensoriels
pour en former des abstractions, c’est à dire des informations de plus haut niveau permettant à
l’animal de généraliser.
La classification est un domaine vaste qui propose des méthodes pour réaliser un partitionnement
de données (data clustering). Elle permet de diviser un ensemble de données en différents ensembles
homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques
communes, qui correspondent le plus souvent à des critères de proximité que l’on
définit en introduisant des mesures de distances ou de similarités entre objets. La classification
peut être supervisée ou non. Ici nous nous limiterons au cas non-supervisé.
L’algorithme des k-moyennes (k-means) [MacQueen, 1967] est l’une des méthodes d’apprentissage
non-supervisé les plus simples qui illustre bien la façon dont il est possible de classifier
des données. Cette méthode propose de catégoriser un ensemble de données au sein d’un certain
nombre de classes (clusters), dont le nombre est fixé à priori. L’idée maîtresse est de définir k
centroïdes, un par classe. Ces centroïdes sont placés aléatoirement dans l’espace des données
tout en s’assurant qu’ils soient autant que possible loin les uns des autres (voir fig. 1.4). Chacune
des données est associée au centroïde le plus proche. A chaque itération, la position de
chaque centroïde est mise à jour en calculant le barycentre des données qui lui sont associées.
L’opération est répétée jusqu’a atteindre un état de convergence à partir duquel les positions des
centroïdes se sont stabilisées. Le but de l’algorithme est de minimiser la fonction de l’erreur
quadratique J.
- 31 -1.4. CLASSIFICATION
FIGURE 1.4 – Classification par la méthode des k-moyennes (k-means) : illustration du principe pour 5 classes
(k=5). A - A l’initialisation, k=5 classes (points noirs) sont réparties de manière aléatoire dans l’espace des données
(points colorés). 5 catégories (zones colorés) sont créées en associant chaque donnée à la classe la plus proche. Les
partitions représentent un diagramme de Voronoï [Voronoi, 1908]. B, C - A chaque itération, le centroïde de chaque
catégorie devient la nouvelle moyenne de la classe. Cette opération est répétée jusqu’a atteindre convergence. D -
Après convergence, les moyennes de chaque classe ne sont plus modifiées. Le système à atteint une catégorisation
optimale des données.
J =
X
k
j=1
Xn
i=1
||x
(j)
i − cj ||2
(1.6)
Où ||x
(j)
i − cj ||2
est une mesure de distance entre une donnée x
(j)
i
et le centroïde cj . Le
résultat est un partitionnement de l’espace des données en cellule de Voronoï [Voronoi, 1908].
Cet algorithme réalise la discrétisation de l’espace d’entrée en ne modifiant à chaque cycle
d’adaptation qu’un seul vecteur référent. Le processus d’apprentissage est donc très long. L’algorithme
de [Kohonen, 1984] propose une amélioration de la méthode des k-moyennes en tirant
profit des relations de voisinage pour réaliser une discrétisation dans un temps beaucoup plus
court.
Dans nos travaux, certains groupes de neurones seront utilisés en tant que groupe de caté-
gorisation, au sein desquels chaque neurone peut représenter une catégorie. Au départ, les poids
synaptiques sont initialisés avec des valeurs aléatoires permettant l’émergence d’un neurone
gagnant, élu représentant de la première catégorie codant pour l’entrée perçue. Un paramètre de
vigilance permet de définir la granularité des catégories. Lorsque l’entrée change, le groupe peut
être amené à recruter un nouveau neurone (nouvelle catégorie) si l’activité du neurone gagnant
devient inférieure à un paramètre de "vigilance". La modulation du seuil de vigilance par un signal
de neuromodulation permettra de modifier, à la volée, la granulatité des catégories apprises.
Une vigilance faible impliquera une granularité grossière, et réciproquement. L’apprentissage
est là aussi réalisé au sein des poids, dont la modification au fil du temps est définie par :
∆wij = δ
k
j
(aj (t).Ei) (1.7)
avec k l’indice du neurone le plus actif (k = ArgM ax(Cj )), δ
k
j
la fonction de Kronecker 1
1. Le symbole de Kronecker est une fonction à deux variables égale à 1 si celles-ci sont égales, et 0 sinon.
δ
k
i =
1 si i = k
0 sinon. (1.8)
- 32 -CHAPITRE 1. OUTILS DU CYBERNÉTICIEN
utilisée pour ne modifier les poids des liens que vers la catégorie gagnante. aj (t) est une fonction
qui vaut 1 lorsque le neurone j est recruté et 0 sinon. Afin d’éviter un désapprentissage, le
neurone est recruté aléatoirement mais seulement s’il ne code pas déjà pour une catégorie. Au
moment du recrutement, on suppose qu’un mécanisme de compétition permet de mettre à 1 son
activité (et les autres à 0), ce qui permet de ne modifier ensuite que les poids synaptiques des
liens entre la couche d’entrée et le neurone recruté. Les poids des liens entrant du neurone recruté
sont modifiés pour correspondre au motif présent en entrée (voir fig. 1.5). Intuitivement, la forme
d’entrée est imprimée (copiée) dans les poids, ce qui permet au neurone recruté de "se souvenir"
de cette forme ultérieurement. L’activité de ce neurone est ensuite directement dépendante de
la nouvelle entrée qu’il perçoit. Si la forme perçue (en entrée) est identique à la forme apprise
précédemment (dans les poids), alors l’activité du neurone est maximale (Ck = 1) : le neurone
reconnaît la forme. Au contraire, si la forme perçue est complètement différente de celle apprise,
l’activité du neurone est minimale (Cj = 0) : le neurone ne reconnaît en rien cette nouvelle
forme.
A chaque itération, l’activité Cj du neurone j d’un groupe de catégorisation est définie par :
Cj = 1 −
1
N
X
N
i=1
|wij − Ei
| (1.9)
avec N le nombre de neurones du groupe, Ei
l’entrée et wij le poids synaptique du lien entre Ei
et Cj .
1.4.1 Champs de neurones dynamiques
S’inspirant des mêmes principes, beaucoup de recherches se sont consacrées à l’étude d’une
population de neurones (champ de neurones) plutôt qu’à celle du neurone particulier. Le nombre
de neurones présents dans ne serait-ce qu’une petite portion du cortex est immense. Partant
de ce constat, une nouvelle approche est apparue pour étudier des réseaux de neurones au sein
desquels l’espace est considéré comme continu. La topologie est telle que des neurones voisins
partagent des caractéristiques et activités semblables et donc que l’espace neuronal possède une
certaine continuité. Cette notion de continuité peut être approximée par un codage en population,
par opposition au concept de neurone grand mère. Le neurone grand mère est un concept
populaire qui consiste à considérer chaque neurone comme susceptible d’encoder une idée abstraite
à lui tout seul. Selon ce principe, il existerait un neurone précis dans notre cerveau qui
s’active uniquement lorsque nous pensons à notre grand mère. De la même manière, un autre
neurone s’activerait lorsque l’on pense a un objet particulier ou un concept donné. Au vue du
caractère extrêmement distribué et redondant du cerveau, cette théorie est en fait peu plausible
même si elle présente l’intérêt certain d’être intuitive et accessible.
Le codage en population est, quant à lui, un moyen de coder l’information de manière distribuée
justement, au sein d’un groupe de neurones. Dans un tel codage, chaque neurone possède une
portion de l’information, mais l’information complète est uniquement accessible lorsque l’on
considère la réponse combinée d’un grand nombre de ces neurones. Un avantage de ce type
de codage pour la survie d’un animal est son caractère extrêmement redondant. Le réseau peut
alors se permettre la perte de quelques neurones sans que cela n’influe de manière dramatique
sur l’information globale traitée. Dans les chapitres suivants, nous utiliserons l’une ou l’autre de
- 33 -1.4. CLASSIFICATION
FIGURE 1.5 – Principe d’apprentissage et reconnaissance de formes. A - Suite à un signal de neuromodulation, un
neurone est choisi pour coder une nouvelle catégorie. La forme présente en entrée (la lettre A) est apprise en étant
mémorisée dans les poids synaptiques des liens entre la couche d’entrée et le neurone recruté. B - Un nouveau motif
est présent en entrée (la lettre C). De la même façon, la catégorie est apprise par un nouveau neurone dont les poids se
modifient. C - Après apprentissage, chaque neurone de sortie tente de reconnaître sa catégorie dans le nouveau motif
présent en entrée. Ici, le motif présenté est une version dégradée de la lettre A. Le neurone codant pour la catégorie A
est donc plus fortement activé que celui codant pour C.
ces représentations en fonction du problème à traiter.
A priori, la première tentative pour développer une théorie du continuum dans un champ neuronal
peut être attribuée à Beurle en 1956 [Beurle, 1956] qui observe des bulles d’activité dans
un tissu cérébrale. La théorie est reprise plus tard par Griffith [Griffith, 1963], puis par Wilson
et Cowan [Wilson and Cowan, 1973] qui ajoutent les concepts d’inhibitions et excitations du
voisinage ainsi que la notion de récurrence. Finalement, le modèle le plus utilisé actuellement
nous vient d’Amari [Amari, 1977] qui proposa sa théorie des champs de neurones dynamiques
quelques années plus tard. Selon cette théorie, les excitations sont locales tandis que les inhibitions
ne sont que distales. Le noyau d’interaction est un laplacien de gaussienne dont la forme
particulière rappelle celle d’un Chapeau Mexicain.
Le modèle d’Amari
L’intérêt du modèle d’Amari est qu’il possède quelques propriétés intéressantes de filtrage,
de stabilité ainsi qu’un compromis entre compétition et coopération, là ou un réseau de type
WTA reste sensible et seulement compétitif.
Considérons un champ de neurones (une population de neurones liés de proche en proche, formant
une carte de dimension x). Chaque neurone est connecté à ses voisins suivant une rè-
gle définie par le noyau d’interaction. Ce noyau est ici construit à l’aide d’une différence de
- 34 -CHAPITRE 1. OUTILS DU CYBERNÉTICIEN
gaussiennes (DoG), ce qui lui confère cet aspect reconnaissable de chapeau mexicain. Le centre
du noyau est excitateur, tandis que les bords sont inhibiteurs (voir fig. 1.6).
La dynamique du champ est modélisée par l’équation suivante :
FIGURE 1.6 – Principe du codage en population. 1 : Le noyau d’interaction est obtenu à partir d’une différence de
gaussiennes (DoG) centre-ON, donnant un profil en chapeau mexicain excitateur (+) en son centre et inhibiteur (-)
sur ses bords. 2 : Champ de neurones avec interactions latérales correspondantes. Chaque neurone excite ses voisins
proches et inhibe le voisinage lointain. L’information n’est pas encodée dans un unique neurone, mais est distribuée
au sein d’une population, formant ainsi une bulle d’activité.
τ.
u(x, t)
dt = −u(x, t) + I(x, t) + h +
Z
zǫVx
w(z).f(x − z, t)dz (1.10)
Où u(x, t) représente l’activité d’un neurone x au temps t. I(x, t) est l’entrée du système. h est
une constante négative qui assure la stabilité du réseau. τ est le taux de relaxation du système.
w est le noyau d’interaction utilisé pour l’activation du champ. Vx est l’intervalle d’interaction
qui définit le voisinage. Cette équation confère à l’ensemble de la population des propriétés
d’attracteurs qui correspondent à des maxima locaux du champ d’activité. Le réseau réalise
également un compromis entre compétition et coopération qui nous sera utile par la suite. Par
exemple, imaginons que 2 bulles d’activité soient présentes en entrée (voir fig. 1.7). Si les 2
bulles sont suffisamment éloignées, la dynamique du champ tendra à en sélectionner une seule
(mode compétition). Par contre, si les 2 entrées sont suffisamment proches (dépendant de la
largeur du noyau), le champ convergera vers une seule et unique bulle en sortie. Cette bulle
résulte de la moyenne des 2 entrées (mode coopération), et son amplitude est supérieure à celle
des entrées (se référer à [Schöner et al., 1995] pour une démonstration mathématique).
La forme du noyau d’interaction est importante et doit être paramétrée en fonction de la tâche
désirée. La largeur de la bulle d’excitation (partie positive du noyau) peut être modulée par
exemple. Notons qu’un réseau de type "Winner Takes All" est un cas particulier de champ de
neurones pour lequel la bulle d’excitation du noyau est réduite au minimum (1 seul neurone).
Le réseau comprend également des liens récurrents (un pour chaque neurone), qui ne sont pas
illustrés sur les figures. Cette récurrence permet un lissage temporel et donc un filtrage efficace
contre le bruit ou les oscillations présentes en entrée. Par exemple, si une entrée apparaît de
manière épisodique suite au disfonctionnement d’un capteur, la dynamique temporelle du réseau
ne lui laissera pas le temps de s’imposer. Il est nécessaire qu’une entrée reste stable et immobile
- 35 -1.4. CLASSIFICATION
pendant un certain temps pour être considérée comme digne de confiance et ainsi faire émerger
une bulle d’activité en sortie.
FIGURE 1.7 – Compromis sélection/coopération. A - 2 entrées distantes à t0 tentent de s’inhiber l’une l’autre
puisque les bords du noyau d’interaction sont inhibiteurs. Le réseau converge vers une unique bulle d’activité à t1.
Le champ se comporte alors comme un réseau de compétition (WTA). B - 2 entrées proches viennent à fusionner
grâce au centre excitateur du noyau d’interaction. La bulle résultante est une moyenne des bulles d’entrée.
Le contrôle moteur dynamique de Schöner
Les champs de neurones d’Amari ont été utilisés pour résoudre le problème du contrôle moteur,
notamment grâce à la théorie des champs dynamiques (Dynamic Neural Fields - DNF) de
[Schöner et al., 1995]. En conservant les propriétés intéressantes des champs de neurones citées
plus haut, Schöner propose un moyen d’utiliser la continuité des bulles d’activités comme un
gradient que le système peut remonter, en considérant comme sortie motrice la dérivée locale
du champ d’activité. Nous utiliserons cette théorie comme référence pour le contrôle moteur de
nos robots dans la suite de ces travaux, c’est pourquoi il convient d’entrer plus en détails dans la
manière dont nous faisons usage de celle-ci.
Prenons l’exemple d’un robot, à la morphologie minimaliste, constitué d’un corps circulaire et
de 2 roues motrices centrées de part et d’autre de ce corps. Les rotations sur place sont donc
possibles. Le robot est muni de capteurs divers (caméra(s), détecteurs ultra-son, capteurs infrarouge,
etc...) lui permettant de percevoir l’environnement tout autour de lui.
Nous nous intéressons à la manière idéale de représenter les informations provenant de ses capteurs
dans le but de réaliser une tâche de navigation. On partira de l’a priori que le robot est
non-holonome, naviguant dans un espace à 2 dimensions seulement (translation avant-arrière,
rotation gauche-droite). La troisième dimension spatiale sera négligée. Le comportement de
notre robot est donc soumis à 2 variables, qui sont la vitesse linéaire et la vitesse de rotation.
La vitesse linéaire pourra être constante (dans le cas le plus simple), ou bien modulée par la
proximité des obstacles alentours (plus l’obstacle est proche, plus le robot ralentit).
La vitesse de rotation devra être modulée par les motivations du robot. Par motivations nous
entendrons les objectifs internes du robot permettant de contrôler son comportement (drives).
Ceux-ci pourront être, par exemple, un cap à suivre pour rejoindre un but ou bien un obstacle à
éviter. L’utilisation de champs de neurones monodimensionnels semble tout indiquée pour encoder
les différentes motivations dans l’espace pericorporel du robot (voir fig.1.8).
Par soucis de simplicité, considérons un champ de 360 neurones encodant les motivations à va-
- 36 -CHAPITRE 1. OUTILS DU CYBERNÉTICIEN
FIGURE 1.8 – Contrôle moteur utilisant les principes des champs de neurones dynamiques. A - L’espace pericorporel
du robot est représenté par un champ d’attraction (1) et un champ de répulsion (2). Chaque neurone code
pour un angle particulier. La soustraction des 2 donne un champ Φ (3) contenant les valences motivationnelles de
l’agent (attraction pour les bulles positives, répulsion pour les négatives). Une dérivée du champ (4) forme des points
attracteurs et répulseurs. Une activité positive entraîne une rotation à droite tandis qu’une négative entraîne une rotation
à gauche. L’agent converge naturellement vers les attracteurs et diverge des répulseurs. Une lecture de valeur
analogique (5) permet de transformer le champ 4 en ordres moteurs. B - Vue de haut schématique du robot dans son
environnement. Chaque neurone du champ pericorporel code pour un angle particulier. Un but est perçu comme une
bulle positive (rouge) et un obstacle par une bulle négative (bleue).
lence positive (une source de nourriture, un chemin à suivre, une personne avec qui l’agent veut
interagir, etc...). Chacun des neurones de ce champ est le représentant d’une portion angulaire
de 1° autour du robot, de sorte que l’ensemble du champ couvre un panorama à 360 degrés. Une
bulle d’activité dans ce champ représente donc le cap à suivre vers un but, cap que le robot doit
essayer de maintenir.
De la même façon, un second champ similaire (360 neurones) représente les motivations à valence
négative (un obstacle, un danger, une zone interdite, etc...). Une bulle dans ce champ
représente un cap que le robot devra éviter.
Par la soustraction de ces 2 champs, nous obtenons un 3ème champ (que l’on nommera Φ). Ce
champ résume l’ensemble des motivations de l’agent, appétitives et aversives. Les activités de Φ
peuvent être positives (appétitives) comme négatives (aversives). Une simple dérivée du champ
Φ est réalisée au sein d’un 4ème champ. Elle permet de convertir ces potentiels de motivation en
potentiels de rotation, exploitable par le robot pour produire des mouvements. Une valeur négative
déclenchera une rotation à gauche tandis qu’une valeur positive déclenchera une rotation
à droite. La vitesse de rotation est directement proportionnelle à l’amplitude de la motivation.
- 37 -1.5. DISCUSSION
Ainsi la dérivée d’une bulle positive donne un point attracteur (en terme de rotation), et celle
d’une bulle négative donne un répulseur (voir [Cuperlier et al., 2006] pour plus de détails). La
dérivée de Φ est définie telle que :
dΦ
dt = fatt(Φ) + frep(Φ) (1.11)
Force attractive : fatt(Φ) = −λatt.sin(Φ − Φatt) (1.12)
Force répulsive : frep(Φ) = λrep.sin(Φ − Φrep) (1.13)
avec fatt(Φ) (respectivement frep(Φ)) la force de rotation correspondant à une motivation
appétitive (respectivement une motivation aversive). Et λatt (respectivement λrep) un coeffi-
cient d’amplitude associé à l’appétit (respectivement l’aversion). On notera que l’éventualité
d’un équilibre parfait n’est pas impossible. Si l’on imagine un obstacle séparant le robot de son
but dans un alignement parfait, alors les 2 bulles d’attraction et de répulsion s’annihileraient
mutuellement. En pratique, ce cas est peu probable dans un monde réel en raison du bruit résultant
de l’imperfection des capteurs et effecteurs (point d’équilibre instable).
L’intérêt d’adopter un codage par champ de neurones dynamique est triple. Il permet de
bénéficier des propriétés de filtrage et du compromis compétition/coopération. Le contrôle moteur
devient très intuitif et correspond à la dérivée du champ à la position considérée. Enfin, le
DNF prodigue une base au sein de laquelle peuvent être fusionnées les actions de stratégies de
natures très différentes, pourvu que ces actions adoptent le même codage et le même référentiel.
Nous utiliserons par la suite un champ de neurone dynamique de façon similaire pour représenter
l’espace pericorporel du robot et ainsi fusionner de manière efficace les orientations proposées
par différentes stratégies.
Malgré toutes leurs qualités indéniables, les champs de neurones dynamiques possèdent un inconvénient
de taille. Ils possèdent un nombre important de paramètres qui doivent être adaptés
pour chaque nouveau problème.
En d’autres termes, les champs de neurones dynamiques sont difficiles à paramétrer et peu enclins
à s’adapter au changement, mais ils permettent toutefois d’obtenir une solution efficace
pour la fusion/sélection de stratégie, tout en proposant un cadre directement adapté au contrôle
moteur.
1.5 Discussion
Les outils et notions présentés dans ce chapitre ont été abordé(e)s de manière volontairement
didactique pour rendre la lecture de cette thèse accessible au lecteur non-initié. Nous
avons abordé brièvement le fonctionnement du neurone formel, lequel sera l’unité de calcul
élémentaire de ses travaux. Nous avons pu voir que de telles unités sont capables d’apprendre
un stimulus d’entrée par la modification de leurs poids synaptiques. Même si le fonctionnement
physique reste le même, nous avons réalisé une distinction sémantique entre apprentissage par
association et apprentissage par catégorisation. Ainsi, nous parlerons de groupe de catégorisation
pour désigner une population de neurones entraînés à reconnaître des formes à partir de
stimuli présents sur leurs entrées. Nous parlerons également de conditionnement pour désigner
- 38 -CHAPITRE 1. OUTILS DU CYBERNÉTICIEN
un apprentissage de type conditionnement pavlovien.
Au delà de la notion d’apprentissage, nous avons pu voir le fonctionnement d’un codage en
population et son intérêt pour les processus de coopération et compétition dynamiques. Nous
exploiterons un tel codage au sein de champs de neurones dynamiques.
Enfin nous avons présenté les 2 plate-formes robotiques mobiles avec lesquels nous réaliserons
les différentes expériences. La plate-forme d’intérieur sera la plus utilisée.
Tout ces outils seront utilisés abondamment dans ces travaux et constituent donc une base nécessaire
à la compréhension de l’ensemble des chapitres qui vont suivre.
Dans le chapitre suivant, nous tenterons de situer notre approche dans la littérature existante sur
les modèles de navigation robotiques.
- 39 -The ability to navigate in a complex environment is one of the most challenging
skills for every animal on this planet. It is crucial for survival, and is even seen as
the evolutionary pressure to develop brains. The reason why plants do not have a
brain is that they do not have to move.
– Wolpert - Love is a many-moleculed thing.
CHAPITRE 2
Modèles de navigation en robotique
De manière générale, on regroupe sous l’appellation robots mobiles l’ensemble des robots
à base mobile, par opposition aux robots manipulateurs. En pratique, le terme robot mobile
désigne principalement les robots munies de roues. Ceux n’utilisant pas de roue sont généralement
désignés par leur type de locomotion (marcheurs, rampants, aériens ou sous-marins).
Historiquement, les robots mobiles autonomes à roues ont été étudiés dés le début des années
50 [Walter, 1953]. Leur faible complexité en fait de bons sujets pour l’étude des systèmes autonomes.
Cependant, malgré leur simplicité apparente (mécanisme plan, actionneurs linéaires),
ces plate-formes ont soulevé un grand nombre de problèmes difficiles, dont la plupart ne sont
toujours pas résolus. Ainsi, alors que les robots manipulateurs se sont aujourd’hui généralisés
dans l’industrie, rares sont les applications industrielles qui utilisent des robots pour résoudre
des tâches de navigation en totale autonomie. On a vu apparaître, au début des années 2000,
quelques plate-formes mobiles autonomes dans l’industrie (chariot guidés) et destinées au grand
public (aspirateurs autonomes), mais l’industrialisation de systèmes plus complexes dotés de capacités
d’apprentissage bute sur certains problèmes délicats. Contrairement aux robots manipulateurs
dont l’espace de travail est restreint et dont les tâches restent connues et répétitives, les
robots mobiles sont souvent destinés à évoluer de manière autonome dans des environnements
dynamiques, inconnus et peu ou pas structurés (les contrastes et la luminosité peuvent varier
fortement, certains objets sont mobiles et enfin la géométrie du monde physique n’est pas connue
à priori et peut être complexe).
Savoir se localiser et se déplacer de façon cohérente au sein d’un environnement à priori totalement
inconnu fait partie des compétences essentielles pour parvenir à naviguer de manière
autonome. Selon le point de vue "classique" en robotique, le principal défi provient du fait qu’il
soit complexe de construire un modèle interne du monde suffisamment précis pour permettre
au système d’opérer en temps réel de façon cohérente. L’un des problèmes majeurs bien connu
des roboticiens sous le nom de SLAM (Simultaneous Localization and Mapping) [Smith et al.,
1987; Leonard and Durrant-Whyte, 1991] est qu’il semble nécessaire de posséder une carte de
l’environnement afin de pouvoir se localiser alors même que cette carte doit être construite au fur
et à mesure des déplacements. Sans carte, pas d’estimation de position possible. Sans estimation
de position, pas de construction de carte possible. Le paradoxe est similaire à celui de l’oeuf et
de la poule. Nous aurons l’occasion de voir que la construction d’une carte n’est pas l’unique
solution, ni la meilleure, pour résoudre une grande part des problèmes de navigation autonome.
412.1. NAVIGATION NAUTIQUE
Dans ce chapitre nous aurons l’occasion d’appréhender un état de l’art non-exhaustif des
stratégies de navigation existantes. Les premières solutions envisagées pour résoudre ce problème
de manière générale nous viennent de la navigation maritime. Nous ferons donc un bref
parallèle avec ces méthodes historiques et nous noterons que la plupart d’entre elles restent valables
et très utilisées en robotique mobile encore de nos jours. Nous passerons ensuite en revue
les méthodes de navigation dites "classiques" et leur limitation face à des environnements inconnus
et dont les contraintes ne sont pas maîtrisées. Nous verrons comment les animaux sont
parvenus à proposer des solutions simples et robustes en abordant le problème sous un autre angle.
Le maintien d’invariants sensorimoteurs et la navigation topologique sont des méthodes qui
permettent de s’affranchir de manière élégante de problèmes qui semblent difficiles à résoudre
vus sous le prisme des méthodes classiques. Nous nous attarderons finalement sur les modèles
computationnels existants de la navigation animale. Notre démarche fait partie intégrante de
cette approche bio-inspirée de la navigation.
2.1 Navigation nautique
Au 15ème siècle, la carte du monde est encore en grande partie muette 1
. Les navigateurs
se lancent souvent dans l’inconnu tout en souhaitant à la fois reporter d’éventuelles découvertes
sur une carte mais également parvenir à revenir à bon port en fin de voyage. Pour cela, ils devaient
estimer leur position au cours de l’excursion. A l’époque, la navigation astronomique est
encore peu fiable par manque d’instruments précis (une erreur de mesure de seulement 1 degré
induit une différence de position d’environ 100km en Europe). Les navigateurs ont alors eut à
résoudre un problème de localisation et de cartographie simultanée, problème encore d’actualité
en robotique aujourd’hui (SLAM).
Selon Gallistel, la navigation est un processus par lequel on détermine et maintien une trajectoire
vers un but [Gallistel and Gelman, 1990]. Selon Levitt et Lawton [Levitt and Lawton, 1990], ce
processus se décompose en 3 étapes, ou plutôt 3 questions auxquelles répondre : "Où suis-je ?",
"Où se situent les autres lieux vis à vis de moi ?" et "Comment faire pour me rendre dans tel lieu
à partir de ma position ?".
2.1.1 Navigation côtière
Dans le cas le plus simple, le vaisseau navigue en bordure de côte, ce qui lui permet de se
localiser assez précisément grâce aux indices visuels environnants (voir fig. 2.1 - B). La base de
la navigation "observée" est le point par triangulation ou trilatération. Les marins utilisent les
points remarquables invariants de l’environnement pour pouvoir trianguler leur position, après
quoi ils peuvent estimer le cap à suivre vers un but à l’aide d’une carte de cet environnement. Ces
points invariants sont nommés des "amers" et l’angle sous lequel ils sont perçus correspond à
leur "azimut". La méthode d’estimation par triangulation [Haasbroek, 1968] consiste à mesurer
les azimuts de 3 amers. On reporte ensuite l’azimut depuis chacune des positions des amers correspondants.
L’intersection des 3 droites obtenues définie un triangle, plus ou moins grand en
fonction de la précision des relevés. La position du navire est estimée à l’intérieur de ce triangle.
La trilatération est une méthode similaire pour laquelle la position est estimée en fonction de
la distance aux amers en lieu et place de leur azimut. Dans la cadre de la navigation visuelle
1. http ://expositions.bnf.fr/lamer/bornes/feuilletoirs/conquete/32.htm
- 42 -CHAPITRE 2. MODÈLES DE NAVIGATION EN ROBOTIQUE
monoculaire, on préférera souvent une mesure par triangulation, puisque la mesure de l’azimut
est alors plus précise qu’une estimation de distance aux amers (qui ne peut s’estimer visuellement
que par la hauteur apparente des amers lorsque les distances sont importantes).
FIGURE 2.1 – Principe de la navigation maritime. A - Sans repère visuel, la navigation est réalisée à l’estime. La
vitesse et le cap permettent d’estimer sa position, mais cette estimation est soumise au cumul d’erreurs. A chaque
nouvelle mesure, les incertitudes s’accumulent, ce qui limite ce type de navigation à des trajets cours. B - La richesse
des amers visuels aux abords d’une côte permet une localisation précise par triangulation. La mesure de l’azimut
(l’angle) perçu de 3 amers permet de déterminer un triangle virtuel au sein duquel se trouve la position réelle. C -
Au large des côtes, les seuls amers disponibles sont les astres. La connaissance de la position terrestre pour laquelle
un astre donné est au zénith permet de se localiser : le relevé de son azimut permet de définir un cercle de positions
possibles. La mesure de l’azimut de 3 astres permet de déterminer la position exacte par triangulation (à l’intersection
des 3 cercles).
2.1.2 Navigation à l’estime
Lorsque les explorateurs quittèrent la côte pour s’aventurer en pleine mer, la méthode de localisation
par triangulation d’amers devenait impossible par manque d’indices visuels. Ils avaient
alors recours à la méthode de navigation à l’estime (voir fig. 2.1 - A). Celle-ci consiste à déduire
la position du navire à partir de son cap et de la distance parcourue depuis sa dernière position
connue. Le trajet est donc estimé par l’intégrale des vecteurs de mouvements élémentaires au
cours du temps. Ces vecteurs sont déduits, à chaque point de mesure, par la vitesse et le cap du
navire. Le problème inhérent à ce type de méthode récursive est son cumul d’erreurs progressif.
Même si la méthode est très précise localement (sur de petites distances), elle intègre les petites
erreurs de mesure et devient vite problématique. En effet, en plus d’une dérive propre au bateau
et aux courants marins, chaque nouvelle estimation de position introduit une erreur de mesure
du cap due à la précision angulaire ainsi qu’une erreur de mesure de la vitesse. Ces limitations
rendaient la méthode inefficace lors de voyages sur de longues distances. L’amélioration de la
- 43 -2.2. NAVIGATION EN ROBOTIQUE CLASSIQUE
précision des instruments de mesure à permis de ralentir ce cumul d’erreur mais sans repères
externes fixes l’utilisation de la navigation à l’estime restait limitée.
2.1.3 Navigation astronomique
Pour parvenir à se localiser en pleine mer sans accumulation d’erreur, les explorateurs ont
dû prendre en compte les seules informations visuelles disponibles loin des côtes : les étoiles
(voir fig. 2.1 - C). Avec l’invention d’outils de mesure beaucoup plus précis, la navigation
astronomique est devenue exploitable (deuxième moitié du 19ème siècle). Celle-ci consiste à
déterminer sa position à l’aide de l’observation des astres et la mesure de leur azimut (c’est-à-
dire l’angle entre l’astre et l’horizon) [Jean, 1990]. La connaissance de la position terrestre pour
laquelle un astre donné est au zénith permet de se localiser : le relevé de son azimut permet de
définir un cercle représentant l’ensemble des positions terrestres pour lesquels l’astre en question
est perçu sous cet azimut. La mesure de l’azimut de 3 astres distincts permet de déterminer
la position exacte par triangulation. L’intersection des 3 cercles se trouve être la seule position
garantissant les 3 observations. Cette méthode est appelée méthode par interception 2
.
Finalement la méthode de navigation la plus fiable consiste à cumuler navigation à l’estime
et navigation observée. La navigation à l’estime fournie une localisation plus précise mais est
soumise au cumul d’erreurs sur de longue distance. La position devait donc subir une recalibration
périodique par le biais d’une estimation de position sur la base d’indices astronomiques afin
de limiter cette dérive. Nous allons voir que ces principes sont toujours utilisées en robotique
mobile aujourd’hui.
2.2 Navigation en robotique classique
Selon le point de vue de l’approche classique de la navigation robotique, la construction
d’une carte précise de l’environnement est nécessaire pour qu’un agent parvienne à planifier ses
actions et puisse naviguer de manière autonome dans cet environnement. Selon Newman, cette
capacité est considérée comme primordiale pour la durée de vie d’agents mobiles autonomes
[Leonard and Newman, 2003] La cartographie d’un environnement inconnu est généralement
considérée comme l’un des problèmes les plus importants pour atteindre une réelle autonomie
en robotique mobile [Thrun, 2002b; Leonard and Newman, 2003].
Les premiers modèles internes de l’environnement ont été proposé par [Nilsson, 1984] puis
[Moravec and Elfes, 1985] dans les années 80. Le modèle est basé sur une grille représentant
l’espace libre et occupé par les obstacles (occupancy grid). Une méthode alternative basée sur
une représentation métrique à ensuite été proposée par Chatila et Laumond [Chatila and Laumond,
1985]. D’autres approches proposent une cartographie topologique (décrivant les connections
entre lieux) [Kuipers and Byun, 1991; Mataric, 1992]. A partir des années 90, le domaine
est dominé par l’approche probabiliste, dont les travaux de Smith, Self, et Cheeseman [Smith
et al., 1987] introduisent un câdre statistique pour répondre au problème du SLAM (c’est à
dire, parvenir à cartographier l’environnement tout en s’y localisant dans le même temps). Ces
approches probabilistes sont principalement représentées par 2 grandes familles : l’une d’elle
utilise la méthode du filtrage de Kalman [Kalman, 1960], tandis que l’autre se base sur l’algorithme
Expectation Maximization [Dempster et al., 1977] pour réaliser ces estimations.
2. http ://en.wikipedia.org/wiki/Celestial_navigation
- 44 -CHAPITRE 2. MODÈLES DE NAVIGATION EN ROBOTIQUE
Le filtre de Kalman permet d’estimer les états d’un système linéaire dynamique à partir d’une
série de mesures incomplètes ou bruitées. Il est utilisé dans une large gamme de domaines technologiques
(radar, vision électronique, communication ...). Ce filtre fait l’hypothèse que le bruit
est purement gaussien, ce qui est une approximation insuffisante dans de nombreux cas. De
plus, il ne permet de traiter que des problèmes impliquant des dépendances linéaires entre les
différentes variables [Thrun, 2002b]. Une variante, le filtrage de Kalman étendu permet de traiter
les problèmes non-linéaires [Julier and Uhlmann, 2004].
Le filtrage particulaire est une méthode permettant de ne pas se limiter à de telles hypothèses de
bruit gaussien et de linéarité, mais cette technique présente un coût computationnel important
[Gordon et al., 1993]. Cette technique est utilisée pour la localisation de robot mobile par Thrun
et al. [Thrun, 2002a]. De nombreuses variantes de ces méthodes existent, mais leur description
et comparaison est en dehors du champ de cet état de l’art.
Ces méthodes probabilistes tentent de résoudre 5 problèmes majeurs liés à la cartographie autonome
[Thrun, 2002b] : (1) les bruits de mesures ne sont pas statistiquement indépendants.
La nature de ces bruits dépend fortement du contexte. Par exemple, l’utilisation d’une caméra
panoramique non calibrée crée une erreur de localisation des amers dépendante de l’orientation.
S’affranchir d’un bruit non-centré (biaisé) s’avère extrêmement compliqué. De même, pour une
navigation à l’estime, le cumul d’erreurs affecte la manière dont les futures mesures seront interprétées
(voir fig. 2.2 - a). (2) La dimensionnalité de la représentation augmente considérablement
avec la taille de l’environnement et la précision du modèle, ce qui implique une quantité de mé-
moire importante. (3) Le problème le plus dur à résoudre est celui de la correspondance qui
survient lors de la clôture d’une boucle au sein d’une trajectoire (correspondence ou loop closing
problem) [Williams et al., 2009]. La difficulté réside dans le fait de déterminer si plusieurs
mesures, enregistrées à des moments différents, correspondent à la même entité physique dans
l’environnement. Ce phénomène provient de la nature ambiguë de la perception, phénomène
bien connu en psychologie et expliqué par la théorie de la "Gestalt" [Smith, 1988b]. (4) L’aspect
dynamique du monde réel peut rendre inopérant le système si des éléments essentiels à la localisation
viennent à disparaître. Il est alors nécessaire d’effectuer un réapprentissage pour s’adapter
à ces changements. Enfin (5), le système doit pouvoir planifier son chemin au sein d’un environnement
partiellement connu. Les solutions doivent bien souvent faire face à un compromis
entre réactivité et fiabilité. L’utilisation de méthodes statistiques [Thrun, 2002b] permet de s’affranchir
du problème de la navigation en environnement inconnu mais implique de nombreux
passages dans chaque lieu, ce qui reste incompatible avec le besoin d’une grande réactivité au
stade initial.
En restant dans le cadre de l’approche classique de la robotique, les méthodes basées sur
la construction de modèles internes du monde sans a priori sont finalement celles qui donnent
les meilleurs résultats. Assez récemment une telle méthode à permis des performances impressionnantes
de navigation en intérieur sur le long terme (plusieurs semaines) avec changements
environnementaux [Andreasson et al., 2005]. Cependant, le passage à l’échelle à des environnements
plus larges et moins structurés (extérieurs) pose encore de nombreux problèmes tels
que l’explosion de la taille mémoire du modèle interne, l’odométrie non fiables sur terrains accidentés
ou encore le recollement de cartes.
D’autres méthodes plus ad-hocs donnent de bons résultats en réponse à des problèmes spéci-
fiques. Les travaux de Leonard et Newman [Leonard and Newman, 2003] montrent, par exemple,
qu’il est possible de développer un algorithme dont le temps de convergence est constant
- 45 -2.3. NAVIGATION ANIMALE
FIGURE 2.2 – Figure extraite de [Thrun, 2002b]. a - Exemple de trajectoire obtenue à l’aide d’information
odométrique uniquement. La figure montre l’impact du cumul d’erreur sur la trajectoire. De petites erreurs peuvent
avoir un effet important sur de grandes distances. b - Exemple de cartographie d’un environnement intérieur
cyclique. La figure montre le problème de correspondance qui survient lorsque le robot achève une boucle au cours
de sa trajectoire. Parvenir à établir cette correspondance est un des plus importants défis dans le domaine du SLAM.
dans le cas ou le robot est autorisé à faire des visites répétées de toutes les régions de l’environnement.
Steux et Hamzaoui [Steux and Hamzaoui, 2010] sont parvenus à développer un
algorithme léger et très simplifié de SLAM dont le code ne dépasse pas 200 lignes. Cet algorithme
permet au robot d’atteindre une vitesse de 2.5m/s en embarquant l’ensemble des calculs
sur un processeur ARM9. Nguyen et al [Nguyen et al., 2006] propose un modèle également très
léger basé sur l’hypothèse d’un environnement formé de plans orthogonaux (ce qui est souvent
le cas en intérieur) permettant ainsi de simplifier considérablement la complexité des calculs.
Bien que très utilisées dans certains domaines précis, ces méthodes requièrent la plupart du
temps un scanner laser précis et donc très coûteux. De plus, elles sont fortement dépendantes
du modèle a priori du monde. Des travaux récents visent justement à s’adapter aux déplacements
et à l’occlusion d’amers visuels et à se remettre à jour dynamiquement [Lee et al., 2006].
D’autres méthodes donnent de bons résultats dans des environnements fortement dynamiques
comme l’algorithme développé par Foka et Trahanias [Foka and Trahanias, 2010]. L’algorithme
permet à un robot mobile de se localiser et naviguer dans un milieu encombré (une foule d’êtres
humains par exemple). Des approches ensemblistes sont également utilisées pour la robotique
sous-marine [Jaulin, 2009, 2011] pour s’affranchir des conditions données par l’environnement
(Les fonds marins sableux sont des lieux très pauvres en amers et présentant de fortes redondances).
Malgré de nombreux progrès réalisés dans ce domaine, le SLAM présente tout de même des
défis importants. Aujourd’hui, il existe de nombreuses méthodes pour cartographier et se localiser
simultanément dans un environnement si celui-ci est statique, structuré et de taille limitée.
La navigation au sein d’environnements complexes, dynamiques, non-structurés et de grandes
tailles restent encore un problème de recherche largement ouvert [Thrun, 2002b].
2.3 Navigation animale
La plupart des animaux possèdent des capacités à trouver leur chemin sans l’aide d’aucune
carte ou d’instruments particuliers. Les sternes arctiques (espèce d’oiseaux), les papillons
monarques ou encore les saumons migrent régulièrement sur des milliers de kilomètres et parvi-
- 46 -CHAPITRE 2. MODÈLES DE NAVIGATION EN ROBOTIQUE
ennent à trouver leur site de reproduction [Dingle Hugh and Drake, 2007]. Selon Wolpert, la
capacité à naviguer dans un environnement complexe est l’une des compétences les plus diffi-
ciles à réaliser pour les animaux : cette compétence est cruciale pour leur survie et à certainement
été un moteur pour le développement du cerveau au cours de l’évolution [Wolpert, 2002]. Cette
théorie ne vaut cependant que pour certains animaux, comme les mammifères, et pour des tâches
de navigation sophistiquées, comme la reconnaissance de lieux et la planification de trajectoire.
Nous allons voir que la plupart des insectes sont tout à fait capables d’exhiber certains comportements
de navigation simples et robustes sans besoin d’un système nerveux complexe [Srinivasan
and Zhang, 2003; Wystrach et al., 2013].
De nombreux travaux en éthologie se sont intéressés à l’étude des stratégies utilisées dans la
nature pour pouvoir naviguer. Von Frisch a montré que les abeilles peuvent naviguer à l’aide du
soleil, de la polarisation de la lumière ou du champ magnétique terrestre, bien qu’elles préfèrent
s’en référer au soleil lorsque celui-ci est disponible [Von Frisch, 1955]. Keeton a montré que
les pigeons voyageurs pourraient même faire usage d’un éventail d’indices aidants à la navigation,
comprenant le soleil, le champ magnétique terrestre, l’olfaction et la vision [Keeton, 1971].
Lockley a démontré qu’une espèce de petit oiseau marin, le Puffin des Anglais, peut s’orienter et
revenir à son nid très rapidement à condition que le soleil ou les étoiles soient visibles [D. Lack,
1938].
La caractéristique importante à noter ici est qu’une partie des solutions utilisées chez les animaux
ne semblent pas recourir à une carte de l’environnement ni à l’utilisation de connaissances
à priori. Bien souvent, le maintien d’invariants dans les perceptions suffit à faire émerger un
comportement cohérent et robuste. Les animaux semblent prendre des décisions en se basant
sur une mesure de corrélation entre l’information actuelle et l’information mémorisée. Leur
développement semble basé sur des réflexes et conditionnements relativement simples [Piaget,
1936]. De plus, il semble que l’information extraite et mémorisée se limite à l’information utile
pour la tâche. Par exemple, dans le cadre d’une tâche de navigation vers un but, la reconnaissance
d’un objet est codé de telle manière que celui-ci puisse être utile pour rejoindre le but [Gaussier
and Zrehen, 1995]. Ce point de vue, adopté par de nombreuses espèces, permet à l’inverse des
techniques d’intelligence artificielle classiques, de résoudre des tâches complexes avec la seule
aide d’un cerveau minimaliste.
Les insectes sont des exemples intéressants pour illustrer ce principe. Certaines espèces de
fourmis n’utilisent que l’information visuelle directement accessible sur un lieu important afin
d’apprendre à retrouver ce lieu [Wehner and Räber, 1979]. Une expérience permet de montrer
ce phénomène : un bâton décoré de 2 anneaux noirs est placé à la sortie du nid (voir fig. 2.3 - A
et B). La fourmi apprend la position de son nid en mémorisant l’angle sous lequel elle perçoit le
motif du bâton. Lorsque ce dernier est remplacé par un bâton 2 fois plus haut, la fourmi se met à
chercher son nid à la position pour laquelle les motifs du bâton sont perçus sous le même angle
que ceux appris. De la même manière, les guêpes parviennent à retrouver leur nid en apprenant sa
position relative aux amers environnants. Tinbergen a réalisé une expérience qui met en évidence
cette méthode [Tinbergen, 1969]. La guêpe apprend à reconnaître la position de son nid vis à
vis de pommes de pins disposées autour de celui-ci. Elle tourne systématiquement autour de
ces pommes de pins pendant plusieurs secondes avant de s’éloigner. Lorsqu’elle revient, les
pommes de pins ont été volontairement déplacées de quelques mètres du nid. La guêpe tente
alors de retrouver son nid au centre des pommes de pins (voir fig. 2.3 - C et D).
- 47 -2.3. NAVIGATION ANIMALE
FIGURE 2.3 – Figure extraire de [Gaussier and Zrehen, 1995]. A - La fourmi apprend la position de son nid en
mémorisant l’aspect visuel d’un bâton. B - Si le bâton est remplacé par un objet similaire 2 fois plus grand, la fourmi
cherche son nid plus loin et ne parvient pas à le retrouver [Wehner and Räber, 1979]. C - Avant de s’éloigner de son
nid, la guêpe tourne autour de pommes de pins, disposées tout autour du nid, afin d’apprendre la position de celui-ci.
D - Si la position des pommes de pins est déplacée (translation) alors la guêpe ne parvient pas à retrouver son nid
[Tinbergen, 1969].
2.3.1 Intégration de chemin
De nombreux animaux ont la capacité d’évaluer en permanence la distance les séparant de
leur nid ainsi que l’orientation à prendre pour le rejoindre, comme si un mécanisme de mémorisation
du chemin parcouru leur permettait l’accès à tout moment au vecteur de retour au nid
(homing vector) où bien à une position ultérieure [Etienne and Jeffery, 2004]. Pour certains animaux,
ce vecteur permet un retour direct au nid même après plusieurs heures d’exploration de
l’environnement. En 1873, Darwin citait un explorateur de la Sibérie du Nord, Von Wrangell, qui
avait observé que les natifs de cette contrée étaient capables de garder un cap en direction d’un
point particulier sur de longues distances, malgré des changements de direction incessants et la
totale absence de repères célestes ou terrestres [Darwin, 1873]. Le point crucial, relevé par Darwin,
est qu’aucun des repères directionnels lointains, comme les repères célestes, ou les autres
indices purement directionnels comme le champ géomagnétique, ne peut diriger le déplacement
vers un point particulier de l’espace. Ces indices fournissent, au mieux, la direction d’un point
unique de l’espace. La détermination d’une position ne peut résulter que d’un processus d’inté-
gration de chemin : une navigation à l’estime (dead reckoning).
Là encore, la fourmi est un bon exemple pour illustrer un tel processus. Cette dernière quitte
généralement le nid à la recherche de nourriture en ayant principalement recours à une stratégie
d’exploration aléatoire [Müller and Wehner, 1988; Wittlinger et al., 2006; Grah et al., 2005].
- 48 -CHAPITRE 2. MODÈLES DE NAVIGATION EN ROBOTIQUE
Lorsqu’elle tombe sur une source de nourriture, il a été observé qu’au lieu de parcourir la trajectoire
en sens inverse, la fourmi est capable de rejoindre son nid en ligne droite en empruntant
le chemin le plus court. Les fourmis forestières pourraient utiliser des indices visuels ou olfactifs
pour retrouver le chemin du nid. Les fourmis du désert, quant à elles, n’ont pas accès à de
tels indices visuels et les vents puissants empêchent l’utilisation d’indices olfactifs. Ces fourmis
ont recours à un mécanisme d’intégration de chemin basé sur des informations idiothétiques :
elles comptent leurs pas (voir fig. 2.4). La fourmi du désert "cataglyphis fortis" est ainsi capable
de retourner à son nid après une exploration sur plusieurs centaines de mètres [Wehner and
Srinivasan, 1981].
FIGURE 2.4 – Mécanisme d’intégration de chemin chez la fourmi. Figures extraites de [Müller and Wehner, 1988;
Wittlinger et al., 2006; Grah et al., 2005]. A - Trajectoire d’une fourmi s’éloignant de son nid jusqu’à tomber sur une
source de nourriture (F). Malgré une trajectoire complexe et hasardeuse, la fourmi est ensuite capable de retourner à
son nid en ligne droite. B - Lorsque la taille des pattes de la fourmi est modifiée (prolongement ou amputation) après
qu’elle ait trouvé la source de nourriture, cette dernière sur-estime ou sous-estime la distance au nid. C - Illustration
d’une fourmi dont les pattes ont été allongées artificiellement.
Une fois la source de nourriture découverte par la fourmi, les chercheurs procèdent à une
modification de la taille de ses pattes : un allongement artificiel par le biais d’échasses, ou bien
un raccourcissement par amputation. Lors du retour au nid, les fourmis amputées sous-estiment
la distance au nid, tandis que celles dotées d’échasses la sur-estiment.
Les insectes volants comme l’abeille sont également capables d’intégrer leur chemin en utilisant
principalement le flot optique, l’azimut du soleil ou le champ magnétique du ciel [Srinivasan
and Zhang, 2003; Wehner, 1994]. Même si ce mécanisme a été principalement étudié chez les
rats et les insectes, il semble aussi faire partie intégrante de la navigation spatiale chez l’humain
[Maguire et al., 1998]. Les chiens, les hamsters et les humains utilisent principalement leur
proprioception [Seguinot et al., 1998; Loomis et al., 1993]. Le choix de la modalité sensorielle
varie d’une espèce à l’autre et dépend également de la confiance en cette stratégie dans une
situation donnée [Jeffery, 1998] (voir fig. 2.5).
2.3.2 Région hippocampique et cellules de lieu
L’hippocampe est une structure majeure du cerveau des mammifères appartenant au système
limbique (voir fig. 2.6). Il joue un rôle très important dans la navigation spatiale, la mémorisation
à court terme et la consolidation de la mémoire à long terme. Chez l’Homme et le primate, il se
situe dans le lobe temporal médian, sous la surface du cortex avec lequel il est en étroite collaboration.
Il se compose de trois sous-structures : le subiculum, la corne d’Ammon (composée des
- 49 -2.3. NAVIGATION ANIMALE
FIGURE 2.5 – Figure extraite et modifiée de [Etienne and Jeffery, 2004]. Comparaison inter-espèce de l’erreur
d’intégration de chemin au cours d’une expérience de privation d’information allothétique. Les sujets effectuent un
parcours en forme de "L", de (S) à (P) en étant privés de stimuli externes. Une fois en (P), ils tentent de retourner
au point de départ par le chemin qu’ils estiment le plus court. Araignées, hamsters et humains sont privés des sens
visuel, auditif, olfactif et tactil. Fourmis et abeilles sont privées de références comme le soleil. Les chiens sont privés
de vision et d’audition à l’aller mais pas lors du trajet retour. Le trait en pointillés désigne le vecteur de retour réel,
tandis que la flèche représente le vecteur emprunté par le sujet.
aires CA1, CA2 et CA3) et le gyrus denté. Le système limbique, quant à lui, est un groupement
de structures contrôlant les émotions primaires comme la colère, la peur ou le plaisir, la modulation
du comportement et la formation de la mémoire [Broca, 1871].
L’hippocampe ferait office de mémoire à court terme et participerait à la consolidation de souvenirs
récents dans le cortex, siège de la mémoire à long terme. Au cours de cette consolidation,
l’hippocampe se désengage progressivement de la mémorisation et récupération des souvenirs.
Le caractère progressif des amnésies rétrogrades à notamment été observé par Scoville et Milner
[Scoville and Milner, 2000].
Chez le rat, la région hippocampique a été identifiée comme responsable de la mémoire spatiale
[O’Keefe and Dostrovsky, 1971].
FIGURE 2.6 – A - L’hippocampe est situé dans le lobe temporal médian. C’est une structure paire, présente
de manière symétrique dans chaque hémisphère. B - Représentation d’une coupe transversale de la région hippocampique
du rat ainsi que des principales structures et connexions excitatrices les liants. On retrouve notamment
le gyrus denté (DG) et la corne d’Ammon (CA1-3) qui forme l’hippocampe proprement dit. On trouve également la
structure para-hippocampique constituée notamment du cortex enthorinal (EC) et du subiculum (Sub).
De nombreuses cellules situées dans les régions CA1 et CA3 de l’hippocampe présentent des
activités, en terme de fréquence de décharge, correspondant à des positions spatiales précises de
l’animal dans l’environnement [O’Keefe and Dostrovsky, 1971]. Ces neurones sont communé-
- 50 -CHAPITRE 2. MODÈLES DE NAVIGATION EN ROBOTIQUE
ment appelés "cellules de lieux" puisqu’ils répondent pour des endroits précis de l’espace. Leur
activité est caractérisée par une réponse maximale en un point de l’environnement. Cette projection
de la réponse neuronale sur l’environnement est appelée "champ de lieu" de la cellule
[Rédei, 2008]. Le protocole standard d’enregistrement de ces cellules consiste à implanter des
électrodes dans le cerveau d’un rat puis de le placer dans un enclos fermé. La position du rat et la
fréquence moyenne de décharge des cellules de lieu sont enregistrées simultanément, après quoi
il est possible de tracer l’activité d’une cellule donnée superposée à la trajectoire obtenue. Les
champs de lieu se recouvrent entre cellules codant pour des lieux proches. La taille des champs
semble principalement dépendre de la taille de l’enclos. Les activités des cellules apparaissent
quelques minutes après la première entrée du rat dans l’enclos et peuvent parfois mettre plusieurs
semaines pour converger vers une représentation stable [Wilson and McNaughton, 1993]. Après
que les champs aient convergés vers une activité invariante, ils restent stables durant des semaines,
voire des mois [Thompson and Best, 1990].
On sait également que l’hippocampe possède, avec le septum, un rôle important pour la détection
de la nouveauté et la neuromodulation pour permettre l’apprentissage de nouveaux motifs
[Hasselmo and Fehlau, 2001]. L’acétylcholine sécrétée dans le septum permettrait d’inhiber l’activation
de motifs anciens afin de faciliter l’acquisition des nouveaux [Hasselmo and Schnell,
1994].
Dans la suite de ces travaux nous adopterons la représentation de la fig. 2.7-B pour parler
de la réponse (en rouge) d’une cellule unique superposée à la trajectoire (en noir) de l’agent.
D’autres part, nous préférerons la représentation de la fig. 2.7-C pour présenter les zones pour
lesquels différentes cellules impliquées sont gagnantes (une couleur différente pour chaque cellule).
FIGURE 2.7 – A - Figure extraite de [Bird and Burgess, 2008]. champ de lieu d’une cellule hippocampique dans
un environnement bi-dimensionnel. Des électrodes, implantée dans le cerveau d’un rat, permettent d’enregistrer l’activité
des cellules de lieu pendant que celui-ci explore un enclos de 1m2
. L’activité (en rouge) est superposée à la trajectoire
(en noir). B - Figure issue d’internet sous licence libre. Champs de lieu de plusieurs cellules hippocampiques
dans un environnement mono-dimensionnel. Chaque couleur correspond à l’activité d’une cellule de lieu différente.
On observe des recouvrements entre champs de cellules proches.
Bien que les signaux qui permettent d’activer ces cellules soient encore difficiles à caractériser,
il apparaît que leur activité est fortement liée aux indices visuels présents dans le milieu.
La vision joue un rôle primordial dans l’activation des cellules de lieu puisqu’une rotation de
ces points d’intérêt en bordure de l’environnement entraîne une rotation des champs de lieu associés.
De même, les champs sont homothétiques de la taille de l’environnement [Muller and
Kubie, 1987]. Cependant, d’autres modalités peuvent venir compléter le code spatial. De nom-
- 51 -2.3. NAVIGATION ANIMALE
breuses expériences montrent, par exemple, le rôle du système vestibulaire et des mécanismes
d’intégration de chemin [Foster et al., 1989; Kelemen and Fenton, 2010], des informations olfactives
[Zhang and Manahan-Vaughan, 2013], auditives [O’Keefe and Nadel, 1978] et tactiles
[Save et al., 1998] dans la construction de ce code. Des études montrent également que les cellules
de lieu répondent lorsque l’animal est plongé dans le noir complet et ne peut plus utiliser de
repères visuels [Quirk et al., 1990] bien que la précision de la réponse se dégrade au fil du temps.
Ces travaux montrent l’importance de certaines informations idiothétiques dans l’activation des
cellules de lieu.
Certaines études suggèrent que cette intégration d’information multimodale aurait lieu en amont
de l’hippocampe, dans le cortex entorhinal (EC), qui constitue la principale entrée de l’hippocampe
[Gothard et al., 2001]. Une étude montre qu’en cas de conflits entre modalités idiothé-
tique et visuelle, les champs de lieu peuvent devenir instables [Knierim et al., 1998]. Des activités
de cellules de lieu ont également été observées dans d’autres régions cérébrales proches de
l’hippocampe, notamment dans le cortex entorhinal. Ces cellules de lieu ont la particularité d’exhiber
des champs beaucoup plus diffus [Quirk et al., 1992; Sharp, 1999b]. Le gyrus denté (DG)
constitue une voie isolée de communication entre EC et le reste de l’hippocampe. D’autres structures
comme le subiculum, le cortex retrosplénial, le thalamus, le striatum ou encore le cortex
entorhinal jouent également un rôle très important dans la localisation de l’animal puisqu’elles
hébergent des cellules de direction de la tête (head direction cells). Ces cellules codent chacune
pour une certaine orientation de la tête, agissant de ce fait comme une boussole relative [Sargolini
et al., 2006].
Récemment, d’autres cellules particulières ont été découvertes lors d’enregistrement dans le
cortex entorhinal dorso-caudal médian (dMEC). Ces cellules, nommées "cellules de grille" (grid
cells), ont la particularité de présenter des champs de lieu étroits et multiples. Leur réponse est
périodique dans l’environnement, formant ainsi un pavage régulier de l’espace, à l’instar d’une
grille [Hafting et al., 2005]. Les cellules de grille pourraient être à l’origine d’un système de
localisation spatial basé majoritairement sur des informations idiothétiques. Nous reviendrons
plus en détail sur leur fonctionnement dans le chapitre 4.
La découverte des cellules de lieu a stimulé la compréhension du fonctionnement de la navigation
spatiale chez l’animal. Ces cellules constituent alors la première preuve de l’implication
de l’hippocampe dans des tâches de navigation et a réactualisé l’idée de l’utilisation de
"cartes cognitives" [O’Keefe and Nadel, 1978]. La notion de carte cognitive correspondrait à
une représentation interne de l’environnement permettant à l’agent d’inférer son chemin parmi
plusieurs. Elle se base sur l’apprentissage de la topologie existante entre différents états. Ainsi
l’animal pourrait remettre en cause la planification de son chemin lors de l’apparition d’un raccourci
ou encore sélectionner le chemin optimal vers un but particulier. Le concept de carte
cognitive avait déjà été proposée par Tolman 40 ans plus tôt [Tolman and Honzik, 1930].
La navigation vers un but unique n’implique pas nécessairement la construction d’une carte
topologique de l’environnement. Dans ce cas, il peut suffire d’utiliser une stratégie purement
sensori-motrice en associant simplement une action (une direction à suivre) à un lieu. Dans la
suite de mes travaux, nous n’utiliserons pas de carte cognitive mais seulement des associations
entre lieux et actions à réaliser. Ce choix nous permettra, dans un premier temps, de pouvoir
présenter des solutions dans le cas, plus simple, de la navigation sensori-motrice.
- 52 -CHAPITRE 2. MODÈLES DE NAVIGATION EN ROBOTIQUE
2.4 Navigation robotique bio-inspirée
Basée sur les nombreuses études des solutions utilisées chez l’animal pour naviguer, une
approche concurrente de la navigation robotique classique s’est développée en proposant des
modèles inspirés de la biologie. Cette approche a permis l’apparition de robots réactifs, rapides
et capables de comportements simples et robustes. A l’inverse de l’intelligence artificielle
classique, les solutions obtenues sont souvent sous-optimales mais adaptatives et se prêtent particulièrement
bien aux environnements inconnus. Certaines approches bio-inspirées se veulent
également biologiquement plausible et, de ce fait, permettent un enrichissement mutuel des disciplines
de la robotique et des sciences du vivant. Les expériences robotiques permettent de
confirmer ou d’infirmer certaines hypothèses sur les modèles.
A partir des classifications proposés par les ethologues [Gould, 1986], différents modèles
d’architectures de contrôle pour la navigation ont été proposés [Trullier and Meyer, 1997]. [Mallot
and Franz, 2000] proposent de faire une distinction hierarchique entre stratégies locales de
retour au nid (fig. 2.8) et stratégies de recherche de chemin (fig. 2.9). Un classement hiérarchique
existe également au sein de chacune des 2 catégories. Parmi les stratégies locales : l’agent a recours
à une exploration aléatoire en l’absence d’indice sensoriel. Il peut suivre un sentier si
celui-ci existe (dépôt de phéromones ou traces visuelles par exemple). Il peut viser le nid par
remontée de gradient si un indice sensoriel saillant y est présent. Enfin, l’agent peut rejoindre le
nid par l’apprentissage de relations spatiales entre celui-ci et des amers proches, sans codage de
la position du nid lui-même.
FIGURE 2.8 – Hierarchie des stratégies locales de retour au nid (homing) selon Franz et Mallot. Figure extraite de
[Mallot and Franz, 2000]. a - Exploration aléatoire. b - Suivi de piste ou de sentier. c - Visée du nid (nécessite un
indice sensoriel saillant sur le nid). d - Guidage vers le nid par le biais de relations spatiales entre amers environnants.
Parmi les stratégies de recherche de chemin : Si l’environnement est relativement statique,
un chemin peut être appris par une séquence simple d’associations entre états (lieux) et actions
(direction à suivre). Dans le cas d’apparition d’obstacles, des chemins multiples peuvent être
appris par la construction d’une topologie entre lieux proches. L’agent connaît ainsi une autre
route en cas d’échec sur la première (navigation topologique). Enfin, l’exploration des alentours
permet de découvrir des raccourcis (navigation métrique).
2.4.1 Modèles inspirés des insectes
L’une des premières constatations de l’approche bio-inspirée a été de dire que, dans de nombreux
cas, la construction d’une carte précise du monde n’est pas nécessaire pour résoudre la
tâche. Cette constatation est particulièrement vraie dans le cas de l’insecte, dont les ressources
- 53 -2.4. NAVIGATION ROBOTIQUE BIO-INSPIRÉE
FIGURE 2.9 – Hierarchie des stratégies de planification de chemin selon Franz et Mallot. Figure extraite de [Mallot
and Franz, 2000]. a - Chemin simple défini par une séquence d’associations état/action. La stratégie ne s’adapte
pas à l’apparition de nouveaux obstacles (e.g porte fermée). b - Des chemins multiples sont envisageables après la
construction d’une topologie entre états. L’agent peut choisir une autre route en cas d’échec. c - Explorer les alentours
permet à l’agent de découvrir des raccourcis (pointillés) aux travers de lieux inexplorés.
cérébrales sont limitées. Dans de nombreux cas, l’animal n’a pas besoin de maintenir un modèle
interne du monde, le monde lui-même est son meilleur modèle [Brooks, 1991].
Probablement, la première solution bio-inspirée proposée pour la navigation d’un robot mobile
remonte aux années 50 avec le modèle de la "tortue" de Walter [Walter, 1953]. Le robot, doté
de roues, de capteurs photosensibles et de lampes à vide, était capable de remonter un gradient
de lumière, de déclencher un arrêt sur obstacles, de se recharger en totale autonomie et
même de mimer un apprentissage par conditionnement pavlovien (association entre vision et
son) jusqu’alors réservé aux systèmes vivants.
Plus tard, Braitenberg améliora ce principe en montrant comment des véhicules à l’architecture
minimaliste (2 neurones) pouvaient exhiber des comportements complexes [Braitenberg, 1984].
Inspirés de l’abeille, les véhicules étaient capable d’évitement d’obstacles et de phototaxie (suivi
de lumière). Un panel de comportements complexes émergeait de la dynamique de la boucle entre
agent et environnement, et ce, en ne modifiant que le poids des synapses (comportement
peureux, amoureux, agressif, etc...).
Les travaux de Brooks au début des années 90 ont permis l’apparition de contrôleurs réactifs
[Brooks, 1991]. Son architecture de "Subsumption" a permis le contrôle et l’arbitrage en temps
réel d’un ensemble de comportements en parallèle, ce qui restait jusque là impossible avec des
contrôleurs basés sur un modèle du monde.
Franceschini puis Floreano ont travaillé sur des modèles, inspirés de la mouche, capablent de
maintenir le flot optique constant (à partir de la théorie écologique de Gibson [Gibson, 1978]).
Ces modèles permettent à un drone volant d’atterrir en toute sécurité sans besoin d’une estimation
complexe de la distance ou de la géométrie du sol. La vitesse du drône est proportionnelle
à sa distance aux obstacles [Ruffier and Franceschini, 2005; Floreano et al., 2009].
Cartwright et Collet proposent un modèle inspiré des abeilles pour la mémorisation du but
[Cartwright and Collett, 1983]. Le modèle réalise une détection panoramique d’amers (snapshot)
et permet l’estimation de la direction au but en sommant les contributions des déplacements angulaires
de chaque amer. Ce modèle précède les premiers modèles de cellules de lieu. L’association
d’amers est difficile et nécessite de connaître l’orientation de l’agent. Une variante améliorée
et basée sur la couleur à été proposé par Gourichon et al. [Gourichon et al., 2002]. Gaussier et
Zrehen propose un modèle minimaliste, inspiré des insectes, supposant que ces derniers peuvent
reconnaître individuellement les amers pour accéder à leur azimut. Ce modèle permet un
- 54 -CHAPITRE 2. MODÈLES DE NAVIGATION EN ROBOTIQUE
retour au nid par l’apprentissage des relations spatiales entre les amers environnants et le lieu
but [Gaussier and Zrehen, 1995].
2.4.2 Modèles inspirés des mammifères
L’implémentation d’algorithmes copiant le comportement des insectes a donné de très bons
résultats mais le passage à des mécanismes cognitifs plus complexes tels que ceux utilisés par
les mammifères reste encore un challenge dans les systèmes actuels. Le début des années 1990
à vu naître les premiers modèles computationnels de cellules de lieu hippocampiques. En 1994,
Burgess propose un premier modèle basé sur la hauteur apparente de 2 amers visuels (les murs
de l’enceinte) [Burgess et al., 1994]. Dans le même temps, Gaussier et Zrehen aboutissent à l’architecture
PerAc qui servira de base à nos travaux (l’architecture est présentée en détails dans
la section 2.5) [Gaussier and Zrehen, 1995].
Quelques années plus tard, Redish et Touretzky proposent un modèle théorique des processus
de navigation à l’oeuvre dans la région hippocampique [Redish and Touretzky, 1997]. Dans
ce modèle, le code spatial des cellules de lieu est créé à partir d’informations visuelles (vues
locales) et d’informations idiothétiques par le biais du subiculum (intégration de chemin). La
sélection de l’action serait réalisée en partie par les ganglions de la base (nucleus accumbens) à
partir d’informations spatiales fournies par l’hippocampe.
Arléo et al. propose ensuite un modèle de l’hippocampe basé sur des cellules de lieu et de
direction de la tête combinant des informations allothétiques (visuelles) et idiothétiques (proprioceptives)
[Arleo and Gerstner, 2000; Arleo and Rondi-Reig, 2007] Le système visuel projette
dans le cortex entorhinal superficiel, tandis que le système idiothétique (intégration de chemin)
projette dans EC profond. L’apprentissage non supervisé de cellules de lieu est réalisé dans les
couches superficielles de EC par une règle de Hebb. Le processus d’intégration de chemin est
modélisé par des cellules dont l’activité est une fonction gaussienne de la position et de la direction
du robot et fait abstraction de la plausibilité biologique. Finalement le recrutement de
cellules de lieu multimodales est réalisé de manière autonome à partir d’un seuil de reconnaissance.
L’environnement des expériences est réel mais contrôlé et très simplifié : les murs sont
striés afin de faciliter la détection de fréquences (amers artificiels) pour la reconnaissance des
cellules de vue. Le pavage automatique génère quelques 800 cellules de lieu pour un petit environnement
(80x80cm). Les cellules de lieu obtenues servent de base pour un apprentissage par
renforcement de l’environnement, mais cette méthode requiert un temps trop important pour des
environnements de grandes tailles.
D’autres travaux se basent également sur des modèles de cellules de lieu pour étudier des solutions
intéressantes de sélection de l’action mais se contentent d’une modélisation en simulation
[Foster et al., 2000; Dollé et al., 2008]. De plus, l’activité des cellules est une fonction gaussienne
de la position connue du robot.
Assez récemment, Milford et Wyeth ont proposé un modèle bio-inspiré, nommé "RatSLAM",
pour la cartographie d’un environnement de très grande taille [Milford and Wyeth, 2008]. Le
modèle s’inspire de la structure hippocampique du rat et permet à un véhicule mobile de construire
en temps réel une carte d’une taille conséquente à partir d’une simple webcam (un quartier
urbain complet pour un trajet de 66 km et la catégorisation de 12000 lieux). Une recalibration
de la position est effectuée lorsque le système reconnaît visuellement un lieu et un mécanisme
de maintien de cohérence permet de corriger la carte à partir de l’odométrie et d’une compéti-
- 55 -2.5. PER-AC : UN MODÈLE DE COUPLAGE SENSORI-MOTEUR POUR LA PERCEPTION
tion entre de nombreuses poses caméra. Néanmoins, le système est testé en passif d’une part et
se veut également "biologiquement inspiré" sans pour autant présenter une grande plausibilité
biologique.
La navigation au travers de grands environnements intéresse également Cummins et Newman
[Newman and Cummins, 2008] qui utilise une méthode dite d’"apparence seule". Le système
assigne à chaque nouveau panorama un lieu rencontré précédemment, ou bien un nouveau lieu
si la différence constatée est trop importante. Cette méthode ne nécessite aucune estimation de la
position métrique du robot et a permis de naviguer sur plus de 1000 kilomètres en milieu urbain.
2.5 Per-Ac : un modèle de couplage sensori-moteur pour la perception
Dans de précédents travaux datant du début des années 90, Gaussier et Zrehen ont développé
un modèle générique de couplage permettant à un robot d’apprendre des conditionnements entre
informations sensorielles (la reconnaissance d’un lieu spatial, d’une position particulière d’un
membre, d’une expression faciale, etc...) et action (une direction à suivre, une configuration
motrice) [Gaussier and Zrehen, 1995] (voir fig. 2.10). L’élégance du modèle est de proposer
une architecture générique de bas niveau et qui ne requiert aucune représentation symbolique
du but. Pour la navigation spatiale, l’équipe Neurocybernetique du laboratoire ETIS a proposé
un modèle de l’hippocampe et des boucles corticales permettant de contrôler un robot mobile
lors de tâche de navigation visuelle [Gaussier et al., 2002; Giovannangeli and Gaussier, 2010;
Banquet et al., 2005] et proprioceptive [Gaussier et al., 2007].
FIGURE 2.10 – Per-Ac : Une architecture générique de couplage entre Sensation et Action. Une voie inconditionnelle
(en bas) déclenche des actions de manière réflexe. Une autre voie non-réflexe (en haut) apprend à reconnaître
une situation sensorielle par le bais d’une compétition (WTA), puis à associer cette situation à l’action déclenchée
par la voie réflexe. Une fois l’apprentissage terminé, la reconnaissance de la situation déclenchera l’action correspondante,
même lorsque la voie réflexe est inactive.
2.5.1 Modèle de cellules de lieu visuelles
Une image panoramique est analysée séquentiellement pour en extraire un ensemble de
points d’intérêt qu’une cellule de lieu sera amenée à reconnaître.
- 56 -CHAPITRE 2. MODÈLES DE NAVIGATION EN ROBOTIQUE
La caméra monoculaire embarquée, montée sur servomoteur pan-tilt, permet la capture de 15
images successives, correspondant à un panorama à 360 degrés 3
. Le système réalise ensuite un
traitement d’images qui consiste en (1) le calcul de l’image du gradient (faisant apparaître les
contours des objets à fort contraste dans la scène), puis (2) une convolution avec un filtre DoG
(différence de gaussienne) qui permet de faire ressortir les points de forte courbure des contours.
Ces points de courbure sont intéressants puisqu’ils sont robustes et invariants aux changements
d’échelle. Ils correspondent la plupart du temps à des coins d’objets ou des éléments saillants
anguleux (e.g. les 4 coins d’un tableaux sombre sur fond clair constituent des points d’intérêt
robustes). Ces traitements permettent, à partir d’images brutes, de mettre en évidence une constellation
de points d’intérêt dans le panorama. Afin de reconnaître ces points particuliers, le
système apprend de petites imagettes circulaires centrées sur chacun d’eux. Une transformation
log-polaire est réalisée sur chaque imagette afin de rendre la reconnaissance plus robuste aux
petites rotations et aux changements d’échelle. Chaque imagette (32*32 pixels) est apprise par
un neurone codant pour un amer (landmark). Autrement dit, une "cellule d’amer" apprend à
reconnaître une imagette particulière. L’activité d’une cellule d’amer dépend de la différence
entre l’imagette perçue et l’imagette apprise par cette même cellule.
De la même façon, une "cellule de lieu" (place cell) apprend à reconnaître une constellation
d’amers associés à leurs azimuts (voir fig. 2.11). L’activité d’une cellule de lieu dépend de
la différence entre la constellation amers/azimuts perçue et celle apprise par la cellule. Selon
ce modèle, un lieu dans l’environnement est donc représenté par un agencement particulier
d’imagettes dans le panorama. Chaque cellule est capable de reconnaître un lieu particulier de
manière robuste. Cette robustesse provient en partie du grand nombre d’imagettes extraites (75
par panorama), ce qui permet de reconnaître un lieu même lorsque des objets ont été déplacés ou
bien qu’une partie du panorama est occultée. La robustesse provient également de l’utilisation
d’un mécanisme de compétition (WTA) qui sélectionne la cellule de lieu la plus active au temps
t, c’est à dire le lieu le mieux reconnu. De cette manière, la reconnaissance d’un lieu ne dépend
pas d’un niveau absolu de reconnaissance, mais bien d’un niveau relatif entre l’activation des différents
lieux. Dans ce modèle, les imagettes locales extraites correspondraient à l’information
"What" (Quoi) codée dans le cortex perirhinal ou dans d’autres aires du chemin visuel ventral
du cortex temporal du rat [Kolb and Tees., 1990]. Les angles sous lesquels sont vu les amers
correspondraient à l’information "Where" (Où), fournie par le cortex parietal par le biais de la
région parahippocampique. La fusion des informations "What" et "Where" serait réalisée dans
la couche superficielle du cortex entorhinal ou dans le cortex postrhinal [Suzuki et al., 1997;
Burwell and Hafeman, 2003]. Dans ce modèle, cette fusion est réalisée par un réseau nommé
PrPh (Perirhinal & Parahippocampique). Un neurone du groupe PrPh ne s’active que lorsqu’un
amer est reconnu sous un azimut particulier appris pour cet amer. L’azimut absolu est obtenu
par la somme entre la position relative de l’amer dans l’image, l’angle relatif de la caméra (tête)
et la direction absolue du robot. Le système de cellules de direction de la tête fourni des informations
sur l’orientation du robot. Ce système est alimenté par des données provenant d’une
boussole magnétique, mais peut se baser uniquement sur une boussole visuelle [Leprêtre et al.,
2000; Giovannangeli and Gaussier, 2007] et être complété par des informations proprioceptives.
Un système de recrutement permet d’encoder de nouveaux amers si ceux-ci n’avaient jamais
été appris. L’activité de cette population de neurones permet donc d’identifier un amer perçu.
3. Le modèle n’a pas besoin de réaliser un panorama complet et peut se contenter de mettre à jour une mémoire
dynamique. Il fonctionne également si le robot se déplace pendant la prise de panorama
- 57 -2.5. PER-AC : UN MODÈLE DE COUPLAGE SENSORI-MOTEUR POUR LA PERCEPTION
...
...
...
...
...
...
...
...
...
...
Azimuths
PC WTA
...
Action
Orientation
...
...
...
...
...
...
...
...
...
...
landmarks
azimuth
landmarks PCv
*
azimuth
PCmultimodal
Context
Joystick
...
...
path integration
PCg
Grid Cells
...
Action
orientation
...
...
...
Gradient extraction DOG convolution
Focus Points
Landmarks
One to All modifiable connections
One to one connections
...
...
...
...
...
...
...
...
...
...
amers
azimuths
PC WTA
...
Action
orientation
...
Grayscale image Gradient extraction DOG convolution Focus Points
Local Views (log polar)
One to All modifiable
connections
One to one connections
-180 +180
Grayscale image
-180 +180
FIGURE 2.11 – Modèle de cellules de lieu : architecture Per-Ac pour la navigation visuelle. A chaque instant, la
caméra du robot prend un panorama visuel de l’environnement à 360 degrés. L’image du gradient de ce panorama
est convoluée avec un filtre par différence de gaussiènne (DoG) pour en extraire une constellation de points saillants.
Le système apprend ensuite des imagettes locales centrées sur les points plus saillants. Ces imagettes sont apprises
par des cellules d’amer (landmarks). Un réseau PrPh fusionne les amers et leur azimuts respectifs. Chaque cellule de
lieu (PC) apprend ensuite à reconnaître une constellation amers-azimuts particulière. Un mécanisme de compétition
(WTA ou softWTA) sélectionne la (ou les) cellule(s) de lieu la (les) plus active(s) au temps t. Enfin, une association
est apprise entre la cellule de lieu gagnante et l’orientation actuelle du robot, après quoi le robot s’orientera dans la
direction apprise lorsque la cellule correspondante est de nouveau gagnante.
L’équation pour l’apprentissage des amers en fonction des imagettes locales est la suivante :
dWV A
ij (t)
dt = R
A
i
(t).XV
j
(t) (2.1)
Où WV A
ij représente le poids synaptique entre un neurone de vue locale j et un neurone
d’amers i. RA
i
(t) est un signal de type échelon binaire permettant le recrutement d’un neurone
lorsque l’activité du gagnant de la population de neurones passe en dessous du seuil de vigilance
ν
A. XV
est l’activité d’une cellule ayant appris à reconnaître un amer (vue locale), après transformation
log-polaire (un neurone par pixel).
L’équation pour le calcul de l’activité XA
i
d’un neurone i recruté correspondant à un amer visuel
est la suivante :
XA
i
(t) = 1 −
P
j
|WV A
ij (t) − XV
j
(t)|.Hǫ(WV A
ij (t))
P
j Hǫ(WV A
ij (t)) (2.2)
avec Hǫ la fonction de Heavyside telle que Hǫ(x) =
0 si x < ǫ
1 si x ≥ ǫ
L’activité XA
i
(t) d’un neurone non recruté est aléatoire (sa valeur est comprise entre 0 et B, B
représentant le niveau de bruit neuronal maximal). La fonction Hǫ permet de détecter les poids
ayant appris (ǫ est une valeur positive, proche de 0).
L’apprentissage du groupe PrPh est contrôlé par les équations suivantes :
dWφP
ij (t)
dt = R
P
i
(t) · Hγ(X
φ
j
(t)) (2.3)
dWAP
ij (t)
dt = R
P
i
(t) · Hγ(XA
j
(t)) (2.4)
RP
i
(t) est un signal de recrutement de type échelon binaire, déclenché lorsque l’activité du
gagnant de la population de neurones passe sous un seuil de vigilance ν
P . La fonction Hγ
- 58 -CHAPITRE 2. MODÈLES DE NAVIGATION EN ROBOTIQUE
FIGURE 2.12 – Activité de 4 cellules de lieu enregistrées sur une trajectoire rectiligne de 25m en environnement
extérieur. Les 4 maxima correspondent aux endroits précis où les lieux ont été appris. Les points de croisement
correspondent aux frontières entre lieux gagnants. Le modèle montre de bonnes capacités de généralisation puisque
le champ de lieu d’une cellule (champ pour lequel l’activité de la cellule est au dessus du bruit) est plus large que la
zone pour laquelle cette cellule est gagnante. La cellule n°5 correspond à un lieu appris en dehors de l’enregistrement
présenté. La cellule n°6 n’a pas été recrutée et son activité est donc nulle.
détecte les neurones fortement activés en entrée du PrPh (γ étant proche de 1).
L’équation pour le calcul de l’activité XP
i
du neurone i du groupe PrPh est la suivante :
XP
i
(t) = max(λi(t) · XP
i
(t − dt), f(max
j
W
φP
ij · X
φ
i
· max
k
WAP
ik · XA
k − θ)) (2.5)
avec f une fonction de seuil telle que f(x) =
0 si x < 0
x si 0 ≤ x < 1
1 si x ≥ 1
θ est le seuil d’activation des neurones du PrPh. XA représente l’activité de l’amer reconnu et
Xφ
l’azimut sous lequel il est perçu. Un seul amer est traité à chaque itération ce qui implique
que le PrPh fonctionne comme une mémoire à court terme, dont le facteur d’oubli est λi(t). Il
permet de conserver en mémoire les amers perçus pendant les prises de vue d’un panorama. La
mémoire d’un amer est remise à jour par une meilleure reconnaissance et également après un
temps défini arbitrairement (après un ou plusieurs panoramas) [Giovannangeli, 2007].
- 59 -2.5. PER-AC : UN MODÈLE DE COUPLAGE SENSORI-MOTEUR POUR LA PERCEPTION
L’activité des cellules de lieu, même en condition extérieure, montre un pic d’activité sur le
lieu appris et généralise assez bien sur de grandes distances (2 à 3m en intérieur et 20 à 30m en
extérieur) (voir fig. 2.12). Ces profils d’activité large ne correspondent pas aux enregistrements
hippocampiques (CA1 et CA3) mais plutôt aux profils de cellules enregistrées dans le subiculum
ou le cortex entorhinal [Quirk et al., 1992; Sharp, 1999b].
FIGURE 2.13 – Principe de l’apprentissage de comportements simples à base de quelques associations Lieu/Action.
Une action est associée à la cellule de lieu gagnante. Chaque lieu est ainsi associé à une direction à suivre (flèche
rouge). Chaque fois que le robot se trouve dans un lieu, il se tourne automatiquement dans la direction apprise dans
ce même lieu. Ce mécanisme permet au robot d’apprendre des comportements de type ronde (a), ou encore de type
retour au nid (homing)(b) à partir de quelques associations Lieu/Action seulement. L’idée maîtresse ici est que la
trajectoire n’est pas prescrite mais émerge de la dynamique sensorimotrice en créant des bassins d’attractions (c). A
titre d’exemple, le comportement appris en (b) permet au robot de converger vers un lieu but au centre. Pourtant ce
lieu n’est pas codé dans la mémoire du robot, mais émerge naturellement comme le fond du bassin d’attraction généré
par la dynamique de reconnaissance des lieux A, B, C et D. Dans un monde réel bruité, ce type d’apprentissage est
plus robuste qu’une simple remontée de gradient et permet au robot de converger vers le but en "tombant" dans un
bassin d’attraction.
Chaque cellule de lieu peut ensuite être associée à une action particulière (une orientation à
suivre dans notre cas) et peut servir de base à des stratégies sensori-motrices simples. Dans le
cadre de l’apprentissage d’une tâche de navigation supervisée, l’humain peut donner la direction
à suivre comme signal désiré. Le robot apprendra alors à associer l’état courant (la cellule de
lieu gagnante) à la direction désirée. On parlera d’association Lieu/Action. A partir de 3 cellules
(ou plus) dont les actions associées pointent vers un but virtuel, il est possible de construire
un bassin d’attraction autour de ce but (fig. 2.13-b). La dynamique de reconnaissance des lieux
permet au robot de converger naturellement vers le but, sans que celui-ci ne soit explicitement
codé [Gaussier and Zrehen, 1995; Gaussier et al., 2000]. Cette stratégie permet également l’apprentissage
de ronde (voir fig.2.13-a) [Giovannangeli and Gaussier, 2010]. Ce sont ces rondes
sensori-motrices que l’on étudiera abondamment dans la suite de ces travaux.
Cette stratégie d’association Lieu/Action se limite cependant à un environnement simple dans
- 60 -CHAPITRE 2. MODÈLES DE NAVIGATION EN ROBOTIQUE
lequel un choix entre plusieurs chemins possibles n’est pas nécessaire. Si plusieurs chemins
sont possibles, ou que de nouveaux obstacles induisent des minima locaux, on peut avoir recours
à une stratégie de planification basée sur la construction d’une carte cognitive [Gaussier
et al., 1997]. Atteindre plusieurs buts reste cependant possible avec une stratégie sensorimotrice
simple si un bassin d’attraction différent est créé pour chaque but [Gaussier et al., 2000].
2.5.2 Modèle d’intégration de chemin
Outre ce modèle de cellules de lieu permettant une stratégie de navigation visuelle, l’équipe
a également développé un modèle d’intégration de chemin à partir d’informations idiothétiques
[Gaussier et al., 2007] basé sur les travaux de [Mittelstaedt, 2000]. Une telle stratégie se révèle
essentielle dans certaines conditions de privation sensorielle (lorsque l’agent est plongé dans le
noir par exemple) et peut être mise en place sur une plate-forme robotique possédant des capteurs
odométriques. La stratégie se base sur 2 informations codant pour un mouvement élémentaire
du système : la vitesse linéaire ainsi que la vitesse de rotation instantanée (voir fig. 2.14). Les
mouvements élémentaires du robot définissent à chaque itération des vecteurs unitaires dans un
champ d’entrée Vi
. Un champ de sortie Di somme simplement l’activité de Vi au cours du temps.
Dans ce modèle, les champs Vi et Di sont des champs neuronaux simplifiés (sans interactions
latérales) et supposés de même taille (121 neurones). Chaque neurone code pour une portion
angulaire du panorama total à 360° (codage en population). Un nombre impair de neurones est
préférable pour des raisons de symétrie, et le nombre de neurones utilisés est un multiple de
360. Par la suite, nous parlerons de champ d’intégration de chemin pour désigner le champ de
sortie Di
.
Un masque sinusoïdal non-négatif 4
est convolué autour de la direction de chaque mouvement
élémentaire dans le champ de neurone d’entrée Vi
:
Vi(t) = 1 + cos(Θ(t)) − θi) (2.6)
Avec θi = −2π
i
N
FIGURE 2.14 – Modèle neuronal utilisé dans notre architecture pour le calcul de l’intégration de chemin. Un
champ neuronal avec liens récurrents représente une mémoire du chemin parcouru. Le champ intègre les mouvement
élémentaires du robot à chaque itération. L’index du neurone le plus actif représente l’orientation du vecteur de
mouvement global et son amplitude, la distance globale parcourue. Les mouvements élémentaires sont représentés
au sein d’un vecteur de neurones alimenté par l’orientation absolue du robot et sa vitesse linéaire instantanée.
Le champ de sortie Di réalise simplement une intégration temporelle de l’activité du champ
d’entrée Vi
. L’amplitude d’un mouvement élémentaire est modulée par la vitesse linéaire du
4. Une fonction gaussienne ou triangulaire peuvent en pratique faire l’affaire mais la démonstration implique
l’usage du cosinus
- 61 -2.5. PER-AC : UN MODÈLE DE COUPLAGE SENSORI-MOTEUR POUR LA PERCEPTION
robot. L’orientation du robot au temps t sera noté Θ(t). L’activité du champ d’intégration de
chemin est définit telle que :
Di(t) = [Di(t − dt) + αVi(Θ(t)) − r(t)]+ (2.7)
Avec r(t) un signal de remise à zéro de type échelon binaire, utilisé pour la recalibration du
champ d’intégration de chemin. [x]
+ = x si x > 0 et 0 sinon. α représente le gain du système
permettant d’empêcher la saturation du champ (0 < α < 1).
Sans connections latérales, chaque neurone Di réalise simplement la somme de toutes ses activités
passées depuis la dernière remise à zéro. Le champ D encode le chemin total parcouru
depuis le point de départ et conserve une forme sinusoïdale (voir fig. 2.15). L’amplitude du
neurone gagnant reflète la distance parcouru en ligne droite (à vol d’oiseaux) et son abscisse
représente la direction du mouvement global (voir [Gaussier et al., 2007] pour une description
complète).
FIGURE 2.15 – Principe de l’intégration de chemin. A - Les animaux ont cette capacité d’évaluer la distance les
séparant de leur nid ainsi que l’orientation à prendre pour le rejoindre (homing vector), et ce simplement en intégrant
leurs mouvements au fil de leur déplacement. B - De la même manière, un robot peut estimer en temps-réel son
vecteur-retour en cumulant angle et norme de chacun de ses vecteurs mouvements élémentaires. C - Dans notre
modèle, ces vecteurs sont représentés par des sinusoïdes dont l’amplitude correspond à la distance et la phase à
l’orientation. On montre que la résultante de la somme de ces sinusoïdes n’est autre qu’une sinusoïde correspondant
au vecteur-mouvement global.
Cette stratégie se trouve être plus précise localement en comparaison d’une stratégie basée
sur des informations allothétiques (externes) telle que la navigation visuelle. Néanmoins l’intégration
de chemin possède l’inconvénient d’introduire une erreur cumulative d’autant plus
grande que l’on navigue depuis longtemps. Par la suite, il sera nécessaire de recourir à un mé-
canisme de recalibration pour limiter cette dérive. Nous reviendrons sur ce mécanisme de recalibration
dans le chapitre 4.
Dans le chapitre suivant, nous allons nous intéresser à l’analyse du modèle de navigation
sensori-moteur PerAc en adoptant un point de vue probabiliste. Nous verrons les liens existants
entre ce modèle réactif et d’autres modèles statistiques de reconnaissance de lieu, basés sur une
approche bayésienne.
- 62 -CHAPITRE 3
Un parallèle entre formalisme neuronal et
bayésien
La navigation robotique autonome en environnement réel repose sur des mesures bruitées.
C’est la raison pour laquelle la plupart des travaux robotique de localisation, de cartographie
ou encore de planification sont basés sur des algorithmes probabilistes. La nature statistique de
ces méthodes permet de prendre en compte les incertitudes présentes sur les données mesurées
au détriment d’une faible réactivité. Pourtant, la nature nous montre que la plupart des animaux
sont tout à fait capables d’extraire l’information utile à partir de signaux bruités, tout en conservant
cet aspect réactif. Les approches neuromimétiques peuvent donc nous fournir des solutions
robustes et innovantes pour aborder ce genre de problème. Par ailleurs, de récents travaux ont dé-
montré que le cerveau était capable de réaliser des calculs très similaires aux processus bayésiens
[Deneve S, 2004]. De même qu’il est connu depuis longtemps que l’apprentissage d’un conditionnement
classique est équivalent au calcul d’une probabilité conditionnelle [Rescorla, 1988].
Les approches bayésiennes et neuromimétiques tendent donc à se rapprocher.
Nous proposons, dans ce chapitre, de comparer ces 2 approches dans le cadre de l’auto-évaluation
et de la navigation sur de grandes distances. En prenant inspiration de travaux en psychologie et
neurobiologie, nous avons d’ores et déjà proposé des solutions pour permettre à un robot de naviguer
dans de petits environnements (typiquement 1 salle) et pour de courtes durées (quelques
heures) : se référer à la section 2.5 du chapitre précédent. Cependant, plusieurs questions restent
ouvertes si l’on désire réaliser le même type de tâches dans des environnements fortement dynamiques
et sur de longues périodes temporelles. Les systèmes de navigation robotique autonomes
font face à des problèmes d’imprécisions des mesures liées au capteurs et d’incertitudes
liées à la contrainte d’un environnement dynamique. L’exploration et la navigation sur
le long terme sont des tâches assez ardues. Le changement d’échelle dans la taille de l’environnement
implique un apprentissage et une gestion d’un volume de données conséquent qui
ouvre certaines interrogations. Comment outrepasser le problème du rapport signal à bruit qui
tend à décroître avec le volume d’information ? Comment lever l’ambiguïté présente sur les informations
visuelles et réduire l’incertitude de la localisation ? Les systèmes robotiques visant
un comportement autonome doivent faire face à 2 principaux défis. Premièrement, le système
doit être capable d’extraire et apprendre de manière active l’information pertinente en ignorant
celle inutile à la tâche. Deuxièmement, le système doit être capable d’évaluer la qualité de son
comportement et l’adapter en fonction de la situation.
- 63 -3.1. LIMITATIONS DU MODÈLE ACTUEL
Dans ce chapitre nous nous intéressons au premier point en proposant une réflexion et des solutions
au problème de l’extraction de l’information pertinente pour la tâche. On notera qu’une
telle capacité à sélectionner l’information pertinente implique en elle même une certaine capacité
d’évaluation.
Nous commencerons par décrire les limitations du modèle d’apprentissage figé précédent. Adopter
une approche probabiliste permet de réduire l’ambiguïté inhérente à toute perception visuelle en
donnant au système une capacité à inférer sa position par l’apprentissage de la pertinence des
amers dans un lieu donné. Nous ferons un rapide tour des méthodes existantes dans la littérature
traitant ce type de problème avant d’analyser notre propre modèle de cellules de lieu hippocampiques
sous le prisme de l’approche probabiliste. Nous n’essaierons pas de comprendre
le fonctionnement de ce réseau neuronal en termes probabilistes, mais plutôt de proposer deux
modèles probabilistes équivalents au modèle neuronal. Ces 2 modèles probabilistes correspondent
à 2 façons différentes d’aborder le problème. Ils utiliseront simplement les mêmes entrées
et viseront à fournir des sorties équivalentes en empruntant finalement au modèle neuronal que
les notions que ce dernier manipule.
A partir de cette comparaison entre approche neuronale et bayésienne, nous montrerons comment
un robot est capable d’apprendre à inférer la reconnaissance d’un amer à partir de la perception
de son azimut. Nous montrerons, de la même manière, comment construire des cellules
de lieu "probabilistes" en apprenant à inférer la reconnaissance d’un lieu à partir de la perception
d’une constellation d’amers-azimuts donnée.
3.1 Limitations du modèle actuel
Comme nous l’avons vu précédemment, notre architecture de reconnaissance de lieu a donné
de bons résultats lors de tâches de navigation dans de petits environnements et sur de courtes
durées. Les capacités de généralisation du système tenaient la première place, et l’usage d’une
simple compétition permettait de bonnes performances comportementales lors de tâches de navigation
typiquement limitées à une pièce et sur une période temporelle restreinte à quelques
heures. On peut se poser la question de la capacité de l’architecture à traiter des problèmes de
plus grande taille (plusieurs salles, environnements extérieurs) et à maintenir des performances
identiques à long terme (plusieurs jours, semaines, mois). Le système fait alors face à plusieurs
problèmes majeurs :
1. La nature ambiguë des informations visuelles amène à des interprétations multiples des
vues locales extraites. Lors d’une navigation dans un environnement complexe, une cellule
de lieu peut ainsi présenter des champs multiples, c’est à dire répondre à plusieurs
endroits dans l’environnement (voir fig. 3.1). La capacité d’un simple mécanisme de compétition
à proposer une interprétation cohérente diminue avec l’augmentation du nombre
de vues apprises (le rapport signal à bruit tend vers 0). La distance entre les prototypes
appris diminue avec le nombre d’amers et la probabilité de fausses alarmes augmente fatalement
[Giovannangeli, 2007]. Ce problème est bien connu en robotique mobile sous
le nom d’aliasing perceptif (perceptual aliasing) lorsque différentes portions de l’environnement
se ressemblent fortement [Marsland et al., 2001]. De précédents travaux ont
montré qu’une information de contexte apprise à la volée pouvait constituer une première
solution à ce problème en permettant à la fois de limiter la compétition (augmenter le rapport
signal à bruit) mais aussi de limiter la puissance de calcul nécessaire en ne calculant
- 64 -CHAPITRE 3. UN PARALLÈLE ENTRE FORMALISME NEURONAL ET BAYÉSIEN
globalement que l’activité des neurones associés au bon contexte [Cuperlier et al., 2008].
2. Dans l’architecture actuelle, tous les amers sont traités de manière identique. Le système
est incapable de procéder à un tri. Pourtant les amers peuvent avoir des caractéristiques
différentes (proximaux ou distaux, mobiles ou immobiles) et être plus ou moins pertinents
selon la tâche envisagée. Il est donc nécessaire d’introduire une capacité à prédire
la position ou le déplacement de ces amers afin de les caractériser. Ceux dont la position
angulaire reste invariante (sur une certaine distance) devraient avoir plus de poids dans la
reconnaissance que les amers mobiles, intermittents, redondants ou ambigus. Par ailleurs,
le temps de calcul évolue de façon linéaire (compléxité en O(N)) du nombres de lieux appris
[Giovannangeli, 2007]). L’ajout d’un mécanisme attentionnel de sélection des amers
pertinents permettrait non seulement de réduire les ambiguïtés mais également d’obtenir
une complexité asymptotique (bornée) ou logarithmique.
3. L’environnement réel est souvent fortement dynamique. Des amers stables sont amenés à
disparaître, tandis que d’autres se révèlent être mobiles et ne devraient donc pas être pris
en compte. L’apprentissage actuel "en un coup" ne permet pas de rendre compte de cet
aspect dynamique. Même si l’on considère le cas où de tels changements environnementaux
ne se produisent que rarement, le cumul de petites modifications et les variations
de luminosité posent le problème du maintien de l’activité des cellules de lieu dans le
temps. En effet, les tests actuels se limitent à des expériences de quelques heures et le
système est incapable de s’adapter à des reconfigurations lentes de l’environnement ou
aux changements saisonniers. L’apprentissage ne peut donc être statique, il doit lui aussi
être dynamique et adaptatif. Ce problème est connu sous le nom de dérive des concepts
(concept drift) [Tsymbal, 2004; Widmer and Kubat, 1996]. Les propriétés statistiques de
la variable que le modèle essaie de prédire évoluent au cours du temps d’une manière a
priori imprévisible. Ceci pose problème puisque les prédictions deviennent moins exactes
au fur et à mesure que le temps passe. Pour permettre au système de traiter ce problème
de dérive, celui-ci doit être capable de mettre à jour son modèle régulièrement en prenant
en compte les nouvelles observations. Parmi les différentes approches proposées par la
communauté du "machine learning" [Miroslav Kubat, 2004; Tsymbal, 2004; Witten and
Frank, 2005], l’apprentissage incrémental est considéré comme la méthode la plus adaptée
à la résolution de ce problème.
Jusqu’à présent, la question de savoir si un amer est pertinent ou non pour la navigation a
été largement ignorée ou remplacée par la préselection de modèle a priori servant à définir ce
qu’est un "bon" amer [Marsland et al., 2001]. Le risque est double : le superviseur humain peut
sélectionner des amers difficilement reconnaissables par la machine, ou bien, au contraire, négliger
des amers qu’il juge sans intérêt mais qui pourtant seraient pertinents pour le robot.
3.2 Approche bayésienne et notion d’inférence
L’inférence statistique consiste à déduire les caractéristiques statistiques inconnues d’une
population à partir d’un échantillon de cette population. Les caractéristiques de l’échantillon,
une fois connues, reflètent avec une certaine marge d’erreur celles de la population. Cette méthode
de réflexion est souvent attribuée à l’homme et serait fonctionnelle dès la naissance. Pourtant
- 65 -3.2. APPROCHE BAYÉSIENNE ET NOTION D’INFÉRENCE
FIGURE 3.1 – Expérience mettant en évidence la présence de nombreuses ambiguïtés visuelles au sein d’un couloir.
Le robot a appris 4 lieux régulièrement espacés (A,B,C et D) dans le couloir. Le niveau de reconnaissance de ces lieux
est ensuite enregistré lors d’une navigation de A vers D à vitesse constante. Chaque panorama à 180° correspond à la
vue subjective du robot au moment de l’apprentissage du lieu correspondant. L’environnement est ici particulièrement
ambigu avec des lieux qui se ressemble fortement. Le tracé des niveaux d’activité montre de nombreux faux positifs.
la vision dominante du XXème siècle est celle de la confusion du bébé : selon W. James, le bébé
est un organisme soumis à des entrées sensorielles et incapable pendant une très longue période
de les organiser convenablement [James, 1950]. Ce point de vue est partagé par la pédiatrie
de l’époque qui considère alors le très jeune enfant comme dépourvu de capacité de structurer
ses sensations. Cette vision a également guidé l’oeuvre de Piaget [Piaget, 1967] qui considérait
l’enfant de moins de 4 ans comme "précausal", c’est à dire incapable de remonter aux causes
de ce qu’il percevait. Durant la première année de vie, selon lui, l’enfant ne vivrait que dans
le présent, incapable de saisir la permanence des objets, incapable de se représenter un objet
disparu et encore moins de créer des modèles mentaux abstraits de ses connaissances.
Plus récemment (2004), de nouvelles visions réfutent la théorie piagetienne en proposant l’idée
d’une rationalité précoce chez l’enfant. Les enfants semblent posséder des théories intuitives
du monde physique, biologique, psychologique et de sa structure causale [Schulz and Gopnik,
2004]. Une première théorie propose que le bébé dispose dès la naissance d’un noyau de connaissances
fondamentales et innées (core knowledge). Ces connaissances comprendraient les
concepts d’objet [Kellman and Spelke, 1983], de nombre [Mehler and Bever, 1967], d’espace
[Landau et al., 1981] et même de ce que les auteurs appellent une "grammaire universelle"
[Chomsky, 1961; Gleitman et al., 1995; Komarova et al., 2001].
Selon une seconde théorie, quand l’enfant joue, il réaliserait en réalité des expériences permettant
de tester des modèles comme le ferait un scientifique. Le bébé serait capable de ma-
- 66 -CHAPITRE 3. UN PARALLÈLE ENTRE FORMALISME NEURONAL ET BAYÉSIEN
nipuler des probabilités, de sélectionner les variables pertinentes, d’éliminer les variables nonpertinentes,
de repérer des ambiguïtés ou interprétations multiples et enfin de lever ces ambiguïtés
par le jeu [Gopnik, 2001; Gopnik and Rosati, 2001; Oudeyer et al., 2005]. Certains
principes, même très abstrait, peuvent ainsi être sélectionnés par apprentissage bayésien. Il n’est
alors plus nécessaire de supposer qu’ils soient innés comme le postule la théorie précédente
et l’on peut supposer que le bébé découvre par lui même les concepts d’objet, d’espace et de
grammaire. L’approche bayésienne permet en fait un compromis entre connaissances innées et
acquises.
La théorie de l’inférence bayésienne est une théorie mathématique simple qui peut être vue
comme une extension de la logique en ce sens qu’elle permet de raisonner en présence d’incertitude.
Le raisonnement peut ainsi s’étendre à un continuum de plausibilité plutôt que de se
limiter à des conclusions binaires. A l’inverse de l’approche statistique, nécessitant un grand
nombre d’observations, l’approche bayésienne permet des inférences rapides et sophistiquées
en seulement quelques exemples. Cette particularité expliquerait, par exemple, la capacité des
jeunes enfants à tirer des conclusions correctes à partir d’un petit nombre d’expériences [Gopnik
et al., 2001]. Les inférences bayésiennes rendent aussi bien compte des processus de perception
en proposant l’interprétation la plus probable à partir d’entrées ambiguës. Une expérience de
Xu et Garcia montre que les enfants sont capables de telles inférences dès l’age de 8 mois [Xu
and Garcia, 2008]. De récents travaux suggèrent que des processus statistiques sont à l’oeuvre
dans le cerveau et montrent comment certains codages en population implémentent les principes
de bases de l’approche bayésienne. Afin de pouvoir réaliser ces inférences, l’enfant serait donc
contraint de raisonner en termes de probabilités et serait également capable de se représenter les
distributions de ces probabilités [Pouget et al., 2013]. Par ailleurs de nombreux travaux ont montré
que les processus sensori-moteurs à l’oeuvre dans le système nerveux étaient bien modélisés
par une approche bayésienne, aussi bien pour réduire les ambiguïtés de la perception [Kersten
et al., 2004], combiner informations a priori et observations [Mamassian et al., 2002], lier les
informations provenant de plusieurs modalités [Körding et al., 2004] et modéliser des raisonnements
complexes [Doya, 2007].
Pratiquement toutes les méthodes de localisation robotique partagent la caractéristique commune
d’aborder le problème de la navigation selon une approche probabiliste. Ces méthodes
ont recours aux inférences bayésiennes afin de transformer les données brutes, extraites des capteurs,
en information exploitable pour la localisation. Certains travaux font usage explicitement
de méthodes d’inférences probabilistes, tandis que d’autres ne semblent pas, à première vue,
reposer sur de telles méthodes mais celles-ci peuvent en réalité être interprétées comme telles
sous certains aspects [Thrun, 2002b]. La raison de ce succès provient du fait que la robotique est
caractérisée par des incertitudes et du bruit de mesure important. Les algorithmes probabilistes
traitent le problème en modélisant explicitement différentes sources de bruit et leurs effets sur
les mesures. Ce problème est sans doute le problème le plus complexe en robotique mobile et
a contraint la communauté à adopter une vision singulière en utilisant une méthodologie math-
ématique unique pour le résoudre. Le principe de base qui sous-tend la plupart des algorithmes
de SLAM est la règle de Bayes [Bayes, 1763]. Supposons que nous voulions en savoir plus sur
une quantité X (e.g. un lieu), à partir de données de mesure D (e.g. données issues de capteurs
ultrasons, odométrie, vision). La règle de Bayes nous dit que l’on peut déterminer la probabilité
de X sachant D, si l’on connaît les probabilités de X, de D et de D sachant X :
- 67 -3.3. NOTRE MODÈLE DE CELLULES DE LIEU D’UN POINT DE VUE BAYÉSIEN
p(X|D) = p(D|X)p(X)
p(D)
(3.1)
Le terme p(X) est appelé probabilité à priori de X. Il représente l’état des connaissances
sur X à un instant donné. De même, le terme p(D) représente la probabilité à priori de D. Cette
probabilité est un terme de normalisation de l’équation. Elle assure que la somme des probabilités
soit égale à 1. Le terme p(X|D) est appelé probabilité a posteriori de X sachant D. Cette
probabilité représente l’inférence ou la "conclusion" que l’on peut tirer sur la variable X à partir
des observations D. Le terme p(D|X), pour un D connu, est appelé fonction de vraisemblance
(likelihood) de X. Il spécifie la probabilité d’observer la mesure D sous l’hypothèse X. On peut
comprendre la règle de Bayes comme :
P osteriori =
V raissemblance.Apriori
Normalisation (3.2)
Autrement dit, si l’on connaît dans le détail les causes possibles d’une conséquence observée,
l’observation des effets permet de remonter aux causes. A titre d’exemple, la simple observation
de la tour Eiffel permet avec une grande probabilité d’en déduire que l’on se situe à Paris, puisque
l’expérience nous aura appris que (1) Paris est une ville unique, (2) la tour Eiffel est également
unique et enfin (3) la tour Eiffel n’est visible qu’a Paris (en omettant les copies présentes à Tokyo
et Las Vegas !).
Les travaux de [Khatib, 1986; Thrun, 1995; Lebeltel et al., 2004] ont permis de développer
l’approche bayésienne standard pour la navigation robotique (autour de Thrun dont le livre
"Probabilistic robotics" fait autorité [Thrun, 2002a]). D’autres travaux proposent une comparaison
entre approche neuronale et probabiliste [Ma et al., 2006; Rao et al., 2002; Pfister et al.,
2003]. Ces travaux visent à comprendre le fonctionnement d’un réseau neuronal en termes probabilistes.
Les travaux de [Filliat and Meyer, 2002] évoquent les relations entre SLAM et construction
de carte cognitive. D’autres travaux [Torralba, 1999; Ullah et al., 2008] utilisent une
approche probabiliste pour la reconnaissance sémantique de lieux. Il n’y a cependant pas de lien
direct entre cellules de lieu et lieu sémantique, ces derniers ne faisant pas partie du cadre de la
localisation.
De manière générale, on dénote peu de travaux sur une modélisation neuronale des mécanismes
d’inférences. La plupart des auteurs réalisent en réalité l’inverse en montrant que leur modèle
neuronal possède bien des propriétés probabilistes afin de pouvoir appliquer la règle de Bayes.
3.3 Notre modèle de cellules de lieu d’un point de vue bayésien
Nous présentons ici deux modèles probabilistes manipulant les mêmes notions que le modèle
neuronal. Tout deux utilisent les mêmes entrées et visent à fournir des sorties équivalentes. Les
modèles probabilistes de localisation ou de SLAM partent de l’hypothèse d’existence d’amers
et d’une mesure de position. Nous partons de l’existence d’amers (caractérisés dans le modèle
par la conjonction d’une signature et d’un azimut) et de lieux.
Notons :
- 68 -CHAPITRE 3. UN PARALLÈLE ENTRE FORMALISME NEURONAL ET BAYÉSIEN
– {s
k
, θk}k∈{1..K}
: l’ensemble des vues locales extraites des images aux positions k. Ce
sont des variables aléatoires continues.
– s
(1..K)
: la collection de toutes les signatures de 1 à K et s
k
: la signature k.
– a
i
l =< wl
, si > : la valeur d’activation de la cellule l pour la vignette i du vecteur d’amers.
– a
i
θ =< θ, θi > : l’activation de la cellule θ (les crochets ne décrivant pas un produit
scalaire mais simplement une distance).
– a
i
Θ, a
i
L
et a
i
Y
représentent les vecteurs {aθ}θ∈[1..M]
, {al}l∈[1..N] et {ay}y∈[1..N][1..M]
.
De façon générale, nous utiliserons les indices pour désigner les variables aléatoires et les
exposants pour désigner une observation. Les variables aléatoires seront représentées en majuscule,
leurs valeurs en minuscule. On fera une exception pour les variables d’entrée où variables
et valeurs seront confondues afin de simplifier les notations.
3.3.1 Description générale du problème
Les entrées du système sont organisées autour d’un vecteur d’amers (landmarks) et d’un
vecteur d’azimuts qui se combinent au sein d’une carte bidimensionnelle dont les sorties sont
utilisées pour activer un vecteur de cellules de lieu (voir fig. 3.2). Les variables aléatoires associées
à ces différents vecteurs ou cartes sont respectivement L, A, Y et X. Dans la suite de cette
section, nous aurons recours au terme anglais "landmark" pour désigner un amer visuel.
Les entrées sont constituées d’une collection de vignettes vues selon différents azimuts. Elles
sont représentées par la collection de variables s
(1..K)
, θ(1..K)
.
Les variables L et A sont assimilées aux valeurs des indices des cartes de landmarks et d’azimuts.
Ce sont donc des variables discrètes. Il est alors possible d’utiliser P(L = l|s
k
), la probabilité
que la variable L prenne la valeur l lorsque l’on sélectionne la signature s
k
, c’est à dire la probabilité
que la cellule l soit sélectionnée (ou activée) par la signature s
k
. Dans le cas de l’azimut,
la variable A peut prendre des valeurs d’angle θ en présence de la signature k vue sous l’azimut
θ
k
. La probabilité qu’elle prenne une valeur θ donnée est P(A = θ|θ
k
).
Ces deux variables L et A se combinent en une carte bidimensionnelle Y correspondant au
groupe ΣΠ (voir PrPh : 2.5.1). Y est ensuite utilisée pour produire une variable aléatoire X
correspondant aux cellules de lieu. Ces variables sont également discrètes. Y désigne donc les
cellules de la carte ΣΠ et ses valeurs les indices de cette carte.
Il est possible d’envisager deux approches du traitement des observations successives. La
première conduit à factoriser dans un premier temps en fonction des observations puis de
tenter d’évaluer les termes intermédiaires. La seconde reporte la factorisation dans une étape
ultérieure.
3.3.2 Factorisation immédiate
Nous proposons de déterminer la probabilité P(X = x|{S = s
k
, Θ = θ
k}k∈[1..K]
) d’être
dans un lieu x, connaissant un ensemble de signatures s
k
et leur azimut θ
k
, que nous simpli-
fierons par l’expression P(x, {s
k
, θk}k∈[1..K]
). Afin de calculer cette probabilité, nous utiliserons
un estimateur MAP (Maximum A Posteriori) [Duda et al., 2001] :
x
∗ = argmax
x
P(x|{s
k
, θk
}k∈[1..K]
).P({s
k
, θk
}k∈[1..K]
) (3.3)
- 69 -3.3. NOTRE MODÈLE DE CELLULES DE LIEU D’UN POINT DE VUE BAYÉSIEN
FIGURE 3.2 – Description du modèle de cellules de lieu. Le système prend comme entrées un vecteur d’amers
(landmarks) L et un vecteur d’azimuts A. Les 2 vecteurs se combinent au sein d’une carte Sigma-Pi Y (PrPh) dont
les sorties servent à activer un vecteur de cellules de lieu X. L’activité d’un neurone de landmark peut être interprétée
comme le reflet de la probabilité P(l
k
/si
) de percevoir le landmark l
k
sachant la signature s
i
. Cette probabilité est
donnée par une mesure de distance entre la signature apprise s
0
et la signature perçue s
i
. De même pour l’azimut
θ
k
de ce landmark, l’activité d’un neurone d’azimut reflète la probabilité P(θ
k
/si
) de percevoir l’azimut θ
k
sachant
la signature s
i
. Les neurones de la carte Y peuvent être interprétée comme la probabilité P(y/lk
, θk
) d’obtenir
la conjonction du landmark l
k
et de l’azimut a
k
. Finalement l’activité d’une cellule de lieu est définie comme la
probabilité P(x/l1..K, θ1..K).
La question générale à résoudre est de calculer la probabilité P(x|{s
k
, θk}k∈[1..K]
). On consid-
ère dans un premier temps que les observations sont indépendantes. La règle de Bayes donne :
P(x|{s
k
, θk
}k∈[1..K]
) =
P({s
k
, θk}k∈[1..K]
|x)
P({s
k, θk}k∈[1..K]
)
P(x) (3.4)
Si l’on fait l’hypothèse d’indépendance statistique des données, nous pouvons écrire :
P(x|{s
k
, θk
}k∈[1..K]
) = Y
K
k=1
P(s
k
, θk
|x)
P(s
k, θk)
P(x) (3.5)
Soit en appliquant à nouveau la règle de Bayes :
P(x|{s
k
, θk
}k∈[1..K]
) = Y
K
k=1
P(x|s
k
, θk
).P(s
k
, θk
)
P(s
k, θk).P(x)
P(x) (3.6)
=
Y
K
k=1
P(x|s
k
, θk
)
P(x)
P(x) =
P(x)
P(x)K
Y
K
k=1
P(x|s
k
, θk
) =
1
P(x)
K−1
Y
K
k=1
P(x|s
k
, θk
)
(3.7)
- 70 -CHAPITRE 3. UN PARALLÈLE ENTRE FORMALISME NEURONAL ET BAYÉSIEN
On notera le terme ℓ
s
k
, θk
pour désigner la vraissemblance des observations :
ℓ
h
s
k
, θk
i
=
Y
K
k=1
P(s
k
, θk
|x)
P(s
k, θk)
(3.8)
Distributions intermédiaires :
Nous pouvons désormais nous intéresser aux termes du produit QK
k=1 P(X = x|s
(k)
, θ(k)
).
En introduisant pour chaque terme de ce produit les variables intermédiaires Lk et Ak :
P(x|s
k
, θk
) = X
l,θ
P(x|Lk = l, Ak = θ)P(Lk = l, Ak = θ|s
k
, θk
) (3.9)
Dans ce modèle les variable Lk et Ak désignent les index des cartes de landmarks et d’azimuts.
Moyennant l’indépendance de Ak et Lk :
=
X
l,θ
P(x|Lk = l, Ak = θ)P(Lk = l|s
k
)P(Ak = θ|θ
k
) (3.10)
L’équation générale du modèle s’écrit alors (voir fig. 3.3) :
P(x|{s
k
, θk
}k∈[1..K]
) =
1
P(x)
K−1
Y
K
k=1
X
l,θ
P(x|Lk = l, Ak = θ)P(Lk = l|s
k
)P(Ak = θ|θ
k
)
(3.11)
FIGURE 3.3 – Graphe de dépendance entre les différentes variables du modèle. la signature Sk d’un amer physique
donne lieu à la mesure de son identité Lk et de son azimut Ak. Les variables intermédiaires Yk de la carte Sigma-Pi
dépendent de la co-activation (produit) du couple Lk et Ak. Un lieu Xk est définit comme la somme d’un ensemble
de variables intermédiaires Yk.
Nous allons considérer séparément les trois termes de l’équation 3.11.
- 71 -
Protection obligatoire r´epartie : usage pour le calcul
intensif et les postes de travail
Damien Gros
To cite this version:
Damien Gros. Protection obligatoire r´epartie : usage pour le calcul intensif et les postes
de travail. Other. Universit´e d’Orl´eans, 2014. French. .
HAL Id: tel-01080544
https://tel.archives-ouvertes.fr/tel-01080544
Submitted on 5 Nov 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.UNIVERSITÉ D’ORLÉANS
ÉCOLE DOCTORALE MATHEMATIQUES, INFORMATIQUE,
PHYSIQUE THEORIQUE et INGENIERIE DES SYSTEMES
LABORATOIRE D’INFORMATIQUE FONDAMENTALE
D’ORLÉANS
THÈSE présentée par :
Damien GROS
soutenue le : 30 JUIN 2014
pour obtenir le grade de : Docteur de l’université d’Orléans
Discipline/ Spécialité : Informatique
Protection obligatoire répartie
Usage pour le calcul intensif et les postes de travail
THÈSE DIRIGÉE PAR :
Christian TOINARD Professeur des universités, INSA Val de Loire
RAPPORTEURS :
Ludovic APVRILLE Professeur Assistant, Telecom ParisTech
Christian PEREZ Directeur de recherche INRIA, LIP, ENS Lyon
JURY :
Sébastien LIMET Professeur des universités, Université d’orléans,
Président du jury
Ludovic APVRILLE Professeur Assistant, Telecom ParisTech
Mathieu BLANC Docteur, CEA/DAM/Ile de France
Jérémy BRIFFAUT Maître de conférences, INSA Val de Loire
Christian PEREZ Directeur de recherche INRIA, LIP, ENS Lyon
Christian TOINARD Professeur des universités, INSA Val de LoireRemerciements
Je remercie MM. Ludovic Apvrille et Christian Pérez pour avoir accepté d’évaluer mes travaux
en étant rapporteurs de cette thèse. Je remercie M. Sébastien Limet pour avoir accepté de participer
à mon jury.
Je tiens à remercier mon directeur de thèse, Christian Toinard, pour son soutien et son aide
durant mes recherches, et de m’avoir offert la possibilité de réaliser cette thèse. Je remercie aussi
Mathieu Blanc pour m’avoir accueilli au sein de l’équipe SSI du CEA et m’avoir conseillé tout au
long de mes 3 années de thèse, et Jérémy Briffaut pour toute l’aide qu’il m’a apporté dans mes
travaux.
Je remercie le CEA/DAM/DIF de m’avoir accueilli pendant ces 3 années et de m’avoir fourni
les moyens de réaliser toutes les expérimentations nécessaires au cours de mes travaux.
Je tiens à remercier Pierre Clairet, Aurélie Leday et Maxime Fonda de m’avoir accueilli chez
eux lors de mes déplacements à Bourges. Je remercie aussi Sandrine pour sa relecture minutieuse
de ce mémoire ; Matthieu, Frédéric, Thierry, Pascal et Romain pour les nombreuses discussions
enrichissantes et pour toute l’aide qu’ils m’ont fourni durant cette thèse ; les membres de l’équipe
SDS du LIFO, permanents et non-permanents pour leur accueil durant mes séjours à Bourges.
Et enfin, je tiens à remercier mes parents, ma famille et mes amis pour leur soutien tout au
long de ces 3 années de thèse.
34Table des matières
Table des figures 9
1 Introduction 15
1.1 Contexte de l’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Observateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Exemples d’attaques visant les systèmes d’exploitation Linux et Windows . . . . 17
1.3.1 Exemple d’attaque pour les systèmes Linux . . . . . . . . . . . . . . . . 17
1.3.2 Exemple d’attaque pour les systèmes Windows . . . . . . . . . . . . . . 18
1.3.3 Analyse des deux attaques . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4 Objectif de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5 Apports de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.6 Plan du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 État de l’art 25
2.1 Propriétés de sécurité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.1 Propriétés générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.1.1 Confidentialité . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.1.2 Intégrité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.1.3 Disponibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.2 Propriétés dérivées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.2.1 Confinement de processus . . . . . . . . . . . . . . . . . . . . 27
2.1.2.2 Moindre privilège . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.2.3 Séparation des privilèges . . . . . . . . . . . . . . . . . . . . 28
2.1.2.4 Non-interférence . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Modèles de contrôle d’accès . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.1 Le contrôle d’accès discrétionnaire . . . . . . . . . . . . . . . . . . . . 29
2.2.1.1 Lampson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.1.2 HRU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.1.3 TAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1.4 DTAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.2 Le contrôle d’accès obligatoire . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2.1 Bell-LaPadula . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2.2 Biba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.2.3 Role Based Access Control . . . . . . . . . . . . . . . . . . . 35
2.2.2.4 Domain and Type Enforcement . . . . . . . . . . . . . . . . . 36
2.2.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Implantation des mécanismes de contrôle d’accès . . . . . . . . . . . . . . . . . 38
2.3.1 Linux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5TABLE DES MATIÈRES
2.3.1.1 SELinux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.1.2 grsecurity . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.1.3 Tomoyo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.1.4 Policy Interaction Graph Analysis . . . . . . . . . . . . . . . . 43
2.3.1.5 Politique et règle de contrôle d’accès . . . . . . . . . . . . . . 45
2.3.2 Windows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.3.2.1 Mandatory Integrity Control . . . . . . . . . . . . . . . . . . . 46
2.3.2.2 PRECIP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.2.3 Core Force . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.3 Distributed Security Infrastructure . . . . . . . . . . . . . . . . . . . . . 49
2.3.4 Impact sur les performances . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3 Modélisation et répartition d’observateurs 55
3.1 Définition d’un observateur pour les systèmes d’exploitation Linux et Windows . 56
3.1.1 Éléments de base de la protection système . . . . . . . . . . . . . . . . . 57
3.1.1.1 Modélisation du système observé . . . . . . . . . . . . . . . . 61
3.1.1.2 Mode de sécurité . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.1.2 Définition d’un observateur : le moniteur de référence . . . . . . . . . . 64
3.1.2.1 Phase de pré-décision . . . . . . . . . . . . . . . . . . . . . . 65
3.1.2.2 Phase de décision . . . . . . . . . . . . . . . . . . . . . . . . 68
3.1.2.3 Phase de post-décision . . . . . . . . . . . . . . . . . . . . . . 68
3.1.3 Répartition des observateurs . . . . . . . . . . . . . . . . . . . . . . . . 69
3.1.3.1 Association . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.1.3.2 Localisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.1.3.3 Redondance . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.1.3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.2 Modélisation d’une politique de contrôle d’accès direct . . . . . . . . . . . . . . 73
3.2.1 Grammaire de la politique . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2.1.1 La portabilité des noms utilisés pour les contextes . . . . . . . 76
3.2.1.2 Modélisation de la problématique des noms . . . . . . . . . . 77
3.2.2 Application de la grammaire sur deux modèles de protection pour les systèmes
Windows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.2.2.1 Policy-Based Access Control . . . . . . . . . . . . . . . . . . 81
3.2.2.2 Domain and Type Enforcement . . . . . . . . . . . . . . . . . 84
3.2.2.3 Lien entre la politique d’accès direct et le moniteur de référence 86
3.3 Les techniques de détournement sur les systèmes Windows . . . . . . . . . . . . 87
3.3.1 Explications des techniques . . . . . . . . . . . . . . . . . . . . . . . . 87
3.3.1.1 Détournement de la table des appels système . . . . . . . . . . 87
3.3.1.2 Inline-Hook . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.3.1.3 filter-driver . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.3.2 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.3.2.1 Place de l’observateur dans le contrôle d’accès de Windows . . 91
3.3.2.2 Contrôle des driver . . . . . . . . . . . . . . . . . . . . . . . 92
3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6TABLE DES MATIÈRES
4 Répartition d’observateurs en environnement HPC et analyse des performances 97
4.1 Méthode de mesure des performances d’un système réparti d’observateurs . . . . 98
4.1.1 Mesures globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.1.1.1 Mode colocalisé . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.1.1.2 Mode distant . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.1.2 Comparaison des performances . . . . . . . . . . . . . . . . . . . . . . 102
4.1.2.1 Combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.1.2.2 Un seul observateur . . . . . . . . . . . . . . . . . . . . . . . 102
4.1.2.3 Deux observateurs . . . . . . . . . . . . . . . . . . . . . . . . 102
4.1.3 Mesures détaillées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.1.3.1 Résultats déduits . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2 Solution pour répartir les observateurs dans un environnement HPC . . . . . . . . 107
4.2.1 Architecture avec deux observateurs en mode distant . . . . . . . . . . . 107
4.2.2 Choix des observateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.2.2.1 SELinux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.2.2.2 PIGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.2.2.3 Infiniband . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.2.3 Déport du mécanisme de prise de décision . . . . . . . . . . . . . . . . . 111
4.2.3.1 Le nœud client . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.2.3.2 Le proxy serveur . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.3 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.1 Les moyens de mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.2 Résultats sur les performances . . . . . . . . . . . . . . . . . . . . . . . 115
4.3.2.1 Architecture d’expérimentation . . . . . . . . . . . . . . . . . 115
4.3.2.2 Mesures globales . . . . . . . . . . . . . . . . . . . . . . . . 116
4.3.2.3 Mesures détaillées . . . . . . . . . . . . . . . . . . . . . . . . 118
4.3.2.4 Synthèse des mesures . . . . . . . . . . . . . . . . . . . . . . 120
4.4 Amélioration de la sécurité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.4.1 Propriété de sécurité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.4.2 Application de la propriété de sécurité . . . . . . . . . . . . . . . . . . . 124
4.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5 Contrôle d’accès obligatoire pour Windows et Expérimentations 127
5.1 Politique de contrôle d’accès direct . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.1.1 Path-Based Access Control . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.1.2 Domain and Type Enforcement . . . . . . . . . . . . . . . . . . . . . . 130
5.1.3 Modes de fonctionnement . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.1.4 Définition des politiques . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.1.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.2 Implantation des mécanismes de contrôle d’accès obligatoire . . . . . . . . . . . 138
5.2.1 Modification de la table des appels système . . . . . . . . . . . . . . . . 138
5.2.1.1 Architecture fonctionnelle . . . . . . . . . . . . . . . . . . . . 139
5.2.1.2 Détournement de la table des appels système . . . . . . . . . . 139
5.2.2 Architecture basée sur les filter-driver et les Kernel Callback . . . . . . . 142
5.2.2.1 Architecture globale . . . . . . . . . . . . . . . . . . . . . . . 142
5.2.2.2 Détournement des flux d’exécution . . . . . . . . . . . . . . . 143
5.3 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.3.1 Violation d’une propriété de confidentialité . . . . . . . . . . . . . . . . 145
5.3.1.1 Environnement des expérimentations . . . . . . . . . . . . . . 145
7TABLE DES MATIÈRES
5.3.1.2 Scénario des attaques . . . . . . . . . . . . . . . . . . . . . . 146
5.3.1.3 Violation directe . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.3.1.4 Violation indirecte . . . . . . . . . . . . . . . . . . . . . . . . 146
5.3.2 Étude de logiciels malveillants . . . . . . . . . . . . . . . . . . . . . . . 147
5.3.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
5.3.2.2 Architecture décentralisée . . . . . . . . . . . . . . . . . . . . 149
5.3.2.3 Protocoles des expérimentations . . . . . . . . . . . . . . . . 152
5.3.2.4 Visualisation des résultats et définition des propriétés de sécurité 153
5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5.4.1 Pertinence/complétude de la solution . . . . . . . . . . . . . . . . . . . 159
5.4.2 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
6 Conclusion 161
6.1 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
7 Bibliographie 165
I Annexes 169
A Configuration pour le logiciel linpack et utilisation 171
B Code utilisé pour la réalisation des tests de performances 173
C Les techniques de détournements 175
C.1 Détournement de la table des appels système . . . . . . . . . . . . . . . . . . . . 175
C.2 Inline Hook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
C.3 Filter-driver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
8Table des figures
1.1 Schéma présentant la place de l’observateur avec une politique de sécurité vis-à-
vis d’une interaction faite par un processus . . . . . . . . . . . . . . . . . . . . . 17
1.2 Schéma résumant les étapes de l’attaque pour l’exploitation d’une faille noyau
sous Linux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 Schéma résumant les étapes de l’installation d’un rootkit nommé ZeroAccess . . 19
1.4 Représentation sous la forme de liste des interactions directes . . . . . . . . . . . 20
1.5 Association d’observateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1 Couverture des propriétés dérivées vis-à-vis des propriétés générales de sécurité . 29
2.2 Représentation de Lampson d’une matrice d’accès . . . . . . . . . . . . . . . . . 30
2.3 Lois d’application des propriétés de BLP . . . . . . . . . . . . . . . . . . . . . . 33
2.4 Lois d’application des propriétés de BLP-restrictives . . . . . . . . . . . . . . . . 33
2.5 Modèle No Read Up/No Write Down . . . . . . . . . . . . . . . . . . . . . . . 34
2.6 Lois d’application des propriétés de Biba . . . . . . . . . . . . . . . . . . . . . 34
2.7 Modèle de protection des données : Biba . . . . . . . . . . . . . . . . . . . . . . 35
2.8 Schéma d’héritage du modèle RBAC1 . . . . . . . . . . . . . . . . . . . . . . . 36
2.9 Schéma du modèle DTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.10 Implantation des modèles RBAC et DTE par SELinux . . . . . . . . . . . . . . . 40
2.11 Fonctionnement de PIGA-CC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.12 Lois d’application des propriétés du MIC . . . . . . . . . . . . . . . . . . . . . . 46
2.13 Modèle de protection des données : MIC . . . . . . . . . . . . . . . . . . . . . . 47
3.1 Schéma du placement de l’observateur . . . . . . . . . . . . . . . . . . . . . . . 57
3.2 Écriture d’un fichier malveillant par Firefox : Windows et Linux . . . . . . . 57
3.3 Écriture détaillée d’un fichier malveillant par un navigateur web . . . . . . . . . 59
3.4 Placement de l’observateur pour détourner le flux d’exécution . . . . . . . . . . 59
3.5 Schéma global de détournement des flux pour les deux systèmes . . . . . . . . . 60
3.6 Mode de sécurité : requête/réponse de l’observateur . . . . . . . . . . . . . . . . 63
3.7 Mode de sécurité : évidence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.8 Mode de sécurité : notification . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.9 Schéma du moniteur de référence . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.10 Construction de la trace par le moniteur de référence : ajout de l’horodatage . . . 65
3.11 Construction de la trace par le moniteur de référence : ajout d’information pour
l’historique des processus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.12 Construction de la trace par le moniteur de référence : translation en une interaction 66
3.13 Construction de la trace par le moniteur de référence : schéma global . . . . . . . 67
3.14 Mode d’association : cascade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.15 Mode d’association : continuation . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.16 Mode de localisation : colocalisé . . . . . . . . . . . . . . . . . . . . . . . . . . 70
9TABLE DES FIGURES
3.17 Mode de localisation : distant . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.18 Mode de localisation : distant avec plusieurs nœuds et plusieurs observateurs . . 71
3.19 Mode de localisation : distant avec plusieurs nœuds et un seul observateur . . . . 71
3.20 Mode de redondance : diffusion des requêtes par le nœud . . . . . . . . . . . . . 72
3.21 Mode de redondance : architecture de la forme maître-esclave . . . . . . . . . . 72
3.22 Nommage des ressources au format PBAC . . . . . . . . . . . . . . . . . . . . . 75
3.23 Nommage des ressources au format DTE . . . . . . . . . . . . . . . . . . . . . . 75
3.24 Transition de rôle modifiant les accès possibles à certaines ressources du système 76
3.25 Correspondance entre une ressource et les emplacements physiques . . . . . . . 78
3.26 Correspondance entre une ressource et les emplacements logiques . . . . . . . . 79
3.27 Représentation de la fonction Nabs . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.28 Mécanisme de prise de décision du moniteur de référence . . . . . . . . . . . . . 87
3.29 Fonctionnement régulier d’un appel système présent dans la table des appels système 88
3.30 Mécanisme de détournement de la table des appels système . . . . . . . . . . . . 88
3.31 Mécanisme d’inline hook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.32 Architecture des filter-driver en prétraitement . . . . . . . . . . . . . . . . . . . 89
3.33 Place de l’observateur en prétraitement . . . . . . . . . . . . . . . . . . . . . . . 90
3.34 Architecture des filter-driver en post-traitement . . . . . . . . . . . . . . . . . . 90
3.35 Empilement de driver modifiant la table des appels système . . . . . . . . . . . . 93
3.36 Schéma détaillant la situation de concurrence sur la table des appels système . . . 93
4.1 Prise du temps de référence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.2 Prise du temps avec ajout du premier observateur . . . . . . . . . . . . . . . . . 99
4.3 Diagramme de séquence illustrant les temps mesurés lors l’ajout d’un seul observateur
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.4 Prise du temps global avec deux observateurs en mode colocalisé . . . . . . . . . 100
4.5 Diagramme de séquence illustrant les temps mesurés lors l’ajout de deux observateurs
en mode colocalisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.6 Prise du temps global avec un observateur en mode distant . . . . . . . . . . . . 101
4.7 Diagramme de séquence illustrant le temps global distant lors du déport du second
observateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.8 Prise du temps avec une communication et un observateur en mode distant . . . . 103
4.9 Diagramme de séquence illustrant les temps mesurés lors d’une communication
complète avec le second observateur en mode distant . . . . . . . . . . . . . . . 104
4.10 Prise du temps pour l’observateur 2 en mode distant . . . . . . . . . . . . . . . . 104
4.11 Diagramme de séquence illustrant les temps mesurés lors de la prise de décision
du second observateur en mode distant . . . . . . . . . . . . . . . . . . . . . . . 105
4.12 Architecture décentralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.13 Architecture de prise de décision de SELinux . . . . . . . . . . . . . . . . . . . 109
4.14 Insertion de PIGA dans l’architecture en mode colocalisé . . . . . . . . . . . . . 110
4.15 Schéma d’une communication RDMA sur un lien InfiniBand . . . . . . . . . . . 111
4.16 Architecture de protection sur un nœud client . . . . . . . . . . . . . . . . . . . 112
4.17 Architecture détaillée du contrôle d’accès sur un nœud client . . . . . . . . . . . 113
4.18 Architecture sur le serveur de sécurité . . . . . . . . . . . . . . . . . . . . . . . 113
4.19 Diagramme de séquence illustrant la mesure faite au niveau du proxy coté nœud
de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.20 Diagramme de séquence illustrant la mesure faite au niveau du proxy serveur pour
calculer le temps de prise de décision de PIGA . . . . . . . . . . . . . . . . . . 120
10TABLE DES FIGURES
4.21 Diagramme de séquence résumant les différentes mesures effectuées au sein de
l’architecture distribuée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.1 Schéma décrivant l’apprentissage d’une politique . . . . . . . . . . . . . . . . . 136
5.2 Architecture globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.3 Flux d’exécution classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.4 Flux d’exécution détourné par la modification de la SSDT . . . . . . . . . . . . . 142
5.5 Architecture de détournement basée sur l’utilisation de filter-driver et de kernel
callback . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.6 Statistiques sur la politique de contrôle d’accès pour le premier scénario . . . . . 145
5.7 Schéma du flux indirect conduisant à la violation de la propriété de confidentialité 147
5.8 Instrumentation du système pour l’analyse de logiciel malveillant . . . . . . . . . 150
5.9 Logiciel malveillant écrivant des fichiers dans la corbeille de Windows . . . . . . 154
5.10 Flash player écrit dans la Corbeille de Windows . . . . . . . . . . . . . . . 155
5.11 services.exe chargeant les fichiers écrits par les logiciels malveillants. . . . 155
5.12 Automate complet des interactions réalisées par le logiciel malveillant . . . . . . 156
5.13 Diagramme d’activité sur l’installation de l’infection . . . . . . . . . . . . . . . 157
11TABLE DES FIGURES
12Liste des symboles
ACL Access Control List : Ensemble des droits d’accès sur une ressource du système, page 30
BLP Bell-LaPadula : Modèle de protection basée sur la confidentialité des données, page 32
DAC Discretionary Access Control : Modèle de contrôle d’accès utilisé par la plupart des systèmes
d’exploitation laissant la gestion des droits à la discrétion de l’utilisateur, page 29
DTE Domain and Type Enforcement : Modèle de protection de haut niveau utilisant les notions
de domaine et de type pour abstraire les ressources, page 36
IRP I/O Request Packets : Structure en partie opaque du noyau Windows permettant la communication
entre les driver , page 89
LSM Linux Security Modules : Interface au sein des appels système sous Linux autorisant le
contrôle des actions, page 39
MAC Mandatory Access Control : Contrôle d’accès obligatoire imposant une politique de
contrôle d’accès aux utilisateurs du système, page 32
MIC Mandatory Integrity Control : Contrôle d’accès obligatoire basé sur les niveaux d’intégrité,
page 46
PBAC Path-Based Access Control : Modèle de protection basé sur les chemins complets des ressources,
page 41
RBAC Role-Based Access Control : Modèle de protection reposant sur les rôles des utilisateurs
pour donner les autorisations d’accession aux ressources, page 35
SSDT System Service Dispatch Table : Table des appels système sur les systèmes Windows,
page 140
NTFS New Technology File System : Système de fichiers propriétaire utilisé sur les systèmes
d’exploitation Windows, page 131
13TABLE DES FIGURES
14Chapitre 1
Introduction
1.1 Contexte de l’étude
L’actualité montre que les systèmes d’information et plus spécifiquement les systèmes d’exploitation
sont la source de vulnérabilités. Le premier système d’exploitation visé est Windows,
système le plus utilisé dans le monde pour les ordinateurs personnels et professionnels 1
. Ses principales
faiblesses résident dans les applications installées sur le système, qu’elles soient fournies
par l’éditeur du système d’exploitation ou par des éditeurs tiers. Ceci est confirmé par les rapports
annuels des éditeurs de logiciels antivirus 2
. Nous pouvons ainsi citer des attaques ciblant les logiciels
Adobe Reader 3 ou Adobe Flash Player 4
, particulièrement visés par les failles
récentes. Ces logiciels sont utilisés par les attaquants pour entrer sur le système d’exploitation afin
d’en modifier le comportement, de voler de l’information ou de contribuer à des attaques à grande
échelle (botnet, déni de service, etc.).
Les systèmes basés sur Linux font aussi l’objet d’attaques. Ces systèmes sont maintenant largement
répandus dans le monde des téléphones mobiles, et de plus en plus présents sur les ordinateurs
des professionnels et des particuliers, ce qui en fait une nouvelle cible pour les attaquants.
De plus, avec le développement des nouvelles technologies comme l’informatique en nuage (cloud
computing) ou les grilles de calcul, les menaces se font aussi présentes sur les systèmes distribués.
Auparavant, les attaques visaient essentiellement les serveurs pour y récupérer l’information qu’ils
hébergeaient. Maintenant, les systèmes répartis offrent des moyens d’attaque supplémentaires et
génèrent, par conséquent, des nouvelles problématiques de sécurité.
La protection des systèmes est devenue un enjeu majeur pour les sociétés actuelles, non seulement
pour protéger l’intégrité et la confidentialité des données qu’elles possèdent, mais aussi, et
c’est de plus en plus le cas, des données ou des services qu’elles hébergent pour le compte de tiers.
De plus, la fourniture de ses services est généralement contractuelle, leurs dysfonctionnement entraîne
donc des conséquences financières. Les sociétés proposant ce type de service se doivent
donc de proposer des moyens de sécurisation efficaces pour protéger les données de leurs clients.
Cette sécurisation du système et des données hébergées passe par la mise en place d’un mécanisme
de confiance capable de contrôler les interactions se déroulant au sein même du système. De
plus, la confidentialité et l’intégrité des données peuvent être assurées par l’utilisation de moyens
cryptographiques forts, que ce soit pour leur stockage ou pour leur transmission sur les réseaux.
1. Statistiques de l’entreprise NetMarketShare : http://www.netmarketshare.com/operatingsystem-market-share.aspx
2. Rapports 2014 de Symantec (http://www.symantec.com/fr/fr/security_response/
publications/threatreport.jsp) et Sophos (http://www.sophos.com/en-us/threatcenter/security-threat-report.aspx)
3. CVE-2014-0502 :http://www.cvedetails.com/cve/CVE-2014-0502/
4. CVE-2014-0497 : https://cve.mitre.org/cgi-bin/cvename.cgi?name=CVE-2014-0497
151.2. OBSERVATEUR
Les systèmes d’exploitation courants sont vulnérables à deux grands vecteurs d’attaque. Le
premier vecteur est l’utilisateur. Que ce soit de manière intentionnelle ou non, il peut faire sortir
ou modifier de l’information. Par conséquent, il faut contrôler de manière précise ses accès. Dans
un contexte de défense, cette vérification passe par la validation du niveau d’habilitation de l’utilisateur,
lorsque celui-ci souhaite accéder à une ressource classifiée. La gestion fine des accès aux
ressources du système donne l’assurance qu’un utilisateur ne peut accéder qu’aux ressources qui
lui sont destinées.
Le second vecteur est l’utilisation de logiciels tiers possédant des failles de sécurité. Les véri-
fications par l’analyse du code source de l’application ou par le reverse code engineering sont en
pratique complexes. En plus des logiciels tiers, le système lui-même possède des failles (applicatives
ainsi que noyau) qui sont corrigées régulièrement par les développeurs de ces systèmes.
Les systèmes d’exploitation classiques ne sont pas capables de se protéger contre ces deux
grands axes d’attaque. Il faut donc proposer d’autres approches. La première méthode concerne
les mécanismes cryptographiques capables de chiffrer les données ainsi que d’en vérifier leur
intégrité. La seconde méthode concerne les mécanismes de contrôle d’accès, qui vont garantir
que les opérations faites par les processus sur le système ne compromettent pas l’intégrité ou
la confidentialité. Nous pouvons ainsi citer les antivirus, les antimalwares, les mécanismes de
contrôle d’accès obligatoire, etc.
Notre étude va se concentrer sur l’analyse des mécanismes de contrôle d’accès limitant les
privilèges des processus, puisque, comme nous le montrerons au cours de cette thèse, c’est ce
point qui est la principale source de compromission. En effet, il manque des solutions efficaces,
performantes et extensibles capables de limiter et de contrôler les privilèges des processus.
Quel que soit le mécanisme de contrôle d’accès étudié (antivirus, antimalware, etc.), ils possèdent
tous une architecture commune composée de deux éléments : le premier élément est un
observateur et le second est une politique de sécurité. Nous nous attacherons à définir ces deux
éléments au cours de notre étude.
1.2 Observateur
Le contrôle des accès au sein même du système passe par la mise en place d’un observateur.
Un observateur est un mécanisme système détournant le flux d’exécution et réalisant des traitements
spécifiques vis-à-vis d’une politique de sécurité. Classiquement, ces traitements peuvent
être : auditer, interdire, autoriser, vérifier l’intégrité, etc. L’observateur se place généralement
en espace privilégié (noyau) afin de contrôler la totalité du système et offrir une confiance dans les
décisions qu’il prend. Le schéma 1.1 illustre le placement de l’observateur au sein du système.
Un observateur, contrôlant les interactions faites par les processus sur le système, doit commencer
par détourner le flux d’exécution régulier des processus afin de l’étudier. Ce détournement
doit être sûr car la protection ne doit pas pouvoir être supprimée par un utilisateur. De plus, il est
important que ce détournement n’introduise pas un surcoût prohibitif qui dégraderait les performances
du système. On peut notamment prendre pour exemple les antivirus qui consomment une
grande partie du temps processeur lors de leur analyse.
Dans le cadre d’un observateur contrôlant les accès au sein du système, il doit a minima analyser
les interactions directes. Une interaction directe est une représentation de l’activité observée
sous la forme d’un triplet (sujet, operation_elementaire, objet), qui se représente aussi de la
manière suivante :
sujet −−−−−−−−−−−−−−→
operation_elementaire
objet
161.3. EXEMPLES D’ATTAQUES VISANT LES SYSTÈMES D’EXPLOITATION LINUX ET
WINDOWS
Espace
utilisateur
Espace
noyau
Observateur
Processus Fichier
Ecriture
Politique
de sécurité
noyau
FIGURE 1.1 – Schéma présentant la place de l’observateur avec une politique de sécurité vis-à-vis
d’une interaction faite par un processus
Lorsqu’une interaction directe est interceptée, l’observateur recherche le triplet correspondant
à une règle dans la politique afin d’exécuter le traitement spécifique associé (autoriser, interdire,
auditer, etc.). Sinon il effectue un traitement par défaut, comme lever une alerte. Voyons dans ce
qui suit les limites du contrôle des interactions directes.
1.3 Exemples d’attaques visant les systèmes d’exploitation Linux et
Windows
À partir de deux exemples concrets pris pour les systèmes d’exploitation Linux et Windows,
nous allons illustrer le comportement des attaques pour en déduire les manques dans notre étude.
1.3.1 Exemple d’attaque pour les systèmes Linux
Les systèmes d’exploitation Linux sont aussi exposés aux attaques. On retrouve des attaques
exploitant des failles dans des logiciels tiers comme sur les systèmes Windows, mais aussi des
attaques réalisées volontairement ou involontairement par les utilisateurs dans le but d’obtenir des
privilèges supplémentaires. Dans les deux cas, le but est d’obtenir un accès administrateur (root)
sur le système pour réaliser des tâches privilégiées.
Il existe des moyens de protection efficaces sur les systèmes Linux. Ces mécanismes permettent
de contrôler les interactions directes faites entre les processus et les ressources du système.
Cependant, ils ne sont pas capables de contrer les attaques avancées correspondant à l’enchaînement
de plusieurs interactions directes, qui prises individuellement peuvent être légitimes, mais
qui constituent un scénario complet d’attaque.
Nous allons détailler un scénario d’attaque correspondant à l’exploitation d’une faille noyau
sur l’appel système perf_event_open 5
. Cette vulnérabilité permet d’obtenir un shell avec
5. CVE-2013-2094 :https://cve.mitre.org/cgi-bin/cvename.cgi?name=CVE-2013-2094
171.3. EXEMPLES D’ATTAQUES VISANT LES SYSTÈMES D’EXPLOITATION LINUX ET
WINDOWS
un accès root. La figure 1.2 illustre un exemple de 9 étapes constituant un ensemble d’interactions
directes définissant le scénario complet d’attaque permettant d’obtenir un terminal avec les
droits administrateur (un shell root).
FIGURE 1.2 – Schéma résumant les étapes de l’attaque pour l’exploitation d’une faille noyau sous
Linux
Cette attaque se déroule en plusieurs étapes. Nous avons tout d’abord une connexion de la part
de l’utilisateur, par exemple via ssh (0), l’utilisation d’un navigateur web tel que Firefox (1),
le téléchargement du logiciel malveillant (2-4) et son exécution (5-8).
Comme l’illustre la figure 1.2, le scénario complet d’attaque comporte 9 étapes composées
d’interactions "système" (création de fichier, exécution de programme), mais aussi d’interactions
"réseau" (connexion Internet, téléchargement, etc). Ce scénario met donc en jeu plusieurs types
d’interactions directes qui prises indépendamment ne constituent pas un risque.
Cette attaque illustre l’exploitation d’une faille du noyau Linux.
1.3.2 Exemple d’attaque pour les systèmes Windows
Les logiciels malveillants (malware) ciblant les systèmes d’exploitation Windows sont de plus
en plus complexes. Ils utilisent des techniques assez évoluées pour se dissimuler au sein même du
système. Il est donc nécessaire de mettre en place des mécanismes de protection avancés contrôlant
les processus.
Les attaques actuelles contre les systèmes Windows passent souvent par les navigateurs web et
les plugins installés. Les plugins sont des modules additionnels pour les navigateurs qui apportent
des fonctionnalités supplémentaires, comme lire des fichiers pdf ou exécuter du code en flash. La
figure 1.3 montre le cheminement d’une attaque d’un rootkit nommé ZeroAccess [McAfee, 2013].
181.3. EXEMPLES D’ATTAQUES VISANT LES SYSTÈMES D’EXPLOITATION LINUX ET
WINDOWS
FIGURE 1.3 – Schéma résumant les étapes de l’installation d’un rootkit nommé ZeroAccess
Afin de compromettre le système, le malware va effectuer une suite d’interactions directes.
Par l’exploitation d’une faille dans un navigateur ou dans un plugin du navigateur, le navigateur
va télécharger le malware sur le système (1,2). Le payload, c’est-à-dire la charge active installant
le rootkit s’exécute (3) via un installateur modifié de FlashPlayer (4-10). Le rootkit exploite une
faille dans un service système pour finaliser son installation (11, 12). Ce scénario complet est ainsi
constitué de 12 interactions directes.
1.3.3 Analyse des deux attaques
Ces deux scénarios complets d’attaque sont proches dans leur construction. Ils sont tous les
deux basés sur l’enchaînement de plusieurs interactions directes, c’est-à-dire une succession d’interactions
réalisées les unes à la suite des autres de manière logique, menant à la compromission
du système.
Pour contrer ce type d’attaque, il est nécessaire d’avoir un observateur capable d’intercepter
et de contrôler les interactions directes. Ainsi, l’analyse de ces interactions directes permet de
reconstruire le scénario complet sous la forme d’une liste de n interactions directes (figure 1.4).
Par exemple, pour l’attaque concernant le système Windows (figure 1.3), l’interaction numé-
rotée 3 peut se voir sous la forme :
Sujet3 : Firefox −−−−−−−−−−−−−−−−−→
operation_elementaire:open
Object3 : malware.exe
191.4. OBJECTIF DE LA THÈSE
FIGURE 1.4 – Représentation sous la forme de liste des interactions directes
Pour prévenir ce genre d’attaque, on pourrait supprimer (interdire dans la politique de contrôle
d’accès) une interaction directe de cette liste. Cependant, certaines interactions sont légitimes
comme l’écriture d’un fichier par Firefox. On ne peut donc pas interdire une des interactions
sans risquer de nuire au fonctionnement du système. Par conséquent, plutôt que d’interdire une
des n − 1 interactions intermédiaires, il est nécessaire d’analyser le scénario complet.
Pour pouvoir contrôler un scénario complet, il faut avoir un observateur réalisant des calculs
spécifiques. L’implantation d’un tel observateur, capable à la fois de gérer les interactions directes
et de reconstruire temporellement l’activité des processus est difficile à réaliser. En pratique, il
est préférable de pouvoir associer différents observateurs. Citons par exemple le défi [ANR, 2009]
dans lequel les développeurs ont mis en place deux associations d’observateurs : une première
composée de SELinux (mécanisme de contrôle d’accès obligatoire) et iptables (pare-feu) pour
contrôler les interactions directes, et une seconde composée de SELinux et de PIGA (voir la section
2.3.1.4) pour le contrôle des scénarios complets.
Afin qu’un observateur, tel que PIGA, puisse analyser le scénario complet, il faut qu’un premier
observateur lui communique chaque interaction directe horodatée. Il sera ainsi capable de
reconstruire et de contrôler les scénarios complets (figure 1.5).
1.4 Objectif de la thèse
Le travail réalisé au cours de cette thèse vise à améliorer la protection proposée par les systèmes
d’exploitation grâce à des approches avancées de contrôle d’accès.
Les mécanismes de protection, qu’ils soient système ou réseau, passent par la mise en place
d’un observateur. Cet observateur doit détourner le flux d’exécution et garantir sa conformité vis-
à-vis d’une politique de sécurité. Notre étude concerne les observateurs pour les systèmes d’exploitation,
leurs répartitions, leurs efficacités et leurs impacts sur les performances du système.
Nous définissons quatre objectifs majeurs pour cette thèse :
1. Définir un modèle d’observateur générique pour les systèmes d’exploitation.
— Pour mettre en place ce modèle, il faut définir de manière abstraite la notion d’observateur
pour les systèmes d’exploitation. Cette notion d’observateur doit être générale
et indépendante du système d’exploitation (Linux ou Windows).
— À partir de cette définition, nous proposerons une implantation fonctionnelle pour les
systèmes Windows d’un observateur capable de gérer les interactions directes car c’est
sur ce système qu’il y a les manques les plus importants.
2. Nous avons montré au cours de cette introduction qu’il était nécessaire de pouvoir associer
et répartir les observateurs pour prévenir efficacement les nouvelles menaces. Il nous faut
donc proposer un modèle général de répartition d’observateurs. Cependant, dans des mi-
201.5. APPORTS DE LA THÈSE
FIGURE 1.5 – Association d’observateurs
lieux où la contrainte en termes de performances est grande, il faut pouvoir évaluer l’impact
du modèle de répartition.
3. Il nous faut par conséquent, définir un protocole pour analyser les surcoûts engendrés par
l’association d’un ou plusieurs observateurs au sein d’un système et proposer des solutions
efficaces pour les réduire.
4. Afin de valider l’efficacité en termes de sécurité, nous développerons deux cas d’usage,
l’un pour les systèmes à haute performance sur Linux et l’autre par l’étude des malware
sur Windows.
1.5 Apports de la thèse
Nous indiquons, au travers de l’état de l’art, qu’il y a un manque de formalisation pour la notion
d’observateur. La protection du système passe par la possibilité de pouvoir répartir plusieurs
types d’observateurs, réalisant chacun des calculs spécifiques. Dans cette optique, nous proposons
une définition générique de la notion d’observateur pour les systèmes d’exploitation. Nous présenterons
au travers de notre modélisation, que cette définition ne dépend pas du système d’exploitation
sous-jacent. Ainsi, dans le but d’illustrer notre propos, nous montrerons que cette définition
s’applique aussi bien aux systèmes Linux qu’aux systèmes Windows.
Afin d’écrire la politique de sécurité d’un observateur, il est nécessaire d’avoir une grammaire.
Nous proposons donc une grammaire générique permettant l’écriture des règles de contrôle d’accès
directes pour tout type de système. Nous expliquerons comment cette grammaire supporte
deux modèles de protection différents s’appliquant à un large ensemble de systèmes différents.
211.5. APPORTS DE LA THÈSE
Cette partie répond à la problématique de définition de politique de sécurité générique pour les
systèmes.
L’écriture d’une politique de sécurité nécessite d’identifier de manière précise les ressources
du système. Nous retrouverons dans la littérature deux méthodes principales de désignation des
ressources. La première se base sur le chemin complet de la ressource dans le système de fichiers.
Cette méthode, qui a comme principal avantage d’être très usuelle, empêche d’avoir une politique
de sécurité parfaitement portable entre les systèmes. La seconde méthode pour désigner les ressources
se base sur la définition de types et de domaines. Cette méthode a le principal avantage
d’être beaucoup plus portable. Cependant, il est nécessaire d’assurer une correspondance entre
les ressources et la définition des types. Nous proposons donc une approche de désignation des
ressources applicable à Windows et à Linux et qui rend la politique portable.
Il existe des implantations d’association de plusieurs observateurs : SELinux et PIGA, SELinux
et iptables, etc. Néanmoins, il n’existe aucun modèle clair de répartition d’observateurs. Nous
définissons donc un modèle exploitable de répartition d’observateurs. Ce modèle permet de définir
l’association entre observateurs, mais décrit aussi un modèle pour spécifier la localisation ainsi
que le mode de redondance de chaque observateur.
L’intégration et la répartition des observateurs ne doivent pas nuire aux performances du système
observé. Mais pour connaître l’impact de l’ajout d’un mécanisme de sécurité sur le système,
il faut pouvoir le mesurer. Nous proposons donc une solution pour mesurer l’impact sur les performances
de l’ajout et de la répartition d’observateurs. Nous expliquerons comment nous sommes
capables d’identifier avec précision les éléments qui nuisent aux performances du système.
Nous décrivons donc un modèle pour mesurer le surcoût engendré par la mise en place d’un ou
plusieurs observateurs. Ce modèle est détaillé pour des observateurs colocalisés et distants. Nous
proposons l’implantation d’une association de deux observateurs au sein d’un environnement HPC.
Afin de réduire les temps de communication entre observateurs, nous déportons le second moniteur
en utilisant les technologies spécifiques présentes dans les environnements HPC. Nous illustrons
cette partie avec deux observateurs : SELinux pour le contrôle des interactions directes et PIGA
pour le contrôle des scénarios complets. Nous montrons ainsi que le déport du second observateur
permet de générer moins de latence par rapport à une architecture colocalisée.
Enfin, à partir de la définition générique d’observateur ainsi que de la formalisation de la création
d’une politique de sécurité, nous proposons une implantation d’un mécanisme de contrôle
d’accès obligatoire pour les systèmes Windows. Nous décrivons l’implantation des deux modèles
de politiques de sécurité supportées par notre langage et nous détaillerons les outils que nous avons
mis en place pour faciliter l’administration des politiques. Nous détaillerons les mécanismes permettant
de détourner de manière efficace les interactions directes sur les systèmes Windows. Nous
montrerons que ce mécanisme est capable de contrer les attaques simples, c’est-à-dire en contrô-
lant les interactions directes, et que, associé avec un second observateur, nous sommes capables
de contrôler les scénarios complets. De plus, nous expliquerons qu’il est possible de modifier cet
observateur dans le but d’analyser des logiciels malveillants pour en extraire des comportements
spécifiques. Cette partie répond à la problématique de manque de mécanisme de contrôle d’accès
obligatoire pour les systèmes Windows.
Le tableau 1.1 récapitule les apports de cette thèse.
— couleur verte : les solutions existantes ;
— couleur rouge : les éléments actuellement non satisfaisants que nous développerons dans
ce mémoire de thèse ;
221.6. PLAN DU MÉMOIRE
Linux Windows
Concept d’observateur
- Définition commune Manque une définition générique
Implantation d’observateurs
- Interactions directes SELinux, grsecurity SEWindows
AppArmor, Tomoyo, SMACK
Répartition des observateurs
- Modèle Modèle abstrait de répartition
- Implantation HPC Solution pour les systèmes répartis
Impact sur les performances
- Analyse des performances Solutions pour analyser
les performances des observateurs
- Réduction du surcoût Solutions pour réduire le surcoût des observateurs
TABLE 1.1 – Tableau présentant les apports de la thèse
1.6 Plan du mémoire
Le chapitre 2 fait l’état de l’art des propriétés de sécurité et des principaux modèles de contrôle
d’accès. Ensuite, nous traitons des implantations de contrôle d’accès obligatoire existantes sur les
systèmes Linux et Windows, en nous focalisant sur les implantations de référence pour chaque
système. Cette section se conclut par une synthèse listant les propriétés de sécurité que sont capables
de garantir les mécanismes que nous présentons. Enfin, nous nous intéressons à l’impact
des mécanismes de contrôle d’accès sur les performances du système. Ce chapitre se conclut en
exprimant tout d’abord, les manques des implantations de contrôle d’accès obligatoire existants
sur les systèmes Windows et ensuite, en exprimant le manque de formalisme quant à la répartition
de plusieurs observateurs au sein des systèmes.
Le chapitre 3 propose une formalisation de la notion d’observateur. Cette formalisation s’appuie
sur la modélisation d’un observateur système et sur la définition d’une politique de contrôle
d’accès directe. En formalisant la notion d’observateur, nous pourrons spécifier un certain type
d’observateur nommé moniteur de référence. De plus, nous nous attacherons à détailler des mécanismes
de détournement d’interactions directes pour les systèmes Windows. Nous proposons un
modèle de répartitions des observateurs prenant en compte les modes d’association, de localisation
et de redondance. La définition d’une politique de contrôle d’accès directe passe par la réalisation
d’une grammaire générique spécifiant les traitements de l’observateur lors du détournement d’une
interaction. Cependant, la création de règles d’accès passe par une méthode précise pour identi-
fier de manière unique les ressources du système. Pour cela, nous proposerons l’utilisation des
noms symboliques absolus indépendants de la localisation. Cette grammaire générique est ensuite
appliquée à deux modèles de contrôle d’accès directs, PBAC (path based access control) et DTE
(domain and type enforcement).
Dans le chapitre 4, nous proposons une approche permettant d’analyser le surcoût dû à l’association
d’observateur au sein d’un système. Pour cela, nous définissons des points de mesure
ainsi qu’une modélisation permettant de connaître le temps pris par chaque élément de l’association.
Puis nous implantons une répartition d’observateurs dans un environnement HPC. Nous pré-
senterons une répartition colocalisée et distante pour l’association de SELinux avec PIGA. Nous
détaillerons notre architecture permettant de déporter le second observateur, tout en utilisant les
technologies spécifiques du HPC pour réduire l’impact d’une telle association sur les performances
du système. Enfin, nous appliquerons notre méthode pour mesurer le surcoût de la répartition des
observateurs à notre approche HPC. Nous discuterons ainsi la faisabilité d’une répartition d’obser-
231.6. PLAN DU MÉMOIRE
vateurs dans les environnements à haute performance sur la base de notre méthode d’évaluation
des performances.
Dans le chapitre 5, nous proposons une implantation d’un mécanisme de contrôle d’accès
obligatoire pour les systèmes Windows nommé SEWINDOWS basée sur les deux modèles de protection
considérés au chapitre 3. Dans une première section, nous définirons deux politiques de
contrôle d’accès directes, basées sur les deux modèles de protection que nous avons définis dans le
chapitre 3. Nous expliquerons les choix techniques que nous avons dûs faire et notre approche pour
implanter une désignation adaptée des ressources. Puis nous détaillerons les deux mécanismes de
détournement des flux que nous avons implantés, le premier détournant les appels système en modifiant
une table système et le second par l’intégration d’un filter-driver. Enfin, nous détaillerons
les expérimentations que nous avons faites sur les systèmes Windows. Les premiers tests nous
ont permis de valider notre mécanisme de contrôle d’accès en bloquant des attaques. Nous montrons
par la suite, qu’en l’associant avec PIGA, nous pouvons gérer des scénarios complets. Puis,
nous utilisons notre mécanisme de contrôle d’accès dans le but de pouvoir étudier les logiciels
malveillants. Pour cela, nous expliquerons l’architecture et les outils permettant d’exploiter les
résultats obtenus.
Enfin le chapitre 6 résume les apports de cette thèse ainsi que les perspectives possibles autour
des travaux que nous avons présentés tout au long de ce mémoire.
24Chapitre 2
État de l’art
Les problématiques de contrôle d’accès sont présentes sur tous les systèmes d’information.
Cette thèse s’intéresse plus spécifiquement aux problématiques de confidentialité et d’intégrité
qui font partie intégrante des critères d’évaluation de la sécurité, que ce soit au niveau international
[TCSEC, 1985] qu’au niveau européen [ITSEC, 1991]. Ce chapitre présente les travaux de
référence en lien avec cette thèse, c’est-à-dire les travaux portant sur les problématiques de contrôle
d’accès dans des systèmes hétérogènes.
Ce chapitre s’organise de la manière suivante. Une première partie propose une définition gé-
nérale des propriétés de sécurité que nous souhaitons garantir au sein d’un système d’information.
Cette partie détaille les fondements de la sécurité informatique concernant le contrôle d’accès. La
seconde partie s’attache à décrire les différents modèles de contrôle d’accès. Ces modèles ont été
définis pour répondre aux problématiques mises en jeu par la définition des propriétés de sécurité.
La troisième partie traite de la mise en œuvre de ces modèles de contrôle d’accès. Nous avons
séparé cette partie en deux : une première section traite des mécanismes présents sur les systèmes
d’exploitation Linux tandis que la seconde s’attache aux systèmes Windows. Enfin, une section
traitera de l’impact sur les performances de tels mécanismes. Au sein de la discussion, nous ré-
sumerons les faiblesses constatées et nous décrirons le contexte dans lequel nos travaux prennent
place.
2.1 Propriétés de sécurité
Les besoins en sécurité s’expriment grâce à des propriétés de sécurité au sein d’une politique.
La littérature définit trois grands types de propriétés de référence. Ces propositions sont dépendantes
du contexte, des besoins ou encore des utilisateurs. Nous donnons ici une synthèse des défi-
nitions exprimées dans les documents de références [TCSEC, 1985, ITSEC, 1991, Bishop, 2003].
Nous avons divisé l’expression des propriétés de sécurité en deux parties : la première partie donne
des définitions des trois grands types de propriétés de sécurité, dites générales, alors que la seconde
partie exprime les propriétés dérivées de celles-ci.
2.1.1 Propriétés générales
Les trois propriétés de sécurité que nous décrivons dans cette partie sont à la base de la définition
des objectifs de sécurité. Ces objectifs de sécurité expriment les besoins des entreprises et des
systèmes en termes de sécurité.
252.1. PROPRIÉTÉS DE SÉCURITÉ
2.1.1.1 Confidentialité
La propriété de confidentialité exprime le besoin de prévention des accès non autorisés
à l’information. Elle prévient la divulgation de l’information non autorisée comme le défi-
nit [Bishop, 2003]. Elle peut être exprimée de la manière suivante :
Définition 2.1.1 Confidentialité La confidentialité est la prévention des accès non autorisés à une
information.
La propriété de confidentialité implique que seules les entités autorisées peuvent accéder à
l’information. Cette propriété est le plus souvent appliquée dans les milieux de défense assujettis
à la classification de l’information. Cette information ne doit être accessible qu’aux personnes
disposant de l’habilitation nécessaire.
2.1.1.2 Intégrité
La propriété d’intégrité exprime la prévention de toute modification non autorisée d’une information.
Aucun traitement non autorisé ne doit modifier les données que ce soit lors de leur
stockage ou lors de leur transmission. Cette propriété implique aussi que les données ne doivent
être modifiées ni de manière volontaire ni de manière accidentelle.
Définition 2.1.2 Intégrité L’intégrité est la prévention des modifications non autorisées d’une
information.
Tout comme la propriété de confidentialité, la propriété d’intégrité implique que seules les
entités autorisées du système ont le droit de modifier l’information.
2.1.1.3 Disponibilité
La propriété de disponibilité repose sur la possibilité d’accès à une donnée ou à un service
à tout instant. Cette notion est à rapprocher de la fiabilité d’un système puisque si un service
n’est pas accessible, il est considéré comme défaillant. En matière de sécurité informatique, cette
défaillance peut se traduire par l’épuisement d’une ressource partagée entre plusieurs entités du
système.
Définition 2.1.3 Disponibilité La disponibilité est la prévention de la rétention d’information ou
d’un service.
Le contexte d’application peut faire varier le sens de cette définition. En effet, les systèmes
critiques ont des besoins très forts en termes de disponibilité alors qu’un site internet aura des
besoins moindres. Cette propriété de sécurité se rapprochant plus de la sûreté de fonctionnement
que de la sécurité, elle sort du cadre de notre étude.
2.1.2 Propriétés dérivées
Les propriétés générales de sécurité sont extrêmement difficiles à mettre en place. En effet, en
pratique, un système est parfaitement intègre et respecte la propriété de confidentialité s’il ne rend
aucun service. C’est pour cette raison qu’à partir des propriétés de confidentialité, d’intégrité et de
disponibilité, il est possible de dériver de nouvelles propriétés de sécurité plus spécifiques qui sont
applicables sur les systèmes actuels. Ces propriétés dérivées sont des cas particuliers des 3 types
précédents.
262.1. PROPRIÉTÉS DE SÉCURITÉ
2.1.2.1 Confinement de processus
La problématique du confinement des processus a été écrite par Lampson [Lampson, 1973].
Définition 2.1.4 Confinement de processus Le problème du confinement concerne la prévention
de la divulgation, par un service (ou un processus), d’informations considérées comme confidentielles
par les utilisateurs de ce service.
Dans la résolution de cette problématique, Lampson énonce les caractéristiques nécessaires à
un processus pour qu’il ne puisse pas divulguer d’information. Une des caractéristiques principales
est qu’un processus observable ne doit pas stocker d’informations. Si un processus stocke de
l’information jugée confidentielle et qu’un utilisateur peut observer ce processus, alors il existe un
risque d’échange d’information entre le processus observé et l’observateur.
Cette propriété est impérativement transitive par nature. Si un processus lance un nouveau
processus, et qu’il n’est pas possible d’avoir confiance en ce dernier, alors il est nécessaire que ce
nouveau processus soit confiné lui aussi.
Le modèle de Lampson décrit dans la pratique la propriété d’isolation totale, c’est-à-dire qu’un
processus ne peut pas échanger d’information par quelque moyen que ce soit avec d’autres processus.
Cette propriété est pratiquement inapplicable dans les systèmes d’exploitation classiques,
puisque les processus partagent des ressources comme le processeur, le matériel, etc. Il existe, de
plus, des moyens de communication entre processus appelés les canaux cachés.
Définition 2.1.5 Canaux cachés Les canaux cachés sont des moyens de communication entre
deux entités actives du système. Ce moyen de communication n’est pas un moyen légitime de
communication dans la conception du système.
Prenons comme un exemple deux processus p1 et p2 qui ne peuvent pas communiquer entre
eux. Le processus p1 souhaite envoyer de l’information au processus p2, pour cela, il va trouver
une ressource que les deux peuvent partager, comme un élément du système de fichiers. Il va ainsi
pouvoir jouer soit sur le nom du fichier pour transmettre une information, soit sur le contenu du
fichier. Par exemple, en créant des fichiers nommés 0, 1 et end, il va pouvoir transmettre, sous
la forme d’un code défini entre les deux processus, un message chiffré à destination du second
processus.
2.1.2.2 Moindre privilège
Le principe de moindre privilège a été défini par [Saltzer et Schroeder, 1975]. Il établit qu’une
entité active du système ne devrait s’exécuter sur le système qu’avec les privilèges nécessaires à
la réalisation de sa tâche. Ce principe s’applique aussi bien aux processus qu’aux utilisateurs du
système.
Définition 2.1.6 Moindre privilège Le principe de moindre privilège est la réduction des droits
accordés à une entité active du système. Ce nouvel ensemble de droits doit être suffisant pour que
l’entité puisse réaliser sa tâche.
Cette propriété permet de réduire le nombre d’interactions entre les processus privilégiés et
ainsi réduire les comportements potentiellement non désirés sur le système.
272.1. PROPRIÉTÉS DE SÉCURITÉ
2.1.2.3 Séparation des privilèges
Le principe de la séparation des privilèges établit que des actions privilégiées (modification de
la configuration, mises à jour, etc.) doivent être réalisées par des utilisateurs ou processus diffé-
rents. Une première définition a été donnée par [Clark et Wilson, 1987]. Ils proposent d’assurer la
cohérence des objets du système en faisant une représentation fidèle des objets du système vis-à-
vis de la réalité. Or, il n’est cependant pas possible que cette cohérence soit assurée par un système
informatique car les systèmes d’information n’ont pas des senseurs leur permettant d’analyser
l’environnement extérieur. Ils proposent donc de séparer les opérations en différentes sous-parties
et que chaque partie soit exécutée par des utilisateurs différents, en prenant l’exemple d’un processus
d’achat, qui est divisé en plusieurs parties réalisées par des personnes différentes : la personne
qui fait la demande, celle qui fait la commande, celle qui paye, etc. Il est possible d’assurer la
cohérence des objets avec la réalité.
Définition 2.1.7 Séparation des privilèges La séparation des privilèges implique que les privilèges
soient distribués sur l’ensemble des utilisateurs.
Dans un système d’exploitation, ce principe est généralement appliqué au niveau des processus
système. Les processus privilégiés qui créent des fichiers n’ont généralement pas le droit de
les exécuter par la suite. On peut aussi étendre cette définition en l’appliquant directement aux
utilisateurs.
2.1.2.4 Non-interférence
Le principe de non-interférence [Focardi et Gorrieri, 2001] implique que plusieurs processus
puissent s’exécuter simultanément sans interférer, c’est-à-dire sans modifier la vision des données
ou le comportement des autres processus.
Définition 2.1.8 Non-interférence La non-interférence est la possibilité pour une entité de s’exé-
cuter sur un système sans être influencée par une autre entité du système. Cette propriété se caractérise
par le fait que pour deux ensembles d’objets donnés, les données du premier ensemble
ne sont pas affectées par les actions faites sur le second ensemble.
2.1.3 Discussion
Les propriétés générales de sécurité permettent d’exprimer de manière informelle des objectifs
de sécurité précis. Dans le cas d’un système d’exploitation, ces propriétés sont, suivant les situations,
soient trop expressives et conduisent à un blocage du système, soient pas assez. Il a donc été
nécessaire de définir des propriétés de sécurité adressant des objectifs de sécurité plus spécifiques.
Ce sont ces raisons qui ont conduits les auteurs à définir des raffinements aux propriétés générales.
Elles sont plus précises et permettent de gérer des cas visant à compromettre la confidentialité ou
l’intégrité, voir des deux.
Nous illustrons, dans la figure 2.1, comment se positionnent les propriétés dérivées vis-à-vis
des propriétés générales. On peut ainsi noter que la propriété de non-interférence couvre à la fois
la disponibilité, l’intégrité et la confidentialité. La propriété de moindre privilège couvre, quant à
elle, les propriétés d’intégrité et de confidentialité.
Ces propriétés de sécurité, qu’elles soient générales ou dérivées, sont difficilement applicables
à l’ensemble d’un système d’information. En effet, il est difficile d’assurer par exemple, l’isolation
total d’un processus au sein d’un système sans en bloquer le fonctionnement. C’est pour cela
que nous allons maintenant voir les modèles de protections qui permettant en pratique de garantir
la confidentialité ou l’intégrité en spécialisant le contrôle pour certains éléments (processus,
ressources) du système.
282.2. MODÈLES DE CONTRÔLE D’ACCÈS
FIGURE 2.1 – Couverture des propriétés dérivées vis-à-vis des propriétés générales de sécurité
2.2 Modèles de contrôle d’accès
La mise en œuvre des propriétés de sécurité que nous venons de définir peut se faire soit en
utilisant des mécanismes cryptographiques soit en utilisant des mécanismes de contrôle d’accès.
Nous nous intéressons ici exclusivement aux mécanismes de contrôle d’accès des systèmes. Les
systèmes d’exploitation se basent sur divers éléments :
— un ensemble de sujets : ce sont les entités actives sur le système, essentiellement les processus
;
— un ensemble d’objets : ce sont les entités passives du système. Ces entités subissent les interactions
effectuées par les sujets. Cet ensemble regroupe toutes les ressources du système
(fichiers, socket, etc.).
— un ensemble de permissions : ce sont les interactions autorisées des sujets sur les objets
(lecture, écriture, etc.) ou entre sujets (envoi d’un signal).
Le contrôle d’accès est l’ensemble des règles qui associent à un sujet un ensemble de permissions
sur un objet. Des règles d’accès peuvent aussi exister entre deux sujets.
La manière la plus naturelle de représenter les règles d’accès est d’utiliser une matrice d’accès,
comme le montre la table 2.1. Dans cette matrice, les lignes contiennent les sujets, les colonnes
correspondent aux objets et l’intersection des deux contient l’ensemble des permissions du sujet
sur l’objet.
Objets
F ichier1 F ichier2 Repertoire1 Sujet3
Sujet1 Lecture, écriture Lecture Lecture, exécution Signaux
Sujet2 Lecture Lecture, écriture, exécution
Sujet3 Exécution Ecriture
TABLE 2.1 – Représentation règles d’accès sous la forme d’une matrice d’accès
2.2.1 Le contrôle d’accès discrétionnaire
Le contrôle d’accès discrétionnaire DAC est le contrôle d’accès que l’on retrouve sur la majorité
des systèmes d’exploitation (Linux, Windows et MacOS). Il laisse à la discrétion de l’utilisateur
le soin de gérer les accès sur les fichiers qu’il possède. Dans la pratique, les utilisateurs disposent
de commandes système leur permettant de définir les accès sur ces fichiers.
292.2. MODÈLES DE CONTRÔLE D’ACCÈS
2.2.1.1 Lampson
Le premier à avoir formalisé ce modèle de contrôle d’accès est Lampson. Il commence
par donner deux définitions : la première concerne les capacités et la seconde concerne les
listes de contrôle d’accès (Access Control List, ACL ). Ces deux définitions sont décrites
dans [Lampson, 1969]. [Lampson, 1971] affine ces définitions grâce à la modélisation de la notion
de matrice d’accès. Il propose de placer dans une matrice A, l’ensemble D des domaines
de protection qui représentent des contextes d’exécution pour les programmes (les sujets) sur les
lignes, et en colonnes l’ensemble X des objets (incluant les domaines).
Lampson donne des définitions de chaque terme. Un objet est une "chose" du système qui doit
être protégée. Cela peut être, par exemple, les processus, les domaines, les fichiers, etc. Les domaines
sont les entités du système qui ont accès aux objets. La propriété essentielle d’un domaine
est qu’il a des permissions différentes des autres domaines. De part cette définition, les domaines
sont donc aussi des objets. Les capacités (capabilities) sont des privilèges accordés aux domaines.
Sous Linux, ces privilèges scindent ceux du super-utilisateur en capacité que l’on peut accorder ou
interdire à chaque utilisateur.
Définition 2.2.1 Liste des capacités Étant donné un domaine d ∈ D, la liste des capacités pour
le domaine d est l’ensemble des couples (o, A[d, o]), ∀o ∈ X.
Définition 2.2.2 Liste de Contrôle d’Accès Étant donné un objet o ∈ X, la liste de contrôle
d’accès pour l’objet o est l’ensemble des couples (d, A[d, o]), ∀d ∈ D.
Lampson ajoute deux nouvelles capacités : le droit propriétaire et le droit de copie symbolisé
par *. Dans la table 2.2, le droit propriétaire ajouté au Domaine1 l’autorise à contrôler
les droits sur le F ichier1 pour l’ensemble des domaines. D’un point de vue de la matrice, il est
capable de modifier les droits sur l’ensemble de la colonne. Le droit de copie *, s’applique sur une
permission spécifique, autorisant le domaine qui possède cette capacité à recopier la permission
sur toute la colonne correspondante.
Objets
F ichier1 F ichier2 Repertoire1 P rocess1
Domaine1 Lecture, écriture, propriétaire Lecture Lecture, exécution Signaux
Domaine2 Lecture Lecture, écriture, exécution
Domaine3 Exécution *Ecriture
FIGURE 2.2 – Représentation de Lampson d’une matrice d’accès
Ce modèle a ensuite évolué vers le modèle HRU [Harrison et al., 1976].
2.2.1.2 HRU
Dans le modèle HRU [Harrison et al., 1976], les auteurs modélisent le contrôle d’accès discré-
tionnaire à partir d’une matrice P, qui représente l’ensemble des droits d’accès des sujets sur les
objets. Les sujets peuvent créer des sujets, des objets et modifier les permissions.
Les auteurs du modèle HRU proposent de modéliser le contrôle d’accès de la manière suivante :
— l’ensemble des sujets S et l’ensemble des objets O ;
— l’ensemble des droits génériques R tels que possession, lecture, écriture, exécution ;
— une configuration de protection système repose sur le triplet (S, O, P);
— une matrice de contrôle d’accès P ;
— un ensemble fini C de commandes c1, ... , cn, représente l’ensemble des opérations fournies
par le système d’exploitation (création de fichier, modification des droits...) ;
302.2. MODÈLES DE CONTRÔLE D’ACCÈS
— un ensemble d’opérations élémentaires E : enter et delete pour l’ajout et la suppression de
droits, create subject et create object pour la création de nouveaux sujets et objets et enfin
destroy subject et destroy object pour la destruction de sujets et objets.
Afin d’étudier le problème de la sûreté d’un système de protection, HRU s’intéresse au transfert
de privilège (droit), qui se produit lorsqu’une commande insère un droit particulier r, dans une
case de la matrice P où il était précédemment absent. La problématique de sûreté d’un système
de protection se définit ainsi : étant donné une configuration initiale de la politique de sécurité,
un système est considéré comme sûr pour un droit r si aucune des commandes de ce système ne
provoque le transfert du droit r.
Les auteurs prouvent que lorsque les commandes ne contiennent qu’une seule action élémentaire,
le problème de sûreté est décidable mais l’algorithme de vérification est NP-Complet. Ce
modèle mono-opérationnel n’est pas du tout représentatif des systèmes courants. Dans le cas gé-
néral, le problème de la protection d’un système est indécidable. Le problème est néanmoins de
taille polynomiale si on retire les opérations de création de sujet et d’objet du modèle de protection.
Dans le cas d’un système d’exploitation, le problème de la vérification d’un contrôle d’accès
discrétionnaire est indécidable. Ce résultat prouve qu’il n’est pas possible de garantir des propriétés
de sécurité avec un contrôle d’accès discrétionnaire.
2.2.1.3 TAM
Le modèle TAM (Typed Access Matrix) exprimé par [Sandhu, 1992], propose une extension
du modèle HRU en intégrant la notion de typage fort. Cette notion provient de travaux plus anciens
de SPM (Sandhu’s Schematic Protection Model) [Sandhu, 1988] et se traduit par l’attachement de
types de sécurité immuables à tous les sujets et objets du système.
Le modèle HRU est enrichi d’un nouvel ensemble T des types de sécurité. Cet ensemble est
un ensemble fini, c’est-à-dire qu’il n’est pas possible de créer de nouveaux types. La gestion des
types est prise en compte dans les opérations élémentaires décrites pour le modèle HRU.
L’auteur s’intéresse ensuite à la version monotone du modèle TAM, MTAM (Monotonic Typed
Access Matrix) qui se caractérise par la suppression des opérations de suppression (droits, sujets et
objets). À partir du modèle MTAM, il démontre que le problème de sûreté de fonctionnement est
décidable car le graphe de création des sujets et des objets est acyclique. Cependant, la complexité
du problème reste NP. C’est pourquoi Sandhu définit le modèle MTAM ternaire, dans lequel toutes
les commandes ont au maximum trois arguments. Au prix d’une perte d’expressivité, le problème
de sûreté voit sa complexité ramenée à un degré polynomial.
En pratique, ce modèle théorique est difficilement applicable car il revient à ne jamais modifier
la politique de contrôle d’accès.
2.2.1.4 DTAM
La modèle DTAM (Dynamic-Typed Access Matrix) est exprimé par [Soshi et al., 2004]. Ils
proposent une extension du modèle TAM. Le but de ce modèle est d’autoriser les types des objets
à être changé de façon dynamique, à la différence du modèle TAM où ils sont statiques. De
plus, ce modèle permet de décrire les systèmes de protection non-monotonique pour lesquels la
problématique de sûreté est décidable.
Le modèle se base sur le modèle TAM à l’exception que les objets peuvent changer de types de
façon dynamique et que l’ensemble des types est un fini. Les auteurs ajoutent donc des commandes
supplémentaires aux commandes définies par HRU telles que change type of subject et change
type of object.
Les auteurs du modèle DTAM démontrent que la sûreté du système de protection est décidable
en s’appuyant sur le fait que la commande create génère des changements irréversibles sur les
312.2. MODÈLES DE CONTRÔLE D’ACCÈS
types des objets parents. Cela signifie que lorsqu’un domaine crée un objet via la commande
create, le domaine change aussi de types. De plus, un objet ne peut avoir un type qu’il a possédé
auparavant, donc le nombre de changements de types pour un objet est fini puisque le nombre
de types est fini. Par conséquence, le problème de sûreté devient décidable dans ce modèle. Il
est à noter que dans ce modèle, il est possible que le système atteigne un état dans lequel il ne
puisse plus créer de nouveaux objets lorsque tous les objets du système ont utilisés tous les types
possibles.
Cela revient à avoir une politique figée où l’on ne peut définir de nouveaux types. Ce modèle
théorique est donc aussi difficilement utilisable en pratique.
2.2.2 Le contrôle d’accès obligatoire
Le contrôle d’accès discrétionnaire laisse l’utilisateur final décider des permissions sur les
objets qu’il possède. Les différents modèles de contrôle d’accès discrétionnaire ne permettent
pas d’avoir un système sûr. [Anderson, 1972] détaille le fait qu’il est possible de se protéger des
attaques extérieures par l’ajout d’outils, mais qu’il n’est pas possible de se protéger des attaques
venant de l’intérieur. Ces attaques peuvent être malicieuses ou accidentelles.
Il est donc nécessaire d’imposer une politique de contrôle d’accès aux utilisateurs du système,
en utilisant un modèle de contrôle d’accès obligatoire (MAC, Mandatory Access Control). Cette
politique ne doit pas pouvoir être modifiée par les utilisateurs finaux. [Anderson, 1980] propose
l’utilisation d’un Moniteur de Référence. Ce moniteur de référence propose une base de confiance
associée à une matrice d’accès qui précise de manière explicite tous les accès autorisés ou refusés
au sein du système. De part son caractère non-modifiable par les utilisateurs finaux, le moniteur
permet de garantir des propriétés associées à la matrice d’accès.
Cette thèse ayant pour objectifs de permettre aux systèmes d’exploitation de garantir des propriétés
de sécurité, nous nous focaliserons uniquement sur les modèles de contrôle d’accès obligatoire
proches de nos objectifs. D’autres modèles tels que le modèle de Clark-Wilson, de la muraille
de chine, sont décrits dans [Rouzaud-Cornabas, 2010].
2.2.2.1 Bell-LaPadula
Le modèle de Bell-LaPadula (BLP ), défini par [Bell et La Padula, 1973], formalise la propriété
de confidentialité des données dans les milieux de défense. En plus des notions classiques de sujet,
d’objet et de permissions, ce modèle introduit la notion de label. Ce label est un niveau de sécurité,
qui va contenir deux types d’identifiant de sécurité. Le premier élément est le niveau hiérarchique,
qui renseigne sur le niveau de classification de l’objet ou sur le niveau d’habilitation du sujet. Le
second élément est un identifiant de catégories, qui renseigne sur le type de population capable de
manipuler les informations comme public, privé ou militaire. Ces identifiants sont indépendants
de la hiérarchie de confidentialité.
À partir de ces niveaux de sécurité, il est possible de définir deux règles qui régissent le système
en plus des mécanismes de contrôles d’accès classiques.
— ss-property : simple security property. Cette propriété assure qu’un sujet qui demande un
accès en lecture sur un objet du système possède un niveau de sécurité supérieur ou égal à
celui de l’objet.
— *-property : star property. Seuls les transferts d’informations depuis des objets de classification
inférieure vers des objets de classification supérieure sont autorisés. Cette règle
assure donc la prévention contre la divulgation d’informations.
Le système est modélisé de la façon suivante :
— un ensemble de sujet S ;
— un ensemble d’objets O ;
322.2. MODÈLES DE CONTRÔLE D’ACCÈS
— une matrice d’accès M ;
— une fonction donnant le niveau f.
On dispose également d’un ensemble de permissions d’accès A = {e, r, a, w}. Elles sont
classées suivant leur capacité d’observation (lecture) et d’altération (écriture) de l’information :
— execute : e Ni observation ni altération ;
— read : r Observation sans altération ;
— append : a Altération sans observation ;
— write : w Observation et altération.
On obtient ainsi les deux lois suivantes :
ss-property :r ∈ M[s, o] → f(s) ≥ f(o)
*-property :r ∈ M[s, o1] ∧ w ∈ M[s, o2] → f(o2) ≥ f(o1)
FIGURE 2.3 – Lois d’application des propriétés de BLP
Cependant, la propriété *-property peut être contournée en exploitant les canaux cachés pré-
sents sur le système. Ces canaux cachés échappent complètement au mécanisme de contrôle d’accès
présent sur le système. Afin de prévenir ce genre de problème, une version plus restrictive de
la politique de BLP utilise les règles suivantes :
— No Read Up : cette propriété assure qu’un sujet qui demande un accès en lecture sur un
objet du système possède un niveau de sécurité supérieur ou égal à celui de l’objet.
— No Write Down : cette propriété assure qu’un sujet qui demande à modifier un objet
possède bien un niveau de sécurité inférieur ou égal à celui de l’objet.
Les trois lois sur les niveaux, illustrées par la figure 2.5, s’écrivent ainsi :
r ∈ M[s, o] → f(s) ≥ f(o)
a ∈ M[s, o] → f(s) ≤ f(o)
w ∈ M[s, o] → f(s) = f(o)
FIGURE 2.4 – Lois d’application des propriétés de BLP-restrictives
Ces lois signifient que :
1. un sujet s a accès en lecture à un objet o si et seulement si son niveau d’habilitation f(s)
est supérieur ou égal au niveau de classification f(o) de l’objet ;
2. un sujet s a accès en écriture seul (ajout) à un objet o si et seulement si son niveau d’habilitation
est inférieur ou égal au niveau de classification de l’objet ;
3. un sujet s a accès en lecture/écriture à un objet o si et seulement si son niveau d’habilitation
est égal au niveau de classification de l’objet.
La figure 2.5 illustre comment se caractérise l’application de ce modèle de protection pour les
utilisateurs. Pour qu’un utilisateur puisse accéder à une information, c’est-à-dire puisse la lire, il
doit posséder un niveau d’habilitation supérieur ou égal à celui de l’objet. Si un utilisateur veut
modifier une information, il doit posséder un niveau d’habilitation inférieur ou égal à celui de
l’objet.
Ce modèle est difficilement intégrable dans les systèmes d’exploitation courant. En effet, il
est difficile de définir des labels pour certains objets du système qui doivent être partagés entre
les différents utilisateurs et le système. On peut ainsi citer les répertoires temporaires. Il existe
des mécanismes d’aménagement de ce modèle pour le rendre utilisable. Ces mécanismes (trusted
subjects) font transiter les objets vers un niveau de sécurité suffisant pour qu’ils puissent être
modifiés par les sujets ayant un niveau de sécurité plus élevé. Ainsi la propriété de No Write
Down n’est pas enfreinte. Cependant, ces mécanismes conduisent à faire monter l’information au
332.2. MODÈLES DE CONTRÔLE D’ACCÈS
niveau de la confidentialité la plus élevée, ce qui oblige alors à des déclassifications complexes.
Actuellement, peu de systèmes d’exploitation adoptent ces approches pour l’ensemble du système
même si certaines solutions utilisent la classification sous un autre angle.
No Read Up
Top Secret
Secret
Confidentiel
No Write Down
FIGURE 2.5 – Modèle No Read Up/No Write Down
2.2.2.2 Biba
Le modèle de BLP traite le problème de la confidentialité des données du système, mais ne
propose pas de solution pour protéger l’intégrité de ces données et du système. C’est pour cette
raison que Biba a défini un modèle dual à celui de BLP qui formalise les besoins en intégrité d’un
système [Biba, 1975]. Tous les sujets et les objets possèdent un niveau d’intégrité. C’est à partir de
ce niveau d’intégrité que de nouvelles restrictions sont mises en place sur le système. De manière
similaire au modèle de BLP, il propose aussi deux propriétés.
— No Read Down : cette propriété assure qu’un sujet qui demande un accès en lecture sur
un objet du système possède un niveau d’intégrité inférieur ou égal à celui de l’objet.
— No Write Up : cette propriété assure qu’un sujet qui demande un accès en écriture sur un
objet du système possède un niveau d’intégrité supérieur ou égal à celui de l’objet.
Les lois s’écrivent donc :
r ∈ M[s, o] → f(s) ≤ f(o)
a ∈ M[s, o] → f(s) ≥ f(o)
w ∈ M[s, o] → f(s) = f(o)
FIGURE 2.6 – Lois d’application des propriétés de Biba
Ces lois signifient que :
1. un sujet s a accès en lecture à un objet o si et seulement si son niveau d’intégrité f(s) est
inférieur ou égal au niveau d’intégrité f(o) de l’objet ;
2. un sujet s a accès en écriture à un objet o si et seulement si son niveau d’intégrité est
supérieur ou égal au niveau d’intégrité de l’objet ;
3. un sujet s a accès en lecture/écriture à un objet o si et seulement si son niveau d’intégrité
est égal au niveau d’intégrité de l’objet.
342.2. MODÈLES DE CONTRÔLE D’ACCÈS
Ces règles évitent que se produise un transfert d’information d’un niveau d’intégrité bas vers
un niveau d’intégrité haut, ce qui signifierait une compromission de l’intégrité du niveau haut.
La figure 2.7 illustre l’application du modèle de protection de Biba.
Tout comme le modèle proposé par BLP, le modèle de Biba est difficilement intégrable sur un
système d’exploitation courant. En effet, pour que le système soit fonctionnel, il est nécessaire de
définir des mécanismes modifiant les niveaux d’intégrité de certains sujets du système. Par cette
modification de leur niveau d’intégrité, les sujets sont naturellement descendus vers le niveau d’intégrité
le plus bas. De plus, le modèle de Biba interdit les accès non autorisés aux ressources mais
pas les mauvaises modifications réalisées par des utilisateurs autorisés [Clark et Wilson, 1987].
No Read Down
Niveau d’intégrité haut
Niveau d’intégrité moyen
Niveau d’intégrité bas
No Write Up
FIGURE 2.7 – Modèle de protection des données : Biba
2.2.2.3 Role Based Access Control
L’administration d’un mécanisme de contrôle d’accès obligatoire est difficile pour un administrateur.
Cela implique l’écriture et la gestion d’un grand nombre de règles. L’écriture des politiques
de contrôle d’accès peut se révéler extrêmement difficile et coûteuse en termes de temps.
Le modèle de contrôle d’accès basé sur les rôles (RBAC ) propose une solution pour diminuer cette
complexité d’écriture.
Dans la majorité des cas, les permissions d’accès ne sont pas accordées directement en
fonction des utilisateurs mais plutôt par rapport à leur activité dans l’entreprise comme le
montre [Ferraiolo et Kuhn, 1992]. Ce modèle représente les activités par des rôles.
Par la suite, un modèle plus formel a été défini par [Sandhu et al., 1996], qui se nomme
RBAC0. Les utilisateurs peuvent accéder à un ensemble de rôles. Puis, ce sont ces rôles qui sont
associés à des permissions dans le but d’effectuer des actions sur le système d’exploitation. Enfin,
l’utilisateur exerce son activité dans le cadre de sessions, durant lesquelles il peut activer un sousensemble
des rôles auxquels il appartient. Ainsi, les politiques de contrôle d’accès s’établissent à
partir des autorisations données aux rôles plutôt qu’aux utilisateurs.
A partir de ce modèle, une notion de hiérarchie des rôles a été mise en place dans
[Sandhu et al., 1996], modèle nommé RBAC1. Cette hiérarchie permet d’avoir un héritage des
permissions dans les rôles, suivant la place de la personne dans l’entreprise. Comme le montre la
figure 2.8, on retrouve le junior en bas du diagramme et il ne possède que peu de permissions.
Alors que le senior est lui placé en haut du diagramme et hérite de toutes les permissions des rôles
intermédiaires entre le junior et le senior.
352.2. MODÈLES DE CONTRÔLE D’ACCÈS
Junior
Senior
Rôle
intermédiaire
Rôle
intermédiaire
FIGURE 2.8 – Schéma d’héritage du modèle RBAC1
À partir du modèle RBAC0, [Sandhu et al., 1996] définit un troisième modèle nommé
RBAC2 qui introduit le support des contraintes. L’objectif de ce support est de modéliser les
contraintes des rôles qui peuvent être totalement disjoints.
Les types de contraintes supportés dans RBAC2 sont généralement des considérations
simples. Elles portent soit sur l’attribution des rôles aux utilisateurs, soit sur l’attribution des permissions
aux rôles. Les principaux types de contraintes sont les suivants :
— rôles mutuellement exclusifs : un utilisateur ne peut être affecté qu’à un seul rôle dans
un ensemble de rôles mutuellement exclusifs. Il s’agit d’une propriété de séparation des
privilèges ;
— cardinalité : contrainte sur le nombre maximal d’utilisateurs affectés à un rôle ;
— rôles prérequis : contrainte qui impose un prérequis pour l’ajout d’un utilisateur dans un
rôle. Par exemple, un utilisateur doit faire partie d’un certain rôle pour pouvoir être ajouté
dans le nouveau.
Le modèle RBAC3 [Sandhu et al., 1996] permet de consolider les trois modèles précédents.
Il supporte donc à la fois les hiérarchies de rôles et les contraintes sur l’assignation des rôles et
des permissions. L’objectif de ce dernier modèle est de résoudre les problèmes soulevés par la
cohabitation de ces deux concepts : support des contraintes sur la hiérarchie de rôles, résolution
de conflits entre l’héritage et les contraintes (par exemple quand un rôle hérite de deux rôles mutuellement
exclusifs). En pratique, les systèmes d’exploitation utilisent la notion de rôle de façon
simplifiée. L’utilité est alors une factorisation d’un ensemble de règles pour différents utilisateurs
en une règle associée à un rôle. L’objectif est de regrouper les utilisateurs dans des rôles pour
ensuite établir les règles par rapport à ces rôles et non plus par rapport aux utilisateurs.
2.2.2.4 Domain and Type Enforcement
Le modèle de protection Domain and Type Enforcement(DTE ) [Boebert et Kain, 1985] est un
modèle basé sur une abstraction des ressources du système, créé spécifiquement pour écrire des
politiques MAC. Ce modèle ne s’appuie pas sur les notions de sujets et d’objets mais sur celles de
domain et de type pour distinguer les entités actives et passives du système. Un type est une chaîne
de caractères qui caractérise une ressource du système.
La figure 2.9 montre que ce modèle autorise les interactions d’un domaine sur un type, mais
aussi les interactions entre les domaines.
Le modèle de protection établit par DTE diffère de BLP ou Biba. Alors que ces deux modèles
implantent une des propriétés générales de sécurité, le modèle DTE répond à la problématique de
362.2. MODÈLES DE CONTRÔLE D’ACCÈS
domaine 1
domaine 2
domaine 3
type 1
type 2
type 3
domaine 4
FIGURE 2.9 – Schéma du modèle DTE
contrôle des activités des processus. En effet, ce modèle permet de définir précisément les accès
autorisés aux domaines.
Le modèle DTE permet donc de répondre à deux objectifs de sécurité :
— restreindre les ressources accessibles par un processus : ce modèle s’applique à l’ensemble
du système, même aux processus tournant avec des privilèges élevés. C’est aussi une approche
de moindre privilège telle que définie précédemment ;
— établir un contrôle strict des processus ayant accès aux ressources jugées sensibles et empêcher
tout programme non autorisé à y accéder.
Les entités actives du système s’exécutent dans un domaine précis alors que les objets du
système possèdent tous un type. Ainsi, les lois d’accès opèrent entre les domaines et les types. Ce
modèle se base aussi sur la notion de matrice d’accès. Le modèle DTE détermine trois tables :
— la table de typages, qui associe un type à chaque objet du système ;
— la table de définition des domaines qui détermine les droits d’accès (lecture, écriture, exé-
cution, ajout, suppression) de chaque domaine sur les différents types ;
— la table d’interaction des domaines qui établit les droits d’accès entre domaines (création,
destruction, envoi de signal).
La table de définitions des domaines détermine aussi le type d’un programme. L’exécution
d’un programme binaire fait entrer le processus dans un domaine précis. Ce modèle a le mérite
d’être facile à mettre en œuvre et correspond à la notion de moniteur de référence et de confiance.
Il permet de garantir un large ensemble de cas particuliers de confidentialité et d’intégrité. Le
principal problème concerne les propriétés incluses dans la politique qui ne sont pas définies au
moyen d’un formalisme de haut niveau, ce qui peut rendre leur écriture difficile.
2.2.3 Discussion
Nous venons de détailler dans les deux premières parties de cet état de l’art les moyens
d’expression d’objectifs de sécurité et des modèles d’application. Les propriétés de sécurité
exprimées ici sont des synthèses des définitions que nous pouvons retrouver dans les documents
[ITSEC, 1991, TCSEC, 1985].
Les modèles de contrôle d’accès que nous avons présentés offrent des modélisations des objectifs
de sécurité. La première remarque que nous pouvons faire est qu’aucun modèle de protection
n’implante toutes les propriétés de sécurité que nous avons évoquées.
Dans les systèmes d’exploitation courants tels que Linux, MacOs et Windows, nous retrouvons
le DAC. Ce modèle de protection ne permet ni de protéger le système, ni les données qu’il héberge.
[Harrison et al., 1976] a démontré que la problématique de sûreté de fonctionnement pour un sys-
372.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
tème se reposant sur le contrôle d’accès discrétionnaire n’était décidable qu’au prix de grandes
simplifications qui ne correspondent pas à la réalité des systèmes. Dans le cas des systèmes courants,
le problème de sûreté n’est donc pas décidable.
Les modèles de contrôle d’accès obligatoire offrent des réponses à la problématique de garantie
par le système d’exploitation de propriétés de sécurité. La plupart de ces modèles ont été établis
pour répondre à des problématiques du monde de défense, c’est-à-dire extrêmement spécifiques
et contraignantes. L’implantation réelle de ces modèles dans des systèmes existent, par exemple
le modèle de BLP dans MULTICS, on le trouve également dans certaines versions de Solaris,
HPUX ou autres systèmes UNIX. Cependant, pour les systèmes d’exploitation courants, ils sont
difficilement intégrables car il est nécessaire de créer des exceptions qui mettent le modèle de
protection à mal. De plus, ces systèmes ne traitent que d’un cas particuliers des propriétés de
sécurité qui est la confidentialité.
Le modèle RBAC offre peu d’application pratique en termes de systèmes d’exploitation et
sert essentiellement à la factorisation des règles de contrôle d’accès. Enfin, le modèle DTE est
le plus flexible. S’il n’est pas dédié à une propriété particulière, il permet d’écrire des politiques
incluant un large ensemble de propriétés de confidentialité et d’intégrité entre les processus et les
ressources, tout en minimisant les privilèges des processus.
2.3 Implantation des mécanismes de contrôle d’accès
Dans cette section, nous allons nous intéresser à l’implantation des mécanismes de contrôle
d’accès obligatoire présents à la fois sous Linux et sous Windows. Il existe d’autres implantations
présentes sur les systèmes Android, Solaris, etc, mais ces systèmes sortent du cadre de notre étude.
Sur les systèmes d’exploitation Linux, il existe un plus grand nombre d’implantations de mécanismes
de contrôle d’accès obligatoire que sous Windows car son code source est ouvert. Comme
l’objet de cette étude n’est pas de décrire l’implantation de chaque mécanisme présent sous Linux,
nous nous restreindrons à quatre implantations de références. Nous avons choisi de décrire
SELinux, grsecurity, Tomoyo et PIGA. SELinux et grsecurity font partis des mécanismes les plus
anciens et les plus matures sur les systèmes Linux. Leur intégration au sein du système d’exploitation
est aussi différente. Nous détaillons aussi Tomoyo et PIGA qui sont deux mécanismes
différents des deux premiers et qui ne réalisent pas le même type de contrôle. Une description des
projets MEDUSA, RSBAC et LIDS, offrant d’autres implantations de contrôle d’accès obligatoire,
est présente dans la thèse [Blanc, 2006].
Sur les systèmes d’exploitation Windows, nous nous attacherons à détailler le mécanisme de
contrôle d’intégrité (Mandatory Integrity Control, MIC) mis en place par Microsoft à partir des
systèmes d’exploitation Windows Vista. Nous avons aussi choisi de décrire PRECIP, qui est une
implantation restrictive du modèle de BLP ainsi que Core Force, le premier mécanisme MAC apparu
sous Windows XP.
2.3.1 Linux
Dans cette partie, nous allons traiter des mécanismes de contrôle d’accès obligatoire sur les
systèmes Linux.
2.3.1.1 SELinux
SELinux(Security-Enhanced Linux) est un mécanisme de contrôle d’accès obligatoire créé
par la NSA et intégré nativement dans les noyaux Linux. Il est proposé sous la forme de module
382.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
de sécurité s’interfaçant avec les crochets de sécurité (Security Hooks) du noyau (Linux Security
Module (LSM ) [Wright et al., 2002]).
Basé sur le modèle de DTE, SELinux implante les propriétés de moindre privilège et de confi-
nement des processus pour garantir la confidentialité et l’intégrité. Son architecture est basée sur
FLASK [Spencer et al., 1998], une architecture spécifiquement créée pour SELinux, qui offre une
couche d’abstraction entre le système et le mécanisme de contrôle d’accès sous-jacent, transformant
les ressources du système en contexte de sécurité. Ainsi les ressources du système ne sont
pas identifiées par leur nom ou par leur chemin, mais par des contextes de sécurité.
L’écriture d’une politique SELinux étant complexe, SELinux utilise également le modèle
RBAC pour réduire la taille de la politique. Ainsi, les utilisateurs sont associés à des rôles qui
peuvent ensuite accéder à des domaines, et ce sont les domaines qui agissent sur les types.
Modèle général
Chaque utilisateur du système (utilisateur standard, mais aussi administrateur) est associé à
une identité SELinux unique. Cette identité SELinux peut être partagée par plusieurs utilisateurs.
L’identité SELinux est associée à un rôle par défaut, mais elle peut aussi accéder à un ensemble de
rôles. Les utilisateurs ont la possibilité de changer de rôle sans changer de session ou de compte
utilisateur. Les rôles accèdent ensuite aux domaines.
Chaque ressource du système possède un contexte de sécurité qui la caractérise. Le contexte
de sécurité est considéré comme une couche d’abstraction entre les ressources et le mécanisme de
contrôle d’accès. Il contient les informations nécessaires au modèle DTE (domaines ou types).
Contextes de sécurité
L’architecture FLASK crée une couche d’abstraction pour la représentation du système qui lui
permet de n’être qu’une interface entre le système d’exploitation et le mécanisme de contrôle d’accès
sous-jacent. Cette abstraction permet l’association de contextes de sécurité avec les ressources
du système.
Les contextes de sécurité sont définis par le serveur de sécurité qui constitue un moniteur de
référence au sens d’Anderson. Pour SELinux, un contexte de sécurité est constitué de plusieurs
attributs :
— une identité qui est liée aux identités des utilisateurs Linux présents sur le système. Ainsi,
plusieurs utilisateurs standards peuvent avoir la même identité SELinux. Cette identité SELinux
a la particularité de ne pas pouvoir être modifiée aux cours des interactions réalisées.
Seuls certains programmes d’authentification ont la capacité de pouvoir changer les identités
SELinux ;
— un rôle : un utilisateur SELinux a accès à un ensemble de rôles. Ce sont ces rôles qui
déterminent les interactions autorisées pour l’utilisateur ;
— un domaine, qui est le domaine d’exécution du processus ;
— un type, qui est le type d’un objet du système autre qu’un processus ;
— une catégorie : cet attribut est la représentation de l’implantation du modèle MultiCategorie
Security de SELinux. Il permet de définir des conteneurs pour les utilisateurs
dans le but de les isoler les uns des autres. Les catégories permettent d’isoler des populations
ayant la même identité SELinux. Il est possible d’avoir plusieurs catégories pour un
même contexte de sécurité.
— un niveau d’habilitation : cet attribut est l’application du modèle de BLP. Les niveaux
d’habilitation peuvent être une valeur unique ou une plage de niveaux. C’est l’implantation
du modèle Multi-Level Security de SELinux.
392.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
Un contexte de sécurité est représenté au niveau du système de fichiers par une chaîne de
caractères de la manière suivante : id:rôle:type:catégories:sensibilités.
Un utilisateur possède une identité SELinux de part son identité standard Linux. Cette identité
SELinux lui permet d’accéder à certains nombres de rôles SELinux. Ces rôles peuvent accéder à
des domaines. Les domaines peuvent à leur tour accéder à d’autres domaines ou à des types. Ce
modèle est illustré par la figure 2.10.
Identité
SELinux
Domaine
Rôle SELinux
Type
Domaine
Domaine
Type
Type
Rôle SELinux
Changement
de rôle
Transition
FIGURE 2.10 – Implantation des modèles RBAC et DTE par SELinux
Pour les objets du système, les contextes de sécurité sont stockés dans le système de fichiers
au niveau des attributs étendus.
Politique et règle de contrôle d’accès
Les domaines effectuent des interactions sur les objets du système qui possèdent tous un type.
Une interaction se caractérise par la règle suivante D − (P)− > T, ou D est le domaine, P les
permissions et T le type. Le cas spécifique d’une interaction entre deux domaines se traduit de
manière similaire D1 − (P)− > D2.
La politique de contrôle d’accès de SELinux se divise en deux. D’un côté, nous trouvons
les règles faisant la correspondance entre les ressources du système et leur contexte de sécurité
spécifique. De l’autre, nous trouvons les règles d’accès et de transition.
Les règles d’accès définissent de manière explicite les interactions autorisées par des domaines
sur des types du système. Les règles de transition sont les règles qui autorisent la création de
nouveau domaine à partir de type spécifique.
La définition d’une règle d’accès dans la politique SELinux se fait donc de la manière suivante
2.1.
✞ ☎
1 allow linpack_t etc_t:file { read open getattr };
✝ ✆
Listing 2.1 – Règle d’accès dans une politique SELinux
Cette règle autorise (allow) le domaine linpack_t à lire, ouvrir et récupérer les attributs des
fichiers file { read open getattr } ayant pour type etc_t. Concrètement, cette règle autorise un
processus ayant pour domaine linpack_t à aller lire des fichiers de configurations présents dans
/etc.
Pour autoriser le rôle staff_r à accéder au domaine linpack_t, il suffit d’ajouter la règle 2.2.
✞ ☎
1 role staff_r types linpack_t;
✝ ✆
Listing 2.2 – Règle d’autorisation pour un rôle pour accéder à un type dans une politique SELinux
402.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
Le dernier type de règle concerne les transitions. Ce sont des opérations spécifiques qui surviennent
lors de la création d’un nouveau domaine. La définition d’une règle de transition se définit
de la manière suivante 2.3 :
✞ ☎
1 type_transition staff_t mozilla_exec_t:process mozilla_t;
✝ ✆
Listing 2.3 – Règle de transition dans une politique SELinux
Cette règle autorise le domaine staff_t à faire transiter un type mozilla_exec_t vers le domaine
mozilla_t. Cette règle est par exemple, appliquée lorsqu’un utilisateur du staff exécute le
programme Firefox.
2.3.1.2 grsecurity
grsecurity [Spengler, 2002] est un mécanisme de contrôle d’accès obligatoire présent sur les
systèmes d’exploitation Linux. À la différence de SELinux, il n’est pas inclus dans la version
courante du noyau car il n’utilise pas les LSM comme le préconise les développeurs du noyau.
Il est donc disponible sous la forme d’un correctif noyau. En plus d’un mécanisme de contrôle
d’accès, grsecurity fournit un second correctif noyau nommé PaX, qui offre des protections contre
les attaques de type buffer overflow[Team, 2012].
Modèle général
Comme pour SELinux, grsecurity permet de définir des ensembles de règles puis d’affecter ces
ensembles à des rôles. En effet, sans cette notion de rôles, tous les utilisateurs auraient les mêmes
droits. Un utilisateur peut changer de rôle au sein d’une même session.
À la différence de SELinux qui associe un contexte de sécurité à chaque ressource du système,
grsecurity identifie les ressources en utilisant leur chemin complet dans l’arborescence du
système de fichiers. Ce modèle de protection se nomme Path-Based Access Control (PBAC ). Les
interactions sont représentées par les ACL définies sur les objets pour chaque sujet. Par défaut, un
nouveau processus hérite des permissions de son père, à part s’il possède un jeu de permissions
spécifiques.
Politique et règle de contrôle d’accès
La politique de contrôle d’accès de grsecurity s’appuie donc sur les chemins complets des
sujets (binaires exécutés correspondant à l’application) et des objets pour établir les règles de
contrôle d’accès. Chaque règle associe à un sujet, un objet ainsi que les ACL autorisées sur cet
objet. grsecurity permet aussi de gérer les capabilities POSIX [ Alexander Kjeldaas, 1998] ainsi
que les quantités de ressources utilisables [Spender, 2003].
Par défaut, chaque sujet et objet hérite des droits de son père. Ainsi, un fichier créé héritera
des permissions du répertoire dans lequel il est. Il est naturellement possible de briser cet héritage
pour définir des permissions spécifiques à ces nouveaux objets.
Un règle d’accès dans une politique grsecurity se définit de la manière suivante 2.4.
✞ ☎
1 subject /usr/bin/sudo
2 /dev/log rw
✝ ✆
Listing 2.4 – Règle d’accès dans une politique grsecurity
Cette règle autorise le sujet ayant pour chemin complet /usr/bin/sudo à lire et écrire (rw)
l’objet ayant pour chemin /dev/log.
grsecurity est aussi capable de gérer les capacités des programmes. Il est donc possible d’ajouter
ou d’enlever des capacités aux programmes, comme l’illustre le listing 2.5.
412.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
✞ ☎
1 subject /sbin/syslog-ng
2 +CAP_SYS_ADMIN
3
4 subject /usr/sbin/sshd dpo
5 -CAP_ALL
6 +CAP_CHOWN
✝ ✆
Listing 2.5 – Règle de modification de capabilities dans une politique grsecurity
2.3.1.3 Tomoyo
Tomoyo [Corporation, 2003, Takeda, 2009] est un mécanisme de contrôle d’accès obligatoire
apparu en 2003. Depuis la version 2 de Tomoyo sortie en 2007, il utilise les LSM pour réaliser ses
contrôles.
Modèle général
Tomoyo reprend la notion de domaine énoncée par [Lampson, 1971], c’est-à-dire qu’un domaine
regroupe un ensemble d’entités actives du système qui ont les mêmes capacités. Ainsi Tomoyo
construit un domaine en gardant traces des précédents processus impliqués dans la création
du processus, qui réalise l’action. Par conséquent, Tomoyo n’utilise pas de label ou de contexte de
sécurité pour représenter les ressources du système, mais il se base sur les chemins complets des
sujets et des objets, donc sur le modèle PBAC.
Le listing 2.6 donne un exemple de domaine.
✞ ☎
1 /usr/sbin/sshd /bin/bash /usr/bin/man /bin/sh
✝ ✆
Listing 2.6 – Définition d’un domaine dans une politique Tomoyo
À chaque domaine est associé un ensemble de sujet et d’objet identifiés par leurs chemins
complets. La gestion des accès se fait grâce au triplet (r,w,x) sur les objets. Lorsqu’un processus
exécute un fichier binaire créant un nouveau processus, cela entraîne une transition vers un
nouveau domaine.
L’implantation de Tomoyo permet de représenter, sous la forme d’un graphe, l’évolution de
chaque domaine en cours sur le système. À la différence des mécanismes comme SELinux et
grsecurity, il est capable de gérer les connexions réseaux et l’administrateur peut donc définir au
niveau de la politique de contrôle d’accès, les plages d’adresses IP autorisées pour un domaine
donné.
Politique et règles de contrôle d’accès
La politique de contrôle d’accès de Tomoyo s’appuie donc sur deux éléments : les chemins
complets des ressources du système et la définition des domaines. La politique associe, à chaque
domaine, un ensemble de fichiers binaires que le domaine a le droit d’exécuter dans le but de créer
un nouveau domaine. Elle associe aussi un ensemble d’objets (fichier, socket, etc.) auxquels sont
associés le triplet de permissions (r,w,x).
La politique se base sur les droits (r,w,x) présents sous Linux. Chaque permission possède une
valeur numérique unique. Il est possible d’ajouter ces valeurs pour combiner plusieurs permissions.
Ainsi, on fait correspondre au triplet (r,w,x) le triplet (4,2,1). Dans cette représentation, r a pour
valeur 4, w 2 et x 1. Pour donner le droit à un domaine d’écriture et de lecture sur un objet, il suffit
de donner la valeur 4 + 2 = 6 sur l’objet pour le domaine concerné.
Le listing 2.7 montre un exemple de politique pour Tomoyo.
422.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
✞ ☎
1 /sbin/mingetty /bin/login
2 1 /bin/bash
3 4 /etc/passwd
4 4 /etc/shadow
✝ ✆
Listing 2.7 – Règle d’accès dans une politique Tomoyo
Cette politique correspond à un domaine représenté par la trace
/sbin/mingetty /bin/login. Ce domaine est autorisé à exécuter (1) le fichier
/bin/bash et il est autorisé à lire les fichiers /etc/passwd et /etc/shadow.
Lorsque le domaine exécutera le fichier /bin/bash un nouveau domaine sera créé. Ce domaine
sera composé des éléments suivants : /sbin/mingetty /bin/login
/bin/bash.
Tomoyo étend les ACL par l’utilisation de mots clés dans sa politique de contrôle d’accès.
Ainsi, il est possible, grâce à des expressions régulières, d’autoriser un domaine à accéder à une
ressource qui n’est pas encore présente sur le système. L’extension des ACL se traduit aussi par
des permissions supplémentaires telles que la possibilité de supprimer une ressource. Le listing 2.8
montre un exemple d’utilisation de l’extension des ACL. Ainsi le langage de configuration supporte
à la fois les valeurs numériques des droits classiques mais aussi des mots clés permettant une
lecture plus simple des politiques.
✞ ☎
1 /usr/sbin/httpd
2 allow_read /var/www/html/\*
3 allow_read /etc/httpd/\*.conf
4 allow_read /usr/lib/httpd/modules/\*.so
5 allow_write /var/log/httpd/\*_log
6 allow_create /var/run/httpd.pid
7 allow_unlink /var/run/httpd.pid
✝ ✆
Listing 2.8 – Règle d’accès dans une politique Tomoyo
La politique offre aussi la possibilité de gérer des capacités spécifiques aux domaines. Ainsi,
il est possible de spécifier, par exemple, les plages d’IP sur lesquelles le domaine est autorisé à se
connecter comme le montre le listing 2.9.
✞ ☎
1 allow_network
2 TCP accept
3 10.0.0.0-10.255.255.255
4 1024-65535
✝ ✆
Listing 2.9 – Règle d’accès dans une politique Tomoyo
2.3.1.4 Policy Interaction Graph Analysis
PIGA [Briffaut, 2007] est un mécanisme de contrôle d’accès obligatoire proposé sous deux
formes :
— un correctif noyau qui est le Policy Enforcement Point (PEP), c’est-à-dire le point d’application
de la politique ;
— une implémentation d’un moniteur de référence, qui est donc le Policy Decision Point
(PDP), c’est-à-dire le moniteur qui prend la décision.
À la différence des mécanismes précédemment présentés comme SELinux et grsecurity, PIGA
est capable de gérer à la fois les interactions entre un sujet et un objet ou entre deux sujets, mais
aussi des compositions d’interactions (flux entre plusieurs interactions, enchaînement temporel
entre les interactions, opérateurs logiques entre interactions, etc.).
432.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
PIGA se base sur un langage de spécification de propriétés de sécurité (Security Property
Language, SPL) de haut niveau, en comparaison de DTE, qui offre la possibilité d’exprimer des
propriétés de sécurité 2.1. Ces propriétés de sécurité sont par la suite garanties par le moniteur
PIGA.
Modèle général
Dans [Briffaut et al., 2009], les auteurs détaillent le langage d’expression des propriétés de
sécurité (SPL). Ce langage indépendant du mécanisme de contrôle d’accès permet d’exprimer des
propriétés combinant plusieurs types de flux. La représentation du système utilise les contextes de
sécurité définis par SELinux. Il distingue donc l’ensemble des contextes sujets SCs et l’ensemble
des contextes objets SCo. Lorsqu’une interaction est effectuée sur le système, il peut y avoir deux
effets : un transfert d’information ou une transition.
Le transfert d’information se fait du contexte sujet vers le contexte objet lorsque l’opération associée
est une écriture. Il se fait dans le sens inverse lors d’une opération de lecture. Une transition
est un changement de domaine.
À partir de ces éléments, les auteurs donnent une définition de la dépendance causale entre
deux interactions. Ainsi, deux interactions sont causalement dépendantes si :
— elle partage un même contexte de sécurité ;
— la première interaction intervient avant la fin de la seconde ;
— la première interaction modifie l’état du contexte de sécurité partagé ;
— la seconde interaction modifie l’état du contexte de sécurité final.
Cette définition permet ensuite de formaliser les notions d’interactions et de séquences. Une
interaction directe, notée >, est une opération élémentaire (lecture, écriture, etc.), qui induit un
transfert d’information direct entre un processus et une ressource. Une séquence, notée >> correspond
à une suite d’interactions causalement dépendantes et induit un flux d’information indirect
mettant en jeu au moins 3 contextes, le second servant d’intermédiaire.
Grâce à ces opérateurs de base, les auteurs peuvent exprimer des propriétés de sécurité comme
la confidentialité et l’intégrité dans un langage de haut niveau. Ces propriétés de sécurité peuvent
être exprimées en utilisant la notion d’interaction, c’est-à-dire de flux d’information direct, ou de
séquence, c’est-à-dire de flux d’information indirect, de suite temporelle, d’expression logique,
etc.
PIGA est proposé sous la forme de plusieurs outils : PIGA-CC, qui énumère les activités
autorisées par une politique MAC contrôlant les interactions directes qui violent les propriétés
PIGA exprimées en SPL, PIGA-UM, qui est le moteur de prise de décision et PIGA-Kernel, qui
est le hook noyau interceptant les accès autorisés par SELinux.
PIGA-CC, dont le fonctionnement est illustré par la figure 2.11 prend en entrée les propriétés
de sécurité écrites en SPL et la politique de contrôle d’accès directe MAC (par exemple : une politique
SELinux). Il recherche, dans la politique de contrôle d’accès directe, les activités susceptibles
de contourner les propriétés de sécurité. Cette opération se fait en mode hors ligne, c’est-à-dire
avant que PIGA ne soit déployé sur un système. Les activités illégitimes calculées sont ensuite utilisées
par PIGA-UM. Lorsque PIGA-UM reconstruit l’activité du système, il va vérifier que cette
activité ne correspond pas à une activité illégitime.
La partie prise de décision s’effectue en espace utilisateur par PIGA-UM. C’est l’implantation
du moniteur de référence définie par [Anderson, 1972]. À partir de chaque interaction capturée
en espace noyau, il reconstruit l’activité du système. Cette reconstruction lui permet de vérifier la
validité des interactions vis-à-vis des activités qu’il a pré-calculées. Lors de ce calcul, PIGA génère
les activités réelles susceptibles de violer les propriétés de sécurité. Par conséquent, si l’interaction
442.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
FIGURE 2.11 – Fonctionnement de PIGA-CC
courante fait partie d’une activité réelle qui correspond à une activité illégitime, cette interaction
(appel système) est bloquée.
PIGA-Kernel permet de détourner le flux d’exécution des interactions directes. PIGA-Kernel
transmet les interactions autorisées à PIGA-UM afin qu’il contrôle les activités correspondant aux
scénarios complets.
Lorsqu’un processus effectue un appel système, il est intercepté par SELinux. Si l’appel est
autorisé au niveau de SELinux, alors PIGA-Kernel va l’intercepter. Il va ensuite l’envoyer à PIGAUM.
PIGA-UM va ajouter cet appel pour reconstruire l’activité du système, puis il va rechercher
dans les signatures qui ont été pré-calculées si cette interaction ne fait pas partie d’une activité
illégitime. Si c’est le cas, PIGA-UM a deux possibilités : soit il est en mode en détection et dans ce
cas, il se contente de lever une alerte de sécurité sans que l’interaction ne soit bloquée, soit il est en
mode protection et par conséquence, l’interaction illégitime échouera c’est-à-dire que le scénario
malveillant ne se terminera pas.
2.3.1.5 Politique et règle de contrôle d’accès
Le listing 2.10 montre un exemple de propriété de sécurité exprimée en SPL qui garantit la
confidentialité. Ainsi, la propriété 2.10 s’interprète ainsi : à partir de deux contextes de sécurité
cibles, sc1 qui le contexte sujet et sc2 qui est le contexte objet, PIGA va contrôler qu’il n’existe
aucun flux d’information indirect >> partant de sc2.
✞ ☎
1 define confidentiality( $sc1 IN SCS, $sc2 IN SCO ) [
2 SA { $sc2 >> $sc1 },
3 { not(exist()) };
4 ];
✝ ✆
Listing 2.10 – Propriété de confidentialité exprimée en SPL
Les résultats fournis par PIGA sont dans ce cas des activités autorisées par la politique de
contrôle d’accès directe qui conduisent à un flux indirect (en effet, dans la pratique, les flux directs
sont déjà traités par le MAC, comme SELinux). On voit que PIGA améliore la sécurité par rapport
à SELinux et permet de formaliser des propriétés de sécurité, ce que ne permet pas SELinux qui
est de plus bas niveau.
2.3.2 Windows
Dans cette section, nous allons maintenant détailler des implantations de mécanismes de
contrôle d’accès obligatoire pour les systèmes d’exploitation Windows.
452.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
2.3.2.1 Mandatory Integrity Control
MIC (Mandatory Integrity Control) est un mécanisme de contrôle d’accès obligatoire breveté
par Microsoft [Richard Ward, 2006]. Ce modèle, plus récent que les implantations de SELinux et
de grsecurity, a été mis en place à partir des systèmes d’exploitation Windows Vista.
À la différence des implantations présentes sous Linux, qui doivent être activées pour SELinux,
et où il est nécessaire de modifier le noyau pour grsecurity, l’implantation de Microsoft
est imposée. Son principal objectif est de protéger le système des attaques, qu’elles viennent de
l’extérieur ou de l’intérieur.
Modèle général
Le modèle de protection s’inspire des modèles de Biba et de BLP que nous avons détaillé dans
la section 2.2.2.2. Chaque entité du système, que ce soit les sujets ou les objets, possède un niveau
d’intégrité [Microsoft, 2013]. Pour qu’un sujet puisse modifier un objet, il doit nécessairement
posséder un niveau d’intégrité supérieur ou égal à celui de l’objet.
Cependant, nous avons vu que le modèle de protection défini par Biba était difficilement applicable
à un système d’exploitation. Pour résoudre ce problème, Microsoft n’offre que la propriété
de non modification des objets ayant une intégrité supérieure (No Write Up).
Politique et règle de contrôle d’accès
Par défaut, il existe cinq niveaux d’intégrité.
— le niveau de non confiance (Untrusted) qui concerne les processus appartenant aux sessions
invitées et qui ne peuvent faire aucune interaction privilégiée sur le système ;
— le niveau d’intégrité bas est utilisé pour les processus ayant une forte exposition aux attaques
et qui possèdent souvent des failles de sécurité permettant d’entrer sur le système ;
— le niveau d’intégrité moyen qui est le niveau d’intégrité par défaut de l’utilisateur qui s’est
connecté. C’est aussi le niveau d’intégrité sous lequel tourne la majorité des programmes
lancés par l’utilisateur ;
— le niveau d’intégrité haut, qui est réservé à l’administrateur du système ;
— enfin, le niveau d’intégrité système réservé au système.
Tout comme le définit le modèle basé sur les niveaux d’intégrité de Biba 2.2.2.2, les sujets
ayant une intégrité inférieure à celle de l’objet ne peuvent pas le modifier (No Write Up qui s’applique
spécifiquement aux objets du système). Mais à la différence du modèle théorique, la politique
de contrôle d’accès sous Windows n’empêche pas un sujet ayant une intégrité plus élevée
que l’objet de le lire (principe du No Read Down).
Les lois s’écrivent de la façon suivante :
a ∈ M[s, o] → f(s) ≥ f(o)
w ∈ M[s, o] → f(s) = f(o)
FIGURE 2.12 – Lois d’application des propriétés du MIC
Pour renforcer son implantation, Microsoft a mis en place, en plus des niveaux d’intégrité,
des labels s’appliquant sur les sujets du système. Ces labels agissent en complément des niveaux
d’intégrité. Ils permettent de renforcer le contrôle d’accès présent sur les systèmes Windows.
Par défaut, trois labels de sécurité sont définis :
— No Read Up : les sujets ayant une intégrité strictement inférieure à celle du sujet cible ne
peuvent pas lire le contenu du sujet. Ce label empêche les processus d’intégrité basse d’ob-
462.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
server les processus ayant une intégrité plus haute. Ce label de sécurité est une application
restreinte du modèle de BLP ;
— No Write Up, s’applique ici sur les sujets du système : les sujets ayant une intégrité strictement
inférieure à celle des sujets ne peuvent pas les modifier, c’est l’application d’une des
deux propriétés énoncées par Biba ;
— No Execute Up : restreint la permission d’exécution sur les objets par les sujets ayant un
niveau d’intégrité bas.
La figure 2.13 illustre l’application du modèle de protection MIC.
Niveau d’intégrité haut
Niveau d’intégrité moyen
Niveau d’intégrité bas
No Write Up
No Read Up
No Execute Up
FIGURE 2.13 – Modèle de protection des données : MIC
Cependant, dans le but d’assurer le fonctionnement du système, il existe des exceptions possibles.
Les utilisateurs autorisés à effectuer des tâches d’administration ont la possibilité de modifier
leur niveau d’intégrité. L’objectif étant d’augmenter le niveau d’intégrité d’un processus
pour qu’ils puissent réaliser les tâches privilégiées. Cette augmentation de privilège s’opère, par
exemple, lorsqu’un utilisateur veut installer un nouveau logiciel ou réaliser une mise à jour.
Cette autorisation d’augmentation du niveau d’intégrité est représentée par le jeton d’accès
Administrateur. Il autorise ainsi les processus à écrire dans les répertoires modifiables uniquement
par l’administrateur. Depuis Windows Vista, il n’existe plus de compte Administrateur sous
Windows. On peut rapprocher la possibilité d’augmentation du niveau d’intégrité pour un utilisateur
de la commande sudo sous Linux, qui permet de changer l’environnement de l’utilisateur,
généralement dans le but d’effectuer des tâches d’administration.
Ce modèle de contrôle d’accès est mis en place pour protéger le système et les fichiers systèmes
des attaques qui pourraient modifier leur intégrité. À la différence des implantations de mécanisme
de contrôle d’accès sous Linux utilisant les LSM, le contrôle du MIC est fait avant le contrôle
des droits d’accès discrétionnaire. Cela entraîne la possibilité pour l’utilisateur élevant son niveau
d’intégrité par le jeton d’accès Administrateur de contourner les droits d’accès classiques. En effet,
une fois son intégrité modifiée, il se retrouve avec des privilèges administrateur ce qui lui permet
de contourner les droits d’accès discrétionnaire et lui offre presque tous les droits.
Cette implantation d’un mécanisme de contrôle d’accès obligatoire est la première réalisée
par Microsoft. Elle a l’avantage de proposer une approche plus simple que SELinux ou grsecurity
puisqu’il n’est pas nécessaire d’écrire une politique énumérant tous les privilèges. En pratique, il
472.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
ne protège pas les données des utilisateurs accessibles via le jeton d’accès Administrateur. Ainsi,
MIC ne permet pas de minimiser les privilèges, ce qui autorise de nombreuses violations de confi-
dentialité et d’intégrité car il n’implante qu’une partie du modèle de protection de Biba.
2.3.2.2 PRECIP
PRECIP (Practical and Retrofittable Confidential Information Protection) [Wang et al., 2008]
est un mécanisme de gestion des flux d’information directs développé pour Windows XP. Il implante
une simplification du modèle de BLP. En plus d’un mécanisme de contrôle, il est fourni avec
une suite d’outils aidant à son administration.
Modèle général
PRECIP associe deux niveaux de sécurité aux objets du système. Ces niveaux sont "haut" et
"bas". Les sujets possèdent aussi deux niveaux de sécurité trust et untrusted. Pour qu’un sujet
puisse accéder à un objet ayant un niveau haut, il doit être considéré comme "de confiance".
Cette modélisation est une implantation sur un système réel, ici testée sur Windows XP, du
modèle de BLP. L’objectif de cette implantation est de respectée la confidentialité du système,
même en cas d’attaque.
Cette implantation d’un mécanisme de contrôle d’accès obligatoire est l’une des premières
présente sur les systèmes d’exploitation Windows. Elle implante une simplification de modèle de
confidentialité définie par BLP. Cette implantation se base sur le suivi des flux implicites et explicites
et sur l’utilisation de l’étiquette dynamique des données. Cependant, le modèle est limité
à seulement deux niveaux de confidentialité. De plus, les règles sont limitées et ne protègent pas
le système complet, juste les fichiers considérés comme sensibles. Les règles ne sont pas applicables
à tout le système et elle ne sont pas extensibles. Enfin, les résultats montrent un impact non
négligeable sur les performances du système d’exploitation ainsi que sur le fonctionnement des
applications [Wang et al., 2008].
Politique et règle de contrôle d’accès
PRECIP définit deux niveaux de confidentialité pour les objets du système : high et low. Ces
informations sont stockées dans les flux NTFS des objets. Les sujets peuvent avoir deux niveaux
de sécurité : trust et untrusted. Ces niveaux sont stockés dans une structure du noyau. La détermination
de ces niveaux est faite sur l’établissement d’une base de données fournie par l’outil.
Un sujet est considéré comme de confiance si l’outil a pleinement conscience de toutes les
entrées et toutes les sorties possibles de l’exécutable. Si ce n’est pas le cas, il sera alors marqué
comme de non confiance. Les niveaux de confidentialité des objets du système sont dérivés des
droits d’accès discrétionnaire. Par exemple, un fichier dont le propriétaire est l’administrateur est
considéré comme sensible.
La définition des niveaux de confidentialité peut aussi être faite par le propriétaire des fichiers
grâce aux outils fournis par PRECIP. Des outils spécifiques, permettant de faire transiter des processus
en mode sensible comme les navigateurs Internet qui vont sur les sites sensibles, ont aussi
été mis en place.
2.3.2.3 Core Force
Core Force [Labs, 2005] est une suite d’outils divisée en deux parties : un pare-feu et un
mécanisme de contrôle d’accès. Core Force permet de confiner les processus et contrôler leurs
privilèges.
482.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
✞ ☎
1
2
✝ ✆
Listing 2.11 – Extrait d’un fichier de configuration de Core Force pour un programme
✞ ☎
1
2
3 A Policy includes previously defined configuration
parameters.
4
5
6
7
8
✝ ✆
Listing 2.12 – Extrait d’un fichier de configuration de Core Force pour un programme spécifiant
les permissions
Modèle général
Core Force se base sur le modèle de grsecurity pour faire du contrôle d’accès, c’est-à-dire qu’il
va appliquer le triplet (r,w,x) pour chaque objet du système. Comme grsecurity ou SELinux, il est
nécessaire de définir explicitement les interactions autorisées pour chaque application du système.
Core Force est fourni sous la forme d’un logiciel, installable uniquement Windows 2000 et sur
Windows XP. Il est composé de deux driver noyau, un qui contrôle des interactions sur le système
de fichiers et sur le registre, et le second pour contrôler les interactions du réseau.
La configuration par défaut définie des profils de sécurité pour les applications. Ces profils
sont des templates de sécurité, qui proposent des politiques de sécurité par défaut vis-à-vis du
profil sélectionné. Il est cependant possible de créer des profils spécifiques pour les applications.
Politique et règle d’accès
La politique de contrôle d’accès s’appuie sur le chemin complet des sujets et des objets. Tout
comme grsecurity, une règle de contrôle d’accès associe un sujet à un objet avec un ensemble de
permission qui se définissent grâce aux ACL.
Pour configurer les permissions pour les applications, Core Force propose une interface graphique
facilitant la configuration du contrôle d’accès. Les permissions sont ensuite stockées dans
des fichiers au format XML.
Nous allons détailler un exemple de politique. Tout d’abord, le fichier XML spécifie pour quel
programme s’applique cette politique 2.11.
Ensuite, le fichier de configuration spécifie les interactions autorisées par le programme 2.12.
Nous pouvons noter ici que le programme Firefox a le droit de lecture et d’écriture sur le fichier
pluginreg.dat dans le dossier Mozilla.
L’approche Core Force a été abandonnée depuis l’arrivée de Windows Vista, 7 et 8.
2.3.3 Distributed Security Infrastructure
Distributed Security Infrastructure (DSI) [Pourzandi et al., 2002] est un framework de dé-
ploiement et d’administration d’une politique de contrôle d’accès pour un environnement HPC.
C’est la première implantation d’un framework de gestion d’une politique de sécurité orienté
492.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
système distribué. Le projet a ensuite évolué pour être intégré dans un framework nommé HAOSCAR
[Leangsuksun et Haddad, 2004].
Les auteurs de DSI ont mis en place une architecture distribuée pour répondre à la problématique
de déploiement et de gestion d’une politique de sécurité dans un environnement distribué.
L’intégration de DSI dans HA-OSCAR avait pour objectif de cibler les environnements HPC. Cette
intégration a entraîné le changement de nom pour devenir RASS [Darivemula et al., 2006] (Reliability,
Availability, Serviceability and Security). Cette architecture se base sur la définition de deux
éléments clés : le Security Server et Security Manager.
Le Security Server est le point d’entrée du système pour la gestion de l’infrastructure. Il est
chargé du déploiement de la politique de sécurité sur tous les nœuds. Il doit aussi distribuer les
mises à jour de la politique. Il s’occupe enfin de remonter les alertes de sécurité en provenance des
nœuds.
Les Security Manager sont déployés sur les nœuds du cluster. Ce sont les agents locaux
chargés d’appliquer la politique de sécurité qu’ils ont reçue du serveur de sécurité. Dans
[Pourzandi et al., 2002], les auteurs appliquent une politique de sécurité pour SELinux.
Les communications entre le serveur de sécurité et les managers se font sur des canaux authentifiés
et chiffrés. Ces canaux de communication sont utilisés pour remonter les alarmes et les
alertes de sécurité ainsi que pour la distribution de la politique de sécurité.
La politique de sécurité, appelée Distributed Security Policy (DSP) par les auteurs, définit explicitement
les accès autorisés sur chaque système. Elle est gérée sur le SS par un administrateur.
Grâce aux canaux de communication chiffrés, les agents locaux autorisent des mises à jour de
la politique. Les règles d’accès définissent les accès autorisés sur le système mais aussi sur les
échanges entre les systèmes. Pour contrôler les interactions entre les systèmes, DSI ajoute un security
node ID (SNID). En plus de ce SNID, DSI définit des secure ID(SID) pour chaque sujet
(SSID) et chaque objet d’un système (TSID). Grâce à ces deux ID, les auteurs établissent le cluster
security ID (CSID). Ce CSID est ajouté aux options des paquets IP. Ce sont enfin les Security
Manager qui réalisent le contrôle d’accès en vérifiant les CSID présents dans chaque paquet IP.
Il est ainsi possible de contrôler les communications établies entre les nœuds du cluster. Cependant,
cette approche est très proche de SELinux et peu extensible, elle n’offre en pratique aucun
couplage possible avec d’autres mécanismes de sécurité.
2.3.4 Impact sur les performances
Nous allons traiter dans cette partie de l’impact sur les performances des mécanismes de
contrôle d’accès. En vue de l’intégration d’un mécanisme de contrôle d’accès obligatoire, il est
nécessaire de connaître son impact sur le système d’exploitation, spécialement pour le HPC.
Dans l’article [M. Fox et Thomas, 2003], les auteurs opposent SELinux à grsecurity. Ils pré-
sentent dans une première partie le fonctionnement de chaque mécanisme de contrôle d’accès
obligatoire. Puis ils exécutent différents benchmarks : lmbench et unixbench. Ces benchmarks
réalisent des séries d’opérations sur le système de fichiers comme des lectures et écritures
de fichiers de différentes tailles mais aussi des opérations spécifiques comme des exécutions de
processus, etc. Ces benchmarks sont exécutés suivant différentes configurations (par un utilisateur
standard, un administrateur, puis en mode protection). La conclusion de cet article est que ces
mécanismes de contrôle d’accès influencent différemment les performances du système d’exploitation.
Cette influence va dépendre de l’action réalisée : écriture, changement de contexte, etc. Il
n’est donc pas possible de dire avec précision si un mécanisme de contrôle d’accès est plus adapté
qu’un autre aux environnements HPC. La principale limite de cet article est que les auteurs ne font
que comparer SELinux avec grsecurity sans proposer les résultats pour un système sans contrôle
d’accès obligatoire.
502.3. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS
Les auteurs de RASS [Leangsuksun et al., 2005] proposent aussi une étude sur l’impact sur les
performances du mécanisme de contrôle d’accès obligatoire qu’ils ont mis en place dans un milieu
HPC. Les résultats portent sur des versions du noyau Linux assez anciennes puisque la version du
noyau est 2.4.17.
L’impact sur le système de fichiers est compris entre 0% et 2% suivant les opérations par rapport
à un système sans le système RASS. Les opérations les plus impactées sont les exécutions de
nouveau processus. Par contre, une latence comprise 20% et 30% a été mesurée pour les messages
envoyés et reçus en UDP. Cette latence est due aux modifications des paquets IP faites par les Security
Manager dans le but d’y ajouter les CSID. Sans le contrôle réseau, la latence est de l’ordre
de 5%.
Cette première étude montre que l’intégration d’un mécanisme de contrôle d’accès obligatoire
dans un environnement ayant de fortes contraintes en termes de performances est possible. Cependant,
les latences réseaux générées à cause des modifications des paquets IP ne sont pas encore
intégrables dans les environnements HPC.
Dans une seconde étude [Blanc et Lalande, 2012], les auteurs montrent que l’intégration d’un
MAC peut être faite dans un environnement HPC. Dans une première partie, les auteurs proposent
la mise en place de propriétés de sécurité pour confiner les utilisateurs et protéger les services critiques
présents sur le système. Pour cela, ils utilisent SELinux. Le confinement des utilisateurs se
fait par l’utilisation des catégories présentes dans SELinux. Ils concluent par des tests de performance
sur le système de fichiers Lustre. Il en résulte que l’ajout de SELinux, associé à ce système
de fichiers spécifiques, engendre un surcoût de 10% sur les entrées/sorties. Cependant, il s’agit
uniquement d’une expérimentation avec SELinux qui n’offre pas de cadre général pour évaluer les
performances.
2.3.5 Discussion
Nous venons de détailler les implantations des mécanismes de contrôle d’accès obligatoire
présents sur les systèmes d’exploitation Linux et Windows. Pour chaque implantation, nous avons
détaillé les propriétés de sécurité que le mécanisme est capable de garantir.
Le tableau 2.2 récapitule, pour chaque système d’exploitation étudié, la liste des propriétés de
sécurité supportées. Nous pouvons tirer deux constats de ce tableau. Le premier est que les mécanismes
de contrôle d’accès obligatoire présents sous Linux sont assez complets et permettent de
couvrir un large panel de propriétés de sécurité que nous avions exprimés. Il n’est donc pas nécessaire
de rajouter un nouveau mécanisme pour ce système d’exploitation. Cependant, nous avons
aussi montré un manque d’intégration de ces mécanismes dans les environnements distribués et
plus particulièrement dans les environnements HPC. Seul le projet DSI propose une intégration
d’un MAC dans les clusters, mais sans pour autant juger avec précision de l’impact sur les performances
du système. De plus, les travaux proposés sont maintenant assez anciens par rapport aux
noyaux Linux actuels.
Le second constat que nous pouvons faire, est le manque de mécanismes capables d’appliquer
des propriétés de sécurité sur les systèmes Windows. Le plus complet est le MIC, le mécanisme
mis en place par Microsoft, mais ce dernier souffre de quelques faiblesses qui peuvent se révéler
dangereuses pour le système. Comme nous l’avons détaillé, ce mécanisme n’est pas capable de
protéger efficacement tout le système puisqu’il s’attache à vérifier l’intégrité des fichiers du système.
Il ne contrôle pas, par défaut, les actions effectuées sur les fichiers des utilisateurs. Certains
mécanismes tels que Core Force ou PRECIP existent, mais ils ne sont, soit plus maintenus pour
les systèmes actuels (Windows 7 et Windows 8) soit ne permettent pas un contrôle précis de toutes
les activités.
512.4. CONCLUSION
Linux Windows
MAC SELinux grsecurity Tomoyo PIGA MIC PRECIP Core Force
Confidentialité
- des objets oui oui oui oui x oui x
- des sujets x x oui oui oui x x
Intégrité
- des objets oui oui oui oui oui x x
- des sujets x x x oui oui x x
Propriétés spécifiques
- BLP oui oui x oui x oui x
- Biba oui x x oui oui x x
Propriétés dérivées
- Conf de processus oui oui oui oui x oui oui
- Moindre privilège oui oui oui oui x x oui
- Séparation de privilèges oui oui x oui x x x
- Non-interférence x x x oui x x x
- Nouvelles propriétés oui oui oui oui x x oui
TABLE 2.2 – Tableau récapitulatif des propriétés de sécurité appliquées par les implantations de
contrôle d’accès obligatoire
2.4 Conclusion
La problématique du contrôle d’accès s’avère différente à traiter suivant les systèmes d’exploitation.
D’un côté, nous avons plusieurs implantations matures et éprouvées, de l’autre, il n’existe
que très peu de choses.
Sur les systèmes d’exploitation Linux, nous avons choisi de détailler l’implantation de quatre
mécanismes de contrôle d’accès obligatoire. Il en existe cependant d’autres proposant leurs propres
implantations. Nous pouvons par exemple citer SMACK [Casey Schaufler , 2008] (Simplified
Mandatory Access Control Kernel) qui se base sur la définition de labels de sécurité et qui propose
une implantation du modèle de BLP. Comme son nom l’indique, c’est un mécanisme qui se veut
simple à configurer et à utiliser puisqu’il ne propose que peu de labels (trois par défaut). Il est notamment
utilisé dans le système d’exploitation de Samsung pour ses téléphones portables, appelé
Tizen.
Tous ces mécanismes se basent sur la définition de politique de sécurité qui peuvent être ré-
digées soit à la main, soit générées de manière plus ou moins automatiques facilitant ainsi grandement
leur intégration dans les systèmes Linux. La mise à disposition d’outils d’administration
et d’aide à la gestion des politiques permet d’avoir des systèmes qui peuvent être maintenus facilement.
De plus, il est facile de noter que sur les systèmes d’exploitation Linux, nous avons le
choix dans le mécanisme de contrôle d’accès à utiliser. Ce choix est en partie dû à la possibilité de
s’intégrer au noyau facilement en utilisant les LSM, hormis grsecurity qui continue de proposer un
patch noyau.
Sur les systèmes d’exploitation Windows, il n’existe pas autant de choix. Les premiers projets
sur le renforcement du contrôle d’accès ne proposent que d’étudier les faiblesses de configuration
du contrôle d’accès discrétionnaire, par exemple Netra [Naldurg et al., 2006]. Ces outils, qui
fournissent des rapports et des graphiques présentant les attaques possibles à partir d’un état du
système, ne sont que des moyens de détection hors ligne et n’offrent pas de réelles solutions pour
renforcer la sécurité des systèmes d’exploitation Windows.
D’autres projets proposent des mécanismes pour faire de la protection du système. Ces implantations
se focalisent sur certains points précis du système : gestion des exécutables ou protection
des fichiers considérés comme sensibles. Ces outils sont issus de phase d’expérimentation sur des
522.4. CONCLUSION
logiciels malveillants, ils ne sont pas capables de contrer les comportements qu’ils ne connaissent
pas.
Le mécanisme de contrôle d’accès obligatoire proposé par Microsoft, le MIC, vise essentiellement
à protéger le système de toute modification malveillante, mais ce mécanisme ne protège
en aucun cas les données des utilisateurs (protection en intégrité ou en confidentialité). De plus,
dans la pratique, l’utilisation de ce mécanisme se révèle difficile pour l’ensemble du système et
fragile puisque l’utilisateur peut autoriser l’élévation de privilèges. Nous pouvons aussi ajouter
que Microsoft propose, sur les versions Enterprise et Ultimate de Windows 7, un outil qui se
nomme AppLocker [Microsoft, 2009]. Il permet de configurer les droits d’accès sur les ressources
du système. Cette configuration peut se faire de manière graphique.
Nous nous sommes aussi intéressés à l’intégration dans les environnements distribués, et plus
particulièrement dans les milieux HPC, des mécanismes de contrôle d’accès obligatoire. Il existe
des projets visant à renforcer la sécurité des grilles, notamment les échanges entre les différents
services par exemple en utilisant les langages de type XACML [OASIS, 2013]. Néanmoins, si le
projet DSI s’intéresse à l’intégration d’un MAC dans les milieux HPC, il traite de façon incomplète
l’impact d’un tel mécanisme sur les performances du système d’exploitation.
D’une part, nous avons donc vu que sur les systèmes d’exploitation Linux, il existait un certain
nombre de modèles de protection obligatoire. Tous ces modèles ont été développés pour être inté-
grés dans les systèmes pour les stations de travail. Avec le développement des systèmes distribués,
mais aussi des environnements de calcul à haute performance, le renforcement du contrôle d’accès
sur les grilles devient une nécessité. Peu de projets se sont intéressés à l’intégration de ce type de
mécanisme de contrôle d’accès dans les environnements distribués et l’impact d’un tel mécanisme
sur les performances des systèmes d’exploitation est peu évoqué. On manque notamment de modèles
et de protocoles précis d’évaluation des performances. Enfin, nous considérons qu’il n’est
pas envisageable de faire reposer le contrôle d’accès sur un seul mécanisme et là encore, les approches
et les modèles permettant d’associer différents mécanismes de contrôle d’accès manquent.
De plus, les modèles de répartition de ces mécanismes sont quasiment inexistants. Enfin, si déjà les
protocoles d’évaluation des performances manquent pour les systèmes de protection homogènes
(par exemple basés exclusivement sur SELinux), ils sont encore plus inexistants dans le cadre des
systèmes répartis de contrôle d’accès hétérogènes où l’on voudra associer et répartir différents
mécanismes.
D’autre part, nous avons noté le manque de mécanisme de contrôle d’accès obligatoire sur les
systèmes Windows capable d’appliquer des propriétés de sécurité que nous avons définies au début
de ce chapitre. La nécessité de l’implantation d’un tel mécanisme dans les systèmes Windows est
extrêmement grande puisque c’est, encore à ce jour, le système le plus utilisé en tant que station
de travail.
Les chapitres suivant traitent de façon uniforme de ces différents points en s’intéressant à la fois
à la protection des systèmes d’exploitation hétérogènes, à l’association des différents mécanismes
de protection, à leurs répartitions et aux méthodes et protocoles d’évaluation des performances
dans ces systèmes répartis de protection.
532.4. CONCLUSION
54Chapitre 3
Modélisation et répartition
d’observateurs
Les exemples que nous avons détaillés dans l’introduction de notre étude (voir la section 1.3),
ont mis en avant que les attaques sur les systèmes d’exploitation sont de plus en plus complexes.
Pour les prévenir de manière efficace, c’est-à-dire sans nuire au fonctionnement du système, il faut
connaître le scénario complet de ces attaques.
La connaissance de ce scénario complet passe par le contrôle des interactions directes au sein
du système. Pour contrôler ces interactions, la mise en place d’un observateur, capable de détourner
le flux d’exécution régulier et de prendre des décisions en fonction d’une politique de sécurité,
est essentielle. Ce modèle de protection, basé sur deux éléments complémentaires, s’appuie pleinement
sur la définition d’un Policy Enforcement Point et d’un Policy Decision Point. Le PEP est
le moyen utilisé par l’observateur pour détourner le flux d’exécution. On peut citer par exemple
les LSM, présents nativement sur les systèmes Linux, qui offrent la possibilité au module de sécurité
de détourner les flux d’exécution réguliers. Le PDP est la partie de l’observateur qui prend les
décisions. Dans le cadre d’un mécanisme contrôlant les accès, [Anderson, 1980] a défini un observateur
particulier : le moniteur de référence. Le moniteur de référence est donc un observateur
prenant des décisions d’accès au regard d’une politique de sécurité.
Mais le seul contrôle des interactions directes ne suffit pas à protéger le système contre les scé-
narios complets. En effet, un observateur ne traitant que les interactions directes n’est pas capable
de traiter un scénario complet d’attaque. Il faut pour cela utiliser d’autres observateurs capables
de reconstruire le scénario complet. Pour ce faire, un premier type d’observateur doit être capable
d’horodater chaque interaction directe dans le but de les situer les unes par rapport aux autres.
Ensuite, il faut être capable d’associer les différents observateurs nécessaires à la reconstruction
du scénario pour qu’ils puissent s’échanger non seulement les requêtes, mais aussi les décisions
d’accès qu’ils prennent.
Pour prendre sa décision, un observateur s’appuie sur une politique de sécurité. Cette politique
peut être une base de données contenant les éléments à bloquer, des signatures à détecter, ainsi que
les interactions directes à contrôler. Comme nous avons besoin en premier lieu d’un observateur
capable de gérer les interactions directes, nous allons proposer un modèle de politique de sécurité
générique pour contrôler les accès directs des processus sur les ressources. Nous appliquerons
plus spécifiquement cette politique pour les systèmes Windows car, comme nous l’avons montré
au cours de l’état de l’art 2.4, c’est sur ce système qu’il y a le plus de manque. Dans le but d’obtenir
une politique de sécurité générique pour les systèmes Windows, nous proposons une désignation
des ressources pour ces systèmes.
Le langage pour la politique directe supporte à la fois PBAC et DTE. Dans le modèle PBAC,
les ressources sont identifiées par leur chemin complet dans l’arborescence du système de fichiers,
553.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
comme le fait grsecurity. Pour PBAC, notre désignation des ressources permet une politique portable
car indépendante de la localisation des ressources. Dans le modèle DTE, les ressources sont
identifiées par des types et des domaines. Cette méthode supporte mieux l’hétérogénéité puisque
la politique pourrait aisément être projetée sur Linux comme sur Windows.
Nous étudierons ensuite comment mettre en œuvre un PEP pour Windows. Ainsi grâce à ce
PEP et à la politique générique, nous pouvons proposer un PDP qui gère les interactions directes et
offre ainsi un moniteur de référence pour les versions récentes de Windows, à savoir Windows 7.
3.1 Définition d’un observateur pour les systèmes d’exploitation Linux
et Windows
Cette section s’intéresse à la définition générique de la notion d’observateur. Pour que l’observateur
puisse fonctionner sur le système, cela passe par la mise en place de deux éléments :
— un PEP (Policy Enforcement Point, point d’application de la politique) : c’est-à-dire un
moyen pour détourner le flux d’exécution régulier du système ainsi que pour appliquer les
décisions prises par l’observateur ;
— une politique de sécurité utilisée par le PDP (Policy Decision Point, un point de décision),
qui définit les traitements à effectuer.
Dans le cadre d’un observateur contrôlant les accès au sein d’un système, l’application de la
politique de sécurité se fait par un observateur particulier nommé moniteur de référence. Mais
pour que ce contrôle soit efficace, il est nécessaire que le moniteur puisse observer l’ensemble du
système. Pour cela, l’observateur se place de manière naturelle en espace noyau.
L’espace noyau est une protection matérielle qui a été mise en place au niveau des processeurs.
Cette protection se nomme anneau de protection (ou rings). L’objectif de cette protection est
d’établir des niveaux de confiance pour l’exécution de code. Les systèmes d’exploitation modernes
n’utilisent que deux anneaux de protection : l’anneau 0 et l’anneau 3. L’anneau 0 est un anneau
de protection considéré de confiance, c’est-à-dire que le code qui s’exécute n’est pas supervisé.
Cela se traduit par la possibilité de réaliser des tâches privilégiées et de pouvoir utiliser toutes les
instructions du processeur. C’est dans cet anneau de protection que s’exécute le noyau du système
d’exploitation. L’anneau de protection 3 est un anneau de protection où s’exécute du code qui
n’est pas considéré comme sûr. Cela se traduit par la possibilité d’utiliser un jeu d’instructions
plus restreintes au niveau du processeur. Les systèmes d’exploitation modernes utilisent l’anneau
de protection 3 pour exécuter les applications. Dans ce mode, les interactions des applications sont
supervisées et, par conséquent, pour réaliser une opération spécifique, l’application doit passer par
un appel système, qui lui sera contrôlé et exécuté par le noyau.
C’est dans le but de pouvoir réaliser des tâches privilégiées que nous plaçons l’observateur en
espace noyau. Il pourra ainsi contrôler tout le système sans restriction. Les opérations d’entrée/-
sortie n’étant possibles que par les appels système, le détournement des appels systèmes permet
de contrôler toutes les interactions entre des processus sur les ressources.
Sur les systèmes d’exploitation Windows, pour exécuter du code en espace noyau, il faut que
ce code soit directement dans le noyau ou soit exécuté par un pilote de périphérique (un driver).
Dans le cas de Windows, comme il n’est pas possible de recompiler le noyau pour y inclure nos
modifications, nous sommes contraints de mettre en place un driver. Sur les systèmes d’exploitation
Linux, ce contrôle peut être effectué soit par un module noyau, soit par une modification du
code du noyau, puisque ce dernier est modifiable.
La figure 3.1 illustre le placement de l’observateur de manière générale vis-à-vis d’un appel
système fait par un processus. Lorsqu’un processus effectue une interaction sur une ressource,
celle-ci passe par un appel système (flèche 0). Dans un premier temps, l’observateur doit détourner
563.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
le flux d’exécution (flèche 1). Il prend ensuite une décision au regard de sa politique de sécurité
(flèche 2). Dans le cas où l’interaction est autorisée, il va exécuter l’appel système et récupérer
le retour de celui-ci (flèche 3). L’observateur peut aussi réaliser des traitements spécifiques sur le
retour de l’appel. Pour finir, et quelle que soit le traitement que l’observateur a réalisé, il renvoie
une réponse au processus ayant réalisé l’interaction (flèche 4).
Un observateur est donc composé d’un mécanisme de détournement appelé Policy Enforcement
Point et d’un mécanisme de prise de décision nommé Policy Decision Point.
FIGURE 3.1 – Schéma du placement de l’observateur
3.1.1 Éléments de base de la protection système
Pour définir de façon générique la notion d’observateur, nous allons nous appuyer sur les deux
scénarios d’attaque que nous avons présentés en introduction de ce mémoire (voir les figures 1.2
et 1.3). De plus, nous allons préciser les éléments de base de la protection système, non seulement
pour un observateur mais aussi pour l’écriture de la politique de sécurité.
Dans ces deux scénarios, nous observons une interaction directe commune : l’écriture par un
navigateur web d’un fichier malveillant comme décrit par la figure 3.2.
FIGURE 3.2 – Écriture d’un fichier malveillant par Firefox : Windows et Linux
Cette interaction est composée de trois éléments. Le premier élément est le sujet, correspondant
au processus Firefox, le second élément est l’objet, le fichier malware.exe sur Windows
et exploit.sh sur Linux, et une opération élémentaire write. Cette interaction directe
est représentée de la manière suivante :
F irefox −−−→
write
malware.exe
573.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
Définition 3.1.1 Un sujet Un sujet s est une entité active du système qui réalise une opération
élémentaire. Sur les systèmes Windows, l’ensemble des sujets S est composé des processus, des
services, des services système et des drivers. Sur les systèmes Linux, ce sont exclusivement les
processus.
En nous appuyant sur la figure 3.2, le processus nommé Firefox.exe est le sujet pour
les systèmes Windows alors qu’il est nommé /usr/bin/firefox sur Linux. Sur les systèmes
Windows, les processus sont représentés par leur nom relatif et non par leur chemin complet.
Définition 3.1.2 Un objet Un objet o est une entité du système qui est la cible d’une opération
élémentaire. L’ensemble des objets O est composé des ressources classiques (fichiers, répertoires,
socket, etc.), des éléments du registre (les ruches, les clés, les valeurs et des données) ainsi que de
l’ensemble S des sujets.
Dans la figure 3.2, le fichier malware.exe est un exemple d’objet pour Windows et le fichier
exploit.sh l’est pour Linux.
Définition 3.1.3 Une classe Une classe class est utilisée pour caractériser un objet. Elle permet
de spécifier le type d’objet, et par conséquent, les opérations élémentaires possibles sur cet objet.
L’ensemble Class constitue l’ensemble des classes autorisées sur le système.
La classe permet ainsi de différencier les opérations élémentaires réalisées sur un fichier des
opérations réalisées sur un tube. Les objets malware.exe et exploit.sh sont de la classe
fichier.
Définition 3.1.4 Une opération élémentaire Une opération élémentaire oe est une opération de
base effectuée par un sujet sur un objet (ou sur un sujet) lors de l’exécution d’un appel système.
Par exemple sur Linux, l’ouverture d’un fichier met en œuvre deux opérations élémentaires.
L’opération élémentaire getattr vérifie les droits sur le fichier et l’opération élémentaire open
retourne un descripteur de fichier.
Définition 3.1.5 Un appel système Un appel système est une fonction du noyau permettant d’effectuer
des opérations d’entrée/sortie, de communication, etc. Toutes ces opérations sont considé-
rées comme sensibles au niveau du système d’exploitation. C’est pour cette raison qu’elles sont
réalisées par le noyau. Lors d’un appel système, une opération élémentaire est réalisée.
Pour pouvoir réaliser l’opération élémentaire write, le processus Firefox.exe utilise une
fonction nommée WriteFile(), présente en espace utilisateur. Elle correspond à un appel système
en espace noyau qui se nomme NtWriteFile(). C’est cette fonction qui réalise l’opération
d’entrée/sortie sur le fichier. Nous obtenons la même chose sous Linux de manière complètement
analogue, seuls les noms des fonctions sont différents. La figure 3.3 détaille ce cheminement
d’une écriture dans un fichier.
La définition des notions de sujets, d’objets et d’opérations élémentaires, nous permettent de
formaliser la notion d’interaction.
Définition 3.1.6 Une interaction Une interaction it, s −→oe
o est un triplet composé d’un sujet,
d’un objet et d’une opération élémentaire. Elle est notée it = (s, o, oe)
Dans notre exemple 3.2, l’interaction est composée du sujet Firefox.exe, de l’opération
élémentaire écriture et de l’objet malware.exe.
Nous pouvons affiner cette définition d’interaction par l’ajout de la notion directe. Cela signifie
que le sujet exécute directement un appel système sur l’objet.
583.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
FIGURE 3.3 – Écriture détaillée d’un fichier malveillant par un navigateur web
Définition 3.1.7 L’observateur Pour observer une interaction directe, il est nécessaire de mettre
en place un mécanisme capable d’intercepter les opérations élémentaires. Pour cela, cette interception
est réalisée par un observateur au niveau des appels système. Cet observateur doit détourner
le flux d’exécution. La figure 3.4 montre le placement de l’observateur en amont de l’appel
système, donc en espace noyau. En se plaçant en amont de l’appel système, l’observateur est capable
de bloquer le flux d’exécution dans le cadre de l’application d’une politique de protection.
Il peut aussi traiter le retour de l’appel système.
Il existe différents types d’observateurs : les moniteurs de référence, qui contrôlent les interactions,
les auditeurs, qui génèrent des traces en fonction des interactions, les vérificateurs d’inté-
grité, etc.
FIGURE 3.4 – Placement de l’observateur pour détourner le flux d’exécution
Nous proposons le placement d’un observateur en espace noyau car nous voulons avoir un
observateur capable de contrôler toutes les interactions qui se passent sur le système, tout en se
protégeant des potentielles attaques des processus.
593.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
Définition 3.1.8 Détournement de flux d’exécution Le détournement du flux d’exécution est une
opération réalisée le plus souvent en espace noyau dans le but de contrôler les interactions réalisées
par le système. Pour réaliser cela, il faut, soit utiliser un mécanisme prévu dans le système
d’exploitation comme les LSM, soit modifier directement le noyau.
Lors de sa prise de décision, l’observateur a la possibilité d’enregistrer sa décision dans le but
d’assurer la traçabilité des interactions qu’il observe. Pour cela, il génère une trace.
Définition 3.1.9 Trace Une trace tr est générée par l’observateur lors d’une observation, elle
contient l’interaction it décrivant l’opération. Elle peut aussi contenir d’autres informations renseignant
sur l’état du système comme un identifiant de trace ou un horodatage que l’on peut noter
d. tr = (d, s, o, oe).
Pour réaliser un traitement spécifique vis-à-vis d’une observation, l’observateur s’appuie sur
une politique de sécurité.
Définition 3.1.10 La politique de sécurité Un observateur a besoin d’une politique de sécurité
dans le but de réaliser des traitements spécifiques.
Une politique de sécurité peut être de la forme : politique d’audit, politique de détection,
politique de protection, etc. Une politique est constituée d’un ensemble de règles. Une règle permet
à l’observateur d’exécuter un traitement spécifique lorsqu’il intercepte une interaction. Il existe
plusieurs types de règles : règles d’audit, règles de détection, règles de protection, etc.
Dans le cas d’une politique de protection, le traitement est le suivant : si l’interaction courante
ne correspond pas à une règle d’autorisation dans la politique de sécurité, alors l’observateur
l’interdira.
La figure 3.5 illustre le fonctionnement du système avec la mise en place d’un observateur
ainsi que d’une politique de sécurité. Nous avons vu que les deux systèmes d’exploitation étudiés,
Windows et Linux, possèdent une symétrie au niveau de leur fonctionnement. Grâce à cette
symétrie, nous pouvons obtenir un placement générique pour notre observateur commun au deux
systèmes.
FIGURE 3.5 – Schéma global de détournement des flux pour les deux systèmes
Chaque interaction est détournée par l’observateur en espace noyau qui exécute un traitement
conforme à sa politique de sécurité. Dans le cas où l’interaction n’est pas bloquée, l’appel système
se poursuit.
603.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
3.1.1.1 Modélisation du système observé
Nous venons de définir les éléments clés d’un système : les sujets, les objets, les opérations
élémentaires, etc. Grâce à ces définitions, nous allons pouvoir modéliser l’observation du système
d’exploitation.
Le système est constitué d’un ensemble S de sujets et d’objets O. Les sujets réalisent des
opérations élémentaires sur les objets. Ces opérations se traduisent par la définition d’une interaction
it = (s, o, oe). L’ensemble des interactions possibles sur un système est représenté par
l’ensemble IT. Nous pouvons noter que lors d’un appel système, une opération élémentaire oe est
réalisée entre l’appelant (le sujet) et la cible (l’objet ou le sujet). Ainsi lors d’un appel système,
l’observateur reconstruit une interaction directe.
Un observateur détourne un appel système pour prendre une décision et reconstruit une interaction.
Cette décision s’appuie sur une politique de sécurité P ol, qui est composée d’un ensemble
de couples : traitement_observateur et it formant les règles d’accès. On obtient alors, pour une
politique P ol donnée, P ol =
P(traitement_observateur, it). À partir de l’interaction observée
et d’une politique de sécurité, l’observateur prend une décision en utilisant la fonction Dec :
Dec(it, P ol) 7→ (decision, tr) où tr est une trace générée par l’observateur comme le détaille
l’algorithme 1.
Algorithm 1 Prise de décision de l’observateur
Require: P ol
Require: it
d ← Horodatage()
decision ← RechercheDansP olitique(it, P ol)
tr ← GenererT race(d, decision, it)
return decision, tr
L’observateur s’appuie sur deux fonctions : RechercheDansP olitique, fonction qui recherche
l’interaction observée dans la politique pour en extraire une décision et GenererT race,
qui construit une trace.
L’algorithme 2 détaille le mécanisme de recherche d’une interaction it dans une politique P ol
de sécurité. Une politique P ol est composée d’un ensemble de couples : interaction it et traitement
traitement_observateur. Lorsque l’interaction n’existe pas dans la politique, la fonction
retourne un traitement par défaut traitement_def ault qui sera spécifié en fonction du type d’observateur
voulu.
613.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
Algorithm 2 Recherche dans la politique
Require: P ol
Require: it
trouve ← F alse
for all r ∈ P ol ET trouve == F alse do
if Satisf ait(it, r) then
trouve ← T rue
end if
end for
if trouve == T rue then
decison ← r.traitement_observateur
else
decision ← traitement_def ault
end if
return decision
Enfin, la deuxième fonction sur laquelle s’appuie l’observateur est la fonction générant une
trace tr, détaillée par l’algorithme 3. Elle prend en paramètre l’horodatage, la décision ainsi que
l’interaction. Elle ajoute à ces trois éléments un identifiant unique de trace.
Algorithm 3 Génération d’une trace
Require: d (horodatage)
Require: decision
Require: it
id ← CurrentId()
tr ← (d, id, it, decision)
return tr
On peut, à partir de tous ces éléments, modéliser le système observé, comme l’ensemble des
sujets, des objets, des interactions auxquels on ajoute une politique de sécurité et un observateur :
Systemobserve = (S, O, IT, P ol, Observateur)
3.1.1.2 Mode de sécurité
Un observateur possède 3 modes de sécurité. Un mode de sécurité est le comportement de
l’observateur vis-à-vis d’une requête qu’il reçoit. Par construction, ces 3 modes de sécurité sont
mutuellement exclusifs, c’est-à-dire qu’un observateur ne peut pas être simultanément dans deux
de ces modes.
Requête/Réponse
Le premier mode de sécurité est le mode requête/réponse. Ce mode est illustré par la fi-
gure 3.6. Classiquement, lorsque l’observateur reçoit une requête, il va fournir une réponse. Dans
ce mode, l’observateur peut refuser l’appel, retranscrit sur le schéma par les pointillés. Il observe
l’appel système et transmet la réponse de l’appel au système. On peut ajouter un comportement
facultatif à ce mode qui est l’émission d’une alerte.
Classiquement, ce mode est le mode protection (ou enforcing) que l’on retrouve dans les implantations
telles que SELinux ou grsecurity. Lorsque l’observateur reçoit une requête, il autorise
ou non l’interaction et répond à l’appelant (c’est-à-dire : l’observateur se comporte comme un
623.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
FIGURE 3.6 – Mode de sécurité : requête/réponse de l’observateur
intermédiaire entre le processus et l’appel système). Si l’interaction est refusée, une alerte sera
enregistrée dans un fichier d’audit.
Évidence
Le second mode de sécurité est le mode évidence. Ce mode est illustré par la figure 3.7. Le
fonctionnement se base sur deux étapes : lorsque l’observateur reçoit une requête, il transmet la
requête à l’appel système et peut éventuellement émettre une alerte. Dans ce mode de fonctionnement,
l’observateur exécute toujours l’appel système.
FIGURE 3.7 – Mode de sécurité : évidence
On retrouve ce comportement dans les systèmes de détection d’intrusion (Intrusion Detection
System). Lorsque l’observateur reçoit une requête qui correspond à une des règles, il va lever une
alerte (ou générer une trace), sinon il ne fait rien. On retrouve aussi ce comportement pour les
mécanismes de protection qui sont placés en mode détection aussi appelé permissif.
Notification
Le troisième mode de sécurité est le mode notification. Ce mode est illustré par la figure 3.8.
Le fonctionnement de ce mode repose sur le fait que l’observateur va envoyer une notification sans
avoir reçu d’évènement spécifique.
FIGURE 3.8 – Mode de sécurité : notification
Il peut s’agir d’un observateur qui par exemple envoie un signal à un processus qui consomme
trop de temps processeur.
633.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
3.1.2 Définition d’un observateur : le moniteur de référence
Nous allons, dans cette partie, décrire plus en détail notre modèle de moniteur de référence. Ce
modèle est assez générique pour être appliqué sur les différents systèmes. Le moniteur de référence
est chargé d’appliquer le traitement présent dans la politique de sécurité au regard de l’interaction
courante. Dans le cadre de notre moniteur de référence, les traitements possibles sont : autoriser,
refuser et auditer. Si ce modèle couvre les approches Unix existantes, nous montrerons qu’il peut
être implanté sur différents systèmes. Nous proposons plus spécifiquement une mise en œuvre
pour Windows puisque le manque se situe à ce niveau.
Le moniteur de référence est un observateur particulier qui peut empêcher l’interaction, il est
donc en mode de sécurité requête/réponse. Cela se traduit de la manière suivante :
— la requête : c’est une demande d’accès d’un sujet sur un objet du système ;
— la réponse : c’est la décision du moniteur de référence pour la demande d’accès. Elle peut
être de deux types : autorisation ou refus.
À la différence des moniteurs existants sur Linux, notre moniteur de référence est plus gé-
nérique en supportant des politiques de sécurité de type PBAC et des politiques DTE, que nous
détaillerons par la suite.
Notre moniteur de référence propose 3 modes d’utilisation :
— désactivé : aucun contrôle n’est réalisé et le flux d’exécution n’est pas détourné ;
— actif : le flux d’exécution est détourné et les décisions permettent d’empêcher les interactions.
En cas de refus, une alerte est levée par la génération d’une trace. C’est le mode
protection ;
— permissif : le flux d’exécution est détourné, le moniteur de référence cherche dans la politique
et prend une décision, mais il n’empêche pas l’interaction. Ce mode permet de créer
plus facilement la politique de contrôle d’accès et de la valider sans nuire au fonctionnement
du système. Dans ce mode, par défaut, tous les accès, qu’ils soient autorisés ou non,
peuvent être enregistrés dans un fichier d’audit. C’est le mode évidence.
La figure 3.9 illustre les différents traitements que réalise notre moniteur de référence. Pour
décrire cette architecture logicielle, nous allons dérouler un cas pratique en détaillant chacune des
étapes réalisées au sein du moniteur de référence. Nous séparerons en trois parties ce cheminement
: les opérations réalisées durant une phase de pré-décision, c’est-à-dire avant de prendre une
décision pour savoir si l’appel système sera exécuté ou non, une phase de décision, et les opérations
réalisées en post-décision, c’est-à-dire une fois que la décision a été prise.
643.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
FIGURE 3.9 – Schéma du moniteur de référence
3.1.2.1 Phase de pré-décision
La première opération, qui n’est pas directement du ressort du moniteur de référence et qui
consiste à détourner le flux d’exécution régulier, correspond à la flèche 1. Nous décrirons diffé-
rentes méthodes de détournement pour les systèmes Windows dans la section 3.3. Cette partie agit
comme les LSM et propose des interfaces de connexion à notre moniteur de référence. Ainsi, ce
dernier n’a pas besoin de savoir comment est réalisé le détournement du flux d’exécution.
Prétraitement Une première phase notée 2.1 regroupe un ensemble d’opérations de prétraitement.
Dans cette phase, le moniteur attribue un identifiant unique de trace et ajoute un horodatage.
Nous simplifierons les notations en considérant que l’élément d contient à la fois l’horodatage et
un identifiant unique. Ces deux informations serviront à reconstruire l’activité globale du système
pour trouver les scénarios complets d’attaque. La figure 3.10 illustre ce mécanisme.
FIGURE 3.10 – Construction de la trace par le moniteur de référence : ajout de l’horodatage
653.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
Le moniteur ajoute ainsi des informations qui ne serviront pas directement à la prise de décision
mais qui se révèlent utiles pour construire/analyser les activités du système. Dans notre cas,
nous avons choisi de prendre les PID et PPID du sujet, illustré par la figure 3.11.
FIGURE 3.11 – Construction de la trace par le moniteur de référence : ajout d’information pour
l’historique des processus
Notre moniteur de référence doit ensuite calculer les éléments qui vont lui servir à la prise de
décision. Pour cela, il doit récupérer le sujet, l’objet, la classe de l’objet et l’opération élémentaire
demandée par le sujet sur l’objet, illustré par la figure 3.12.
FIGURE 3.12 – Construction de la trace par le moniteur de référence : translation en une interaction
Nous calculons dans cette première phase l’interaction requise qui permettra au moniteur d’autoriser
ou de refuser l’appel système.
Dans le cas du modèle de protection PBAC, le moniteur translate les sujets et objets vers leurs
noms absolus (voir les détails ultérieurs). Les opérations élémentaires sont calculées sous la forme
d’ACL étendues comme définies dans la politique.
Pour le modèle de protection DTE, il est nécessaire d’obtenir les contextes de sécurité incluant
les types pour les sujets et objets. Ils sont donc calculés dans cette phase. Les opérations élémentaires
sont elles directement dérivées des appels système.
A la fin de cette phase, le moniteur possède une interaction it décrivant l’interaction à contrôler.
Tout le cheminement de la construction de la trace effectuée en phase de prétraitement est
illustré par la figure 3.13.
663.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
FIGURE 3.13 – Construction de la trace par le moniteur de référence : schéma global
L’algorithme de construction de la trace par le moniteur de référence est défini par l’algorithme
4. Il prend en entrée l’appel système composé d’un processus et d’un objet. Il commence
par horodater la trace puis l’enrichit en ajoutant les PID et PPID. Enfin, il transforme l’appel système
en une interaction directe.
Algorithm 4 Construction de la trace par le moniteur de référence
Require: AS : processusobjet
tr ← processus, objet
d ← horodatage()
tr ← d, tr
pid, ppid ← enrichissement()
tr ← pid, ppid, tr
it ← translation(as)
tr ← modif ication_trace(tr, it)
return tr
L’algorithme de translation de l’appel système en une interaction directe est illustré par l’algorithme
5. Il prend en entrée l’appel système et commence par modifier le processus et l’objet pour
coller au modèle de protection (PBAC ou DTE). Puis, il va faire correspondre l’appel système à une
opération élémentaire pour construire une interaction directe. La fonction ObtenirOE() retourne
l’opération élémentaire associée à l’appel système.
673.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
Algorithm 5 Translation de l’appel système en interaction
Require: AS : processusobjet
s ← Sujet(processus)
o ← Objet(objet)
oe ← ObtenirOE(AS)
it ← (s, oe, o)
return it
3.1.2.2 Phase de décision
Une fois que le moniteur de référence a toutes les informations nécessaires, il est capable de
prendre une décision, qui correspond à la phase 2.2 de notre schéma. Pour ce faire, il va aller
rechercher dans la politique de sécurité l’interaction requise.
1. Si l’interaction ne satisfait pas la politique, alors le moniteur considère que l’appel système
doit être refusé et qu’il faut auditer ce refus.
2. Si l’interaction est présente dans la politique, alors le moniteur effectue le traitement correspondant.
Le moniteur génère une trace lors des interdictions dans le but d’assurer la traçabilité des
opérations effectuées sur le système. Lorsque les opérations sont autorisées par la politique de
sécurité, il n’est pas nécessaire de générer de trace.
3.1.2.3 Phase de post-décision
audit Après la phase de décision, le moniteur entre dans la phase d’audit. Dans cette phase, il va
pouvoir enregistrer les éléments de l’interaction : sujet, objet, opération élémentaire. De plus, nous
avons récupéré lors de la phase de prétraitement une date et un identifiant unique, ainsi que des
informations secondaires. Nous allons nous servir de tous ces éléments pour construire une trace
suffisamment précise pour décrire l’interaction.
Cette phase est obligatoire lorsque le moniteur est mis en mode permissif.
détection et protection Lorsque le moniteur est en mode permissif, l’opération élémentaire se
poursuit c’est-à-dire que l’appel système est toujours exécuté.
Lorsque le moniteur est en mode actif, en cas de refus explicite, l’interaction ne se poursuit pas
et l’appel système n’est pas exécuté. Si l’interaction est autorisée, alors le moniteur va exécuter
l’appel système (flèche 3). Il s’agit du mode protection.
post-traitement La phase de post-traitement permet d’effectuer des traitements après l’exécution
de l’appel système ou en cas de refus.
Dans le cadre du retour de l’appel système, le moniteur peut mettre à jour la trace d’audit
en spécifiant par exemple le code de retour de l’appel système : s’il a réussi, échoué, quel code
d’erreur, etc. La mise à jour de la trace passe aussi par l’inscription de la date de retour de l’appel
système. Ainsi, en traitant les différentes traces, on peut connaître les sujets ayant eu accès en
même temps à une ressource et ainsi contrer les attaques de type race condition, en analysant les
dépendances causales entre interactions [Rouzaud-Cornabas, 2010].
Lorsque l’interaction a été refusée, le moniteur peut notifier les utilisateurs en fonction de la
gravité de l’opération élémentaire. Par exemple, il peut envoyer un message directement depuis
l’espace noyau pour déclencher une alerte.
683.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
retour du moniteur La dernière phase consiste à retourner le résultat de l’appel système au
processus appelant. Lorsque l’interaction a été autorisée et que l’appel système a été exécuté, on
peut renvoyer les résultats retournés par l’appel système. Lorsque l’interaction a été refusée, il
faut renvoyer un code d’erreur significatif au processus. Par exemple sous Windows, le moniteur
peut renvoyer le code STATUS_ACCESS_DENIED et sous Linux -EACCES. Il est à noter que le
post-traitement permet de modifier si besoin les résultats de l’appel.
3.1.3 Répartition des observateurs
Nous avons présenté dans l’introduction de notre étude 1.3.3 qu’un seul observateur n’était pas
suffisant pour protéger efficacement le système et qu’il était nécessaire de mettre en place plusieurs
observateurs.
La répartition des observateurs consiste à ajouter différents observateurs dans la chaîne de
contrôle des interactions, c’est-à-dire des appels système. Définir la répartition nécessite de décrire
la méthode d’association de deux observateurs, leurs localisations et leurs redondances.
3.1.3.1 Association
Nous définissions deux modes d’association pour qu’une interaction puisse être traitée par
deux observateurs. Ces deux modes sont mutuellement exclusifs. Deux observateurs ne peuvent
pas être à la fois en mode cascade et en mode continuation, puisque comme nous le verrons, dans
le premier mode, le premier observateur attend la réponse du second, ce qui n’est pas le cas dans
le second mode.
Cascade
Le premier mode est le mode cascade. Ce mode est illustré par la figure 3.14. Dans ce mode, le
premier observateur reçoit la requête et la transmet au second observateur. Le second observateur
renvoie la réponse au premier observateur qui renvoie ensuite une réponse à l’appelant.
FIGURE 3.14 – Mode d’association : cascade
Ce mode de fonctionnement a été, par exemple, mis en place dans le défi ANR [ANR, 2009]
par l’utilisation combinée de SELinux et de PIGA. Il permet d’additionner les contrôles des deux
observateurs.
Continuation
Le second mode est le mode continuation. Ce mode est illustré par la figure 3.15. Dans le
mode continuation, le premier observateur n’attend pas la réponse du second. Il effectue son traitement
et transmet ensuite, si nécessaire, la requête au second.
Ce mode peut être illustré en donnant une priorité dans les contrôles d’accès. Le premier
contrôle est prioritaire et décide seul d’interdire/autoriser l’accès ou bien de transmettre la demande
au second mécanisme.
693.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
FIGURE 3.15 – Mode d’association : continuation
3.1.3.2 Localisation
Nous avons défini les modes de sécurité ainsi que les modes d’association possibles pour les
observateurs. Nous allons maintenant détailler les modes de localisation, c’est-à-dire la place d’un
observateur au sein de différentes architectures.
Colocalisée
Le premier mode concerne un observateur localisé sur la même machine que le client. Ce mode
est illustré par la figure 3.16.
FIGURE 3.16 – Mode de localisation : colocalisé
Ce mode est principalement utilisé par les mécanismes de contrôle d’accès obligatoire : SELinux,
grsecurity, etc.
Distante
Le second mode de répartition possible est d’avoir un observateur distant. Ce mode est illustré
par la figure 3.17. Dans ce mode, les requêtes ne sont pas transmises localement, mais envoyées
depuis un client vers un nœud distant. Nous avons dans ce schéma une relation 1 : 1, c’est-à-dire
qu’à chaque nœud, nous associons un observateur spécifique sur une machine distante.
FIGURE 3.17 – Mode de localisation : distant
Ce mode peut être illustré par le fonctionnement en mode client/serveur du programme de
gestion des traces système (syslog-ng). Le serveur de centralisation des logs reçoit les logs
depuis tous les nœuds distants.
703.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
Parallèle
Ce troisième mode de répartition est différent du précédent. Le mode distant associe à chaque
nœud une machine hébergeant un observateur, ce qui pose clairement un problème de dimensionnement
du système réparti. Dans le mode parallèle, une même machine est capable d’héberger
plusieurs observateurs qui s’exécutent en parallèle. Cependant, chaque observateur n’est associé
qu’à un seul nœud distant. Ce mode est illustré par la figure 3.18. S’il est difficile de qualifier
ce modèle, on peut le noter n : 1(||) au sens que n nœuds peuvent être traités en parallèle par 1
machine.
FIGURE 3.18 – Mode de localisation : distant avec plusieurs nœuds et plusieurs observateurs
Partagée
Dans le mode partagé, au lieu d’avoir une relation 1 : 1 entre les nœuds et les observateurs,
la relation se note en n : 1(p). Cela signifie qu’un observateur est partagé par plusieurs nœuds
distants. Ce mode est illustré par la figure 3.19.
FIGURE 3.19 – Mode de localisation : distant avec plusieurs nœuds et un seul observateur
3.1.3.3 Redondance
Dans les architectures distribuées, il est nécessaire d’assurer la disponibilité des services. Dans
le cas qui nous intéresse, l’observateur est un élément vital qu’il faut pouvoir redonder.
Diffusion
Le premier mode de redondance est le mode diffusion. Dans ce mode, le nœud envoie simultanément
les requêtes à (au moins) deux observateurs. Il doit ainsi traiter les deux réponses des
713.1. DÉFINITION D’UN OBSERVATEUR POUR LES SYSTÈMES D’EXPLOITATION
LINUX ET WINDOWS
observateurs. Ce mode est illustré par la figure 3.20. Ainsi, si un des deux observateurs ne répond
plus, le nœud n’est pas obligatoirement bloqué puisqu’il peut obtenir une réponse du second observateur.
Dans le cas de fautes byzantines, on peut imaginer au moins trois redondances (R1, R2,
R3) avec un vote majoritaire.
FIGURE 3.20 – Mode de redondance : diffusion des requêtes par le nœud
Maître-Esclave
Le second mode de redondance est le mode maître-esclave. Dans ce mode, ce sont les observateurs
qui se communiquent les requêtes envoyées par le nœud au serveur maître. Nous avons
pris comme exemple l’observateur maître qui fait suivre la requête. Ainsi, les deux observateurs
possèdent tous les deux toutes les requêtes envoyées. Ce mode de fonctionnement est illustré par
la figure 3.21. Lorsque l’observateur maître ne répond plus, le nœud se connecte à l’observateur
esclave.
FIGURE 3.21 – Mode de redondance : architecture de la forme maître-esclave
3.1.3.4 Discussion
Nous venons de détailler les différents modes d’association, de localisation et de redondance
des observateurs.
Par la définition des modes d’association, nous modélisons l’utilisation combinée de deux observateurs.
Dans le mode en cascade, le premier observateur a un rôle primordial dans la chaîne
de traitement des requêtes puisque c’est lui qui doit envoyer les requêtes au second observateur
et attendre la réponse. Il est ainsi possible de corréler, au niveau du premier observateur, les dé-
cisions prises par les deux observateurs. Cependant, dans ce mode de fonctionnement, le premier
observateur doit attendre une réponse du second observateur, ce qui peut réduire les performances
du système. Dans le second mode, le premier observateur n’attend pas la réponse du second. Il
effectue son traitement et transmet ensuite, si nécessaire, la requête au second. Ce mode de fonctionnement
évite le blocage du premier observateur attendant la réponse du second. Cependant, il
n’est plus possible de corréler les réponses des observateurs au niveau du premier.
723.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
Les modes de localisation adaptent les modèles des systèmes répartis aux observateurs. À partir
du mode distant, nous avons spécialisé l’approche de répartition. Ainsi, par la définition des modes
parallèle et partagé, nous avons centralisé les requêtes et les décisions prises par les observateurs.
Avec une localisation distante et les deux cas particuliers (parallèle et partagé), il semble possible
de réduire la charge de calcul des nœuds clients. De plus, avec les modes parallèles et partagés, il
est possible de faire des corrélations entre les interactions des différents nœuds clients.
Néanmoins, en déportant les observateurs sur une machine dédiée, nous introduisons des situations
de pannes supplémentaires : les pannes sur le réseau et les pannes de la machine hébergeant
l’observateur déporté. De plus, ce déport peut aussi entraîner une latence au niveau de la communication
avec l’observateur puisque cette communication passe par un lien réseau.
Pour réduire les pannes potentielles introduites par le déport de l’observateur, nous avons proposé
un modèle de redondance. Nous considérons deux modes de fonctionnement. Le premier
repose sur la diffusion des requêtes faites directement par le nœud. Le principal avantage de cette
méthode est qu’elle permet de tolérer un grand nombre de situations de défaillance. Cependant,
le nœud doit gérer les réponses envoyées par plusieurs observateurs, ce qui implique un calcul
supplémentaire réalisé au niveau du nœud. Le second mode de fonctionnement propose un modèle
maître-esclave. Dans ce mode de redondance, le nœud envoie les requêtes qu’à un seul observateur,
le maître et c’est ce dernier qui transmet à l’observateur esclave. Cependant, lorsque l’observateur
maître ne répond plus, c’est au nœud client de se connecter à l’observateur esclave, ce qui peut
entraîner une latence importante, voir un blocage du nœud si l’observateur met trop de temps à
répondre.
Nous venons de donner une définition de la notion d’observateur pour les systèmes et une
modélisation de la notion de la répartition des observateurs. Nous allons maintenant décrire la
modélisation de la politique de sécurité sur laquelle se base l’observateur pour effectuer ces traitements.
3.2 Modélisation d’une politique de contrôle d’accès direct
Une politique de sécurité définit les traitements à entreprendre par l’observateur, tels que :
autoriser, refuser, auditer, détecter, etc. Dans le cadre d’une politique de sécurité ayant pour objet
de faire du contrôle d’accès direct, nous avons vu dans l’état de l’art (voir en section 2.2.2), qu’il
existe plusieurs modèles obligatoires. Nous avons choisi ici deux modèles de contrôle d’accès
direct : le path-based access control et le domain and type enforcement. Nous proposons une
grammaire commune à ces deux modèles.
La création d’une politique de sécurité impose de nommer chaque ressource du système, que
ce soit les processus, les fichiers ou les sockets par exemple. Nous allons expliquer pourquoi
il est nécessaire de proposer un système de noms absolus indépendants de la localisation pour
désigner les ressources. Grâce à ce système de nommage, nous pouvons générer des politiques
de sécurité portables. Nous montrons l’usage pour les systèmes Windows. Nous définissons une
grammaire commune supportant PBAC et DTE pour Windows. Nous présentons ensuite une étude
des mécanismes de détournement pour Windows.
3.2.1 Grammaire de la politique
Une politique de protection regroupe l’ensemble des interactions qui sont autorisées ou interdites.
Ces règles peuvent être :
— des règles de décision : autorise ou refuse les interactions ;
— des règles d’audit : définit si l’interaction doit être auditée ;
733.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
✞ ☎
1 grammar gram_commune;
2
3 politique : (regle’\n’)*;
4 regle : regle_traitement|regle_transition;
5
6 regle_traitement : regle_decision|regle_audit;
7 regle_transition : role_transition|objet_transition;
8
9 regle_decision : autorise_interaction vecteur_acces;
10 regle_audit : audit vecteur_acces;
11
12 role_transition : autorise_role ’ ’ role ’ ’ role;
13 objet_transition : autorise_objet ’ ’ contexte ’ ’ contexte (’:’ classe)? ’ ’ contexte ;
14
15 vecteur_acces : contexte Delimiteurs_debut? (liste_operations_elementaires)+
Delimiteurs_fin? ;
16 liste_operations_elementaires : (’ ’|’\t’)* contexte(’:’ classe)? operations_elementaires
;
✝ ✆
Listing 3.1 – grammaire commune aux modèles de protection PBAC et DTE
— des règles de transition : modifie l’état de la politique ou les contextes du système (sujet
ou objet).
Nous avons défini une grammaire commune pour l’écriture d’une politique de contrôle d’accès,
que l’on retrouve dans le listing 3.1.
Notons que cette grammaire ne propose aucun terminal. En effet, les terminaux sont propres à
chaque modèle de protection. Nous spécifierons dans la suite de cette étude les terminaux pour les
modèles PBAC et DTE.
Nous allons maintenant détailler la grammaire.
Les ressources du système (contextes) Nous avons distingué dans une interaction directe l’élé-
ment sujet, qui réalise l’opération élémentaire, de l’élément objet. Dans la grammaire, il n’est pas
nécessaire de distinguer ces deux éléments puisque les sujets et les objets sont des sous-ensembles
de l’ensemble des contextes. C’est pourquoi nous regroupons ces deux notions au sein d’un même
ensemble que nous appelons contexte.
Définition 3.2.1 Un contexte identifie une ressource à l’aide d’un nom. On retrouve dans la littérature
essentiellement deux méthodes pour nommer les ressources d’un système. La première
méthode consiste à utiliser le chemin complet dans l’arborescence du système de fichiers, ce qui
est fait dans le modèle PBAC utilisé par grsecurity 2.3.1.2 tandis que la seconde méthode est d’associer
un label à la ressource pour la caractériser, ce qui est fait dans le modèle DTE, comme le
fait SELinux (voir en section 2.3.1.1).
On notera CS l’ensemble des contextes sujet et CO l’ensemble des contextes objet.
La figure 3.22 illustre l’opération d’écriture faite par le processus Firefox.exe.
Dans le modèle PBAC, ce dernier est représenté par son chemin complet
C:\Program Files\Mozilla\Firefox.exe. Il réalise une écriture sur le fichier
C:\Users\bob\Downloads\malware.exe.
Nous pouvons faire de même pour les systèmes Linux, illustré aussi par la figure 3.22.
La figure 3.23 illustre cette opération d’écriture d’un contexte sujet sur un contexte objet en
utilisant le modèle DTE. Comme ce modèle associe des types ou des domaines aux ressources,
nous associons au processus Firefox.exe le domaine domaine_firefox et au fichier
malware.exe le type type_malware. Le principal avantage de ce modèle est la possibilité
d’abstraire les ressources du système. Ainsi, il suffit d’associer le domaine domaine_firefox
743.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
FIGURE 3.22 – Nommage des ressources au format PBAC
au processus /usr/bin/firefox et le type type_malware au fichier exploit.sh pour
que la même figure illustre cette même opération sur un système Linux.
FIGURE 3.23 – Nommage des ressources au format DTE
Une politique de sécurité Une politique de sécurité est un ensemble de deux types de règles :
les règles de traitement, qui définissent les actions de l’observateur vis-à-vis des interactions et les
règles de transition, qui vont modifier l’état effectif de la politique.
Règle de traitement Une règle de traitement est composée de deux éléments : un traitement
spécifique à effectuer par l’observateur et un vecteur d’accès. Le tableau de vecteurs d’accès dé-
termine les sujets, objets et les opérations élémentaires de l’interaction. Le traitement de l’observateur
peut être : une autorisation explicite, un audit, une interdiction explicite, etc. Le vecteur
d’accès détermine des opérations élémentaires entre un contexte sujet et un contexte objet.
Règle de transition Une règle de transition va modifier l’état effectif de la politique ainsi que
les contextes des sujets et des objets. Nous définissons deux règles de transition :
1. une transition entre deux rôles ;
2. une transition entre différentes ressources du système.
La transition entre deux rôles permet de modifier l’ensemble des opérations élémentaires accessibles.
Par exemple, un utilisateur ayant le rôle user aura besoin de changer de rôle pour effectuer
des tâches d’administration. La figure 3.24 illustre les interactions autorisées pour les rôles
user et admin.
Les transitions entre les ressources du système interviennent lors de la création d’un processus.
Dans ce cas, la transition provient du chargement du fichier en mémoire dans le but de créer un
nouveau processus.
Vecteur d’accès Un vecteur d’accès v représente un ensemble d’interactions directes à observer
sur le système. Il est composé d’un contexte sujet, d’un contexte objet et d’une liste d’opérations
élémentaires potentiellement regroupées par un ensemble associé à une classe.
Soit cs ∈ CS, soit co ∈ CO, soit class ∈ Class et oe1, ..., oen ∈ OE,
753.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
role:user
liste d’accès
read write execute
fichier 1
Accès Refusé
Accès Autorisé
fichier 2
read
Accès Autorisé
read
fichier
transition de rôle
role:admin
liste d’accès
read write execute
fichier 1
Accès Autorisé
Accès Refusé
fichier 2
read
Accès Autorisé
read
fichier
FIGURE 3.24 – Transition de rôle modifiant les accès possibles à certaines ressources du système
alors v = (cs, co : class, {oe1, ..., oen})
Selon la figure 3.2 (présente au début de ce chapitre), pour une seule interaction sur un système
Windows entre le contexte sujet firefox.exe et le contexte objet malware.exe on peut par
exemple écrire un vecteur :
v = (f irefox.exe, malware.exe : f ile, {write})
On peut factoriser un ensemble d’interactions entre deux contextes avec un seul vecteur de la
façon suivante :
v = (f irefox.exe, malware.exe : f ile, {create, setattr})
Cependant, nous verrons qu’il est préférable d’avoir des contextes précis (ici la règle s’applique
à tous les sujets firefox.exe présents sur le système ce qui peut être acceptable pour
une interdiction mais peu recommandé pour une autorisation) avec dans ce cas la nécessité que
les noms soient indépendants de leurs localisations physiques afin de garantir la portabilité des
politiques.
3.2.1.1 La portabilité des noms utilisés pour les contextes
Dans notre grammaire, un contexte est un nom qui désigne aussi bien les sujets et les objets.
Il est donc nécessaire que ces noms soient précis afin de contrôler finement chaque processus et
chaque ressource du système. En même temps, ces noms doivent être les plus portables possibles.
Le système de nommage sous Windows
Sur les systèmes Windows, il n’existe pas de racine commune à l’espace de noms. Historiquement,
les systèmes Windows sont installés sur la lettre du lecteur "C:" car les lecteurs "A :" et "B :"
étaient utilisés pour les lecteurs de disquettes. Il est cependant possible d’installer le système sur
un autre lecteur mais aussi d’avoir plusieurs partitions montées sur des lecteurs différents. Ainsi, le
listing 3.2 montre sur sa première ligne le chemin classique pour l’exécutable de Firefox alors
que la seconde ligne montre un chemin depuis un autre lecteur pour le même exécutable.
✞ ☎
1 C:\Program Files\Mozilla\Firefox.exe
2 D:\Program Files\Mozilla\Firefox.exe
✝ ✆
Listing 3.2 – Deux chemins Windows différents désignant le même exécutable
763.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
Si l’on utilise le nom C:\Program Files\Mozilla\Firefox.exe désignant précisément
l’exécutable Firefox concerné, ce nom n’est pas portable puisqu’il n’est pas correct sur
un système où les programmes sont installés sur le système de fichiers D :.
Pour résoudre ce problème, nous utilisons la notion de nom symbolique absolu
indépendant de la localisation définie par [Hagimont et J.Mossière, 1996].
1. Un nom symbolique, par exemple le fichier ./policy.24, correspond à un nom usuel
qui est manipulé par les usagers. Ce nom usuel est associé à une localisation physique, sans
que l’utilisateur n’ait besoin de la connaître. Ainsi le nom symbolique ./policy.24 est
par exemple associé au numéro d’i-node 11274188 et au périphérique 19h/25d sous
Unix.
2. Un nom absolu rend le nom symbolique unique c’est-à-dire qu’il désigne une seule ressource.
Le nom absolu est par exemple /home/damien/policy.24 en opposition au
nom relatif policy.24.
3. Un nom absolu indépendant de la localisation physique est un nom qui ne fait pas apparaître
l’emplacement de stockage de la ressource. Cette solution est particulièrement
efficace pour assurer la portabilité des noms.
Pour atteindre ce but sur les systèmes Windows, nous allons abstraire le nom usuel pour rendre
absolu et indépendant de la localisation le nom symbolique.
Définitions
Pour formaliser cette problématique de nommage sur Linux et sur Windows, nous allons défi-
nir les deux notions importantes que sont nom et ressource.
Définition 3.2.2 Ressource Une ressource est un identifiant interne au système utilisé pour manipuler
des objets : par exemple, l’i-node d’un système de fichier.
Définition 3.2.3 Nom Un nom est un moyen simple et usuel pour accéder à une ressource. Géné-
ralement, le nom est représenté sous la forme d’une chaîne de caractères.
Ainsi, une même ressource peut avoir plusieurs noms différents. Nous illustrerons cela dans la
suite de cette partie.
3.2.1.2 Modélisation de la problématique des noms
Nous allons maintenant montrer comment fonctionne le mécanisme de nom symbolique absolu
indépendant de la localisation. Notre modélisation commence par définir deux éléments importants
du système : les notions d’Emplacement physique et de Ressource.
Définition 3.2.4 Emplacement physique Soit ephy un élément de l’ensemble Ephy regroupant les
emplacements physiques. Concrètement, ephy correspond à un bloc de données sur le disque dur.
Définition 3.2.5 Ressource Soit r une ressource du système, par exemple un fichier, appartenant à
l’ensemble R, l’ensemble de toutes les ressources du système. Cette ressource r se caractérise par
un ensemble d’emplacement physique. Nous noterons RSC la fonction qui associe à une ressource
r un ensemble d’emplacement physiques.
773.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
∀r ∈ R, RSC r 7→ e tel que e = {ephy1, .., epyhn} avec {ephy1, .., epyhn} ∈ Ephy
Toute ressource du système possède, au moins, un élément dans l’espace d’arrivée Ephy. A contrario,
tout élément de l’espace Ephy ne possède pas nécessairement un antécédent dans l’espace des
ressources. Par exemple, lorsqu’un fichier est supprimé par le système par les fonctions classiques
de suppression telles que rm, les données présentes sur le disque dur associées à ce fichier ne sont
pas supprimées. Il faut, pour cela, utiliser des fonctions spécifiques.
De plus, tout élément de Ephy qui possède un antécédent, ne possède qu’un seul et unique
antécédent par la fonction RSC. Donc par définition, la fonction RSC est injective. Ceci est
illustré par le schéma 3.25.
Ressource Emplacement physique
r
ephy1
ephyn
R E_phy
e
FIGURE 3.25 – Correspondance entre une ressource et les emplacements physiques
En outre, chaque ressource du système possède un emplacement logique. Cet emplacement
logique se caractérise sur le système par un chemin dans le système de fichiers. Une ressource
peut posséder plusieurs emplacements logiques différents, grâce à des opérations de montage ou
par la création de liens.
Définition 3.2.6 Emplacement logique et chemins Nous noterons Elog la fonction qui associe à
une ressource r un emplacement logique dans le système. Cette fonction renvoie un chemin complet
de l’arborescence du système de fichiers. L’ensemble de tous les chemins complets possibles est
noté Chemin. C’est cet emplacement logique qui est utilisé par l’utilisateur pour accéder à la
ressource.
∀r ∈ R, Elog : r 7→ chemin avec chemin ∈ Chemin
Pour qu’une ressource du système puisse être utilisée par un utilisateur, il est nécessaire qu’elle
possède au moins un emplacement logique, c’est-à-dire un nom dans l’espace des noms logiques.
Une ressource peut posséder plusieurs emplacements logiques grâce à des opérations de montage
ou par la création de lien. Cette notion est illustrée par la figure 3.26. On obtient pour un fichier,
une ressource correspond à l’i-node et un ensemble d’emplacement physique.
Comme une ressource peut être désignée par plusieurs emplacements logiques, il est nécessaire
de définir une nouvelle fonction capable d’uniformiser la description d’une ressource pour un
utilisateur.
783.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
Ressource Emplacement logique
r
chemin_1
R E_log
chemin_2
FIGURE 3.26 – Correspondance entre une ressource et les emplacements logiques
Définition 3.2.7 Nom symbolique absolu indépendant de la localisation Nous définissons la
fonction Nabs. Cette fonction associe à un emplacement logique d’une ressource un nom symbolique
absolu indépendant de la localisation n
abs
r ∈ Nabs, où Nabs est l’ensemble des noms
symboliques absolus indépendants de la localisation.
Soit r ∈ R et soit chemin ∈ Chemin avec Elog : r 7→ chemin, alors Nabs : chemin 7→ n
abs
r
Par définition, tout emplacement logique possède un seul et unique nom symbolique absolu indé-
pendant de la localisation. A contrario, un nom symbolique absolu indépendant de la localisation
possède au moins un emplacement logique. La fonction Nabs est donc surjective, illustrée par la
figure 3.27.
Emplacement logique
chemin1 n^abs
Chemin
Nom symbolique absolu indépendant
de la localisation
chemin2
N^abs
FIGURE 3.27 – Représentation de la fonction Nabs
793.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
La propriété essentielle de cette fonction est la suivante : si une même ressource possède diffé-
rents emplacements logiques, alors, par la fonction Nabs, elle ne possède qu’un seul et unique nom
symbolique absolu indépendant de la localisation. Cette propriété s’exprime de la façon suivante :
∀r ∈ R, si ∃Elog(r) = chemin1 et Elog(r) = chemin2
avec chemin1 6= chemin2 ⇒ Nabs(chemin1) = Nabs(chemin2)
Cette propriété sera illustrée par la suite.
Solution pour les systèmes Windows
Sur les systèmes Windows, la problématique de nommage des ressources est essentiellement
due au fait qu’il n’y a pas de racine commune entre les différents systèmes. Pour résoudre ce
problème et pour appliquer notre fonction permettant d’obtenir un nom symbolique absolu indé-
pendant de la localisation, nous allons utiliser un mécanisme interne au système commun à chaque
système Windows.
Dans un premier temps, le nom de la ressource est séparé en deux : la lettre du lecteur qui est
potentiellement changeante, et son chemin dans l’arborescence qui est constant. Nous appliquons
la fonction Nabs à la partie changeante. Pour ce faire, nous utilisons la notion d’espace de noms
(namespace) d’une ressource. L’espace de noms d’une ressource est une fonctionnalité du système
qui associe aux ressources une représentation abstraite indépendante de leur localisation.
La fonction Nabs est appliquée à C:\Program Files exemple présenté dans le listing
3.2. C’est la partie que l’on considère comme changeante. On obtient ainsi Nabs(C :
\P rogramF iles) = ns_programf iles.
En reprenant notre exemple présenté dans le listing 3.2, nous obtenons pour les deux noms
usuels différents 3.3 un même nom symbolique absolu indépendant de la localisation.
✞ ☎
1 C:\Program Files\Mozilla\Firefox.exe : ns_programfiles:\Mozilla\Firefox.exe
2 D:\Program Files\Mozilla\Firefox.exe : ns_programfiles:\Mozilla\Firefox.exe
✝ ✆
Listing 3.3 – Application des noms symboliques absolus indépendants de la localisation pour
identifier une même ressource sur un système Windows
L’utilisation de cet espace de noms offre une meilleure portabilité de la politique de contrôle
d’accès. Cet espace de noms étant géré directement au sein du système Windows, il n’est plus
nécessaire de réécrire les politiques pour les appliquer sur un autre système Windows.
Solution pour les systèmes Linux
Les systèmes Linux utilisent des identifiants internes pour différencier les ressources sur un
système. Même si ces identifiants sont accessibles depuis l’espace utilisateur, ils ne sont pas facilement
manipulables. Et même si les systèmes Linux disposent d’une racine commune, nous
pouvons aussi appliquer notre formalisation à ce système.
Par exemple en adaptant le listing 3.4 et en appliquant la fonction Nabs, nous obtenons le
résultat suivant 3.5.
✞ ☎
1 /lhome/gros/policy.24 : ns_home:gros/policy.24
2 /mnt/home/gros/policy.24 : ns_home:gros/policy.24
✝ ✆
Listing 3.5 – Application des noms symboliques absolus indépendants de la localisation pour
identifier une même ressource sur un système Linux
803.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
✞ ☎
1 gros@ossus:~% stat /lhome/gros/policy.24
2 File: ’/lhome/gros/policy.24’
3 Size: 1592659 Blocks: 3112 IO Block: 32768 regular file
4 Device: 19h/25d Inode: 11274188 Links: 1
5
6 sudo mount -o bind /home/ /mnt/
7
8 gros@ossus:~% stat /mnt/home/damien/policy.24
9 File: ’/mnt/home/gros/policy.24’
10 Size: 1592659 Blocks: 3112 IO Block: 32768 regular file
11 Device: 19h/25d Inode: 11274188 Links: 1
✝ ✆
Listing 3.4 – Différents noms Linux pour une même ressource identifiée par son numéro i-node
3.2.2 Application de la grammaire sur deux modèles de protection pour les systèmes
Windows
L’étude des travaux précédents a montré qu’il existait des implantations de modèles de protection
pour les systèmes Linux. C’est pourquoi nous allons nous concentrer exclusivement sur les
systèmes Windows pour l’application de notre grammaire. La première partie de cette section a
démontré que cette grammaire pouvait s’appliquer sur les deux systèmes d’exploitation.
Nous appliquons la grammaire que nous venons de définir sur deux modèles de protection :
PBAC et DTE. Dans cette section, nous montrerons que seuls les terminaux de la grammaire doivent
être spécifiés, mais que ces deux modèles se basent sur la grammaire commune que nous avons
définie. Nous avons choisi le modèle PBAC pour la facilité qu’il permet dans la rédaction de la
politique car ce modèle se base sur les chemins des ressources. Le second modèle, DTE, offre une
couche d’abstraction entre la politique et le système permettant d’avoir des politiques plus précises
mais aussi supportant mieux l’hétérogénéité.
3.2.2.1 Policy-Based Access Control
Représentation du système
Grâce à l’introduction de notre mécanisme d’abstraction des noms, il est possible de décrire
complètement le système.
Nous définissons NS la fonction du système qui associe à un répertoire donné un élé-
ment de l’espace de noms. Par exemple, NS(C:\ProgramFiles)=ns_programfiles où
ns_programfiles est un élément de l’espace de noms.
Les objets Les objets du système sont toutes les entités qui subissent les interactions : fichiers,
répertoires, éléments du registre, mais aussi les processus.
Grâce à sa stabilité d’architecture, il existe un certain nombre de répertoires communs entre les
différentes versions des systèmes Windows. Il est donc possible de définir des éléments propres à
l’espace de noms pour ces répertoires. Le listing 3.6 fait la correspondance entre les répertoires et
leur nom dans l’espace de noms.
✞ ☎
1 NS(C:\Windows) = ns_windows
2 NS(C:\Program Files) = ns_programfiles
3 NS(C:\Users) = ns_users
4 NS(C:\Recycler) = ns_recycler
✝ ✆
Listing 3.6 – Correspondance entre les répertoires système et leur nom dans l’espace de noms
813.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
✞ ☎
1 NS(C:\Windows\explorer.exe) = ns_windows\explorer.exe
2 NS(System) = system
✝ ✆
Listing 3.8 – Noms associés aux sujets pour le modèle PBAC
Lorsqu’un répertoire est spécifique à un système, ou simplement ajouté par un administrateur,
il est possible de lui ajouter un élément générique de l’espace de nom comme
ns_racine\monrepertoire, où ns_racine désigne de manière générique la racine du
système. L’administrateur peut aussi définir ses propres éléments, dans la cadre d’un parc informatique
identique, en utilisant par ns_monrepertoire.
De manière analogue, nous pouvons faire la même chose pour le registre, illustré par le listing
3.7.
✞ ☎
1 NS(HKEY_LOCAL_MACHINE) = ns_hklm
2 NS(HKEY_USERS) = ns_hku
✝ ✆
Listing 3.7 – Correspondance entre les ruches du registre système et leur nom dans l’espace de
noms
Les sujets Les sujets sont les entités du système qui réalisent les interactions sur les objets. Dans
la pratique, les sujets sont un sous-ensemble de l’ensemble des objets. En effet, comme les sujets
sont associés aux processus et aux services, ils peuvent interagir entre eux : un processus pouvant
par exemple récupérer un handle sur un autre processus dans le but d’interagir avec lui.
A la différence des systèmes Linux où l’extension des fichiers n’est pas représentative de
son comportement, sur les systèmes Windows, elle permet de spécifier la nature de la ressource.
Ainsi, la reconnaissance des processus, et donc des sujets, se fait par l’extension .exe qui leur est
associée.
Néanmoins, il existe des processus spécifiques qui ne respectent pas ce schéma, comme le
processus System associé au PID 4. Cependant, ce processus possède le même nom ainsi que le
même PID sur chaque système Windows, il est donc facilement reconnaissable.
Ainsi, nous aurons, en prenant par exemple les sujets explorer.exe et System les noms
associés comme le montre le listing 3.8.
Les opérations élémentaires Les opérations élémentaires sont basées sur les ACL classiques
présentes sous Windows. Nous obtenons ainsi les droits :
1. r, pour le droit de lecture ;
2. w, pour le droit d’écriture ;
3. x, pour le droit d’exécution.
À ces droits classiques, nous rajoutons les droits suivants :
1. h, pour cacher un élément aux autres entités du système ;
2. ap, pour ajouter des privilèges ;
3. rp, pour supprimer des privilèges.
Les rôles Dans ce modèle de politique, la notion de rôle pour les utilisateurs est très importante.
En effet, une politique de type PBAC donne les mêmes droits à tous les utilisateurs, sans distinction
aucune. Il est donc nécessaire de définir des rôles pouvant accéder à certains domaines privilégiés
pour faire de la séparation de privilèges.
823.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
✞ ☎
1 grammar pbac;
2
3 // include gram_commune
4
5 classe : Chaine ;
6 autorise_interaction : ;
7 audit : ’audit ’;
8 autorise_objet : ’’;
9 autorise_role : (’role’);
10
11 contexte : Chaine ;
12
13 operations_elementaires : ’ ’ operation_elementaire (’\n’)?;
14 operation_elementaire : (’r’|’w’|’x’) ;
15 role: Chaine ;
16
17 Chaine : ( ( ’a’..’z’|’A’..’Z’|’0’..’9’|’_’|’.’|’,’|’\\’) )+ ;
18 Delimiteurs_debut: ’ {’ (’’|’\n’ )? ;
19
20 Delimiteurs_fin: (’ ’)? ’}’ ;
✝ ✆
Listing 3.9 – Définition des terminaux pour le modèle de protection PBAC
✞ ☎
1 systemroot\explorer.exe {
2 systemroot\cmd.exe w
3 systemdrive\fichier.txt r
4 }
5 audit explorer.exe { programfiles\firefox.exe r }
6 role user admin
✝ ✆
Listing 3.10 – Extrait d’une politique PBAC
Sous Windows, on peut se baser sur les groupes d’appartenance des utilisateurs pour établir
les rôles de chaque utilisateur. Le principal avantage de cette méthode est que ce mécanisme est
intégré à Windows et facilement modifiable.
Grammaire spécifique pour le modèle PBAC
À partir de la grammaire générique que nous avons définie dans le listing 3.1, nous pouvons
étendre cette grammaire pour le modèle PBAC.
Le listing 3.9 détaille la grammaire spécifique pour PBAC. Cette extension ne fait que renseigner
les terminaux de la grammaire, qui sont spécifiques à ce modèle de protection.
Cette grammaire spécifique pour le modèle de protection PBAC permet de définir les éléments
de la politique : les contextes, les rôles et les opérations élémentaires. Elle va aussi spécifier les
délimiteurs pour l’écriture des vecteurs d’accès.
Dans cette politique, les contextes, en pratique des noms symboliques absolus, sont définis
comme des chaînes de caractères spécifiques (par exemple incluant les antislash).
Les opérations élémentaires sont représentées par les ACL classiques présentes sur les systèmes
: r pour l’opération read, w pour l’opération write, etc.
Nous proposons dans le listing 3.10 un extrait de politique pour le modèle PBAC.
Les lignes 1 à 4 autorisent deux interactions directes. La ligne 5 définit une interaction directe
qui doit être auditée. Enfin, la ligne 6 permet à un utilisateur du rôle user de changer son rôle pour
atteindre le rôle admin.
833.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
3.2.2.2 Domain and Type Enforcement
Représentation du système
Dans le modèle de protection basé sur DTE, les sujets sont associés à des domaines alors que
les objets sont associés à des types. Nous allons décrire ici comment construire ces deux notions.
Puis, comment proposer des contextes de sécurité étendus avec des notions d’identité et de rôle.
Les objets Les types, qui sont donc associés aux objets du système, sont construits à partir
de deux éléments. Le premier élément est simplement le nom relatif de la ressource sans son
extension, dans le cas où elle en possède une. Ce nom relatif n’est pas unique sur le système,
puisqu’il ne se base que sur le nom de la ressource sans son chemin dans l’arborescence du système
de fichiers. Le second élément est un suffixe qui précise la nature de l’objet : répertoire, exécutable,
bibliothèque, etc.
Par exemple, la ressource C:\Program Files\Mozilla\Firefox.exe. Le nom relatif
de la ressource sans son extension est Firefox. On ajoute à cela sa caractéristique,
ici Cat(executable). Donc le type associé au fichier C:\Program Files \Mozilla
\Firefox.exe est F irefox.Cat(executable).
De manière similaire, nous aurons des catégories pour les répertoires, les driver, les bibliothèques,
etc.
Les éléments du registre seront typés de manière similaire au système de fichiers, à la diffé-
rence qu’ils disposent de catégories spécifiques telles que Cat(key) et Cat(value). Cette dernière
catégorie est aussi utilisée pour la prise de décision.
Les sujets Les sujets sont associés à la partie domaine du modèle DTE. À la différence des
objets qui possèdent une catégorie, les sujets n’en ont pas besoin. En effet, il n’est pas nécessaire
de renseigner la catégorie puisqu’il n’y a que la catégorie processus (en général).
Le domaine est uniquement composé du nom relatif du fichier exécutable
privé de son extension. Par exemple, le domaine associé au fichier C:\Program
Files\Mozilla\Firefox.exe sera Firefox. Tout comme pour le modèle PBAC,
il existe des cas particuliers tels que le processus nommé System qui aura pour domaine
exactement le même nom.
Les opérations élémentaires Dans ce modèle de protection, les opérations élémentaires sont
dérivées des appels système.
En définissant la fonction Cl, qui associe à un objet o appartenant à l’ensemble O des objets
du système l’ensemble des opérations élémentaires spécifiques à cet objet, nous pouvons écrire :
Cl(o) = oe1, ..., oen, avec oei ∈ OE où OE est l’ensemble de toutes les opérations élémentaires.
Par exemple, le fichier cmd_exec_t se définit de la manière suivante : Cl(cmd_exec_t) =
f ile et il possède les opérations élémentaires associées aux fichiers f ile{read write execute etc.}.
Nous pouvons citer quelques opérations élémentaires simples comme read, write ou encore
execute. Il y a aussi getattr lorsqu’un processus demande à récupérer les attributs d’un objet. La
liste de ces opérations élémentaires est équivalente au nombre d’appels système disponibles pour
l’objet considéré.
Extension aux contextes de sécurité Nous définissons des contextes de sécurité plus complets
en ajoutant les notions d’identités mais aussi de rôles aux types et aux domaines. Pour la notion
de rôles, nous utiliserons la même représentation que pour le modèle PBAC, à savoir l’utilisation
des groupes présents sous Windows. Les identités seront liées au SID de l’utilisateur. Les identités
843.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
✞ ☎
1 grammar dte
2
3 // include gram_commune
4
5 classe : Chaine ;
6 autorise_interaction : (’allow ’|’neverallow ’);
7 audit : ’auditallow ’;
8 autorise_objet : ’transition’;
9 autorise_role : ’role’;
10
11 contexte : (utilisateur ’:’)? (role ’:’)? (attribut);
12
13 utilisateur: Chaine ;
14 role: Chaine ;
15 attribut: Chaine ;
16
17 operations_elementaires : ’ { ’ (operation_elementaire ’ ’)* operation_elementaire ’ }’;
18 operation_elementaire: (’read’|’write’| Chaine ) ;
19
20
21 Chaine : ( ’a’..’z’|’A’..’Z’|’0’..’9’|’_’|’.’)+ ;
22 Delimiteurs_debut: ’ ’ ;
23 Delimiteurs_fin: ’}’ ;
✝ ✆
Listing 3.12 – Définition des terminaux pour le modèle de protection DTE
et les rôles permettent des contrôles supplémentaires même si ceux-ci sortent du cadre de notre
travail.
Ainsi, on obtiendra un contexte de sécurité sous Windows de la forme 3.11.
✞ ☎
1 SELinux : user:role:type/domaine
2 Windows : SID:Groupe Windows:type/domaine
✝ ✆
Listing 3.11 – Représentation d’un contexte de sécurité sous Windows
Les transitions Il existe deux types de transition : la première est la plus courante, c’est le
passage d’un type à un domaine. Cela se caractérise par l’exécution d’un fichier qui est dans la
Cat(executable). Pour qu’un processus soit autorisé à transiter vers un domaine destination, il est
nécessaire que :
1. le domaine source possède une règle d’accès autorisée à exécuter ce fichier, ainsi que toutes
les opérations élémentaires annexes nécessaires à ce type d’opération comme le droit de
récupérer des informations sur le fichier (getattr) ;
2. le fichier exécutable possède le domaine destination dans la politique de contrôle d’accès.
La seconde transition possible est le changement de rôle. Cette transition n’est pas propre au
modèle DTE. Cela permet de réduire considérablement la taille de la politique donnant les accès
aux rôles plutôt qu’aux utilisateurs directement.
Grammaire spécifique pour le modèle DTE
Comme pour le modèle PBAC, nous étendons la grammaire commune pour qu’elle puisse
fonctionner sur ce modèle de protection. Le listing 3.12 illustre les éléments propres à ce modèle.
Nous définissons deux mots clés pour les règles d’autorisation : allow et neverallow. Le premier
permet d’autoriser de manière explicite l’interaction qui est donnée pour le vecteur d’accès.
Le second l’interdit de manière explicite. Nous montrerons dans la partie expérimentation comment
nous utilisons ces règles d’interdiction. La règle d’audit est signifiée par le mot clé audit.
853.2. MODÉLISATION D’UNE POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
À la différence du modèle PBAC, où le contexte est une chaine de caractères représentant un
chemin dans le système de fichiers, dans le modèle DTE, il est composé de trois identifiants : un
identifiant pour spécifier l’utilisateur, un autre pour le rôle et enfin un attribut. Les deux premiers
éléments ne sont pas propres au modèle DTE, mais ils facilitent l’administration du système. L’attribut
est soit un domaine, pour un sujet, soit un type pour un objet.
Nous proposons une politique minimale dans le listing 3.13 illustrant la grammaire.
✞ ☎
1 allow explorer_t cmd_exec_t:file { write read getattr execute }
2 auditallow firefox_t document_t:file { read }
3 role user_r sysadm_r
4 transition explorer_t cmd_exec:file cmd_t
✝ ✆
Listing 3.13 – Extrait d’une politique DTE
La première règle autorise le domaine firefox_t à accéder au fichier cmd_exec_t en
lecture et écriture. La seconde règle est une règle d’audit, mais qui n’autorise pas l’interaction.
Enfin, les règles 3 et 4 sont des transitions de rôles et de domaine. Pour que le domaine cmd_t
soit autorisé, il faut la règle de la ligne 1 du listing ainsi que la ligne 4.
3.2.2.3 Lien entre la politique d’accès direct et le moniteur de référence
La politique d’accès directe (PBAC ou DTE) est parcourue par le moniteur de référence lors de
la phase de décision. Cette décision peut être divisée en deux : soit le moniteur trouve une règle
d’accès dans la politique et il applique le traitement associé, soit il ne trouve rien et dans ce cas-là,
il applique une règle par défaut.
La figure 3.28 illustre les deux possibilités offertes par le moniteur. Comme nous pouvons
le voir sur la figure, nous avons ajouté une règle à la grammaire regle_defaut définissant
l’action par défaut que doit avoir le moniteur lorsqu’il ne trouve pas le vecteur d’accès au sein
de la politique de sécurité. Dans le cadre d’un moniteur de référence, nous avons choisi d’avoir
une règle par défaut qui refuse l’opération et qui génère une trace dans le but de connaître les
opérations qui ont été interdites par le moniteur.
863.3. LES TECHNIQUES DE DÉTOURNEMENT SUR LES SYSTÈMES WINDOWS
FIGURE 3.28 – Mécanisme de prise de décision du moniteur de référence
3.3 Les techniques de détournement sur les systèmes Windows
Dans cette section, nous allons expliquer les techniques de détournement des flux d’exécution
présent sous Windows. Des détails se trouvent en annexe C de notre étude. Nous discuterons
des limites de chaque méthode de détournement et de leur place dans le contrôle d’accès sur les
systèmes Windows.
3.3.1 Explications des techniques
3.3.1.1 Détournement de la table des appels système
Sur les systèmes d’exploitation Windows, tous les appels système sont stockés dans une table
nommée table des appels système. Dans cette table, Windows associe un numéro d’appel système
avec une adresse mémoire.
Pour réaliser des interactions, les processus utilisent les fonctions de l’API Win32, qui sont les
fonctions de haut niveau fournies par Microsoft. Il faut ensuite faire correspondre ces fonctions
de haut niveau avec les appels système. Pour cela, une couche d’abstraction placée en espace
utilisateur récupère la fonction de l’API Win32 pour ensuite utiliser l’appel système correspondant.
Pour détourner le flux d’exécution, un driver va aller modifier l’adresse d’un appel système,
dans la table des appels système, pour la remplacer par l’adresse d’une de ses propres fonctions.
Ainsi, lorsque Windows exécute l’appel système dont l’adresse a été modifiée, il exécute une
fonction du driver.
873.3. LES TECHNIQUES DE DÉTOURNEMENT SUR LES SYSTÈMES WINDOWS
Le schéma 3.29 montre le flux d’exécution d’une action sous Windows. Lorsqu’un processus
veut effectuer une interaction sur le système, il fait appel à une fonction présente dans la table des
appels système qui exécute une fonction au sein du noyau.
Le second 3.30 schéma illustre lui le détournement d’un appel système. Lorsque le processus
veut effectuer une interaction, avant de passer dans le noyau, son interaction est détournée par
l’observateur, qui va autoriser ou refuser cette interaction.
FIGURE 3.29 – Fonctionnement régulier d’un appel système présent dans la table des appels système
FIGURE 3.30 – Mécanisme de détournement de la table des appels système
3.3.1.2 Inline-Hook
Cette technique consiste à modifier directement la fonction en mémoire. Sous Windows, au
début des fonctions, il existe une partie de code appelée junk code : c’est ce que l’on appelle un
code sans effet de bord. On peut donc le modifier sans pour autant modifier le comportement de la
fonction.
En allant modifier le junk code présent au début de la fonction pour y placer un saut inconditionnel,
il est possible de détourner le flux d’exécution pour le rediriger vers l’espace mémoire du
driver.
Cette technique a été implémentée pour les fonctions de l’API Win32 et est connue sous le
nom de MS Detour [Hunt et Brubacher, 1999]. Ce projet est porté par Microsoft Research et cible
essentiellement les systèmes Windows XP. Microsoft propose, au travers d’un framework, des
API pour modifier de manière complètement transparente des fonctions spécifiques en espace
utilisateur grâce à l’utilisation d’un mécanisme nommé trampoline. Cette interface est chargée de
récupérer les arguments des fonctions pour qu’ils puissent être exploités par la fonction réalisant
l’inline hook. Elle est cependant transposable aux appels système.
883.3. LES TECHNIQUES DE DÉTOURNEMENT SUR LES SYSTÈMES WINDOWS
Cette méthode est illustrée par la figure 3.31. Elle détaille le placement, en début de fonction,
de la modification introduite pour détourner le flux d’exécution et le placement de l’observateur.
FIGURE 3.31 – Mécanisme d’inline hook
3.3.1.3 filter-driver
Microsoft a mis en place une architecture spécifique basée sur des driver en couches pour
contrôler les interactions réalisées sur le système de fichiers. Cette architecture se base sur la création
de filter-driver s’enregistrant auprès d’un gestionnaire d’entrée/sortie et demandant à traiter
certaines IRP (I/O Request Packets). Une IRP représente une opération d’entrée/sortie. À la différence
des appels système qui ne font qu’une seule opération élémentaire (ouverture de fichier,
lecture, écriture, etc.), les IRP englobent plusieurs appels système pour finalement représenter un
type d’action, par exemple l’ouverture d’un fichier.
La figure 3.32 montre l’architecture des driver en couches. Pour représenter ces différentes
couches, qui définissent le comportement du driver, les filter-driver possèdent une altitude. Cette
altitude définit le type du driver. Par exemple, il existe une plage d’altitude pour les driver d’antivirus
ou pour les driver de chiffrement. Par construction, les filter-driver sont naturellement placé
en mode continuation.
Action d’un processus
sur le système de fichiers
Espace utilisateur
Espace noyau
Moniteur d’activité
Altitude 360 000
FSFilter Antivirus
Altitude 325 000
FSFilter Compression
Altitude 165 000
FSFilter de chiffrement
Altitude 145 000
Driver de stockage
Filter Manager
Frame 0
FS Filter
Pas d’altitude
Filter Manager
Frame 1
I/O Manager
FIGURE 3.32 – Architecture des filter-driver en prétraitement
L’altitude du filter-driver définit le type du driver mais aussi son placement par rapport aux
autres filter-driver. Ce placement influe sur les informations que reçoit ou non le driver.
Une IRP est transmise aux filter-driver concernés par l’action courante. Les transmissions aux
filter-driver sont faites de manière séquentielle et sont définies par leur altitude. Ainsi un filterdriver
qui est à l’altitude 325 000 récupère l’IRP avant un filter-driver qui est à l’altitude 145
893.3. LES TECHNIQUES DE DÉTOURNEMENT SUR LES SYSTÈMES WINDOWS
000 pour des opérations de prétraitement. A contrario, lors des opérations de post-traitement, le
filter-driver qui est à l’altitude 145 000 récupère l’IRP avant celui à l’altitude 325 000.
Dans cette architecture, l’observateur se place dans la pile de driver comme illustré dans la
figure 3.33 pour le prétraitement et pareillement pour le post-traitement 3.34.
FIGURE 3.33 – Place de l’observateur en prétraitement
FIGURE 3.34 – Architecture des filter-driver en post-traitement
Grâce à cette architecture spécifique, nous pouvons définir à quelle altitude sera notre filterdriver.
Comme il a pour but de superviser les interactions faites sur le système de fichiers, ce sera
un driver de type moniteur d’activité et aura donc une altitude comprise entre 360000 et 389999.
Cette altitude a l’avantage de nous placer très haut dans la pile des driver.
903.3. LES TECHNIQUES DE DÉTOURNEMENT SUR LES SYSTÈMES WINDOWS
3.3.2 Discussion
Nous venons de présenter les méthodes de détournements présentes sous Windows. Nous allons
dans cette section discuter du placement de l’observateur dans l’architecture du contrôle d’accès
sur les systèmes Windows. Ensuite nous présenterons des méthodes de contrôle des driver.
3.3.2.1 Place de l’observateur dans le contrôle d’accès de Windows
Comme nous l’avons déjà présenté dans l’état de l’art (voir la section 2.3.2.1), depuis l’arrivée
de Windows Vista, un nouveau mécanisme de sécurité a été introduit dans le système Windows.
Il est complémentaire au modèle de protection discrétionnaire classique. Mais à la différence des
contrôles d’accès obligatoires présents sous Linux, la vérification du niveau d’intégrité est faite
avant la vérification des droits discrétionnaire, ce qui permet par ailleurs, de les contourner.
Avec l’insertion de notre observateur au sein du système Windows, il est nécessaire de
connaître sa place dans l’architecture du contrôle d’accès sous Windows. Nous allons ici traiter
les trois méthodes présentées précédemment en expliquant le placement de l’observateur pour
chaque cas.
Détournement de la table des appels système Lorsque l’observateur détourne le flux d’exécution
en modifiant la table des appels système, l’appel système n’est exécuté qu’à partir du moment
où l’observateur a autorisé l’interaction.
Cela implique que dans cette configuration, le contrôle s’effectue de la manière suivante :
1. contrôle d’accès obligatoire ;
2. contrôle d’intégrité obligatoire ;
3. contrôle des droits discrétionnaires.
En effet, le détournement empêche l’appel système et donc en pratique les contrôles classiques
qui, de ce fait, ont lieu à la suite des contrôles de notre observateur.
Inline hook Cette technique consiste à modifier des fonctions du noyau dans le but de contrôler
le plus grand nombre d’opérations. Dans la pratique, si on ne s’intéresse qu’aux appels système,
nous aurons donc le même comportement que le détournement de la table des appels système.
Dans cette configuration, le contrôle s’effectue de la manière suivante :
1. contrôle d’accès obligatoire ;
2. contrôle d’intégrité obligatoire ;
3. contrôle des droits discrétionnaires.
filter-driver Dans ce modèle de détournement, l’ordre des vérifications est différent. En effet,
dans cette architecture, les requêtes passent par le noyau et sont ensuite transférées au gestionnaire
d’entrée/sortie qui les transmet aux filter-driver concernés par l’opération.
1. contrôle d’intégrité obligatoire ;
2. contrôle des droits discrétionnaires;
3. contrôle d’accès obligatoire.
913.3. LES TECHNIQUES DE DÉTOURNEMENT SUR LES SYSTÈMES WINDOWS
3.3.2.2 Contrôle des driver
Toutes ces techniques se basent sur l’utilisation d’un driver pour agir en espace noyau et ainsi
avoir un impact sur tout le système. Cependant, toutes les opérations que nous avons décrites
peuvent être aussi réalisés par n’importe quel driver. Il est donc nécessaire de contrôler les autres
driver qui sont chargés.
Sur les systèmes Windows, les driver offrent des moyens de communication entre les périphé-
riques tels que les scanner, les webcam, etc. et le système d’exploitation. Ils sont donc nécessaires
au bon fonctionnement du système. On ne peut tout simplement pas empêcher le chargement des
driver. Il faut par conséquent proposer des solutions pour contrôler aussi les driver.
Depuis les systèmes Windows Vista 64 bits et la mise en place de Kernel Patch Protection, les
driver qui sont chargés doivent être signés numériquement par un certificat délivré par Microsoft.
Cela constitue une première vérification quant au chargement des driver. Cependant, ce mécanisme
n’est pas suffisamment fiable puisque certains logiciels malveillants arrivent à charger des
drivers malgré la présence de ce mécanisme.
Nous allons discuter dans cette section, pour chaque solution, du contrôle du chargement des
driver. En effet, il est nécessaire les driver existant ne puissent pas contourner voire supprimer
notre détournement.
Détournement de la table des appels système
Le chargement des driver s’effectue par l’appel système NtLoadDriver. Il est donc possible,
en contrôlant cet appel de contrôler le chargement des driver. Cependant, nous allons dé-
tailler deux installations de driver qui pourraient compromettre le bon fonctionnement de notre
moniteur. Le premier exemple concerne un driver légitime et le second, un driver malveillant.
Un driver légitime peut modifier la table des appels système. Ce sont généralement les logiciels
de sécurité qui réalisent ce type d’opération comme les antivirus ou les pare-feux.
Si un driver légitime modifie la table des appels système, nous pouvons être confrontés à deux
possibilités :
1. l’observateur se charge en dernier parmi l’ensemble des driver qui modifient la table des
appels système : cela implique que notre observateur sera correctement installé et il prendra
la première décision.
2. l’observateur ne se charge pas en dernier, c’est-à-dire qu’un driver, que l’on a autorisé
à se charger, modifie la table des appels système après nos modifications. Si le driver
fait correctement la modification, c’est-à-dire qu’il prend l’adresse présente dans la table
avant sa modification pour appeler l’appel système, alors notre observateur sera toujours
impliqué dans la chaine d’exécution. Si le driver préfère résoudre manuellement l’appel
système, alors l’observateur ne sera plus impliqué dans la chaine d’exécution.
La figure 3.35 illustre l’empilement des driver qui détournent des flux d’exécution engendrés
par la modification de la tables des appels système par plusieurs driver. Chaque observateur maintient
une table modifiée des appels système. Le dernier observateur maintient lui la table régulière
pour exécuter l’appel système. Dans cette configuration, les observateurs sont en mode cascade.
923.3. LES TECHNIQUES DE DÉTOURNEMENT SUR LES SYSTÈMES WINDOWS
Observateur 1
Table courante
des appels système
Table des appels
système modifée
par un second
observateur
processus
Table des appels
système régulières
Observateur 2
Décision Décision
appel système
FIGURE 3.35 – Empilement de driver modifiant la table des appels système
Un driver malveillant peut conduire à une attaque basée sur une situation de concurrence,
illustrée par la figure 3.36. Le principe de l’attaque repose sur le fait que les vérifications faites par
le driver ayant détourné l’appel système ne sont pas atomiques, c’est-à-dire qu’elles prennent un
certain temps.
La fonction NtLoadDriver prend en paramètre un UNICODE. Cet UNICODE contient le
chemin complet du driver à charger. L’attaque réussie lorsque cette fonction est appelée depuis
l’espace utilisateur. Au moment du passage en espace noyau, la structure n’est pas recopiée, mais
seul un pointeur est copié en espace noyau.
processus
malveillant
chemin vers
driver légitime
1
2
3
4
Observateur
5
6
7
8
9
table des appels
système modifiée
NtLoadDriver
Décision
appel système
FIGURE 3.36 – Schéma détaillant la situation de concurrence sur la table des appels système
Tout d’abord, un processus malveillant remplit un UNICODE avec un chemin de driver lé-
gitime (flèche 1), puis exécute l’appel système NtLoadDriver (flèche 2). Comme la table des
appels système a été modifiée par l’observateur, le flux d’exécution est détourné dans l’observateur
(flèche 3). L’UNICODE n’est pas recopié en espace noyau, l’observateur récupère juste un pointeur
vers cet UNICODE (flèche 4). L’observateur effectue ses vérifications (flèche 5). Une fois ces
vérifications faites, le processus malveillant modifie les informations contenues dans l’UNICODE
pour mettre un chemin vers un driver malveillant (flèche 6). L’observateur poursuit le flux d’exé-
cution en appelant la véritable fonction (flèche 7). Le noyau récupère lui aussi un pointeur vers cet
UNICODE (flèche 8) et exécute la fonction (flèche 9). Il est ainsi possible de charger un driver
malveillant malgré les vérifications.
933.4. DISCUSSION
Inline hook
Cette technique ne ciblant pas que les appels système, nous pouvons contrôler plus de fonctions
impliquées dans le chargement des driver. Nous pouvons commencer par contrôler l’appel système
NtLoadDriver. Nous pouvons aussi cibler MmLoadSystemImage. Nous citons ici quelques
fonctions mais cette liste n’est pas exhaustive. En effet, beaucoup de fonctions internes ne sont pas
documentées donc non présentes sur la MSDN.
Tout comme pour le détournement de la table des appels système, si un driver effectue la
même opération que nous, c’est-à-dire placer un saut inconditionnel en début de fonction, notre
observateur ne sera plus impliqué dans la chaîne d’exécution. Il est donc nécessaire de mettre en
place un moniteur qui va vérifier que le saut est toujours présent.
A la différence du détournement de la table des appels système, il n’est pas possible d’avoir
un empilement, comme le montre la figure 3.35 au niveau des driver qui réalisent ce genre de
détournement. Par conséquent, si un driver fait une modification après notre observateur, il faut
soit générer une erreur pour bloquer le système, soit remettre en place le saut inconditionnel. Ce
n’est pas la seule différence. En effet, ce genre de technique n’est pas une technique couramment
utilisée par les driver légitimes. Donc, si on est capable de détecter ce genre de modification, on
peut légitimement supposer que le driver ne devrait pas être autorisé à être chargé. Tout comme
pour le mécanisme de détournement de la table des appels système, il est difficile de contrôler
une modification qui interviendrait sur notre driver. Par conséquent, si un driver vient modifier
notre observateur pour modifier la fonction responsable de la supervision des modifications, alors
l’observateur ne verra pas les nouvelles modifications.
filter-driver
Le filter-driver étant la technique préconisée par Microsoft, elle est donc légitimement devenue
la méthode utilisée par les logiciels antivirus.
Les filter-driver ne contrôlent que les interactions réalisées sur le système de fichiers. Par
conséquent, ils ne sont pas capables de contrôler le chargement des exécutables et par extension,
des driver. C’est pourquoi il est nécessaire de mettre un système de callback. Un callback peut
s’enregistrer auprès du Process Manager. Il peut ainsi contrôler le chargement de tous les exécutables,
y compris les driver. Le contrôle du réseau doit se faire par la création d’un driver spé-
cifique, basé sur l’architecture Windows Filtering Platform. Ces techniques ne sont pas réservées
au filter-driver, mais elles sont nécessaires pour contrôler le chargement des exécutables par un
filter-driver.
Les filter-driver sont installés en spécifiant une altitude. Pour respecter les spécifications de
Microsoft, il faut faire une demande sur leur site pour se faire attribuer une altitude. Une fois que
filter-driver possède une altitude fournie par Microsoft, il enregistre cette altitude dans une clé du
registre. On peut aussi retrouver toutes les altitudes définies dans un fichier fourni par Microsoft.
Néanmoins, rien n’empêchera un filter-driver malveillant de se charger à une autre altitude que
celle spécifiée dans le registre. Cette définition d’altitude n’implique, en aucun cas, que seul un
filter-driver précis peut se charger à cette altitude donnée.
3.4 Discussion
Dans ce chapitre, nous avons commencé par formaliser la notion d’observateur. Nous définissons
les éléments observés tels que les sujets, objets et opérations élémentaires. Nous avons ensuite
défini les modes de sécurité possible pour un observateur : requête/réponse, évidence et continuation.
Puis, nous avons détaillé un observateur spécifique : le moniteur de référence. Dans cette
943.4. DISCUSSION
section, nous avons décrit les trois grandes phases de traitement. Ce moniteur de référence sera par
la suite, appliqué aux systèmes Windows 7. Enfin, nous formalisons les modes de répartition des
observateurs, qui se traduit par des méthodes d’association, de localisation et de redondance.
Nous nous sommes ensuite intéressés à la création de politique d’accès direct. Nous avons,
pour cela, proposé un langage générique pour la protection du système définissant une grammaire
commune aux modèles obligatoires PBAC et DTE. Pour le modèle PBAC, les politiques sont portables
entre les différents systèmes Windows car notre méthode de désignation des ressources est
indépendante de la localisation des ressources. Pour le modèle DTE, les ressources étant identi-
fiées par des types ou des domaines, les politiques pourraient être utilisées à la fois sur Linux et
sur Windows.
Enfin, nous finissons ce chapitre en décrivant des méthodes de détournement de flux d’exécution
sur les systèmes Windows. Au sein d’une discussion ainsi que dans l’annexe C, nous avons
décrit quelle est leur place dans le contrôle d’accès sous Windows ainsi que leurs limites. Nous
avons expliqué la nécessité de contrôler le chargement des driver pour protéger notre observateur.
Il ressort de ce chapitre que nous avons défini de manière générique la notion d’observateur
pour les systèmes d’exploitation. Nous avons montré que cette notion pouvait s’appliquer aussi
bien aux systèmes Linux qu’aux systèmes Windows. Nous avons abstrait aussi bien leurs modes
de sécurité que leurs modes de répartition.
Dans le chapitre 4, nous allons nous intéresser à la répartition de deux observateurs dans un
environnement HPC en proposant une architecture originale. Mais nous devrons aussi proposer un
modèle nous permettant de mesurer l’impact de la répartition de ces observateurs sur un système.
Dans le chapitre 5, nous mettrons en œuvre le moniteur de référence défini dans ce chapitre
pour les systèmes Windows. Pour cela, nous montrerons comment écrire une politique de contrôle
d’accès direct et les usages que nous en avons faits pour l’analyse et le contrôle des malware.
953.4. DISCUSSION
96Chapitre 4
Répartition d’observateurs en
environnement HPC et analyse des
performances
En étudiant deux scénarios d’attaque complets sur les systèmes d’exploitation en introduction
de notre étude (voir la section 1.3), nous avons expliqué qu’il faillait pouvoir mesurer et contrôler
les interactions directes. Ce contrôle s’effectue par la définition d’un observateur capable de gérer
les interactions directes. Cependant, il est parfois difficile de prévenir une attaque en agissant uniquement
sur les interactions directes sans pour autant nuire au fonctionnement global du système.
C’est pour cette raison qu’il est nécessaire d’associer plusieurs observateurs, réalisant des calculs
supplémentaires pour protéger le système en profondeur sans nuire à son bon fonctionnement.
Dans le chapitre 3, nous avons proposé une définition générique d’observateur pour les systèmes
d’exploitation ainsi qu’un modèle de répartition. Ajouter des observateurs au sein d’un
système va nécessairement consommer des ressources supplémentaires, que ce soit du temps processeur,
de la mémoire vive, des ressources sur le disque, etc. Cependant, il n’existe pas de modèle
de mesure des performances permettant de quantifier de manière précise le surcoût engendré par
l’ajout d’observateurs au sein d’un système. Il est pourtant nécessaire de pouvoir calculer ce surcoût,
surtout en vue de l’intégration dans des environnements à haute performance.
Nous avons détaillé au cours de l’introduction, mais aussi tout au long de notre étude, qu’il
existait des associations naturelles d’observateurs sur les systèmes : SELinux et PIGA, SELinux
et iptables, un antivirus et un pare-feu sous Windows, etc. Néanmoins, il n’existe pas de modèle
permettant de formaliser ces répartitions, c’est pour cela que nous en avons proposé un dans la
section 3.1.3. Au cours de cette modélisation, nous avons défini des modes de répartition autorisant
le déport de l’observateur.
Dans une première section de ce chapitre, nous allons détailler la méthode que nous avons
développée pour mesurer l’impact sur les performances du système d’exploitation de l’association
de plusieurs observateurs. Nous traiterons plus spécialement les modes colocalisés et distants
avec une association en cascade des observateurs. Puis, dans une autre section, nous détaillerons
deux répartitions d’observateurs, SELinux avec PIGA, dans un environnement HPC. La première
répartition est colocalisée et la seconde est distante. Nous expliquerons comment nous avons pu
déporter PIGA en utilisant les technologies spécifiques des environnements HPC. Enfin nous appliquerons
notre méthode de mesure des performances pour calculer l’impact de la répartition des
observateurs sur le système. Nous comparerons la répartition colocalisée et notre architecture distante
à haute performance. Nous montrerons l’amélioration de la protection grâce aux moniteurs
SELinux et PIGA.
974.1. MÉTHODE DE MESURE DES PERFORMANCES D’UN SYSTÈME RÉPARTI
D’OBSERVATEURS
4.1 Méthode de mesure des performances d’un système réparti d’observateurs
4.1.1 Mesures globales
L’objectif est l’impact des observateurs répartis sur les performances d’un nœud client. Nous
avons choisi de comparer deux observateurs colocalisés et deux observateurs en mode distant.
En effet, le mode colocalisé et le mode distant opèrent sur le même principe sauf que le mode
distant nécessite des communications réseaux. On pourra ainsi déduire le gain réalisé grâce au
mode distant et il est légitime de penser que cela améliorera les performances du nœud client.
Afin d’évaluer l’impact sur les performances du système d’exploitation de ces deux associations,
il convient d’avoir un temps de référence (noté tempsreference). Ce temps de référence
correspond au temps pris par un appel système, donc à la différence entre son appel tr0 et son
retour tr1, sans observateur. Cette méthode de mesure peut être étendue à un jeu de tests, où le
premier temps correspond au début du jeu et le second temps à sa fin. Ce temps fait référence au
temps sans aucun observateur comme l’illustre la figure 4.1.
FIGURE 4.1 – Prise du temps de référence
984.1. MÉTHODE DE MESURE DES PERFORMANCES D’UN SYSTÈME RÉPARTI
D’OBSERVATEURS
4.1.1.1 Mode colocalisé
Le second temps concerne la latence générée par le premier observateur, noté
temps1_coloc_rr = tl1 − tl0 où tl1 et tl0 correspondent respectivement au temps de fin et de
début de l’appel système (ou du jeu de test), colocalisé en mode requête/réponse, illustré par la
figure 4.2.
FIGURE 4.2 – Prise du temps avec ajout du premier observateur
Cette mesure, que l’on nomme temps1_coloc_rr comprend :
— le détournement par l’observateur du flux d’exécution ;
— la prise de décision de la part du premier observateur ;
— le retour de l’observateur.
Ces trois éléments mesurés sont illustrés par le diagramme de séquence 4.3.
FIGURE 4.3 – Diagramme de séquence illustrant les temps mesurés lors l’ajout d’un seul observateur
Le troisième temps est la mesure du temps global, noté temps2_glob_coloc_rr = tgl1 − tgl0,
avec deux observateurs colocalisés et associés en mode cascade. Cette prise de temps est illustrée
par la figure 4.4. Dans ce cas, le second observateur est aussi en mode requête/réponse.
994.1. MÉTHODE DE MESURE DES PERFORMANCES D’UN SYSTÈME RÉPARTI
D’OBSERVATEURS
FIGURE 4.4 – Prise du temps global avec deux observateurs en mode colocalisé
Cette mesure, que l’on nomme temps2_glob_coloc_rr comprend :
— le détournement par un observateur du flux d’exécution ;
— la prise de décision de la part du premier observateur ;
— la communication entre les observateurs ;
— le temps de prise de décision du second observateur ;
— la communication retour entre les deux observateurs ;
— le retour du premier observateur.
Ces éléments mesurés sont illustrés par le diagramme de séquence 4.5.
FIGURE 4.5 – Diagramme de séquence illustrant les temps mesurés lors l’ajout de deux observateurs
en mode colocalisé
4.1.1.2 Mode distant
Pour la mise en place du second observateur en mode distant, nous introduisons deux nouveaux
composants : un client et un serveur.
1004.1. MÉTHODE DE MESURE DES PERFORMANCES D’UN SYSTÈME RÉPARTI
D’OBSERVATEURS
Cette quatrième mesure concerne le temps global avec : un observateur local en mode requê-
te/réponse associé en mode cascade avec un observateur distant en mode requête/réponse. Ce
temps, noté temps2_glob_dist_rr = td1 − td0 où td0 et td1 correspondent respectivement au début
et fin de l’appel système, est illustré par la figure 4.6.
FIGURE 4.6 – Prise du temps global avec un observateur en mode distant
Cette mesure, que l’on nomme temps2_glob_dist_rr comprend :
— le détournement par un observateur du flux d’exécution ;
— la prise de décision de la part du premier observateur ;
— la communication entre le client et le serveur ;
— le temps de prise de décision du second observateur ;
— la communication entre le serveur et le client ;
— le retour du premier observateur.
Ces éléments mesurés sont illustrés par le diagramme de séquence 4.7.
FIGURE 4.7 – Diagramme de séquence illustrant le temps global distant lors du déport du second
observateur
1014.1. MÉTHODE DE MESURE DES PERFORMANCES D’UN SYSTÈME RÉPARTI
D’OBSERVATEURS
4.1.2 Comparaison des performances
4.1.2.1 Combinatoire
En reprenant les modes de répartition que nous avons définis dans le chapitre 3, chaque observateur
peut avoir : 3 modes de sécurité, 2 modes d’association et 4 modes de localisation possibles.
L’ensemble des configurations possibles est 3x2x4=24 pour un seul observateur. Il semble diffi-
cile d’évaluer et comparer toutes ces configurations possibles. Nous avons donc restreint l’étude à
certaines configurations pour limiter la combinatoire.
Ainsi, nous considérons les modes requête/réponse (protection) et évidence (détection) pour
deux observateurs en cascade de façon colocalisée et distante.
Le nombre de configurations pour un seul observateur, placé sur la même machine que le
client, se résume à 1 localisation, 1 association et 2 modes de sécurité, donc 1x1x2=2. Nous avons
donc 2 configurations à évaluer. Pour ce premier observateur, il n’y pas de configuration distante
car c’est la solution que nous rencontrons en pratique avec SELinux où le moniteur est en mode
colocalisé.
L’ajout d’un second observateur ajoute un certain nombre de configurations. Pour le second
observateur, nous avons : 2 localisations, 2 modes de sécurité et 1 association, donc 2x2x1=4. Ce
second observateur crée 4 configurations supplémentaires. Nous avons donc 2x4=8 configurations
à évaluer, les 2 du premier multipliées par les 4 du second.
Pour résumer, nous devons donc réaliser 8 mesures pour les 8 configurations possibles et les
comparer entre elles et avec le temps de référence. A priori, l’instrumentation a peu d’impact et
surtout est uniforme avec le temps de référence. En pratique, la réalisation de moyennes sur les
temps mesurés lisse la variabilité et le caractère non reproductible des jeux d’essais.
4.1.2.2 Un seul observateur
Le tableau 4.1 établit les mesures à effectuer suivant les modes voulus du premier observateur.
Mode de sécurité de l’observateur
Localisation d’un seul observateur Requête/Réponse Evidence
Colocalisé temps1_coloc_rr temps1_coloc_evi
TABLE 4.1 – Tableau des mesures à réaliser pour les différents modes d’un seul observateur
Nous retrouvons dans ce tableau les 2 mesures pour un seul observateur placé en mode colocalisé
avec le client.
4.1.2.3 Deux observateurs
Le tableau 4.2 établit les mesures à effectuer suivant les modes voulus du second observateur.
Chaque mesure doit donc être réalisée suivant les deux modes possibles du premier observateur
soit au total deux tableaux 4.2 pour les deux modes de sécurité du premier observateur. Nous ne
précisons ici que les temps pour le second observateur.
Mode de sécurité du second observateur
Localisation de second observateur Requête/Réponse Evidence
Colocalisé temps2_glob_coloc_rr temps2_glob_coloc_evi
Distant temps2_glob_dist_rr temps2_glob_dist_evi
TABLE 4.2 – Tableau des mesures à réaliser pour les différents modes du second observateur
1024.1. MÉTHODE DE MESURE DES PERFORMANCES D’UN SYSTÈME RÉPARTI
D’OBSERVATEURS
4.1.3 Mesures détaillées
En plus des mesures globales que nous venons de présenter, nous allons spécifier des mesures
plus détaillées. Nous n’avons réalisé ces mesures que pour le second observateur en mode requê-
te/réponse étant donné que c’est celui-ci qui introduit le plus d’attente pour l’appel système.
La cinquième mesure concerne, puisque nous sommes dans le mode distant, le temps de communication
ainsi que le temps de décision du second observateur en mode requête/réponse comme
illustrée par la figure 4.8. De nouvelles mesures au niveau du client permettent d’évaluer le temps
tempscomm_observateur2_rr = tgo1 − tgo2, où tgo0 et tgo1 correspondant aux temps d’émission et
de réception au niveau du client.
FIGURE 4.8 – Prise du temps avec une communication et un observateur en mode distant
Cette mesure, que l’on nomme tempscomm_observateur2_rr comprend :
— la communication entre les observateurs ;
— le temps de prise de décision du second observateur ;
— la communication de retour.
Cette mesure est illustrée par le diagramme de séquence suivant 4.9.
1034.1. MÉTHODE DE MESURE DES PERFORMANCES D’UN SYSTÈME RÉPARTI
D’OBSERVATEURS
FIGURE 4.9 – Diagramme de séquence illustrant les temps mesurés lors d’une communication
complète avec le second observateur en mode distant
Enfin, la sixième mesure concerne le temps de décision du second observateur en mode requête/réponse,
illustrée par la figure 4.10. Cette mesure se fait au niveau du serveur, on la note
tempsobservateur2_rr = tod1 − tod0, où tod1 et tod0 sont les réponses et les requêtes envoyées
depuis le serveur.
FIGURE 4.10 – Prise du temps pour l’observateur 2 en mode distant
Cette mesure, que l’on nomme tempsobservateur2_rr comprend :
— Le temps de prise de décision du second observateur.
Cette mesure est illustrée par le diagramme de séquence suivant 4.11.
1044.1. MÉTHODE DE MESURE DES PERFORMANCES D’UN SYSTÈME RÉPARTI
D’OBSERVATEURS
FIGURE 4.11 – Diagramme de séquence illustrant les temps mesurés lors de la prise de décision
du second observateur en mode distant
4.1.3.1 Résultats déduits
Nous venons de détailler des mesures globales et des mesures détaillées. Mais certains temps
ne sont pas mesurables, comme le temps de communication entre le client et le serveur. Cependant,
il est calculable.
Ainsi, nous proposons un ensemble de calcul de performance issu des mesures effectuées :
— Le temps de communication : nous n’avons pas défini de mesure pour déterminer le temps
pris par la communication entre les deux observateurs. Il est effet difficile de mesurer de
manière précise une communication réseau entre deux machines car il faut synchroniser
parfaitement les horloges des deux systèmes. Cependant, ce temps est obtenu en soustrayant
deux mesures.
2 ∗ tempscommunication = tempscomm_observateur2_rr − tempsobservateur2_rr (4.1)
— Le temps global : même si nous réalisons une mesure du temps global, nous pouvons la
vérifier en additionnant des points de mesure.
temps2_glob_dist_rr =temps1_coloc_rr + tempscommunication ∗ 2 + tempsobservateur2_rr
(4.2)
— Nous pouvons en déduire la latence introduite par l’ajout des deux observateurs en mode
colocalisé, qui s’obtient de manière naturelle en comparant le temps de référence au temps
global, qu’il soit mesuré ou calculé.
tempslatence_colocalise_rr = |temps2_glob_coloc_rr − tempsreference|
— Nous pouvons en déduire la latence introduite par l’ajout des deux observateurs en mode
distant, qui s’obtient de manière naturelle en comparant le temps de référence au temps
global, qu’il soit mesuré ou calculé.
tempslatence_distant_rr = |temps2_glob_dist_rr − tempsreference|
— Nous pouvons ensuite comparer les deux modèles de localisation : colocalisé et distant.
Nous pouvons ainsi en déduire l’impact d’une architecture vis-à-vis de l’autre.
impactrr =
temps2_glob_coloc_rr
temps2_glob_dist_rr
1054.1. MÉTHODE DE MESURE DES PERFORMANCES D’UN SYSTÈME RÉPARTI
D’OBSERVATEURS
— Taux d’augmentation Comme nous comparons chaque valeur mesurée par rapport à un
temps de référence, nous pouvons exprimer le taux d’augmentation introduit au niveau de
chaque appel système. Par exemple, le taux d’augmentation pour l’observateur 2 en mode
colocalisé est :
taux_augmentation =
temps2_glob_coloc_rr − tempsreference
tempsreference
1064.2. SOLUTION POUR RÉPARTIR LES OBSERVATEURS DANS UN ENVIRONNEMENT
HPC
4.2 Solution pour répartir les observateurs dans un environnement
HPC
Dans cette section, nous allons nous intéresser au développement d’une solution pour répartir
les observateurs dans un environnement HPC.
Nous allons donc détailler la mise en place d’une architecture avec deux observateurs pour
les systèmes Linux. Le premier observateur est SELinux tandis que le second est PIGA. Cette
répartition se fera suivant deux modes de localisation : le mode colocalisé et le mode distant.
Dans l’objectif de limiter l’impact sur les performances du nœud client, nous utilisons un réseau
InfiniBand pour faire communiquer les deux observateurs entre eux dans le mode distant.
Cette architecture a fait l’objet de deux publications : [Blanc et al., 2013a] et
[Blanc et al., 2013b].
Nous nous sommes intéressés dans la publication [Blanc et al., 2011] à la protection des nœuds
de connexion, en composant en mode colocalisé SELinux et PIGA.
4.2.1 Architecture avec deux observateurs en mode distant
Notre modèle de protection se base sur l’ajout de deux observateurs. Nous avons ici choisi
d’utiliser SELinux et PIGA, qui réalisent des calculs complémentaires. En effet, SELinux gère les
interactions directes alors que PIGA est capable de contrôler les scénarios complets. La figure 4.12
illustre l’architecture globale que nous avons mise en place. Le canal de communication que nous
avons choisi est un lien InfiniBand. Nous appelons serveur de sécurité le nœud qui héberge PIGA.
FIGURE 4.12 – Architecture décentralisée
Dans cette architecture, SELinux est chargé de détourner les flux d’exécution du système pour
les traiter et les envoyer à PIGA. Il réalise ce détournement grâce à l’utilisation des LSM. Les deux
observateurs sont mis en mode de sécurité cascade, ce qui permet d’attendre la réponse de PIGA
lorsque celui-ci est en mode protection ou de simplement transférer les requêtes sans attendre de
réponse lorsque PIGA est en mode évidence (détection).
1074.2. SOLUTION POUR RÉPARTIR LES OBSERVATEURS DANS UN ENVIRONNEMENT
HPC
4.2.2 Choix des observateurs
4.2.2.1 SELinux
Dans le but de nous rapprocher au maximum des conditions réelles, c’est-à-dire celles mises
en place par le CEA, nous avons utilisé un système d’exploitation proche de celui mis en place
sur les différents nœuds. Sur les calculateurs tels que Curie, c’est le système d’exploitation Bull
Advanced Server qui est déployé. Cette distribution est un clone du système Red Hat Enterprise
Linux. Dans ce système d’exploitation, SELinux est intégré et activé par défaut.
SELinux étant nativement intégré au noyau Linux, il n’est pas nécessaire de modifier le code
du noyau pour le faire fonctionner. De plus, les politiques SELinux fournies avec cette distribution
sont fonctionnelles.
Mais surtout, notre choix a été motivé par les premières expérimentations que nous avons faites
sur l’impact de SELinux sur les performances du système d’exploitation. Comme nous le verrons
dans la partie résultat de ce chapitre 4.3.2, l’impact de SELinux est minime sur les performances
du système. Il peut donc être intégré, même sur les nœuds de calcul. Cela est rendu possible par
les différentes optimisations présentes dans SELinux. Nous pouvons par exemple citer le Access
Vector Cache qui va conserver les derniers vecteurs d’accès calculés par SELinux. Ainsi, si une
décision est déjà présente dans ce cache, il n’est pas nécessaire de parcourir de nouveau la politique
pour rechercher ce vecteur d’accès. Une seconde optimisation de SELinux est la non revérification
des droits acquis lors des opérations de lecture ou d’écriture en l’absence de modification des
contextes sujets et objets.
La figure 4.13 illustre le mécanisme de prise de décision de SELinux :
1. un processus réalise une opération élémentaire (un appel système) (flèche 1) ;
2. SELinux la détourne grâce aux LSM (flèche 2) : ces deux premières étapes correspondent
à une requête ;
3. il prend une décision au regard de sa politique de contrôle d’accès (flèche 3) ;
4. si l’interaction est interdite, une trace est inscrite dans le fichier d’audit (flèche 4) : cette
étape est une réponse de l’observateur ;
5. un code d’erreur est retourné à l’application ayant fait la requête (flèche 5) ;
6. si l’interaction est autorisée, alors SELinux transmet la requête au noyau pour qu’elle soit
exécutée (flèche 6) ;
7. le noyau envoie le retour de l’appel système à l’application (flèche 7) : cette étape est une
réponse, ici de l’appel système, qui dans ce cas, n’est pas traitée par SELinux.
Chaque décision de SELinux est associée à un access vector. Un vecteur d’accès se compose
des contextes sujet et objet, de la classe de l’objet, des opérations élémentaires et enfin de la
décision d’accès donnée par SELinux.
4.2.2.2 PIGA
Le choix de PIGA a été motivé par le fait qu’il est capable de gérer les scénarios complets en
reconstruisant l’activité du système, tout en se basant sur les politiques de SELinux.
PIGA est le second mécanisme de protection utilisé dans notre architecture. Il est constitué de
deux parties : PIGA-Kernel, qui détourne les interactions autorisées par SELinux et PIGA-UM,
qui est le moteur de décision. Il faut noter que PIGA n’a pas été implanté pour avoir un mode de
fonctionnement distant, il nous faut donc résoudre ce problème.
1084.2. SOLUTION POUR RÉPARTIR LES OBSERVATEURS DANS UN ENVIRONNEMENT
HPC
FIGURE 4.13 – Architecture de prise de décision de SELinux
PIGA-Kernel Comme nous l’avons déjà dit, PIGA est basé sur la reconstruction des activités du
système. Pour cette reconstruction, PIGA se base sur les vecteurs d’accès générés SELinux. Pour
récupérer ces vecteurs, PIGA-Kernel insère un hook directement dans le code de SELinux pour
détourner le flux d’exécution.
Une fois le flux d’exécution de SELinux détourné, PIGA-Kernel construit sa propre trace avant
de l’envoyer à PIGA-UM et il attend une réponse lorsqu’il est placé en mode protection, sinon il
rend la main à SELinux. Une fois que la réponse a été calculée, il poursuit l’exécution. Si PIGAUM
n’autorise pas l’interaction, PIGA-Kernel modifie le vecteur d’accès de SELinux afin que
l’interaction soit refusée, sinon la décision d’accès prise par SELinux est appliquée.
PIGA-UM PIGA-UM récupère la trace envoyée par PIGA-Kernel pour reconstruire les activités
et vérifie que cette interaction ne fait pas partie d’un ensemble d’activités illégitimes.
Une fois que la décision est prise, PIGA-UM la renvoie à PIGA-Kernel. L’insertion des composants
PIGA-Kernel et PIGA-UM dans le système, en mode colocalisé, est détaillée dans la
figure 4.14.
1. un processus réalise une opération élémentaire (un appel système) qui est détournée par
SELinux(flèche 1) : cela correspond à la requête ;
2. SELinux prend une décision au regard de sa politique de contrôle d’accès (flèche 2) ;
3. si l’interaction est autorisée, PIGA-Kernel détourne le flux d’exécution (flèche 3), si l’interaction
est refusée par SELinux, le refus est envoyé au processus appelant (flèche 10),
cette étape constitue alors une réponse ;
4. PIGA-Kernel envoie la trace à PIGA-UM (flèche 4). En mode détection, il n’attend pas le
retour de PIGA-UM et il redonne la main à SELinux (flèche 6) ;
1094.2. SOLUTION POUR RÉPARTIR LES OBSERVATEURS DANS UN ENVIRONNEMENT
HPC
5. PIGA-UM vérifie que cette interaction ne termine pas un scénario complet (flèche 5) ;
6. PIGA-UM envoie une réponse à PIGA-Kernel (flèche 6) ;
7. PIGA-Kernel transmet la réponse à SELinux (flèche 7) ;
8. si l’interaction est refusée, SELinux envoie le refus au processus appelant (flèche 10) : cette
étape constitue une réponse ;
9. si l’interaction est autorisée, alors l’appel système est exécuté (flèche 8) ;
10. se noyau envoie le retour de l’appel système à l’application (flèche 9) : cette étape est une
réponse, ici de l’appel système, qui dans ce cas, n’est pas traitée par SELinux.
FIGURE 4.14 – Insertion de PIGA dans l’architecture en mode colocalisé
Il est à noter que PIGA-Kernel autorise l’interaction sans attendre de réponse de la part de
PIGA-UM lorsque celui-ci est en mode évidence (ou détection). Dans ce mode, on voit que PIGA
est moins pénalisant, au niveau de l’impact sur les performances, pour les processus appelant.
4.2.2.3 Infiniband
Pour assurer les communications entre le nœud client et le serveur de sécurité, nous avons fait
le choix d’utiliser les réseaux Infiniband. Ce sont des réseaux à très haute performance utilisés
dans les environnements HPC qui offrent un important débit et ont une faible latence.
La principale particularité de l’architecture Infiniband est qu’elle peut s’appuyer sur différents
protocoles pour être intégrée dans des environnements hétérogènes. Il existe plusieurs types de
protocoles : Remote Direct Memory Access, IP over IB, ISCSI, etc. Nous avons fait le choix du
protocole RDMA car c’est le protocole qui est le plus efficace lors de l’utilisation d’InfiniBand. Le
principal avantage du protocole RDMA est qu’il passe directement par le matériel. Le protocole
RDMA peut être utilisé suivant deux méthodes : soit la carte du nœud écrit dans la mémoire
distante, soit c’est la carte distante qui vient lire dans la mémoire de la première. Nous avons fait
le choix d’écrire dans la mémoire distante.
La figure 4.15 illustre le fonctionnement d’une communication Infiniband sur RDMA. Un
processus veut écrire dans la mémoire d’un processus placé sur une autre machine. Le noyau alloue
au driver de la carte Infiniband un espace mémoire (ou plusieurs). Cet espace mémoire sera le
tampon d’échange (lecture ou écriture) pour les deux processus impliqués dans la communication.
1104.2. SOLUTION POUR RÉPARTIR LES OBSERVATEURS DANS UN ENVIRONNEMENT
HPC
Le processus va écrire dans la mémoire allouée (flèche 1) puis valider l’écriture auprès de la
carte de la machine courante. Cette dernière va alors récupérer les informations de la mémoire
(flèche 3) pour les écrire directement dans la mémoire du processus distant en utilisant le lien Infi-
niBand (flèche 4). Une fois que la carte a fini son opération d’écriture (flèche 5), l’écrivain notifie
le lecteur que l’information est disponible (flèche 6) au travers d’une communication InfiniBand.
Le lecteur peut accéder au contenu de la mémoire pour récupérer l’information (flèche 7).
FIGURE 4.15 – Schéma d’une communication RDMA sur un lien InfiniBand
Au cours de cette opération, le noyau n’a jamais été impliqué dans la communication. Ainsi,
nous évitons un changement de contexte pour le processus, la création d’un paquet TCP, le parcours
des différentes couches du modèle de réseau OSI, etc.
4.2.3 Déport du mécanisme de prise de décision
Nous venons de détailler le fonctionnement en local de SELinux, de PIGA et le fonctionnement
du protocole RDMA sur des réseaux InfiniBand. Nous allons maintenant, à partir de tous les
éléments proposés, définir une architecture permettant de déporter le mécanisme de protection
PIGA.
Nous proposons un programme que l’on nomme proxy, chargé des échanges entre PIGA-UM
et PIGA-Kernel.
Le proxy
Le proxy est un programme que l’on va retrouver à la fois sur le nœud client, mais aussi sur
le serveur de sécurité. Sur le nœud client, il est chargé de récupérer les vecteurs d’accès générés
par SELinux et transmis par PIGA-Kernel pour les envoyer sur le lien InfiniBand. Il attend ensuite
la réponse provenant du proxy serveur de sécurité pour la transmettre à SELinux. Le proxy serveur
récupère les vecteurs d’accès envoyés par le client, les transmet à PIGA-UM, puis renvoie la
décision d’accès de PIGA-UM sur le lien InfiniBand.
4.2.3.1 Le nœud client
Nous allons présenter l’architecture simplifiée mise en place sur un nœud client, illustrée par
la figure 4.16.
1114.2. SOLUTION POUR RÉPARTIR LES OBSERVATEURS DANS UN ENVIRONNEMENT
HPC
FIGURE 4.16 – Architecture de protection sur un nœud client
Comme nous l’avons décrit auparavant, SELinux détourne le flux d’exécution régulier pour
prendre une décision (flèche 1). Si l’interaction est autorisée par SELinux, PIGA-Kernel intercepte
à son tour le flux (flèche 2) pour le transmettre au proxy client (flèche 3), qui va l’envoyer au
serveur (flèche 5) par le lien InfiniBand.
Le proxy client attend la réponse du proxy serveur et la récupère toujours sur le lien InfiniBand
(flèche 5). Il transmet la réponse à PIGA-Kernel (flèche 6) qui la renvoie à SELinux (flèche 7). Si
l’accès est autorisé, le vecteur d’accès n’est pas modifié. Dans le cas contraire, une modification du
vecteur d’accès a lieu pour interdire l’interaction. Cette décision est enfin transmise au processus
(flèche 8). Si la décision est interdite, elle sera enregistrée dans un fichier d’audit.
La figure 4.17 représente l’architecture complète mise en place sur le nœud de calcul et le
chemin du contrôle d’une interaction directe.
1. un processus réalise une interaction directe (un appel système) qui est détournée par la
couche LSM ;
2. la couche LSM transmette cette requête à SELinux : c’est la requête ;
3. SELinux prend une décision au regard de sa politique de sécurité ;
4. si SELinux autorise l’opération, alors le vecteur d’accès est détourné par PIGA-Kernel ;
5. PIGA-Kernel transmet la trace au proxy ;
6. le proxy envoie cette trace sur le lien Infiniband ;
7. le proxy récupère la réponse du serveur de sécurité ;
8. il la transmet à PIGA-Kernel ;
9. PIGA-Kernel la renvoie à SELinux ;
10. si l’interaction est interdite (soit par SELinux, soit par PIGA), alors la trace est enregistrée
dans le fichier d’audit ;
11. si l’interaction est refusée, un retour spécifique est envoyé au processus : c’est une réponse ;
12. sinon, la requête est transmise au noyau, qui l’exécute ;
13. le noyau envoie le retour au processus, non traité par SELinux, c’est une réponse.
1124.2. SOLUTION POUR RÉPARTIR LES OBSERVATEURS DANS UN ENVIRONNEMENT
HPC
FIGURE 4.17 – Architecture détaillée du contrôle d’accès sur un nœud client
4.2.3.2 Le proxy serveur
Sur le serveur distant, nous n’avons que deux éléments : le proxy serveur et le moniteur de
référence PIGA-UM. La figure 4.18 illustre l’architecture du contrôle mise en place sur le serveur
de sécurité.
FIGURE 4.18 – Architecture sur le serveur de sécurité
1. Le proxy récupère la trace sur le lien InfiniBand ;
2. Il la transmet à PIGA-UM ;
3. PIGA-UM prend une décision au regard de sa politique de sécurité ;
4. Il envoie sa décision au proxy ;
5. Le proxy la transmet au nœud de calcul en utilisant le lien InfiniBand.
1134.3. EXPÉRIMENTATIONS
4.3 Expérimentations
Nous venons de détailler la mise en place d’une architecture décentralisée basée sur l’utilisation
de deux observateurs : SELinux et PIGA. Pour faire communiquer ces deux observateurs,
nous avons implanté un proxy qui gère les différentes communications entre les observateurs.
Nous allons maintenant nous attacher à comparer l’impact sur les performances d’une architecture
en mode colocalisé avec une architecture où un des observateurs est déporté. Nous allons
pour cela, nous appuyer sur le modèle d’analyse que nous avons défini dans la section 4.1.1.
Pour réaliser des mesures de temps précises et surtout reproductibles, nous avons utilisé deux
logiciels : le premier se nomme linpack et le second est un programme permettant de stresser
les observateurs en faisant beaucoup d’entrées/sorties.
4.3.1 Les moyens de mesure
Pour tester l’impact sur les performances de la répartition de deux observateurs, nous avons
défini deux types de tests : un test de référence appliqué dans le HPC, et un logiciel spécifique
stressant les deux moniteurs de référence SELinux et PIGA.
Le premier test que nous avons réalisé se base sur le logiciel de benchmark linpack 1
. Ce logiciel
est utilisé pour classer les calculateurs dans le monde entier (voir le site Internet top500 2
).
Nous avons configuré ce logiciel au moyen du fichier de configuration disponible en annexe A. La
particularité de ce logiciel est qu’il réalise très peu d’accès disque et d’appels système. C’est essentiellement
du calcul en mémoire qui est réalisé, et il va de surcroit utiliser le nombre maximum
de cœurs du processeur.
Pour le stress, nous avons créé un logiciel spécifique qui réalise le scénario suivant :
1. ouverture d’un fichier présent sur le système, correspondant à l’appel système sys_open ;
2. lecture d’un nombre constant d’octets dans un tampon mémoire, correspondant à l’appel
système sys_read ;
3. fermeture du fichier, correspondant à l’appel système sys_close ;
4. création d’un nouveau fichier avec un nom aléatoire sur le disque local, correspondant à
l’appel système sys_open ;
5. écriture du tampon dans le fichier, correspondant à l’appel système sys_write ;
6. fermeture du fichier, correspondant à l’appel système sys_close ;
Le code utilisé est mis en annexe B. Nous avons réalisé ce test pendant une durée d’une heure et
les prises de temps sont réalisées en début et fin de séquence pour avoir une vision macroscopique
des latences qui sont dues au modèle de protection.
Ce test nous permet d’estimer l’impact du modèle de protection sur le système dans, ce que
l’on peut considérer comme le pire des cas pour les mécanismes de protection. En effet, le scénario
effectue beaucoup d’appels système puisqu’il ne fait que des entrées/sorties. Toutefois, réaliser des
tests sur un système de fichiers peut soulever quelques problèmes. En effet, il ne faut pas que les
mesures soient influencées par le cache du système de fichiers, ou par la vitesse d’écriture du
disque dur. C’est pourquoi, nous avons réalisé la prise de temps en début et en fin de scénario,
plutôt qu’entre chaque appel système car cela permet de linéariser les effets des différents caches
présents sur le système. Ce test est réalisé de manière séquentielle, c’est-à-dire qu’un seul cœur du
processeur est utilisé durant l’expérimentation.
1. http://www.netlib.org/benchmark/hpl/
2. http://top500.org
1144.3. EXPÉRIMENTATIONS
4.3.2 Résultats sur les performances
Nous présentons ici les résultats pour les 8 temps globaux que nous avons présentés dans la
section 4.1.1. Comme nous l’avons dit, nous allons comparer ces mesures avec une mesure de
référence prise sans aucun observateur.
Nous présentons ici les résultats que nous avons obtenus pour comparer les modèles de répartition
sur les performances des systèmes. Nous allons découper ces résultats en partant d’une vision
globale puis isoler chaque élément de la prise de décision grâce au modèle vu en section 4.1.1.
4.3.2.1 Architecture d’expérimentation
Les expérimentations que nous présentons ici ont toutes été réalisées sur des machines physiques
pour être les plus précises possibles. En effet, la virtualisation ajoute une couche de complexité
et entraîne des effets de bords qu’il est difficile d’annuler.
Les nœuds clients Nous disposions de deux machines parfaitement identiques pour réaliser des
calculs. Nous avons ainsi pu réaliser des tests en mode colocalisé et en utilisant notre architecture
décentralisée.
Les nœuds de calcul disposent de deux processeurs Intel(R) Xeon(R) X5450 cadencés à 3,00
GHz. Ils disposent chacun de 8 Go de mémoire vive. Les tests sont réalisés sur un système de
fichiers en ext4, avec un matériel en RAID-10, sur des disques en SAS à 15 000 tours par minutes.
Nous avons choisi comme distribution Scientific Linux 6, qui un clone de RHEL 6.
Les paquets formant le système de base sont les mêmes entre les deux distributions. Comme nous
avons eu besoin de modifier le noyau, nous avons modifié un RPM source de Red Hat nommé
2.6.32-279.5.2.el6.
SELinux a été modifié pour ne charger que 37 modules. Nous avons supprimé du chargement
de la politique les modules inutiles sur un nœud de calcul tels que le module mozilla, ou encore
openoffice. La politique SELinux ne contient plus que 79196 règles d’autorisation alors que
la politique de référence en contenait 240669.
De plus, nous avons défini des politiques SELinux spécifiques pour que linpack et notre
logiciel stressant le système de fichiers soient autorisés.
Le serveur de sécurité Le serveur de sécurité est une machine dédiée qui dispose de deux processeurs
Intel(R) Xeon(R) E5405 cadencés à 2,00 GHz. Ce nœud dispose lui aussi de 8 Go de
mémoire vive. Le système installé est aussi du Scientific Linux 6.
Sur cette machine, nous avons déployé PIGA-UM, qui s’exécute en espace utilisateur, avec
l’ensemble de propriété de sécurité du listing 4.1. Ces propriétés de sécurité sont générales et assurent
la confidentialité des utilisateurs vis-à-vis des personnes présentes dans le rôle staff_r
ainsi que des personnes présentes dans le rôle sysadm_r, l’intégrité des fichiers de configuration
et des domaines linpack et staff_t. En traitant à la fois de la confidentialité et de l’inté-
grité, nous configurons PIGA dans le pire des cas car cela génère un grand nombre d’activités à
surveiller.
Le canal de communication Les deux machines sont connectées en Ethernet et en InfiniBand.
Le nœud de calcul et le serveur de sécurité disposent de la même technologie de carte Mellanox
Technologies MT26428 offrant un débit théorique maximum de 40 Gb par secondes.
1154.3. EXPÉRIMENTATIONS
✞ ☎
1 confidentiality( $sc1:="user_u:user_r:user.*_t", $sc2:=system_u:object_r:etc_t
);
2
3 confidentiality( $sc1:=system_u:object_r:nfs_t, $sc2:=user_u:user_r:user_t );
4 confidentiality( $sc2:=system_u:object_r:nfs_t, $sc1:=user_u:user_r:user_t );
5
6 confidentiality( $sc1:=system_u:object_r:nfs_t, $sc2:=staff_u:staff_r:staff_t )
;
7 confidentiality( $sc2:=system_u:object_r:nfs_t, $sc1:=staff_u:staff_r:staff_t )
;
8
9 confidentiality( $sc1:="user_u:user_r:user.*_t", $sc2:="staff_u:staff_r:staff.*
_t" );
10 confidentiality( $sc2:="user_u:user_r:user.*_t", $sc1:="staff_u:staff_r:staff.*
_t" );
11
12 confidentiality( $sc1:="user_u:user_r:user.*_t", $sc2:="sysadm_u:sysadm_r:
sysadm.*_t" );
13 confidentiality( $sc2:="user_u:user_r:user.*_t", $sc1:="sysadm_u:sysadm_r:
sysadm.*_t" );
14
15 integrity( $sc1:="user_u:user_r:user.*_t", $sc2:=".*:.*:.*etc_t" );
16 integrity( $sc1:="staff_u:staff_r:staff.*_t", $sc2:=".*:.*:.*etc_t" );
17
18 domainintegrity( $CHROOT:="staff_u:staff_r:linpack.*" );
19 domainintegrity( $CHROOT:="staff_u:staff_r:staff.*" );
✝ ✆
Listing 4.1 – Propriétés de sécurité appliquées pour les tests de performances
4.3.2.2 Mesures globales
L’objectif est tout d’abord de déterminer la latence globale au niveau de l’application due à
notre modèle de protection.
Linpack Ce test a été fait pendant une durée de 23 heures. Linpack réalise plusieurs types
d’opérations, c’est-à-dire des calculs matriciels, et propose le temps mis pour réaliser le calcul
comme le montre l’extrait 4.2. Il réalise 18 opérations différentes. Nous faisons une moyenne du
temps mis et de la puissance calculée pour les différents tests que nous avons réalisés.
✞ ☎
1 T/V N NB P Q Time Gflops
2 WR00L2L2 26752 128 2 4 8117.16 1.573e+00
✝ ✆
Listing 4.2 – Extrait d’un fichier de résultat de linpack
Le tableau 4.3 propose les résultats d’un ensemble de tests effectués pour connaître l’impact
sur les performances du système d’exploitation des différentes répartitions d’observateurs.
Comme les premiers résultats obtenus avec SELinux (en mode requête/réponse mais aussi en
mode évidence) sont concluants, nous avons réalisé les expérimentations suivantes avec SELinux
uniquement en mode requête/réponse. Nous comparons donc 6 temps globaux avec le temps de
référence. De plus, dans le but de minimiser les traitements réalisés par PIGA, il est nécessaire de
bloquer les interactions directes lorsqu’elles ne sont pas autorisées dans la politique de contrôle
d’accès. C’est pour cela que nous avons réalisé les tests en ajoutant PIGA uniquement avec SELinux
en mode protection.
Pour cela, nous avons tout d’abord réalisé un premier test avec aucune protection obligatoire,
que ce soit SELinux ou PIGA. C’est le test de référence. Puis nous avons ajouté un à un chaque
1164.3. EXPÉRIMENTATIONS
moniteur dans le but d’avoir des résultats précis et exploitables. Nous avons donc ajouté SELinux
à nos tests en utilisant les modes : détection et protection. Lors du test de ces deux modes, SELinux
disposaient de la même politique de sécurité. On peut noter une légère amélioration des résultats
lorsque SELinux est activé sur la machine. Cela peut s’expliquer par le fait que SELinux va bloquer
des programmes concurrents et ainsi, linpack ne sera pas préempté. Nous avons ensuite ajouté
PIGA en mode détection pour avoir une première vision de l’impact de ce mécanisme. Nous avons
réalisé ces tests avec une version en mode colocalisé puis avec une version décentralisée. L’objectif
étant de savoir si le déport d’un observateur apportait réellement un plus au niveau de l’impact sur
les performances du système d’exploitation.
Les résultats obtenus avec Linpack montrent que la version décentralisée n’impacte pas les
performances du système d’exploitation. La version en mode colocalisé de PIGA génère une faible
latence.
Temps en secondes Puissance en GFlops
tempsref erence 8 124 1.571
SELinux détection : temps1_coloc_evi 8 118 1.572
SELinux protection : temps1_coloc_rr 8 111 1.575
SELinux/PIGA colocalisé : temps2_glob_coloc_evi 8 127 1.571
SELinux/PIGA colocalisé : temps2_glob_coloc_rr 8 130 1.570
SELinux/PIGA distant : temps2_glob_dist_evi 8 121 1.572
SELinux/PIGA distant : temps2_glob_dist_rr 8 114 1.573
TABLE 4.3 – Tableau des résultats avec l’utilisation de linpack avec PIGA
Le tableau 4.3 présente aussi les résultats obtenus, toujours avec linpack, mais cette fois-ci,
PIGA est mis en mode protection. Dans cette configuration, SELinux est toujours placé en mode
enforcing.
L’utilisation de PIGA en mode distant améliore légèrement les performances vis-à-vis du mode
colocalisé.
Stress des moniteurs répartis Notre second test vise à réaliser un maximum d’appels système
afin de solliciter de manière soutenue les observateurs répartis.
Nous rappelons brièvement le protocole de test. Le programme est lancé pendant une heure et
réalise en boucle le scénario des actions : ouverture, lecture, fermeture, création, écriture, fermeture.
Nous récupérons le nombre de jeux/scénarios réalisés. Le temps indiqué est le temps moyen
de chaque scénario correspondant à un jeu de test.
Le tableau 4.4 présente les résultats que nous avons obtenus en stressant le système de fichiers.
Dans ce tableau, nous détaillons les résultats obtenus avec le moniteur PIGA mis en mode détection.
Dans chaque test, nous avons mis SELinux en mode protection puisque la première mesure,
temps1_coloc_rr présente dans ce tableau, confirme que l’impact de SELinux en mode requête/ré-
ponse est négligeable par rapport au temps de référence, mais aussi à son mode évidence.
En mode détection, avec SELinux et PIGA en mode colocalisé, nous multiplions par 6 le
temps moyen par scénario, ce qui conduit à réduire de moitié le nombre de scénarios. Avec PIGA
en distant, nous réduisons cette latence. Ainsi nous obtenons un temps moyen multiplié par 3 et
un nombre d’opérations réduit d’un tiers par rapport au mode avec le seul moniteur SELinux.
Le tableau 4.4 donne aussi les résultats obtenus avec PIGA en mode protection. Avec PIGA en
mode colocalisé, nous divisons par 5 le nombre de scénarios et nous multiplions le temps moyen
par 13. Cependant, nous améliorons avec PIGA en mode distant puisque le nombre de scénarios
réalisés est divisé par 2 et le temps moyen est multiplié par 5.
1174.3. EXPÉRIMENTATIONS
Nombre de scénarios temps par scénario en µs
tempsreference 5 176 731 689
SELinux : temps1_coloc_evi 5 176 731 691
SELinux : temps1_coloc_rr 5 176 731 692
SELinux + PIGA colocalisé temps1_glob_coloc_evi 2 481 727 3 787
SELinux + PIGA colocalisé temps1_glob_coloc_rr 1 133 107 7 954
SELinux + PIGA distant temps2_glob_dist_evi 3 889 542 1 717
SELinux + PIGA distant temps2_glob_dist_rr 2 746 805 3 186
TABLE 4.4 – Table détaillant l’impact avec stress des moniteurs répartis
À partir de ces différentes mesures, obtenues en mode détection et en mode protection, nous
pouvons estimer le temps moyen par appel système. Pour cela, nous divisons le temps moyen par
scénario par le nombre d’opérations élémentaires réalisées par notre programme, c’est-à-dire 6.
Ces résultats, illustrés par le tableau 4.5, nous permettent, tout d’abord, de calculer un temps
moyen par appel système (ou plus exactement par interaction) au niveau de notre système.
Ensuite, nous sommes capables d’estimer le surcoût induit par la répartition de deux observateurs,
que ce soit en mode cololocalisé ou en mode distant :
— colocalisé : en mode protection, le surcoût est de 1211 µs par appel système alors qu’en
mode détection il n’est que de 517 µs ;
— distant : en mode protection le surcoût est de 417 µs par appel système alors qu’en mode
détection, il n’est que de 172 µs.
temps moyen/scénario en µs temps moyen/appel système en µs
Sans SELinux : tempsref erence 689 114,3
SELinux temps1_coloc_rr 692 115,3
SELinux + PIGA colocalisé : temps2_glob_coloc_evi 3 787 631,12
SELinux + PIGA colocalisé : temps2_glob_coloc_rr 7 954 1325,6
SELinux + PIGA distant : temp2_glob_dist_evi 1 717 286,16
SELinux + PIGA distant : temp2_glob_dist_rr 3 186 531
TABLE 4.5 – Table détaillant le temps moyen par appel système
Il faut rappeler que ces surcoûts correspondent à notre avis au pire des cas et que celui-ci est
peu représentatif des environnements HPC. En effet, dans la pratique, les codes de calcul ne font
pas autant d’entrée/sortie, mais réalisent des calculs en mémoire.
4.3.2.3 Mesures détaillées
Afin de définir où sont les surcoûts des observateurs répartis, nous appliquons notre méthode
de mesure définie en section 4.1.1. Dans cette partie, nous nous sommes exclusivement intéressés
au mode distant car c’est cette architecture qui vise à être implantée dans un environnement HPC.
L’objectif est de donc d’utiliser notre solution pour analyser les performances sur cette architecture.
Nous réalisons ces tests uniquement pour le mode requête/réponse de PIGA.
Grâce à nos premiers tests, nous avons montré que ce n’était pas SELinux qui générait une
latence. Toutes les mesures vont nous permettre de quantifier les surcoûts aux différents endroits.
Estimation du coût d’une communication complète avec prise de décision du second observateur
Nous avons réalisé des mesures de temps au niveau du proxy client déployé sur le nœud
client. Cette mesure, tempscomm_observateur2_rr, consiste à connaitre le temps pris par la suite
d’instructions suivantes :
1184.3. EXPÉRIMENTATIONS
1. le proxy a déjà lu la trace générée par PIGA-Kernel donc cette interaction n’est pas prise
en compte dans la mesure ;
2. il prend le premier temps ;
3. il envoie la trace au serveur de sécurité et attend la réponse ;
4. il obtient une réponse ;
5. il prend le deuxième temps.
Le diagramme de séquence 4.19 détaille toutes les opérations qui se déroulent pendant la
mesure.
FIGURE 4.19 – Diagramme de séquence illustrant la mesure faite au niveau du proxy coté nœud
de calcul
Cette mesure a été réalisée sur une moyenne d’un million de communications entre le nœud
client et le serveur de sécurité. Nous obtenons une valeur moyenne de 260 µs pour le temps
tempscomm_observateur2_rr, une valeur maximum de 400 µs et une valeur minimum 200 µs.
Lecture d’une trace avec une prise de décision Cette première mesure montre que la latence
est générée, soit par la communication, soit par la prise de décision de la part de PIGA. Nous allons
donc mesurer le temps de prise de décision de PIGA, tempsobservateurs2_rr.
1. le proxy lit la trace en mémoire ;
2. la première mesure de temps est déclenchée ;
3. le proxy transmet la trace à PIGA.
4. PIGA prend une décision d’accès ;
5. le proxy récupère la décision ;
6. la seconde mesure de temps est réalisée.
Ainsi, en prenant le temps au niveau du proxy, nous pouvons déterminer le temps pris par
PIGA pour prendre une décision d’accès. Cette procédure est illustrée par le diagramme de sé-
quence 4.20.
On obtient un temps de prise de décision moyen pour PIGA de 220 µs, qui correspond au temps
tempsobservateurs2_rr. Tout comme pour la précédente mesure, ce temps est obtenu en faisant une
moyenne sur un échantillon d’un million d’appels à PIGA.
Afin d’être précis, nous avons fait cette mesure au niveau du proxy qui est en C plutôt qu’au
niveau de PIGA qui est en Java.
1194.3. EXPÉRIMENTATIONS
FIGURE 4.20 – Diagramme de séquence illustrant la mesure faite au niveau du proxy serveur pour
calculer le temps de prise de décision de PIGA
Coût d’une communication À partir des deux dernières mesures, nous pouvons en déduire le
coût d’une communication entre le proxy client et le proxy serveur.
En nous basant sur les moyennes obtenues, on obtient un temps 260−220
2
soit 20 µs, correspondant
au temps tempscommunication. Les messages échangés entre les deux proxys ont une taille
maximale de 300 octets.
Mesures spécifiques Nous avons dû réaliser des mesures spécifiques inhérentes à l’architecture
que nous avons choisie et plus précisément, à la mise en place du proxy sur le nœud de calcul. En
effet, de part sa conception, il doit récupérer les traces générées par PIGA-Kernel pour les envoyer
sur le lien InfiniBand et il doit ensuite renvoyer à PIGA-Kernel les décisions d’accès prises par
PIGA.
Pour ce faire, nous avons choisi d’utiliser le système de fichiers procfs. Nous avons donc
deux pipes nommés : pigaseq et piga_rep. Le premier permet au proxy de lire les traces
provenant de l’espace noyau tandis que le second lui permet d’écrire les décisions d’accès.
Nous avons donc dû mesurer le temps pris par le proxy pour lire et écrire dans ces pipes. Pour
cela, nous avons daté l’envoi des traces ainsi que sa réception.
Le temps de lecture par le proxy donne, en moyenne, 10 µs. Par contre, la mesure de l’écriture
se révèle beaucoup plus difficile à réaliser. Dans le but d’avoir une valeur correcte, nous allons
prendre la valeur moyenne que nous avons calculée dans ce tableau 4.5, à savoir 115 µs.
4.3.2.4 Synthèse des mesures
Nous allons dans cette partie synthétiser les mesures que nous avons réalisées sur la répartition
de deux observateurs au sein d’une architecture distribuée.
En nous appuyant sur le tableau 4.5, nous pouvons calculer que la latence générée en mode
protection (ou requête/réponse) par l’architecture décentralisée de 417 µs.
Ce nombre est la somme de :
1. le temps de la prise de décision de la part de PIGA tempsobservateurs2_rr : 220 µs ;
2. le temps de la communication (aller-retour) 2 ∗ tempscommunication : 40 µs ;
1204.3. EXPÉRIMENTATIONS
3. le temps de lecture et d’écriture de la part du proxy dans les pipes pour communiquer avec
PIGA-Kernel : 10 + 114 µs ;
4. le temps introduit par SELinux temps1_coloc_rr : 1 µs.
On obtient pour résultat 385 µs, soit une différence de 32 µs avec la mesure globale. Ce résultat
s’explique par le fait que nous avons à chaque fois pris des moyennes sur un échantillon donné,
donc il existe toujours une marge d’erreur non négligeable.
De plus, grâce à toutes ces différentes mesures, nous pouvons voir que les mécanismes de
mesure de temps n’influent pas ou peu sur le temps global.
Nous proposons ce diagramme de séquence 4.21 qui nous permet de résumer de manière
simple les différentes mesures que nous avons effectuées pour connaitre les points qui peuvent
être améliorés en termes de performance. Ce diagramme illustre la répartition de SELinux avec
PIGA en mode protection (temp2_glob_dist_rr).
FIGURE 4.21 – Diagramme de séquence résumant les différentes mesures effectuées au sein de
l’architecture distribuée
Nous proposons une synthèse des temps calculés dans le tableau suivant 4.6 établi par rapport
aux résultats sur les expérimentations du stress du système de fichiers.
temps par appel système en µs
tempsreference 114,3
SELinux temps1_coloc_rr 115,3
SELinux + PIGA colocalisé : temps2_glob_coloc_evi 631,12
SELinux + PIGA colocalisé : temps2_glob_coloc_rr 1325,6
SELinux + PIGA distant : temp2_glob_dist_evi 286,16
SELinux + PIGA distant : temp2_glob_dist_rr 531
Communication + PIGA distant tempscomm_observateur2_rr 260
PIGA distant tempsobservateur2_rr 220
TABLE 4.6 – Tableau résumant les mesures effectuées pour la répartition de deux observateurs
Nous proposons une synthèse des temps déduits dans le tableau suivant 4.7 établi par rapport
aux résultats sur les expérimentations du stress du système de fichiers. Ce tableau montre que le
déport du second moniteur de référence permet de réduire l’impact sur le nœud client. Ce gain se
situe entre 2,2 et 2,5 par rapport au mode colocalisé.
1214.3. EXPÉRIMENTATIONS
temps en µs
tempscommunication 20
tempslatence_coloc_evi 517
tempslatence_coloc_rr 1211
tempslatence_dist_evi 172
tempslatence_dist_rr 417
impactevi 2,2
impactrr 2,5
TABLE 4.7 – Tableau résumant les temps calculés
Cette amélioration vient, d’une part par l’utilisation des technologies spécifiques à faibles latences
des environnements HPC (InfiniBand et RDMA) et, d’autre part, par le déport de PIGAUM.
En déportant ce composant de notre architecture qui le plus consommateur en terme de
ressources système (mémoire et processeur), nous réduisons son impact sur le nœud de calcul.
De plus, comme PIGA-UM dispose d’une machine dédiée, il ne sera plus pré-empté par un autre
processus et disposera de toute la puissance qui lui est nécessaire.
1224.4. AMÉLIORATION DE LA SÉCURITÉ
4.4 Amélioration de la sécurité
Dans cette partie, nous nous intéressons à l’attaque que nous avons présentée en introduction
de ce mémoire1.3. Nous montrons comment nous contrôlons cette attaque grâce à l’utilisation des
observateurs SELinux et PIGA. Pour pouvoir contrôler ce scénario complet, il est nécessaire tout
d’abord de définir une propriété de sécurité qui sera appliquée par PIGA. Puis nous montrerons
comme PIGA est capable de détecter ce scénario complet.
4.4.1 Propriété de sécurité
Nous montrons ici qu’il est possible d’utiliser PIGA pour améliorer la sécurité et traiter les
scénarios complets d’attaque. À partir du scénario complet que nous avons étudié en introduction
de ce mémoire (voir la section 1.3), nous allons exprimer une propriété de sécurité permettant de
le contrôler.
Le listing 4.3 montre la définition de la propriété de sécurité que nous avons donnée à PIGA.
✞ ☎
1 define exploit_staff_kernel( $sc1 IN CS, $sc2 IN CS, $sco1 IN CSO ) [
2 Foreach $eo1 IN is_execute_like(IS), Foreach $a1 IN ACT, Foreach $a2 IN
ACT
3 TQ { ( $sc2 -> { $eo1 } $sco1 o $sc1 -> { $eo1 } $sco1 ) } ,
4 { not( exist() ) } ;
5 ];
✝ ✆
Listing 4.3 – Propriété de sécurité contrôlant l’exploitation de la faille perf_event
Cette propriété se décrit de la manière suivante. Elle s’assure qu’il n’existe aucun lien not(
exist() ) entre l’enchaînement des interactions suivantes : tout d’abord le contexte de sécurité $sc1
fait une opération d’exécution sur le contexte de sécurité $sco1 puis que le contexte de sécurité
$sc2 réalise lui aussi une opération d’exécution sur le contexte de sécurité $sco1.
La fonction not( exist() ) s’assure qu’il n’y a aucun lien entre ces deux interactions. Ce lien
peut être : un contexte de sécurité partagé, un processus en commun, une filiation, etc.
sc1 −−−−→
execute
sco1
sc2 −−−−→
execute
sco1
Nous avons appliqué cette propriété de la manière suivante 4.4.
✞ ☎
1 exploit_staff_kernel( sc1:=staff_u:staff_r:staff_t,
2 sc2:=system_u:system_r:kernel_t,
3 sco1:=system_u:object_r:shell_exec_t );
✝ ✆
Listing 4.4 – Application de la propriété de sécurité pour contrer l’exploitation de la faille
Le contexte de sécurité sc1 correspond au contexte de sécurité de connexion de notre utilisateur
de test. Ici nous avons choisi que ce dernier puisse être dans le rôle staff_r.
Le contexte de sécurité sc2 correspond aux sujets qui s’exécutent en espace noyau. Or, comme
la faille permet d’exploiter une faille au sein même du noyau, son contexte d’exécution sera
system_u:system_r:kernel_t.
Le contexte de sécurité sco1 correspond au contexte de sécurité des objets du système de type
shell, comme bash, zsh, etc. Comme l’exploit lance un shell depuis l’espace noyau, nous
avons décidé de bloquer explicitement cette exécution.
1234.5. DISCUSSION
4.4.2 Application de la propriété de sécurité
Pour appliquer cette propriété, PIGA a besoin de la politique de contrôle d’accès de SELinux.
L’objectif de PIGA est de trouver les chemins autorisés dans la politique permettant de violer la
propriété de sécurité que nous venons de décrire.
À partir de cette propriété de sécurité seule et en parcourant la politique de SELinux, PIGA a
détecté 6 activités pouvant mener à violer la propriété de sécurité.
Le listing 4.5 montre le résultat d’une détection de la part de PIGA lorsque l’utilisateur tente
d’exploiter la faille.
✞ ☎
1 ( system_u:system_r:kernel_t -( file { execute } )-> system_u:object_r:
shell_exec_t rond staff_u:staff_r:staff_t -( file { execute } )-> system_u:
object_r:shell_exec_t ) | 172.30.3.1 55031 system_u:system_r:kernel_t->
system_u:object_r:shell_exec_t:file execute;2180 2081 -1 -1 exploit null
138016
2 ( system_u:system_r:kernel_t -( file { execute_no_trans } )-> system_u:object_r
:shell_exec_t rond staff_u:staff_r:staff_t -( file { execute_no_trans } )->
system_u:object_r:shell_exec_t ) | 172.30.3.1 55034 system_u:system_r:
kernel_t->system_u:object_r:shell_exec_t:file execute_no_trans;2180 2081 -1
-1 exploit null 138016
✝ ✆
Listing 4.5 – Détection par PIGA de la violation de la propriété de sécurité
Nous retrouvons dans cette détection les deux activités visées. La première concerne l’exécution
par l’utilisateur du shell 4.6, puis nous avons une seconde activité qui détecte l’exécution
du shell par le noyau 4.7.
✞ ☎
1 staff_u:staff_r:staff_t -( file { execute } )-> system_u:object_r:shell_exec_t
)
✝ ✆
Listing 4.6 – Première activité détectée par PIGA
✞ ☎
1 system_u:system_r:kernel_t -( file { execute } )-> system_u:object_r:
shell_exec_t
✝ ✆
Listing 4.7 – Deuxième activité détectée par PIGA
Nous sommes donc bien capables de détecter et de prévenir les scénarios d’attaque complets
correspondant à de réelles vulnérabilités grâce à l’association de deux observateurs.
4.5 Discussion
Dans ce chapitre, nous avons proposé un modèle d’évaluation des performances pour la répartition
des observateurs. Cette méthode permet de comparer les modes colocalisés et distants. Cette
méthode conduit à comparer 8 mesures globales à un temps de référence sans observateur. Nous
ajoutons à cette méthode des mesures détaillées qui permettent de connaître précisément les temps
de communication entre les deux observateurs pour le mode distant ainsi que le temps de décision
pour le second observateur.
Nous avons ensuite proposé une architecture originale pour déporter de manière efficace le second
observateur. Nous avons pour cela exploité les technologies spécifiques des environnements
HPC afin de minimiser les temps de communication. Nous avons mis en place cette architecture
avec les moniteurs de référence SELinux et PIGA. Pour l’échange des requêtes, un proxy client et
un proxy serveur permettent les communications sur des liens InfiniBand entre les deux moniteurs.
Nous avons enfin réalisé des expérimentations dans le but de comparer deux observateurs en
mode colocalisé avec deux observateurs en mode distant. Nous avons pour cela appliqué notre mé-
thode d’évaluation des performances sur l’architecture que nous avons mise en place. Durant ces
1244.5. DISCUSSION
expérimentations, les deux moniteurs sont utilisés en mode requête/réponse et en mode évidence,
ce qui conduit à devoir comparer 8 mesures avec un temps de référence.
Pour établir ces mesures, nous avons utilisé dans les premières expérimentations le logiciel
Linpack, un logiciel spécialement utilisé dans les environnements HPC. Les résultats que nous
avons obtenus montrent que la répartition des observateurs SELinux et PIGA n’impactent pas
les performances du code de calcul car Linpack réalise essentiellement des calculs mémoire et
peu d’entrées/sorties. On peut donc considérer que ce logiciel se place dans le meilleur des cas
quant à l’impact des observateurs sur les performances. Dans la seconde expérimentation, nous
avons voulu tester le pire des cas pour les observateurs en stressant le système de fichiers. Nous
résumons les taux d’augmentation pour chaque temps global dans le tableau 4.8. Nous rappelons
que dans les modes d’association colocalisés et distants, le premier observateur (SELinux) est
toujours placé en mode requête/réponse.
Mesure temps en µs surcoût en %
tempsreference 114,3
temps1_coloc_evi 115,3 0.8
temps1_coloc_rr 115,3 0.8
temps2_glob_coloc_evi 631 453
temps2_glob_coloc_rr 1325 1062
temps2_glob_dist_evi 286 150
temps2_glob_dist_rr 531 365
TABLE 4.8 – Tableau détaillant le surcoût de la répartition
Ce tableau montre que le mode distant améliore d’un facteur 3 les performances de la répartition
des observateurs. Il est nécessaire de rappeler que ces chiffres sont donnés pour le pire des
cas et qu’il n’y a pas de code de calcul qui réalise autant d’entrées/sorties lors de son exécution.
A contrario, les résultats de Linpack représentent le meilleur des cas, puisque sur une durée
de 23 heures, ce logiciel fait seulement 3000 opérations d’entrée/sortie. Nous pouvons dire qu’un
code de calcul "standard" se situe entre les deux. De plus, nous avons volontairement choisi une
configuration, au niveau des propriétés de sécurité PIGA, non optimale puisque nous garantissons
l’intégrité et la confidentialité pour tout le système. Un gain important pourrait être obtenu en
affinant les propriétés de sécurité PIGA et en évitant les propriétés contrôlant les flux indirects.
Dans la pratique, un code de calcul fait des entrées/sorties sur le système de fichiers essentiellement
pour réaliser des checkpoints (points de sauvegarde en cas de panne). Ces entrées/sorties
se traduisent pas l’écriture (ou la lecture) de fichiers ayant une taille importante mais générant peu
d’appels, donc les moniteurs sont moins sollicités que dans notre scénario de stress. Par consé-
quent, le comportement d’un code de calcul sera plus proche du comportement de Linpack que
de notre logiciel pour stresser les moniteurs de référence.
Nous notons que le logiciel Linpack réalise environ 3000 appels système en 23 heures, soit
0,036 appels système par secondes (soit 2,17 par minutes) alors que notre logiciel de stress réalise
5 000 000 d’appels système en 1 heure, soit 1 388 appels système par secondes. Dans le cas de
Linpack, nous ne notons aucune augmentation de la latence tandis que l’impact du stress du
système de fichiers est compris entre 150 et 365 % pour le mode distant, que ce soit en mode
évidence ou requête/réponse. Cependant, aucun de ces deux logiciels ne correspond exactement
au nombre d’entrées/sorties d’un code de calcul.
Par une estimation linéaire, nous pouvons estimer qu’un code de calcul réalise entre 100 et 200
appels système par secondes, nous pouvons estimer l’impact suivant les modes de répartition :
— en mode évidence (détection) et distant, l’impact sur les performances du code de calcul
serait compris entre 10 et 20%. Puisqu’un ordre de 1500 appels système par secondes
1254.5. DISCUSSION
correspond (environ) à un impact de 150%, on obtient par estimation linéaire un impact de
150/1500x100 soit 10% pour 100 appels système par secondes.
— en mode requête/réponse (protection) et distant, l’impact sur les performances du code de
calcul sera entre 25 et 50% par estimation linéaire.
Pour l’instant, il semble difficile de mettre en place une répartition de deux observateurs tels
que SELinux et PIGA sur les nœuds de calcul sans nuire aux performances. Le gain réalisé par le
déport du second moniteur en mode détection introduisant un surcoût de l’ordre de 10%. Néanmoins,
l’amélioration des politiques PIGA devrait permettre de passer à un surcoût plus faible,
potentiellement de l’ordre de 5% selon les propriétés requises. D’autres améliorations sur le moteur
de PIGA devrait permettre d’aller encore en dessous.
Les autres nœuds du calculateur sont moins demandeurs en termes de performance. Nous
pouvons par exemple citer les nœuds de visualisation ou de connexion.
Les nœuds de visualisation sont utilisés pour présenter graphiquement les résultats obtenus
lorsque les calculs sont finis. Sur ce type de nœuds, les programmes chargent des fichiers de taille
importante (plusieurs téraoctets) mais réalisent peu d’appels système. Par conséquent, l’impact
devrait être acceptable pour la visualisation.
Pour les nœuds de connexion, ils sont utilisés pour accéder au calculateur, ce sont donc des
nœuds exposés aux attaques. En effet, les utilisateurs disposent d’un accès ssh leur permettant de
déposer leur code de calcul, tester leur code, etc. Sur ces types de nœuds, les besoins en performances
sont moins importants que sur les nœuds de calcul mais les besoins en sécurité sont donc
plus importants. Ce type de nœuds est donc tout à fait candidat pour utiliser nos deux moniteurs
répartis en mode protection.
Enfin, nous avons illustré l’efficacité de deux moniteurs pour prévenir les scénarios complets
d’attaque. Pour la vulnérabilité réelle décrite en introduction de ce mémoire, nous avons défini
une propriété de sécurité qui prévient le scénario de façon optimiste c’est-à-dire qui laisse les
activités légitimes avancer. Il est à noter que la propriété est générique car elle prévient toutes les
vulnérabilités de ce type.
126Chapitre 5
Contrôle d’accès obligatoire pour
Windows et Expérimentations
Dans l’état de l’art 2.3.5, nous avons montré la nécessité d’avoir un moniteur de référence pour
les systèmes Windows. Dans le chapitre 3, nous avons défini un modèle de moniteur pour contrôler
les interactions directes. Nous proposons dans ce chapitre une implantation fonctionnelle d’un tel
moniteur pour les systèmes Windows.
Un moniteur de référence doit mettre en place des mécanismes de détournement du flux d’exé-
cution au sein du système, afin d’appliquer les décisions prises par la partie moniteur de référence
de notre implantation.
Notre moniteur de référence implante les deux modèles de protection obligatoires que nous
avons présentés dans la section 3.2, à savoir les modèles PBAC et DTE. Pour obtenir une politique
PBAC portable sur les différents systèmes Windows, nous apportons une réponse à la problématique
de désignation des ressources. Pour le modèle DTE, nous proposons de calculer dynamiquement
les contextes de sécurité à chaque interaction.
Toutefois, l’écriture d’une politique de sécurité pour tout un système est une tâche complexe
et laborieuse et nous avons donc mis en place un mécanisme facilitant leur écriture. Ce mécanisme
se base sur les traces générées par l’observateur pour dériver, de manière automatique, les règles
correspondantes.
Ce chapitre est divisé en quatre parties. Dans une première partie, nous traiterons de la problé-
matique de création des politiques. Nous proposerons une solution pour résoudre la problématique
de la construction des noms symboliques absolus indépendants de la localisation. Nous présenterons
enfin notre mécanisme de génération automatique de la politique.
La seconde partie sera consacrée à l’implantation de deux Policy Enforcement Point, c’est-à-
dire des méthodes pour détourner le flux d’exécution régulier du système, que nous avons décrites
dans la partie 3.3. Nous avons ici choisi de nous focaliser sur le détournement de la table des appels
système et sur la création d’un filter-driver. Nous expliquerons en détail le fonctionnement de ces
deux méthodes.
La troisième partie traitera des expérimentations que nous avons réalisées. Dans une première
section, nous montrerons que nous sommes capables de bloquer des attaques simples visant à
violer une propriété de sécurité telle que la confidentialité. Nous illustrerons les limites de ce
mécanisme grâce à des scénarios d’attaques complets. Pour franchir ces limites, nous introduirons
l’utilisation d’un second moniteur, PIGA.
Dans une seconde section, nous proposerons des modifications de notre moniteur pour l’orienter
sur l’étude des logiciels malveillants. Nous présentons les modifications apportées ainsi que la
plateforme mise en place pour faciliter l’interprétation des résultats. Pour cela, nous reprendrons
l’exemple que nous avons présenté dans l’introduction de ce mémoire 1.3.
1275.1. POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
Enfin, la dernière partie discutera les choix que nous avons faits ainsi que les limites de notre
implantation.
L’implantation de la solution basée sur le modèle DTE et sur le détournement de la table des
appels système a fait l’objet d’une publication [Gros et al., 2012]. L’application des propriétés
de sécurité est détaillée dans [Blanc et al., 2012]. Une application du modèle de protection a été
proposée au sein des clouds dans [Blanc et al., 2014].
5.1 Politique de contrôle d’accès direct
Cette section s’intéresse à la création et à la gestion des politiques de contrôle d’accès direct.
Nous traitons dans cette partie les deux modèles de protection, PBAC dans un premier temps puis
le modèle DTE dans un second temps.
Chaque sous-section est organisée ainsi : dans une première partie, nous expliquerons les choix
réalisés pour représenter les ressources du système. Puis, nous aborderons la création d’une politique
de contrôle d’accès s’appliquant à chaque modèle de protection. Enfin, nous détaillerons le
mécanisme d’automatisation pour générer des politiques de sécurité.
5.1.1 Path-Based Access Control
Représentation du système
Nous avons détaillé dans la partie 3.2.1.1 la problématique du système de nommage des fichiers
sous Windows. Pour résoudre ce problème, nous proposons l’utilisation de noms symboliques
absolus indépendants de la localisation.
L’implantation choisie se base sur l’utilisation des variables d’environnement présentes sous
les systèmes Windows. Les variables d’environnement dites "système", c’est-à-dire gérées directement
par le noyau, sont communes à tous les systèmes Windows. On peut par exemple citer
systemroot qui est la variable d’environnement pointant sur le répertoire d’installation du dossier
Windows. Pour simplifier leur utilisation, nous utilisons les dénominations utilisées en batch,
ce qui se traduit par l’utilisation de la syntaxe %systemroot%.
En utilisant les variables d’environnement, nous sommes capables de gé-
nérer des politiques de sécurité portables sur chaque système Windows. Par
exemple, le fichier C:\Windows\system32\cmd.exe se transforme en
%systemroot%\System32\cmd.exe.
Cette méthode fonctionne aussi bien pour les sujets que pour les objets de type fichier. Les
répertoires sont traités de la même façon. Tous les répertoires système possèdent une variable
d’environnement associée. Lorsqu’un répertoire est au niveau du point de montage du système
mais ne possède pas de variable d’environnement associée, il suffit d’utiliser la variable définie
pour le point de montage du système %systemdrive%. Pour étendre ce modèle aux disques ou
aux partitions qui seraient montés sur un autre lecteur et qui ne possèderaient pas de variables
associées, il est nécessaire d’en créer de nouvelles. Concrètement, si une partition est montée sur
la lettre D: et ne contient aucun dossier système comme les répertoires des utilisateurs ou des
programmes, il est nécessaire de la nommer avec une variable comme %datadrive%.
La gestion du registre est simplifiée par rapport à celle du système de fichiers. Les ruches,
qui sont les éléments qui hébergent les clés du registre, sont identiques sur tous les systèmes
Windows. On peut donc s’en servir comme espace de noms pour désigner les clés. Ainsi, la clé
CurrentVersion qui est dans la ruche HKEY_LOCAL_MACHINE, est représentée par le chemin
\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion.
Les éléments du réseau se gèrent aussi de façon naturelle. Ils peuvent être identifiés à la fois
par un couple d’adresse IP et de port, soit par le nom des hôtes. Pour qu’il n’y ait pas de confusion
1285.1. POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
entre un objet local et un objet réseau, nous les préfixons par l’espace de nom RES. Ainsi l’objet
192.168.1.254 avec le port 80 est représenté par la directive RES/192.168.1.254 80. Nous
avons la même directive pour les noms d’hôte, par exemple RES/www.google.fr 80.
Extrait d’une politique basée sur les chemins complets
Nous avons précisé dans le listing 3.9 les terminaux propres au modèle de protection PBAC. De
plus, la définition de la grammaire générique 3.1 précise la forme des vecteurs d’accès que nous
reprenons dans ce listing 5.1 :
✞ ☎
1 vecteur_acces : contexte Delimiteurs_debut? (liste_operations_elementaires)+
Delimiteurs_fin? ;
✝ ✆
Listing 5.1 – Règle générique d’un vecteur d’accès extrait de la grammaire générique
Donc à partir de ces différents éléments, nous allons pouvoir écrire une politique de sécurité
basée sur le modèle de protection PBAC.
Ainsi, le listing 5.2 illustre la manière d’autoriser le sujet %systemroot%\explorer.exe
à lire (r) et exécuter (x) l’objet ayant pour chemin %systemroot%\System32\cmd.exe.
Ce fichier se situe donc dans le répertoire d’installation du dossier Windows. Le sujet
%systemroot%\explorer.exe est aussi autorisé à aller lire (r) et écrire (w) dans le fichier
%programfiles%\fichier.txt, dont la variable d’environnement correspond au répertoire
nommé Program Files.
✞ ☎
1 %systemroot%\explorer.exe {
2 %systemroot%\System32\cmd.exe rx
3 %programfiles%\fichier.txt rw
4 }
✝ ✆
Listing 5.2 – Extrait d’une politique de type TPE
Pour les accès au registre, les règles s’écrivent de la même façon. Ainsi le listing 5.3
montre comment autoriser le sujet %systemroot%\explorer.exe à lire (r) la clé
HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion.
✞ ☎
1 %systemroot%\explorer.exe {
2 HKEY_LOCAL__MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion r
3 }
✝ ✆
Listing 5.3 – Extrait d’une politique de type PBAC pour le registre
Pour les autorisations liées aux objets du réseau, nous écrivons la politique suivante 5.4. Ainsi
la première ligne autorise le sujet %systemroot%\explorer.exe à se connecter (c) au domaine
www.google.fr vers le port 80.
✞ ☎
1 %systemroot%\explorer.exe {
2 RES\www.google.fr 80 c
3 }
✝ ✆
Listing 5.4 – Extrait d’une politique de type PBAC pour le réseau
Création d’une politique basée sur le modèle PBAC
La création d’une politique au format PBAC peut se faire de manière manuelle mais aussi
automatique. Ces deux méthodes peuvent se faire en se basant sur une trace d’audit. Cette méthode
simplifie l’écriture des règles d’accès.
1295.1. POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
Pour faciliter l’administration d’une politique de contrôle d’accès basée sur le modèle PBAC,
nous proposons l’utilisation d’un outil capable d’automatiser la création d’une telle politique en
utilisant les fichiers d’audit générés par le moniteur de référence. Nous présentons la méthode
d’automatisation plus en détail dans la section 5.1.4.
Ainsi, à partir du listing 5.5, nous avons généré la règle 5.6.
✞ ☎
1 type=PBAC audit(1174358746:36452) ips:denied { read execute } for pid=2004 comm
="%systemroot%\explorer.exe" ppid=872 path="%systemroot%\system32\audiodev.
dll" tclass=file
✝ ✆
Listing 5.5 – Trace d’audit pour l’implantation utilisant le modèle PBAC
✞ ☎
1 subjet %systemroot%\explorer {
2 %systemroot%\system32\audiodev.dll rwa
3 }
✝ ✆
Listing 5.6 – Règle de contrôle d’accès pour le modèle PBAC résultat de l’apprentissage
Une fois que la règle a été ajoutée à la politique courante et que l’observateur a rechargé cette
nouvelle politique, lorsque le moniteur observe que l’interaction courante est présente dans la
politique, il va le spécifier dans la trace qu’il génère. Il faut noter que, mis à part le timestamp
et l’identifiant de trace qui sont modifiés, la seule différence se trouve dans la décision prise par
l’observateur qui passe de denied à granted comme le montre les traces 5.5 et 5.7
✞ ☎
1 type=PBAC audit(1174956145:264) ips:granted { read execute } for pid=1024 comm=
"%systemroot%\explorer.exe" ppid=988 path="%systemroot%\system32\audiodev.
dll" tclass=file
✝ ✆
Listing 5.7 – Trace d’audit pour l’implantation utilisant le modèle PBAC
Trusted Path Execution
Nous avons défini les répertoires de confiance à partir d’une installation classique d’un système
Windows. Ainsi, les répertoires %systemroot% et %systemroot%\System32 qui sont les
répertoires d’installation du système, et %programfiles%, qui est le répertoire d’installation
des applications tierces, sont des répertoires de confiance. Naturellement, pour qu’un fichier puisse
être exécuté, il est nécessaire qu’une règle d’accès autorise un sujet à l’exécuter. La définition des
répertoires de confiance permet de mettre en place une règle d’accès simple qui stipule que tout
sujet qui souhaite exécuter un fichier qui n’est pas dans un de ces dossiers, verra son accès refusé.
Les répertoires d’où sont exécutés les exécutables que l’administrateur autorise, sont notés en
début de politique sous la forme suivante 5.8 :
✞ ☎
1 tpe {
2 %programfiles%
3 %systemroot%
4 }
✝ ✆
Listing 5.8 – Définition des répertoires de confiance
5.1.2 Domain and Type Enforcement
Labellisation
Le second modèle de protection que nous avons traité est le modèle DTE. Nous avons présenté
les avantages d’utiliser ce modèle de protection dans la section 3.2.2.2.
1305.1. POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
Sur les systèmes Linux supportant SELinux, les contextes de sécurité des objets sont stockés
dans les attributs étendus du système de fichiers. Ces informations sont disponibles en utilisant
les commandes comme ls -Z ou encore getfattr. Un exemple de résultat est montré dans le
listing 5.9. Il est possible de stocker ces informations car le système de fichiers prévoit la possibilité
d’avoir des noms arbitraires d’attributs étendus. L’avantage de cette technique est la persistance
des contextes mais celle-ci pose des problèmes pratiques.
✞ ☎
1 getfattr -m security.selinux -d pol.xml.bak
2 # file: pol.xml.bak
3 security.selinux="system_u:object_r:default_t:s0"
✝ ✆
Listing 5.9 – Récupération des attributs étendus sous Linux
Cependant, dans le cas de Windows, il n’est pas prévu d’étendre le système de fichiers pour
ajouter des contextes de sécurité comme sous Linux car c’est un système de fichiers propriétaire
(NTFS). Par conséquent, plutôt que de les stocker, nous avons fait le choix de les calculer dynamiquement.
Cette opération se déroule durant la phase de prétraitement du moniteur de référence
(phase 2.1 de la figure 3.9).
Le calcul à la volée des contextes de sécurité implique une considération importante : il est
nécessaire de pouvoir identifier précisément chaque ressource. Sous SELinux, le fait d’avoir des
contextes de sécurité non uniques est compensé par l’impossibilité pour un utilisateur de modifier
les contextes. Ainsi, SELinux s’appuie à la fois sur le nom de la ressource mais aussi sur son
contexte pour différencier les objets sur le système.
Le calcul à la volée des contextes ne permet pas de faire cette distinction dans ce cas. Par
exemple, il n’est pas possible de différencier un fichier explorer.exe qui se trouve dans
C:\Windows\explorer.exe et dans C:\Users\Damien\explorer.exe, lorsque les
contextes de sécurité ne sont basés que sur le nom relatif des fichiers.
Pour résoudre ce problème, nous avons utilisé notre approche de désignation des ressources
déjà appliquée au modèle PBAC. Ainsi, nous offrons une méthode dynamique et portable. Nous
ajoutons une couche d’abstraction par l’utilisation des noms symboliques absolus indépendants de
la localisation. Dans ce cas, nous avons aussi utilisé les variables d’environnement puisqu’elles
sont communes à tous les systèmes Windows.
À partir de ces choix, nous pouvons labelliser le système. Nous rappelons qu’un contexte de
sécurité est constitué d’une identité, d’un rôle, d’un type pour les objets et d’un domaine pour les
sujets. Dans l’implantation actuelle, nous n’utilisons ni l’identité, ni les rôles. Nous nous sommes
concentrés sur les types et les domaines tout comme le fait SELinux.
Les objets Dans la section 3.2.2.2 où nous avons présenté notre formalisation pour la description
des objets dans le modèle de protection DTE, nous avons défini des catégories pour identifier la
nature des ressources. Par exemple, un répertoire a un type associé finissant par dir_t.
Le listing 5.10 exprime une règle de correspondance entre le chemin exprimé sous la forme de
variable d’environnement et le contexte de sécurité qui lui est associé. Nous noterons que tous les
objets possèdent les mêmes identité et rôle system_u:object_r. Le rôle object_r précise
explicitement que ce contexte de sécurité se rattache à un objet du système.
✞ ☎
1 %programfiles% system_u:object_r:programfiles_dir_t
✝ ✆
Listing 5.10 – Contexte de sécurité associé au répertoire Program Files
Le contexte de sécurité des objets calculé à la volée fait apparaître son chemin complet
dans le système de fichiers. Ainsi, si l’objet courant est dans un point de l’arborescence avec
plusieurs répertoires parents, son contexte contiendra tous ces répertoires. Pour aider à la lecture
des contextes de sécurité dans les fichiers d’audit, nous séparons chaque répertoire par
1315.1. POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
le caractère |. Ce caractère étant un caractère interdit dans le nom des fichiers et des répertoires
sous Windows, nous sommes sûrs qu’il n’apparaîtra pas dans le nom des objets. Par
exemple, le répertoire C:\Program Files\Mozilla\Plugins a pour contexte de sécurité
system_u:object_r:programfiles|mozilla|plugins_dir_t.
La construction du contexte de sécurité pour les fichiers se fait de façon similaire. Cependant,
un répertoire possède une catégorie spécifique aux répertoires, c’est-à-dire un suffixe dir_r
ajouté au type de son contexte de sécurité, il faut aussi définir les catégories pour les fichiers. Pour
faciliter la reconnaissance faite par le moniteur de référence, il va se baser sur les extensions des
fichiers pour en extraire leur catégorie.
Nous obtenons un grand nombre de catégories possibles pour les fichiers : exécutable, bibliothèque,
driver, un document Word, etc. Dans ces catégories, nous portons une attention toute
particulière à un sous-ensemble : les fichiers qui peuvent être exécutés comme les binaires exécutables
mais aussi les bibliothèques, ainsi que les fichiers pouvant transporter une charge virale tels
que les fichiers pdf ou MS Word.
Les fichiers ont aussi un suffixe spécifique dans leur type qui représente leur catégorie.
Ainsi, un fichier exécutable, classiquement représenté par son extension .exe, aura comme type
exec_t. Un driver, qui a pour extension .sys aura comme type sys_t.
Ainsi, le fichier C:\Windows\system32\cmd.exe a pour contexte de sécurité
system_u:object_r:systemroot|system32|cmd_exec_t. De manière analogue,
les fichiers de bibliothèques dynamiques (dll) ont un type se finissant par lib_t.
Grâce à cette méthode de labellisation dynamique, chaque objet du système possède un
contexte de sécurité précis basé sur sa place dans l’arborescence du système de fichiers. Cependant,
cette méthode conduit à avoir potentiellement un nombre important de contextes de sécurité.
Nous avons donc prévu un traitement spécifique pour certains répertoires dans lesquels fichiers et
répertoires ont tous le même contexte de sécurité.
Cette exception dans notre méthode de labellisation dynamique s’applique essentiellement
pour les dossiers temporaires. En effet, il n’est pas possible de prévoir le contenu de ce type de
dossiers dans le but de pouvoir faire une politique de contrôle d’accès. Prenons un répertoire
temporaire tel que C:\Temp, si un utilisateur y crée un fichier, alors il aura pour contexte de
sécurité system_u:object_r:tmp_t.
Les sujets Les contextes de sécurité sujet sont construits à partir du nom relatif du
fichier du binaire exécuté. Les identités et rôles utilisés sont génériques pour l’instant.
Par exemple, le processus explorer.exe a pour contexte de sécurité le label
system_u:system_r:explorer_t.
Il n’est pas nécessaire de stocker tout le chemin du binaire dans le contexte de sécurité sujet.
L’objectif est d’alléger les traces et les politiques, ainsi que de faciliter leur lecture. Cependant,
nous pourrions tout à fait stocker tout le chemin dans le contexte de sécurité comme pour les
objets.
Le registre Dans l’implantation proposée, nous ne faisons qu’une labellisation générique
du registre. Cela signifie que tous les objets du registre ont pour contexte de sécurité
system_u:object_r:registry_t.
Néanmoins, à partir de la formalisation que nous avons proposée, nous pouvons définir les
contextes de sécurité pour les objets du registre. Ainsi, en utilisant les mêmes méthodes que pour le
modèle PBAC, c’est-à-dire en utilisant le nom de la ruche comme namespace, on peut construire
les contextes de sécurité en utilisant tout le nom de la clé. On utilisera aussi le même séparateur
que celui utilisé pour les chemins dans le nom des objets, à savoir |, pour décrire l’arborescence
de la clé.
1325.1. POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
On utilisera aussi des catégories spécifiques. Ainsi, une clé aura pour suffixe key_t, alors
qu’une valeur aura pour catégorie value_t. Le listing 5.11 montre sur deux exemples le résultat
sur une clé et sur une valeur.
✞ ☎
1 HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Run system_u:
object_r:hkey_local_machine|software\microsoft|windows|currentversion|
run_key_t
2 HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Run|Avira system_u
:object_r:hkey_local_machine|software\microsoft|windows|currentversion|
run_avira_value_t
✝ ✆
Listing 5.11 – Exemples d’associations d’éléments du registre et de contextes de sécurité
Extrait d’une politique basée sur les types
Comme pour le modèle de protection PBAC, nous avons formalisé les terminaux pour le modèle
de protection DTE dans le listing 3.12. La spécification des terminaux nous permet de définir de
manière explicite les traitements que l’observateur doit réaliser lorsqu’il intercepte les interactions
directes.
Les règles d’autorisation sont plus complexes que dans le cas de PBAC car les permissions
exprimées sont basées sur les appels système, donc avec une plus grande finesse. Ainsi, pour autoriser
(allow) un sujet ayant comme domaine explorer_t à exécuter un invite de commande,
il faut, tout d’abord, l’autoriser à récupérer des informations et à lire le fichier binaire. Cette règle
est représentée par la ligne 1 du listing 5.12. Ensuite on doit l’autoriser à exécuter le fichier binaire
pour en faire un processus, ce qui est représenté pour la ligne 2 du listing.
✞ ☎
1 allow explorer_t systemroot|system32|cmd_exec_t:file { read execute create
getattr }
2 allow explorer_t systemroot|system32|cmd_exec_t:process { execute }
✝ ✆
Listing 5.12 – Extrait d’une politique SEWindows
Lors de l’exécution d’un fichier binaire (généralement un .exe), il se produit
une transition du type du fichier vers un domaine. Par exemple, lorsque le sujet
ayant comme domaine explorer_t exécute un invite de commande, soit le
binaire C:\Windows\system32\cmd.exe qui a pour contexte de sécurité objet
system_u:object_r:%systemroot%|system32|cmd_exec_t, le nouveau processus
transite vers le contexte de sécurité sujet system_u:system_r:cmd_t.
Le contrôle des accès pour le registre se fait de manière similaire. Il est possible d’associer
chaque opération du registre à une opération élémentaire (lire, écrire, exécuter, etc). Donc la création
d’une règle d’accès pour le registre se fait comme une règle pour le système de fichiers. Le
listing 5.13 détaille une règle pour la lecture du contenu d’une clé.
✞ ☎
1 allow explorer_t hkey_local_machine|software|microsoft|windows|currentversion|
run_key_t:key { read execute }
✝ ✆
Listing 5.13 – Extrait d’une politique SEWindows pour la gestion du registre
Nous avons défini dans la grammaire trois traitements possibles pour une règle d’accès. L’instruction
allow autorise de manière explicite les interactions. L’instruction allowaudit va gé-
nérer un message dans le fichier d’audit spécifiant que cette règle a été utilisée. Elle peut être
utilisée pour surveiller des interactions particulières. Toutefois elle n’autorise pas l’interaction,
pour cela, elle doit être complétée avec une règle allow. Enfin, l’instruction neverallow empêche
explicitement l’interaction décrite par la règle d’accès. Cette règle prime sur toute règle
allow autorisant la même interaction.
1335.1. POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
Création de la politique basée sur le modèle DTE
Comme pour le modèle de protection PBAC, la création d’une politique pour le modèle DTE
peut se faire de manière manuelle ou automatique. Nous allons ici décrire la création de règles
d’accès à partir d’une trace générée par le moniteur.
Nous allons détailler cette création sur un exemple concret. Nous avons lancé l’application
Windows Media Player. Au niveau du mécanisme de création de processus de Windows,
c’est le processus %systemroot%\explorer.exe qui lance le processus qui a pour nom
wmplayer.exe. Cette opération se traduit par la génération de plusieurs traces. Nous avons
extrait deux traces pour illustrer notre propos.
Dans un premier temps, le processus %systemroot%\explorer.exe va demander
les opérations élémentaires { read execute create getattr } sur le fichier
%programfiles%\windows media player\wmplayer.exe comme le montre la première
ligne du listing 5.14.
Le processus de labellisation transforme les noms et chemins des fichiers en contexte de sécurité
comme expliqué dans la partie 5.1.2 . Ainsi, le processus %systemroot%\explorer.exe
aura pour contexte de sécurité sujet system_u:system_r:explorer_t.
De la même façon, l’objet %programfiles%\windows
media player\wmplayer.exe aura pour contexte de sécurité
system_u:system_r:programfiles|windowsmediaplayer|wmplayer_exec_t.
Avec ces éléments, nous sommes capables de créer une première règle pour notre politique de
contrôle d’accès comme le montre la première règle du fichier de politique présent en listing 5.15.
Ensuite, il y a une deuxième interaction faite par le sujet qui est la création du processus. Cette
interaction se traduit au niveau du moniteur par une seconde trace. La différence se fait sur la classe
de l’objet. En effet, sur la première trace, l’interaction se fait sur le fichier, alors que la deuxième
trace concerne une création de processus, c’est-à-dire à la transition du fichier vers son domaine.
Pour autoriser la création du processus, il est nécessaire d’ajouter la deuxième ligne présente
dans le listing 5.15.
✞ ☎
1 type=DTE audit(1285242977:13) avc:denied { read execute create getattr } for
pid=1576 comm="%systemroot%\explorer.exe" ppid=1528 path="%programfiles%\
windows media player\wmplayer.exe" scontext=system_u:system_r:explorer_t
tcontext=system_u:object_r:programfiles|windowsmediaplayer|wmplayer_exec_t
tclass=file
2 type=DTE audit(1285242977:14) avc:denied { execute } for pid=1576 comm="%
systemroot%\explorer.exe" ppid=1576 path="%programfiles%\windows media
player\wmplayer.exe" scontext=system_u:system_r:explorer_t tcontext=
system_u:object_r:programfiles|windowsmediaplayer|wmplayer_exec_t tclass=
process
✝ ✆
Listing 5.14 – Extrait d’un fichier d’audit
✞ ☎
1 allow explorer_t programfiles|windowsmediaplayer|wmplayer_exec_t:file { read
execute create getattr }
2 allow explorer_t programfiles|windowsmediaplayer|wmplayer_exec_t:process {
execute }
✝ ✆
Listing 5.15 – Règles de contrôle d’accès créées à partir d’une trace
5.1.3 Modes de fonctionnement
Notre moniteur de référence a trois modes de fonctionnement : disabled, permissif (évidence)
aussi appelé détection et enforcing ou protection (requête/réponse). Dans le mode disabled, le flux
1345.1. POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
d’exécution n’est pas détourné par le moniteur et aucune décision n’est calculée. Nous allons donc
détailler dans cette section les deux autres modes du moniteur.
Mode détection (Évidence)
Le mode détection, ou permissif, est un mode dans lequel le moniteur n’applique pas sa décision.
Le flux d’exécution est détourné, une décision est bien calculée au regard de la politique, mais
elle n’est pas appliquée. Ce mode peut aussi fonctionner sans aucune politique prédéfinie, dans ce
cas, toutes les interactions seront considérées comme refusées. Cette particularité peut se révéler
intéressante pour l’étude des logiciels malveillants puisqu’il sera alors possible d’enregistrer toutes
les opérations qui se déroulent au sein du système.
Ce mode a deux objectifs : la première, il permet de créer une politique de contrôle d’accès
pour un nouveau programme et la seconde, il permet de valider la politique. Ce mode peut aussi
être appelé mode d’apprentissage quand il est utilisé pour créer une politique.
La création de la politique se fait à partir des traces générées par le moniteur. Une fois les traces
générées, l’écriture de la politique peut se faire de manière manuelle ou automatique comme nous
le détaillons dans la section 5.1.4. Chaque interaction est vérifiée dans la politique et une trace est
générée spécifiant si cette interaction est autorisée, c’est-à-dire qu’il existe une règle d’accès dans
la politique qui l’autorise, sinon l’interaction est refusée.
Le mode apprentissage peut être réalisé avec ou sans politique de sécurité. Si une politique
existe, les traces contiennent le terme granted stipulant que l’interaction est autorisée dans la
politique courante comme le montre le listing 5.16. La règle pour autoriser cette interaction a été
définie dans le listing 5.12.
✞ ☎
1 type=DTE audit(1285243100:4600) avc:granted { execute } for pid=1576 comm="%
systemroot%\explorer.exe" ppid=1576 path="%systemroot%\system32\cmd.exe"
scontext=system_u:system_r:explorer_t tcontext=system_u:object_r:systemroot
|system32|cmd_exec_t tclass=process
✝ ✆
Listing 5.16 – Extrait d’un fichier d’audit autorisant une interaction
Une fois que l’administrateur considère avoir réalisé toutes les interactions nécessaires pour
que son programme puisse fonctionner et avant de passer le moniteur en mode protection, ce qui
pourrait bloquer la machine, il peut valider sa politique dans le mode détection en vérifiant les
traces générées.
Ce mode peut aussi se révéler utile dans des environnements où seule la détection des interactions
est voulue.
Mode protection (Requête/Réponse)
Le mode protection, ou enforcing, est le mode dans lequel le moniteur applique les décisions.
Si une interaction n’est pas dans la politique de contrôle d’accès, alors elle sera bloquée par le
moniteur et une trace sera générée pour notifier l’administrateur de ce refus.
5.1.4 Définition des politiques
Les politiques de contrôle d’accès peuvent être écrites soit de façon manuelle, soit de manière
automatique grâce à l’outil que nous proposons. Nous allons dans cette section détailler les deux
fonctionnements.
1355.1. POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
Automatisation
Nous proposons un outil pour la création automatique d’une politique de contrôle d’accès, quel
que soit le modèle de protection. Grâce à cette automatisation, la politique s’écrit par répétition.
Pour réaliser cet apprentissage, il est nécessaire de mettre le moniteur en mode détection, ainsi
le programme ou processus pour lequel on veut créer la nouvelle politique ne sera pas bloqué.
Prenons un exemple illustré par la figure 5.1. Nous désirons ici ajouter un programme sur
notre système d’exploitation, il faut donc ajouter les règles d’accès correspondantes pour qu’il
puisse fonctionner correctement. Ce mode peut fonctionner avec ou sans politique de base. Si le
moniteur n’a pas de politique de base, il va enregistrer toutes les interactions faites sur le système,
même celles qui ne sont pas réalisées par le programme que l’on veut ajouter.
La méthodologie d’apprentissage est la suivante. On change le mode du moniteur en détection.
On lance une première fois le nouveau programme (flèche 0 du schéma). Le moniteur trace les
interactions du processus (flèche 1) et les enregistre dans le fichier d’audit (flèche 2). Notre outil
parcourt le fichier d’audit (flèche 3) et transforme automatiquement les traces en règles d’accès au
bon format, c’est-à-dire PBAC ou DTE. Ces nouvelles règles sont ajoutées à la politique courante
(flèche 4) puis cette nouvelle politique est rechargée par le moniteur (flèche 5). Le processus ou
programme que l’on veut ajouter est ensuite relancé.
La fin du processus d’apprentissage est laissée à la discrétion de l’administrateur. En effet,
il n’est pas possible de déterminer de manière certaine quand un programme a réalisé toutes les
interactions de manière automatique. Par exemple, pour une application graphique, il faut que
l’administrateur réalise lui-même les tâches qu’il souhaite autoriser. Il est donc conseillé d’avoir
une check-list précisant les tâches nécessaires au moment de lancer l’apprentissage.
L’apprentissage peut être considéré comme terminé lorsqu’on a réalisé toutes les tâches listées
dans la check-list et qu’il n’apparaît plus aucune trace d’accès bloqué.
FIGURE 5.1 – Schéma décrivant l’apprentissage d’une politique
1365.1. POLITIQUE DE CONTRÔLE D’ACCÈS DIRECT
Avantages Le principal avantage de cette méthode d’écriture de la politique de contrôle d’accès
est sa grande facilité de mise en place. En effet, il suffit de lancer le programme d’apprentissage et
de réaliser les tâches nécessaires au sein du programme que l’on veut ajouter pour que les règles
soient automatiquement générées. En plus de facilité l’écriture, cela l’accélère aussi. De plus,
si l’administrateur a minutieusement réalisé toutes les tâches désirées au sein du nouveau programme,
il ne devrait pas avoir à modifier plus tard sa politique. Cependant, lors d’une mise à jour
du programme, il peut être nécessaire de recommencer l’opération pour ajouter automatiquement
les nouvelles règles dans la politique mais les tâches sont prédéfinies.
Inconvénient Le principal inconvénient de cette méthode est la nécessité pour l’administrateur
de vérifier, à la main, les règles qui ont été ajoutées par l’outil dans la politique. En effet, il est
possible que le programme que l’on veuille ajouter, réalise des interactions malveillantes ou illégitimes
pour l’administrateur, cachées par des tâches "normales". Par exemple, on pourrait imaginer
un programme qui tente de copier la partie du registre contenant les mots de passe des utilisateurs.
Lors de la phase d’apprentissage, cette interaction ne sera pas bloquée par le moniteur et par apprentissage,
elle sera ajoutée à la politique courante. Si l’administrateur ne vérifie pas les règles,
cette interaction malveillante sera aussi autorisée même en mode protection.
Il est donc nécessaire pour l’administrateur de vérifier les règles qui ont été ajoutées pour un
programme. C’est pour cela que nous conseillons d’avoir au préalable une politique déjà écrite
prenant en compte le reste du système, pour ne pas être parasité par les autres applications.
Manuelle
La seconde méthode pour créer une politique est de le faire de façon manuelle. Nous pouvons
définir deux cas : soit l’administrateur connait précisément ce que fait le programme qu’il veut
ajouter, dans ce cas, il écrit toutes les règles, soit il utilise la même méthode que pour l’automatisation,
en transformant manuellement les traces en règles d’accès.
Dans les deux cas, le moniteur peut être utilisé soit en mode détection pour plus de facilité,
soit en mode protection.
Avantages Le principal avantage de cette méthode est que l’administrateur maîtrise entièrement
le processus de création des règles d’accès. Il peut ainsi vérifier qu’il n’autorise pas une interaction
malveillante ou illégitime pour le nouveau programme.
Inconvénient Le principal inconvénient est que cette méthode est beaucoup plus coûteuse en
temps. En effet, la retranscription à la main de chaque règle peut se révéler être un travail très
fastidieux, surtout dans le cas des mises à jour des programmes qui les modifient intégralement,
voire pour les mises à jour du système.
5.1.5 Discussion
Nous venons de détailler l’implantation choisie pour les modèles de protection PBAC et DTE
appliqués aux systèmes Windows. Dans cette section, nous avons dû résoudre la problématique
des ressources.
Pour le modèle de protection PBAC, nous avons choisi d’implanter le mécanisme de
namespace en utilisant les variables d’environnement. Ces variables sont divisées en deux types :
le premier est géré directement par le système. On le retrouve ainsi sur tous les systèmes Windows.
Cela assure une portabilité complète de nos politiques de contrôle d’accès. Le second type est géré
par l’administrateur. Il peut ainsi ajouter des variables d’environnement pour rédiger des règles
1375.2. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS OBLIGATOIRE
d’accès propres à son système ou à son parc de machines. Nous avons aussi ajouté à ce modèle
de protection, un second modèle de protection nommé TPE. Il permet de définir des répertoires de
confiance d’où seront lancés les fichiers exécutables.
En ce qui concerne le modèle de protection DTE, la principale difficulté était de trouver un
moyen de stocker les contextes de sécurité des objets. Nous avons vu que SELinux utilisait les
attributs étendus du système de fichiers pour les stocker. Cette solution n’est pas portable sur les
systèmes Windows qui n’utilisent pas le même système de fichiers. Nous avons ainsi proposé une
méthode évitant d’avoir à stocker les contextes de sécurité. Afin de ne pas créer de faiblesse dans
notre modèle de protection, nous avons dû définir des contextes de sécurité plus précis que ceux
proposés par SELinux. Pour cela, nous avons choisi de mettre dans le type du contexte de sécurité
objet le chemin complet de l’objet. Cette méthode conduit à avoir les mêmes problèmes que pour
le modèle PBAC, à savoir un problème dans le mécanisme de noms des ressources. Pour résoudre
ce problème, nous avons utilisé la même solution que pour le modèle PBAC. Nous avons donc
utilisé les variables d’environnement pour la définition des chemins complets des objets.
Grâce à l’implantation basée sur les variables d’environnement nous proposons donc des noms
symboliques absolus indépendants de la localisation tels que définit dans le chapitre 3. Nous offrons
donc un mécanisme permettant de désigner de manière précise chaque ressource du système.
Nous avons montré que nous pouvions appliquer cette méthode non seulement sur les ressources
du système de fichiers mais aussi sur les éléments du registre, mécanisme important dans les systèmes
Windows.
Nous avons aussi détaillé les deux modes de fonctionnement de notre moniteur de référence.
Le mode détection, qui va permettre d’écrire une politique de contrôle d’accès et un mode protection,
qui l’applique strictement. Grâce au mode détection, nous avons mis en place un outil qui
automatise la création de nouvelles règles pour l’ajout d’un nouveau programme. Cette automatisation
n’est pas sans risque puisque l’outil n’effectue aucun contrôle sur la légitimité des règles
ajoutées. Il est donc nécessaire que l’administrateur vérifie les règles générées.
Enfin, nous avons présenté notre mécanisme d’audit, qui génère des traces permettant de
connaître les interactions qui se sont déroulées sur le système, mais qui sont aussi utilisées pour
créer des règles de contrôle d’accès, que ce soit de façon automatique ou manuelle.
5.2 Implantation des mécanismes de contrôle d’accès obligatoire
Dans cette section, nous allons présenter les implantations de deux mécanismes de contrôle
d’accès obligatoire pour les systèmes d’exploitation Windows, que nous avons appelé SEWINDOWS.
Cette section, qui est divisée en deux parties, propose l’implantation sous deux formes
différentes du Policy Enforcement Point. Ces deux méthodes ont été décrites dans la section 3.3.
La première implantation que nous proposons, utilise le détournement de la table des appels
système de Windows. Cette première version nous a permis de valider les politiques que nous
avons générées. La seconde implantation utilise les filter-driver pour détourner les flux d’exécution.
Cette seconde version respecte les préconisations faites par Microsoft pour surveiller l’activité
du système.
5.2.1 Implantation du mécanisme de contrôle d’accès basé sur la modification de
la table des appels système
L’implantation de cette solution s’appuyant sur le modèle de protection DTE a fait l’objet d’une
publication [Gros et al., 2012]. L’application qui en a été faite, dont la définition des propriétés de
sécurité fut détaillée dans [Blanc et al., 2012].
1385.2. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS OBLIGATOIRE
5.2.1.1 Architecture fonctionnelle du mécanisme de contrôle d’accès
La figure 5.2 décrit l’architecture logicielle de notre solution de contrôle d’accès pour les systèmes
Windows. Nous présentons ici les composants de cette architecture. Le premier composant
est le driver. C’est le point central du mécanisme. Il est responsable de la prise de décision (Policy
Decision Point). Cette implantation reprend toutes les phases que nous avons détaillées dans la
partie 3.1.2.
Dans la phase de pré-décision, le moniteur est chargé de récupérer toutes les informations
nécessaires à la prise de décision. Il est aussi en charge d’horodater et de numéroter la trace correspondante
à l’interaction directe observée. C’est aussi dans cette phase que le moniteur doit
mettre en place la méthode de représentation du système. Dans le cadre du modèle PBAC, il transforme
les chemins des ressources en nom absolu indépendant de la localisation. Dans le cadre du
modèle DTE, il doit labelliser les ressources.
Ensuite, le moniteur doit prendre une décision pour autoriser ou non l’interaction au regard de
la politique de contrôle d’accès. La décision est ensuite ajoutée à la trace pour qu’elle puisse être
générée.
Enfin, dans la phase de post-décision, soit le moniteur autorise la poursuite de l’interaction soit
il la refuse. Dans tous les cas, il renvoie à la fin une réponse au processus ayant réalisé l’interaction.
Dans cette implantation, les points d’application de la politique (Policy Enforcement Point)
sont réalisés par un module du driver : dans ce cas la, il s’agit de la modification de la table des
appels système. La figure 5.2 illustre l’architecture divisée en trois blocs de cette implantation.
Comme le schéma le montre, le moniteur est placé au centre du flux d’exécution pour pouvoir
contrôler en prétraitement et en post-traitement les interactions réalisées sur le système.
Le premier bloc, nommé Appel de fonction, correspond à l’utilisation régulière d’un appel de
fonction depuis l’espace utilisateur. Une application, qui réside en espace utilisateur, réalise une
interaction sur le système. Cette interaction se traduit par l’exécution d’un appel système. Pour
exécuter cet appel système, le système va chercher son adresse dans la table des appels système.
C’est cette table qui a été modifiée par le driver SEWINDOWS pour détourner le flux d’exécution
régulier.
Le deuxième bloc correspond à la partie SEWINDOWS. Une fois l’interaction détournée, le
moniteur va prendre une décision dans le but d’autoriser ou non l’interaction courante. Cette décision
se fait par le serveur de sécurité qui, dans le cas du modèle DTE, labellise les ressources. Dans
le cas du modèle PBAC, les chemins sont transformés en nom symbolique absolu indépendant de
la localisation. Cette partie est réalisée par un module spécifique du driver. Une fois la décision
prise, la trace est transmise au thread d’audit qui enregistre la trace dans le fichier d’audit.
Le troisième bloc correspond à l’exécution normale, c’est-à-dire sans détournement opéré par
le driver SEWINDOWS. Les fonctions de la table des appels système permettent d’interagir avec
les éléments du système tels que le registre, le réseau ou encore le système de fichiers.
5.2.1.2 Détournement de la table des appels système
Nous allons dans cette partie décrire, d’un point de vue technique, la méthode de détournement
du flux d’exécution en modifiant la table des appels système. Pour cela, nous allons dans un
premier temps détailler le fonctionnement d’un flux d’exécution classique, puis dans un second
temps, les modifications faites par le driver.
Exécution régulière La figure 5.3 illustre un flux d’exécution régulier. Un processus fait une
interaction sur le système de fichiers comme la création d’un fichier. Pour cela, le processus utilise
la fonction CreateFile de l’API Win32. Avant d’entrer en espace noyau, le flux d’exécution passe
par la bibliothèque ntdll qui est chargée de faire correspondre la fonction CreateFile de l’API
1395.2. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS OBLIGATOIRE
FIGURE 5.2 – Architecture globale
Win32 avec l’appel système correspondant qui est NtCreateFile. La bibliothèque ntdll ne passe
au noyau que le numéro de l’appel système et non son nom. L’instruction processeur SYSENTER
est enfin déclenchée pour effectuer le changement de contexte.
Une fois en espace noyau, le dispatcheur du noyau récupère le numéro de l’appel système et
il lit dans la table des appels système SSDT l’adresse de la fonction à exécuter. Cette fonction se
situe dans l’espace mémoire du noyau. Une fois l’appel système terminé, le retour de la fonction
est renvoyé au processus ayant réalisé l’interaction. La vérification des droits d’accès est faite
directement dans l’appel système.
Exécution modifiée Notre première implantation modifie le flux d’exécution régulier en altérant
cette table des appels système. La figure 5.4 montre comment le détournement opère. Lorsque le
driver SEWINDOWS se charge, il modifie la SSDT. Il remplace les adresses des appels système
par des adresses de fonctions qu’il maîtrise.
À la différence des appels système dont les adresses sont situées dans l’espace mémoire du
noyau, ces nouvelles adresses sont situées dans l’espace mémoire du driver SEWINDOWS. Le
dispatcheur du noyau, qui lit l’adresse de l’appel système dans la SSDT obtient ainsi l’adresse
1405.2. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS OBLIGATOIRE
Espace utilisateur
Espace noyau
processus
ntdll
Dispatcheur noyau
Noyau
N° Adresse
66
SSDT
0x825824AE
FIGURE 5.3 – Flux d’exécution classique
d’une fonction du driver SEWINDOWS. Le flux d’exécution est donc détourné dans le driver
SEWINDOWS.
Le serveur de sécurité peut alors autoriser ou non l’exécution de l’appel système en fonction de
la politique de contrôle d’accès qu’il a chargée. Toute interaction refusée par le serveur de sécurité
est enregistrée dans le fichier d’audit.
L’altération de la table des appels système nous donne le contrôle des interactions ciblant
le système de fichiers, des interactions sur le registre ainsi que des communications réseau. Les
communications sont initialisées par l’utilisation de l’appel système NtDeviceIoControl.
Limites Cependant, la SSDT ne gère pas les appels système contrôlant la partie graphique de
Windows. En effet, sur les systèmes d’exploitation Windows, la partie graphique est gérée indé-
pendamment du système par le driver win32.sys. Elle possède, par conséquent, sa propre table
d’appels système spécifique à la gestion graphique qui se nomme Shadow SSDT. Nous avons fait
le choix de ne par modifier cette table système car son altération peut provoquer une instabilité du
système.
En ne modifiant pas la Shadow SSDT, nous ne traitons pas les appels système qui gèrent la
partie graphique de Windows. Un attaquant pourrait, s’il arrive à charger son exploit, réaliser des
interactions que l’on peut considérer comme critiques. Par exemple, il serait capable de modifier
ou voler les communications entre les applications. Il peut aussi forcer des applications à se fermer
sans intervention de l’utilisateur.
Les tables des appels système ne sont accessibles et donc modifiables qu’en espace noyau, ce
qui les protègent des attaques que pourraient réaliser des processus. Néanmoins, un attaquant qui
arrive à charger un driver pourrait supprimer les modifications faites sur les SSDT sans que l’utilisateur
ou l’administrateur ne s’en aperçoive. Il faut, pour détecter ces modifications, surveiller les
modifications de ces tables. Ces limitations ont été traitées plus en détails dans la section 3.3.2.2.
1415.2. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS OBLIGATOIRE
processus
ntdll
Dispatcheur noyau
N° Adresse
66
Noyau
Driver SEWindows
SSDT modifiée
Espace utilisateur
Espace noyau
0xA34E70E0
N° Adresse
66
SSDT régulière
0x825824AE
FIGURE 5.4 – Flux d’exécution détourné par la modification de la SSDT
5.2.2 Architecture basée sur les filter-driver et les Kernel Callback
Dans la première partie de cette section, nous avons mis en place une première architecture
basée sur la modification de la table des appels système (SSDT). Cette solution, bien que fonctionnelle,
n’est pas une solution pérenne.
En effet, cette première solution souffre de quelques limites qui peuvent se révéler très contraignantes.
Tout d’abord, notre implantation n’est pas portable sur les Windows 64 bits puisqu’elle
modifie une table du système qui est protégée par Kernel Patch Protection. Sur ces systèmes, Kernel
Patch Protection vérifie l’intégrité des tables système et déclenche des exceptions lorsqu’elles
sont modifiées. Ces exceptions conduisent à la création d’un Blue Screen Of Death. Il n’est donc
pas possible de les modifier. Ensuite, la modification des tables système peuve rendre le système
d’exploitation instable et peut générer des Blue Screen Of Death. Enfin, il est nécessaire d’avoir
une certificat signé par Microsoft pour pouvoir charger un driver sur un système 64 bits.
Pour résoudre ce problème, il est nécessaire d’utiliser une méthode légitime pour détourner
le flux d’exécution. Cette nouvelle solution modifie toujours le flux d’exécution du système sans
pour autant altérer les tables système. Ce modèle est celui préconisé par Microsoft pour détourner
le flux d’exécution. Il se base sur la mise en place de différents driver : les filter-driver et les Kernel
Callback. Cette méthode a été décrite dans la partie C.3 (en Annexe).
5.2.2.1 Architecture globale
La figure 5.5 décrit la nouvelle architecture logicielle que nous avons mise en place. Cette nouvelle
solution se base sur la création de trois nouveaux composants tout en conservant les éléments
clés de l’architecture que nous avons décrite dans la partie 5.2.1. L’architecture de contrôle d’accès
1425.2. IMPLANTATION DES MÉCANISMES DE CONTRÔLE D’ACCÈS OBLIGATOIRE
globale n’est en rien modifiée. Le serveur de sécurité est toujours en charge d’appliquer strictement
la politique de contrôle d’accès définie. Un processus de labellisation transforme les sujets
et les objets pour leur associer des contextes de sécurité basés sur leur chemin complet. La partie
traçabilité est conservée pour assurer des fichiers d’audit consistants détaillant avec précision les
interactions passées sur le système.
Les modifications interviennent au niveau du détournement du flux d’exécution du système.
Comme nous l’avons expliqué en introduction de cette partie, notre première implantation n’est
pas pérenne par rapport à la politique de Microsoft mais surtout elle n’est pas portable sur les
systèmes 64 bits. Les modifications introduites dans cette nouvelle architecture ont pour but de
respecter les critères de développement et de surveillance édictés par Microsoft.
Nous avons donc une architecture de détournement des flux d’exécution du système divisée
en trois composants principaux. Nous détaillerons plus la partie système que la partie réseau dans
cette section. La raison est que la partie réseau est similaire dans la conception à la méthode utilisée
par les filter-driver pour les entrées/sorties sur le système de fichiers.
Le premier composant de notre solution est un filter-driver qui gère les requêtes d’entrée/sortie
sur le système de fichiers. De part son design spécifique, il n’est pas capable de gérer d’autres
aspects du système, néanmoins, il offre la possibilité de pouvoir réaliser des traitements en pré-
traitement et post-traitement. Ce filter-driver est géré par un composant du système nommé le
gestionnaire d’entrée/sortie auprès duquel il est nécessaire de s’enregistrer.
Le second composant est un driver filtrant les interactions sur le registre. Il est lui aussi capable
de faire des contrôles en prétraitement et en post-traitement. Il s’enregistre auprès du gestionnaire
d’entrée/sortie spécifique au registre.
Le troisième composant est un driver capable de contrôler le chargement et le déchargement
de fichiers. Il peut ainsi contrôler le chargement des exécutables, mais aussi des bibliothèques ainsi
que des driver. Il est aussi notifié de la mort d’un processus.
Filter Manager
Frame 1
Filter Manager
Frame 0
FS Filter
No altitude
Action d’un processus
sur le système de fichiers
Espace noyau
Espace utilisateur
Action d’un processus
sur le registre
Action d’un processus
pour créer un nouveau processus
Registry Manager I/O Manager Process Manager
Driver de stockage
Registre
Filter Process Driver
Filter Driver
Registry Filter Driver
Driver
SEWindows
FIGURE 5.5 – Architecture de détournement basée sur l’utilisation de filter-driver et de kernel
callback
5.2.2.2 Détournement des flux d’exécution
Détournement des interactions d’entrée/sortie Une limite du détournement des appels système
par la modification de la SSDT est l’impossibilité de contrôler les interactions réalisées par
les driver. En effet, la SSDT est essentiellement utilisée par les processus, qui résident en espace
1435.3. EXPÉRIMENTATIONS
utilisateur. Or, les driver n’utilisent pas les fonctions de la table des appels système pour réaliser
des interactions sur le système.
Grâce à l’utilisation des filter-driver qui catégorisent les interactions sur le système de fichiers
au lieu de détourner juste un appel système, il est aussi possible de contrôler les interactions faites
par les driver. En effet, lorsqu’un driver utilise des fonctions comme ZwCreateFile ou IoCreateFile,
le système convertit ces fonctions en IRP pour être traitées par les filter-driver.
La description de cette méthode a été faite dans la partie C.3. Nous allons juste reprendre
quelques points importants.
Les filter-driver sont rangés grâce à un système d’altitude. Cette altitude détermine l’ordre
de traitement des requêtes. Plus un filter-driver aura une altitude haute, c’est-à-dire proche du
noyau, plus il recevra la requête tôt dans la phase de prétraitement. À l’inverse, dans la phase
de post-traitement, il sera parmi les derniers à recevoir la requête. Donc la place choisie pour le
filter-driver est très importante. Nous avons choisi comme altitude 360 000, qui est une altitude
préconisée par Microsoft pour la catégorie de filter-driver que nous faisons.
Détournement des interactions sur le registre Les accès au registre passent par un gestionnaire
d’entrée/sortie spécifique au registre. Pour contrôler les accès qui y sont fait, il est possible
d’enregistrer un driver auprès de ce gestionnaire en utilisant le mécanisme de Registry Callback.
Grâce à cet enregistrement, le driver est capable de contrôler toutes les interactions sur le
registre sans avoir à préciser les interactions qu’il désire traiter. Comme pour les filter-driver, le
contrôle se fait en pré et post traitement.
Détournement des interactions de chargement et de déchargement des fichiers Les chargements
des fichiers exécutables sont traités spécifiquement par le noyau Windows. Mais il est aussi
possible pour un driver de contrôler le chargement de ces fichiers qui sont les plus dangereux pour
le système puisqu’ils sont exécutés en espace noyau.
Le noyau Windows propose ainsi des routines de notification pour contrôler les créations de
processus, le chargement de bibliothèques mais aussi de driver, appelées Process Notify Routine.
Ces routines renseignent sur le nom du nouveau processus ainsi que sur son PID mais aussi sur le
PPID. Il est ainsi possible de contrôler le chargement des fichiers exécutables.
Ces routines du noyau Windows renseignent aussi sur la mort d’un processus. Il n’est par
contre pas possible de contrôler la mort d’un processus mais la notification offre la possibilité de
l’inscrire dans un fichier d’audit.
Détournement des interactions sur le réseau Le détournement des interactions effectuées sur
le réseau s’effectue par l’utilisation de la Windows Filtering Platform. Cette plateforme mise en
place par Microsoft est similaire à celle des filter-driver. Grâce à l’utilisation des API que la
plateforme fournie, il est possible de contrôler les interactions au niveau du réseau.
5.3 Expérimentations
Dans cette section, nous allons détailler les expérimentations réalisées grâce à notre moniteur
pour Windows. Nous avons séparé cette section en deux parties distinctes. La première partie traite
des expérimentations réalisées grâce à notre première implantation de SEWINDOWS basée sur le
modèle DTE. Ces expérimentations nous ont permis de 1) générer des politiques ainsi que des
file_context pour les systèmes d’exploitation Windows, 2) valider notre modèle de politique
et 3) valider l’implantation que nous avons faite. Nous avons pour cela mis en place des scénarios
d’attaque, basés dans un premier temps sur des interactions directes, c’est-à-dire des interactions
1445.3. EXPÉRIMENTATIONS
directes d’un sujet sur un objet, puis sur des scénarios complets avec des flux indirects en ajoutant
PIGA à l’architecture de protection.
Dans une seconde partie, nous détaillons les expérimentations faites à partir de la seconde
implantation de notre mécanisme de contrôle d’accès basée sur les filter-driver. Dans le but de
générer des propriétés de sécurité et des configurations de mécanisme de contrôle d’accès pouvant
contrer des menaces réelles, nous avons mis en place une architecture spécifique pour incorporer
notre filter-driver au sein d’un mécanisme d’étude de logiciels malveillants (sandbox). En exécutant
plusieurs logiciels malveillants et en étudiant les traces générées, nous allons écrire des règles
de contrôle d’accès ainsi que des propriétés de sécurité pour PIGA afin de contrer explicitement
ces comportements.
5.3.1 Violation d’une propriété de confidentialité
Dans cette partie, nous présentons les expérimentations réalisées grâce à notre mécanisme de
contrôle d’accès. Nos expérimentations ne portent que sur l’implantation du modèle de protection
DTE car nous voulons être en mesure d’exprimer des propriétés de sécurité grâce à PIGA.
Pour pouvoir exprimer ces propriétés de sécurité, PIGA utilise de façon préférentielle un fichier
contenant les contextes de sécurité objets et d’une politique basée sur les types.
5.3.1.1 Environnement des expérimentations
Introduction Pour pouvoir réaliser nos expérimentations, nous avons dû définir une politique de
contrôle d’accès autorisant le fonctionnement des programmes que nous voulions tester. Pour ce
faire, nous avons utilisé le mode apprentissage de notre moniteur pour générer les politiques, c’est-
à-dire que nous avions placé notre driver en mode évidence. Nous avons aussi utilisé la méthode
automatique, c’est-à-dire que nous avons utilisé notre outil transformant les traces générés en
règles de contrôle d’accès, tout en vérifiant qu’il n’y avait pas de règles illégitimes qui pourraient
fausser nos expérimentations.
Plateforme Nous avons réalisé nos expérimentations dans une machine virtuelle avec un Windows
7 32 bits. Le driver SEWINDOWS était en mode apprentissage et nous avons fait des opérations
légitimes sur la machine : exécution de Windows Media Player, Firefox, Opera,
etc. Il est nécessaire de définir précisément les opérations que l’on souhaite autoriser par la suite.
Cette planification se fait généralement à la main par l’utilisation d’une check-list.
Il faut bien évidemment refaire plusieurs fois les exécutions pour être sûr de n’avoir pas oublié
de règles nécessaires au bon fonctionnement des applications. Une fois cette phase d’apprentissage
terminée, nous disposions d’une politique suffisante pour que les applications puissent fonctionner
correctement, même avec notre moniteur en mode protection.
La politique générée est suffisante pour un fonctionnement normal du système d’exploitation,
c’est-à-dire que nous sommes capables de réaliser certaines tâches définies sans que le driver
SEWINDOWS ne les bloque. Nous obtenons donc une politique SEWINDOWS avec environ 5000
règles d’accès et 40 000 contextes de sécurité.
La table 5.6 récapitule les informations sur la politique.
Nombre de contextes de sécurité objets 40 000
Nombre de contextes de sécurité sujets 1 800
Nombre d’interactions 5 000
FIGURE 5.6 – Statistiques sur la politique de contrôle d’accès pour le premier scénario
1455.3. EXPÉRIMENTATIONS
5.3.1.2 Scénario des attaques
Nous détaillons deux scénarios d’attaque pour montrer l’efficacité de notre solution. Le premier
propose une attaque "simple" qui repose sur un scénario joué volontairement par l’utilisateur.
Il essaye de contourner la politique de contrôle d’accès par une interaction directe. Le second
scénario est plus réaliste puisqu’il utilise des flux indirects autorisés par SEWINDOWS.
Nous montrons dans le premier cas, qui correspond à un flux d’information direct, que notre
moniteur est capable de l’interdire. A contrario, nous montrerons, dans le second cas qui résultat
d’un flux d’information indirect, que notre moniteur, même s’il est capable de voir l’ensemble des
interactions directes, n’est pas capable de bloquer la violation de propriété. Il est donc nécessaire
d’utiliser un second moniteur pour détecter ce genre de violation.
5.3.1.3 Violation directe
Dans notre premier exemple, nous avons un utilisateur qui tente de lire le
contenu d’un dossier auquel il n’a pas accès en passant par un navigateur Internet.
Ce refus se traduit par la trace suivante listée en listing 5.17. Elle montre
que le sujet ayant pour contexte de sécurité system_u:system_r:firefox_t
veut lire (read) et traverser (execute) le dossier ayant pour contexte de sécurité
system_u:object_r:systemdrive|users|ensib|appdata|roaming|opera|opera_dir_t
✞ ☎
1 type=DTE audit(129320375967434054:683)
2 avc:denied { execute read } for pid=1756 comm="%programfiles%\mozilla
3 firefox\firefox.exe" ppid=1456
4 path="%systemdrive%\users\ensib\appdata\roaming\opera\opera"
5 scontext=system_u:system_r:firefox_t
6 tcontext=system_u:object_r:systemdrive|users|ensib|appdata|roaming|opera|
opera_dir_t
7 tclass=dir
✝ ✆
Listing 5.17 – Trace d’interdiction pour Firefox de lire le contenu du dossier d’Opera
5.3.1.4 Violation indirecte
Ce second scénario propose de reprendre l’attaque qui vise à enfreindre la confidentialité que
l’on veut imposer entre nos deux navigateurs Firefox et Opera. Dans cette attaque, nous allons
essayer de contourner la politique de contrôle d’accès en utilisant une suite d’interactions légitimes
au système vis-à-vis de SEWINDOWS.
Via des propriétés de sécurité comme la confidentialité, PIGA est capable de détecter des
violations indirectes de la confidentialité.
Le listing 5.18 montre la définition d’une propriété de confidentialité entre deux contextes de
sécurité. Cette propriété spécifie qu’il ne doit y avoir aucun flux d’information entre le contexte de
sécurité objet et le contexte de sécurité sujet. C’est pourquoi, dans notre propriété de confidentialité,
nous interdisons les flux d’information indirects représentés par le symbole >>, allant de sc2
vers sc1.
✞ ☎
1 define confidentiality( $sc1 IN SCS , $sc2 IN SCO )
2 ST { $sc2 >> $sc1 } , { not(exist ( ) ) } ;
✝ ✆
Listing 5.18 – Définition de la propriété de confidentialité
Nous l’appliquons entre les navigateurs Firefox et Opera. Pour contrôler les flux entre les
deux navigateurs, il est nécessaire d’écrire les deux propriétés de confidentialité comme le montre
le listing 5.19.
1465.3. EXPÉRIMENTATIONS
✞ ☎
1 confidentiality( $sc1: =".*:.*:opera_t" ,$sc2: =".*:.*:firefox_t" ) ;
2 confidentiality( $sc1: =".*:.*:firefox_t" ,$sc2: =".*:.*:opera_t" ) ;
✝ ✆
Listing 5.19 – Application de la propriété de confidentialité
En rejouant des traces générées par notre driver SEWINDOWS dans PIGA et en appliquant la
propriété de sécurité définie au listing 5.19, nous détectons un flux d’information entre Firefox
et Opera. Ce transfert d’informations réussit grâce à l’utilisation d’un logiciel tiers, ici Adobe.
Le listing 5.20 montre une détection faite par PIGA. Nous avons Firefox qui écrit un fichier
à la racine du système. Puis Adobe qui lit le contenu du fichier pour aller ensuite écrire un nouveau
fichier dans le répertoire d’Opera qui va finir par le lire.
✞ ☎
1 system_u : system_r : firefox_t −( file { create write } )−>system_u : object_r :
systemroot_file_t ;
2 system_u : system_r : adobe_t −( file { execute read } )−> system_u : object_r :
systemroot_file_t ;
3 system_u : system_r : adobe_t −( dir { create setattr unlink } )−> user_u : object_r :
systemdrive | user | bob | AppData | Local | opera_dir_t ;
4 system_u : system_r : opera_t −( file { execute getattr read } )−> system_u : object_r :
systemdrive | user | bob | AppData | Local | opera_file_t ;
✝ ✆
Listing 5.20 – Trace d’un flux indirect de Firefox vers Opera
La détection faite par PIGA pouvant être difficile à lire, nous proposons une illustration 5.7
qui montre le cheminement de l’attaque. Firefox écrit dans un fichier (flèche 1). Ce fichier est
lu par Adobe (flèche 2). Adode écrit dans un second fichier, qui est dans le répertoire visé par
l’attaque (i.e : le répertoire d’Opera). Enfin Opera lit le contenu de ce fichier.
Firefox
Fichier 1 Adobem
Fichier 2 Opera
3 : Ecrit
2 : Lit
1 : Ecrit
4 : Lit
FIGURE 5.7 – Schéma du flux indirect conduisant à la violation de la propriété de confidentialité
Nous obtenons donc un flux d’information indirect entre les deux navigateurs, obtenu grâce à
un programme intermédiaire, ici Adobe Reader.
5.3.2 Étude de logiciels malveillants
5.3.2.1 Introduction
Dans cette partie, nous développons les tests que nous avons réalisés sur une architecture
spécifique que nous avons mise en place. Ces tests se sont orientés sur l’analyse de logiciels malveillants.
Dans cette configuration, nous avons dû mettre en place une solution pour assurer l’intégrité
des fichiers d’audit que nous récupérons lors de l’exécution du logiciel malveillant. Cette
solution consiste à envoyer les traces générées par le moniteur à un serveur de sécurité.
Les expérimentations que nous avons faites ont été réalisées en machine virtuelle et nous décrivons
dans cette partie les protocoles qui ont été appliqués sur deux types de logiciels malveillants.
Nous avons mis en place des outils facilitant la lecture des traces générées dans le but de comprendre
l’impact du logiciel malveillant sur le système et pour connaître les fichiers contaminés.
1475.3. EXPÉRIMENTATIONS
Ces outils offrent une représentation textuelle et graphique des résultats ce qui facilite la compré-
hension des mécanismes d’installation du logiciel malveillant.
En plus de ces outils de visualisation, nous proposons des méthodes pour dériver une politique
de contrôle d’accès pour SEWINDOWS à partir des traces générées. Ces politiques empêchent
l’installation de ce type de logiciel malveillant en traitant les interactions directes entre les sujets
et les objets du système. Cependant, comme ces politiques empêchent les interactions illégitimes,
nous proposons aussi des outils pour en dériver des propriétés de sécurité qui pourront être appliquées
par PIGA.
Exécution d’un logiciel malveillant
Ce premier scénario propose l’exécution d’un logiciel malveillant plutôt basique. En utilisant
le mode détection de notre mécanisme, nous montrerons les comportements clés du logiciel malveillant.
Nous avons commencé par étudier un FakeAV dont l’analyse par VirusTotal se trouve
ici 1
.
Comme le binaire n’est pas présent dans la politique nous avons mis notre driver SEWINDOWS
en mode détection pour dérouler l’installation du logiciel malveillant et nous montrerons des points
clés dans son installation que notre mécanisme de contrôle d’accès est capable de bloquer.
Le premier point important est le moment où le logiciel malveillant est exécuté. Cela se traduit
par le chargement (load) du binaire par explorer.exe. Cette trace est retranscrite par
notre driver SEWINDOWS dans le listing 5.21. Nous avons volontairement renommé le logiciel
malveillant en malware pour pouvoir plus facilement suivre son évolution dans les traces. Le
logiciel malveillant est exécuté par nos soins.
✞ ☎
1 type=DTE audit(129676508858814710,43) avc:denied { execute } for pid=308
2 com="%systemroot%\explorer.exe" ppid=360
3 path="%systemdrive%\users\bob\desktop\malware.exe"
4 scontext=system_u:system_r:explorer_t
5 tcontext=system_u:object_r:systemdrive|users|bob|desktop|malware_exec_t
6 tclass=load
✝ ✆
Listing 5.21 – Chargement du logiciel malveillant par explorer.exe
Ensuite, le logiciel malveillant va exécuter un invite de commande comme le montre le listing
5.22.
✞ ☎
1 type=DTE audit(129676508874908460,159) avc:denied { execute } for pid=3376
2 com="%systemdrive%\users\bob\desktop\malware.exe" ppid=308
3 path="%systemroot%\system32\cmd.exe" scontext=system_u:system_r:malware_t
4 tcontext=system_u:object_r:systemroot|system32|cmd_exec_t tclass=load
✝ ✆
Listing 5.22 – Exécution du premier invite de commande par le logiciel malveillant
Ce premier invite de commande exécute un second invite de commande et écrit un nouveau
fichier qui se nomme script.bat. 5.23.
✞ ☎
1 type=DTE audit(129676508874908460,171) avc:denied { execute } for
2 pid=2628 com="%systemroot%\system32\cmd.exe" ppid=3376
3 path="%systemroot%\system32\cmd.exe" scontext=system_u:system_r:cmd_t
4 tcontext=system_u:object_r:systemroot|system32|cmd_exec_t tclass=load
5
6 type=DTE audit(129676508875064710,177) avc:denied { write } for pid=3376
7 com="%systemdrive%\users\bob\desktop\malware.exe" ppid=308
8 path="%systemdrive%\users\bob\desktop\script.bat"
1. https://www.virustotal.com/en/file/d0d0d53f66b400cb43b3019be9e5e49a9097458119eba8f18d27d9e7b4ac8d9b/
analysis/
1485.3. EXPÉRIMENTATIONS
9 scontext=system_u:system_r:malware_t
10 tcontext=system_u:object_r:systemdrive|users|bob|desktop|script_bat_t
11 tclass=file
✝ ✆
Listing 5.23 – Exécution d’un second invite de commande et écriture du script
Enfin, le second invite de commande va lire le contenu du script pour exécuter les commandes
qui sont à l’intérieur. 5.24.
✞ ☎
1 type=DTE audit(129676508875689710,221) avc:denied { read } for pid=2832
2 com="%systemroot%\system32\cmd.exe" ppid=2628
3 path="%systemdrive%\users\bob\desktop\script.bat"
4 scontext=system_u:system_r:cmd_t
5 tcontext=system_u:object_r:systemdrive|users|bob|desktop|script_bat_t
6 tclass=file
✝ ✆
Listing 5.24 – Lecture du script par le second invite de commande
Grâce à la précision des fichiers d’audit, nous pouvons facilement suivre l’évolution de ce logiciel
malveillant sur le système. Il nous est facile de suivre les relations de filiation grâce notamment
aux PID et aux PPID.
À travers l’étude des traces générées par notre moniteur, nous avons pu suivre l’évolution de
l’installation du logiciel malveillant. Nous ne montrons pas tous les éléments de cette infection,
mais nous pouvons bloquer une par une les interactions réalisées par le logiciel.
Ce scénario, entièrement joué puisque le moniteur est en mode détection, est un cas concret
d’exécution du logiciel malveillant par un navigateur soumis à une attaque.
5.3.2.2 Architecture décentralisée
À partir de l’implantation du mécanisme de contrôle d’accès basée sur les filter-driver et les
kernel callback, nous avons mis en place une architecture spécifique permettant d’analyser les
logiciels malveillants. L’objectif de ces expérimentations est d’exécuter les logiciels malveillants
sans bloquer leurs interactions dans le but de connaître leur impact sur le système entier et d’en
étudier leur comportement.
Comme notre driver est en mode détection pour ces études, il enregistre chaque interaction
effectuée sur le système. De plus, pour être sûr de ne pas rater d’interaction, il n’y a pas de politique
de contrôle d’accès. Cependant, le logiciel malveillant pourrait modifier le contenu du fichier
d’audit, voire le supprimer puisqu’il est stocké sur le système et que les interactions ne sont pas
bloquées par le moniteur. Pour éviter d’avoir des fichiers d’audit potentiellement modifiés par le
logiciel malveillant, nous avons décidé d’envoyer directement les traces sur un serveur de sécurité
distant.
Instrumentation du système La figure 5.8 représente notre nouvelle architecture du côté du
Windows instrumenté. Cette architecture est divisée en quatre parties distinctes.
Le premier bloc traite les accès au système de fichiers. Lorsqu’une interaction est réalisée
sur le système de fichiers, l’interaction est interceptée lors de son prétraitement par notre filterdriver
(flèche 1, 2, 3). Le filter-driver est chargé de construire une trace suffisamment précise pour
pouvoir avoir toutes les informations nécessaires à l’étude du logiciel. De plus, pour avoir une
chronologie des différentes interactions réalisées, nous ajoutons un identifiant unique pour chaque
interaction ainsi qu’un timestamp. Nous obtenons ainsi une trace contenant :
1. un numéro de trace unique, ainsi que le numéro du cœur processeur qui exécute l’action ;
2. un timestamp ;
1495.3. EXPÉRIMENTATIONS
FIGURE 5.8 – Instrumentation du système pour l’analyse de logiciel malveillant
3. le type d’accès ;
4. nom court du processus qui a fait l’action et PID ;
5. nom de l’objet.
Dans le but de ne pas faire de calcul intempestif sur la machine d’étude, nous ne calculons pas
de contexte de sécurité. Cette tâche sera faite par le serveur de sécurité dans un mode offline. Un
exemple de trace générée est illustré par le listing 5.25. Cette trace est ensuite envoyée (flèche 4)
au thread qui s’occupe de la communication avec le serveur de sécurité.
✞ ☎
1 trace=1118 , cpu=0
2 timestamp=130208621983766250
3 Access : create
4 pid : consent.exe 568
5 Object Name : \Device\HarddiskVolume2\Users\toto\AppData\LocalLow
✝ ✆
Listing 5.25 – Trace générée par le filter-driver pour une interaction sur le système de fichiers
Le second bloc traite de la gestion de processus. À chaque création ou mort d’un processus, un
thread du filter-driver enregistre certaines informations. Il doit récupérer les noms complets des
processus impliqués, c’est-à-dire du père et du fils, ainsi que leur PID (flèche 5.1 et flèche 5.2). Une
fois que ces informations sont enregistrées, la trace générée pour la création d’un processus 5.26
est envoyée au thread qui s’occupe de la communication avec le serveur de sécurité. La même
chose est faite pour la mort d’un processus 5.27. Nous ne datons pas ces traces car ce n’est pas
nécessaire. Nous nous servons de ces traces pour connaître les chemins complets ainsi que les PID
des processus créés et détruits.
✞ ☎
1 Parent Process name : \Device\HarddiskVolume2\Windows\System32\svchost.exe pid
=908
2 Process name : \Device\HarddiskVolume2\Windows\System32\consent.exe pid=568
ppid=908 sid=1
✝ ✆
Listing 5.26 – Trace générée par le filter-driver pour la création d’un processus
1505.3. EXPÉRIMENTATIONS
✞ ☎
1 Parent Process name : \Device\HarddiskVolume2\Windows\System32\svchost.exe pid
=908
2 Process name : \Device\HarddiskVolume2\Windows\System32\consent.exe pid=568
ppid=908 sid=1
✝ ✆
Listing 5.27 – Trace générée par le filter-driver pour la mort d’un processus
Le troisième bloc de l’architecture concerne la gestion du registre. Tout comme pour le système
de fichiers, nous n’interceptons que les requêtes en prétraitement. Lorsqu’un processus fait une interaction
sur le registre, elle est interceptée (flèche 6) par le gestionnaire de registre puis transmise
(flèche 7) à notre driver. Le Registry Filter Driver récupère toutes les informations nécessaires à
la compréhension de l’interaction. Il ajoute aussi un identifiant unique ainsi qu’un timestamp. La
trace construite est très proche de la trace générée pour le système de fichiers. Mais, en plus des
informations de type nom du processus ainsi que son PID et nom de l’objet, qui dans ce cas la correspond
à une clé registre, nous ajoutons le couple valeur et donnée dans la trace, pour connaître
précisément les interactions du logiciel étudié. Nous obtenons ainsi une trace complète, comme le
montre le listing 5.28, qui est envoyée au thread qui s’occupe de la communication avec le serveur
de sécurité.
✞ ☎
1 trace=2258 , cpu=0
2 timestamp=130257368578773750
3 Access : set_value_key
4 pid : explorer.exe 1644
5 \REGISTRY\USER\S-1-5-21-2571257828-2288546103-543878076-1001\Software\Microsoft
\Windows\CurrentVersion\Explorer\UserAssist\{CEBFF5CD-ACE2-4F4F-9178-9926
F41749EA}\Count
6 {Q65231O0-O2S1-4857-N4PR-N8R7P6RN7Q27}\pzq.rkr REG_BINARY :
00000000250000008001000095CA5300000080BF000080BF000080BF000080BF
7 000080
BF000080BF000080BF000080BF000080BF000080BFFFFFFFFFC0B06AEB62C4CE0100000000
✝ ✆
Listing 5.28 – Trace générée par le driver pour une interaction sur le registre
Enfin, le quatrième bloc est celui qui gère les communications avec le serveur de sécurité.
L’implantation choisie sur le système instrumenté doit assurer deux règles importantes : la première
règle est que les communications avec le serveur de sécurité distant doivent être assurées
par un module dédié de l’architecture pour ne pas interférer avec le reste du mécanisme. Pour cela,
nous utilisons un thread dédié qui ne s’occupera que des communications réseau. La seconde règle
impose que cette communication ne doit ni ralentir, ni bloquer le fonctionnement de la machine.
Pour cela, nous avons choisi une implantation basée sur le principe de producteur/consommateur.
Les producteurs sont les trois parties précédemment présentées. Elles approvisionnent une
file de messages sans attendre que le message soit envoyé. Ainsi, elles n’ont pas besoin d’attendre
un retour de la part du thread qui envoie les traces et elles ne bloquent donc pas les interactions.
Le consommateur est par conséquent le thread qui récupère les traces et les envoie au serveur de
sécurité.
Les communications sont réalisées sur une connexion TCP.
Nous noterons une chose importante. Nous avons ajouté dans les traces traitant les interactions
du système de fichiers et du registre, un identifiant unique ainsi qu’un timestamp. Il est indispensable
pour la compréhension de l’installation de l’infection que cet identifiant soit unique pour tout
le système. Il est donc partagé entre les différentes parties de notre architecture.
1515.3. EXPÉRIMENTATIONS
De plus, comme nous le montrons dans les traces, nous n’enregistrons que le nom court des
processus. Ce nom est récupéré grâce à la fonction ZwQueryInformationProcess. Elle va
lire un champ de la structure EPROCESS 2
.
Une étape importante est donc réalisée au moment du démarrage du driver. Lors de cette étape,
il va établir la liste des processus qui sont en cours de fonctionnement en recherchant, quand c’est
possible, le père de chaque processus. En effet, sous Windows, il est possible qu’un processus n’ait
pas de père (à la différence des systèmes Linux où les processus sont toujours au moins rattachés à
init). Nous obtenons ainsi un graphe de l’activité courante du système. Cela nous permet aussi
de connaître les chemins complets ainsi que les PID des processus qui sont lancés au moment où
nous exécutons le logiciel étudié.
Serveur de sécurité distant Le serveur de sécurité est divisé en deux parties : la première partie
est un serveur TCP, fait en python, qui récupère les traces envoyées par le driver pour les mettre
dans une base de données. Comme le nombre de traces est relativement grand, la mise en base
est faite de manière offline pour ne pas surcharger la machine. La seconde partie permet la visualisation
des résultats. Elle propose la génération de rapport présentant les activités qui se sont
déroulées sur le système étudié.
5.3.2.3 Protocoles des expérimentations
Plateforme Nous avons fait le choix d’instrumenter un Windows 7 32 bits. Même si cette nouvelle
implantation nous permet de tester sur les architectures 64 bits, il est nécessaire de signer
le driver avec un certificat émis par une autorité reconnue par Microsoft pour que le Kernel
Patch Protection l’autorise à se charger. Il existe cependant un mode appelé testsigning qui permet
d’auto-signer son driver avec un certificat que nous aurions créé. Néanmoins, dans ce mode, Kernel
Patch Protection ne vérifie plus que la validité de la signature, ce qui modifie le comportement
du système. Si un logiciel malveillant charge un driver auto-signé, il ne sera pas bloqué par les
protections natives du système.
Ces tests ont été réalisés dans une machine virtuelle pour bénéficier de la possibilité de faire
des instantanés des machines et ainsi éviter de les réinstaller entre chaque étude. De plus, cela nous
permet de connaître parfaitement l’état de départ de la machine qui sert pour les tests.
Le serveur de sécurité est une machine capable de faire fonctionner un serveur web ainsi que
des scripts pythons, dans notre cas, un système Linux.
Exécution des logiciels malveillants Les logiciels malveillants étudiés sont téléchargés directement
sur la machine.
Les logiciels malveillants ont besoin d’être exécutés à la main car il faut pouvoir autoriser
son exécution si une demande d’élévation des privilèges est demandée. Cette manipulation nous
permet à la fois de connaître le nom du binaire qui est exécuté mais aussi de savoir comment il doit
être lancé. Nous savons par cette manipulation que le processus, qui lance le logiciel malveillant,
est explorer.exe. Cette information facilite le traitement des résultats.
Une fois que le logiciel malveillant est installé, nous laissons l’infection se développer sur
le système. Il est parfois nécessaire que valider des opérations intermédiaires à cause de l’User
Access Control. Nous acceptons à chaque fois les demandes faites par l’User Access Control.
Nous avons fait le choix de ne pas désactiver l’User Access Control car cette désactivation
fausserait aussi l’étude. En effet, lorsque cette protection n’est plus activée, des mécanismes de
2. EPROCESS est une structure du noyau de Windows contenant les informations sur les processus (nom, PID,
thread, etc). Cette structure est opaque, c’est-à-dire qu’il est nécessaire d’utiliser une fonction pour récupérer des informations
dans les champs de structure
1525.3. EXPÉRIMENTATIONS
sécurité ne sont plus appliqués. Par exemple, il n’y a plus de vérification des niveaux d’intégrité
lorsqu’un sujet effectue une interaction sur un objet.
Serveur de sécurité Une fois que l’utilisateur considère que l’exécution est terminée, le serveur
de sécurité met dans une base de données les informations recueillies par le driver pour les
conserver et les comparer aux autres études. Il génère ensuite les résultats pour qu’ils puissent être
analysés.
5.3.2.4 Visualisation des résultats et définition des propriétés de sécurité
Une fois le logiciel malveillant exécuté, il faut pouvoir fournir des résultats pertinents, c’est-
à-dire des résultats qui permettent de comprendre le cheminement de l’infection : nous ciblerons
donc les interactions spécifiques au logiciel malveillant qui permettent la propagation de l’infection
au sein du système.
Pour ce faire, nous proposons un outil graphique générant les résultats sous la forme d’un
graphe. Ce graphe est une représentation du système ayant pour nœud les processus et comme
feuilles les interactions réalisées ainsi que les objets. Nous proposons aussi un outil qui extrait les
interactions directes sous la forme d’automates. Ces automates sont des sous graphes, qui repré-
sentent une partie du comportement du logiciel malveillant étudié. À partir de ce sous graphe, il
nous est possible d’écrire des règles de contrôles d’accès empêchant le déploiement de l’infection,
mais aussi des propriétés de sécurité qui peuvent être vérifiées et appliquées par PIGA.
Visualisation
Pour comprendre le cheminement utilisé par l’infection, nous présentons les résultats sous une
forme brute. Dans une première partie, nous listons les processus ainsi que leurs parents.
Associées à ces processus, il est possible de connaître toutes les interactions directes générées
sur le système par ce processus sans aucun filtre. Cette première visualisation permet de connaître
l’activité complète du processus (fichier créé, supprimé, processus lancé, clé registre modifiée,
etc.). Cette forme est une forme brute des traces générées, triées par ordre temporaire.
Dans le but de mieux comprendre les interactions passées sur la machine d’analyse, il est
nécessaire de travailler les résultats. La première chose est de visualiser quelques interactions
précises.
Nous avons choisi d’isoler pour la partie système de fichiers :
— les chargements,
— écriture et suppression.
Ce choix est motivé par le fait que nous voulons suivre la propagation de l’infection au sein du
système et ainsi connaître les éléments qui ont été infectés. Donc nous isolons les interactions qui
permettent d’échanger de l’information depuis un processus infecté vers un objet du système.
Ce modèle n’est pas figé. En rajoutant par exemple, les opérations élémentaires de lecture,
nous pouvons détecter les fuites d’information ou les violations de confidentialité.
Nous allons détailler nos résultats sur l’analyse d’un logiciel malveillant appelé ZeroAccess.
Ce malware est celui que nous avons utilisé dans notre introduction 1.3. Nous allons chercher
à comprendre son comportement lors de son installation pour en extraire les règles de contrôle
d’accès nécessaires pour empêcher sa propagation au sein du système.
Génération du graphe des processus La représentation sous la forme d’un graphe nous permet
de connaître quelques interactions spécifiques. La figure 5.9 montre le premier résultat obtenu. À
partir du fichier de l’infection nommé xxx-porn-movie.avi.exe, nous remarquons qu’il va
1535.3. EXPÉRIMENTATIONS
écrire des fichiers dans la corbeille de Windows qui se nomme Recycler.Bin. On peut tout
d’abord noter que le logiciel malveillant veut se cacher en utilisant une double extension, pour
tromper l’utilisateur en lui faisant croire que c’est une vidéo dans le but qu’il exécute le fichier
binaire.
FIGURE 5.9 – Logiciel malveillant écrivant des fichiers dans la corbeille de Windows
Le graphe nous montre un lien entre notre fichier principal de l’infection et un processus qui
semble légitime nommé InstallFlashPlayer.exe. Nous pouvons voir que ce fichier a été
écrit par l’infection. En effet, en extrayant les parties write et load du graphe pour le processus
xxx-porn-movie.avi.exe, nous pouvons voir que c’est l’infection qui écrit et charge ce
fichier.
La figure 5.10 nous montre une partie des interactions faites par le processus
InstallFlashPlayer.exe qui vient d’être exécuté par le logiciel malveillant. Nous pouvons
voir que celui-ci va aussi écrire dans la corbeille de Windows.
Enfin, la figure 5.11 nous montre que c’est le processus services.exe qui va charger les
fichiers qui ont été écrits par les deux processus malveillants. C’est à ce moment là que la charge
active du logiciel malveillant est exécutée. L’exécution, par un service système, de cette charge,
assure à l’infection la possibilité de pouvoir réaliser toutes les interactions qu’elle désire.
Dans cette étude, nous pouvons noter plusieurs points : tout d’abord, la dissimulation de la
véritable extension par le logiciel malveillant dans le but de tromper l’utilisateur. Cette technique
est assez courante pour installer des logiciels malveillants. Ensuite, l’utilisation d’un logiciel lé-
gitime pour installer la charge active de l’infection qui est aussi une méthode pour se cacher aux
yeux de l’utilisateur. Ici, le logiciel malveillant peut justifier l’installation par nécessité pour lire la
vidéo. Nous notons aussi l’utilisation d’un répertoire temporaire, ici la Corbeille, pour l’écriture
des fichiers utilisés pour exécuter la charge active. Enfin, nous voyons l’utilisation de processus lé-
gitime, présent sur tous les systèmes Windows et tournant avec des privilèges élevés pour installer
la charge active.
1545.3. EXPÉRIMENTATIONS
FIGURE 5.10 – Flash player écrit dans la Corbeille de Windows
FIGURE 5.11 – services.exe chargeant les fichiers écrits par les logiciels malveillants.
Nous nous sommes intéressés uniquement à l’étude de l’installation de l’infection, pour
connaître son cheminement et les fichiers qui ont été contaminés par l’infection.
1555.3. EXPÉRIMENTATIONS
Cette représentation permet de voir les liens entre les différentes entités du système ainsi que
de connaître les interactions réalisées par chaque processus au moment de l’étude. Néanmoins,
elle ne permet pas de tout représenter. En effet, dans un souci de clarté pour la représentation,
nous avons fait le choix de ne pas y inclure toutes les interactions des processus ni les éléments du
registre. De plus, cette représentation nous fait perdre la notion de temporalité des interactions.
Il faut noter que cette première représentation est suffisante pour comprendre le comportement
global de l’infection et établir des règles de contrôle d’accès permettant de contrer explicitement
son installation. Mais pour comprendre tout le cheminement de l’installation, il est nécessaire
d’ajouter la notion de temps pour situer les interactions les unes par rapport aux autres.
Automates
La représentation des traces sous la forme d’automates nous permet d’exprimer la notion de
temporalité des interactions que nous n’avons pas avec la représentation sous la forme de graphe.
Nous allons ainsi générer un automate global, c’est-à-dire que nous allons représenter les opé-
rations importantes réalisées par le logiciel malveillant pour en dégager un comportement. Nous
affinerons ce comportement en prenant en compte des "sous automates". Grâce à ces différents
éléments, nous pourrons écrire des règles de contrôle d’accès ciblant des comportements que nous
considérons comme malveillants.
La figure 5.12 montre un résultat simplifié de la génération de l’automate. Ce résultat est simplifié
puisque nous n’identifions qu’un nombre restreint d’actions qui conduisent à l’installation
de l’infection. Nous voyons dans cet automate que le canal de communication utilisé entre les différentes
entités mises en jeu dans l’installation de l’infection est une valeur dans le registre. Nous
avons nommé sample le fichier binaire qui est à la base de l’installation.
Cette représentation simplifiée permet d’inclure les éléments qui étaient difficiles à inclure
dans les graphes pour ne pas nuire à la lecture. La simplification repose sur deux éléments : tout
d’abord, nous ne nommons pas explicitement les objets du système, ensuite, nous n’utilisons pas
directement le temps des interactions, nous numérotons les interactions pour plus de clarté.
sample Corbeille Valeur
registre
Flash Player
Installer services.exe
7: Suppression
1: Ecriture
2: Ecriture
3: Ecriture
4: Exécution
5: Lecture
6: Ecriture
8: Ecriture
10: Exécution
9: Lecture
FIGURE 5.12 – Automate complet des interactions réalisées par le logiciel malveillant
L’automate met en relief la séquentialité des opérations qui se sont déroulées durant l’infection.
Cette forme sert d’intermédiaire entre les graphes des processus et les diagrammes de séquence.
Même si les interactions sont numérotées, cet automate fait perdre la notion de temporalité des
interactions. Nous proposons donc une représentation sous la forme d’un diagramme de séquence
pour raffiner encore l’analyse comme l’illustre la figure 5.13. C’est à partir de ce diagramme que
nous allons pouvoir identifier des comportements malveillants ou des séquences d’interactions
propres à la détection de logiciel malveillant.
À partir de l’automate que nous avons présenté 5.12 ainsi que du diagramme de séquence 5.13,
nous allons résumer le déroulement de l’installation de l’infection :
1565.3. EXPÉRIMENTATIONS
sample Corbeille Registre Flash services
Ecriture
Ecriture
Ecriture
Exécution
Lecture
Ecriture
Suppression
Ecriture
Lecture
Exécution
t0
t1
temps
t2
t3
t4
t5
t6
t7
t8
t9
FIGURE 5.13 – Diagramme d’activité sur l’installation de l’infection
— écriture du sample sur le disque et exécution du fichier : ces deux phases ne sont pas repré-
sentées ici car elles peuvent varier suivant les contextes. On peut imaginer un utilisateur
qui télécharge et qui l’exécute, ou encore une exploitation de vulnérabilité dans un module
tiers d’un navigateur.
— écriture des éléments pour initialiser l’installation de l’infection dans un répertoire spéci-
fique. Ce répertoire est ensuite renseigné dans le registre ;
— exécution de la charge active ;
— suppression du sample ;
— lecture des informations importantes pour l’installation et l’écriture des éléments permettant
à l’infection de survivre ;
— exploitation d’une vulnérabilité dans un processus possédant des droits élevés.
Nous avons donc proposé trois outils permettant d’analyser les logiciels malveillants. Ces trois
outils sont complémentaires en proposant chacun un degré de précision différent.
La première représentation, celle sous la forme de graphe, permet de connaître, de façon macroscopique,
les interactions qui ont été faites par tous les éléments du système. On peut ainsi
connaître les éléments qui ont été écrits, lus, chargés et supprimés. Nous n’avons présenté dans
cette étude que les interactions faites sur le système de fichiers. Nous pouvons naturellement faire
la même chose pour les interactions faites au niveau du registre.
La seconde représentation propose un raffinement de l’analyse en numérotant le début des
interactions grâce à l’utilisation des timestamps. Cette représentation permet de connaître l’enchainement
des interactions faites sur le système.
La troisième représentation ajoute un nouveau niveau de raffinement en détaillant les temps du
début des interactions. Ce diagramme pourra être étendu en rajoutant les dates de fin des interactions.
Politiques de protection
Maintenant que nous connaissons le comportement du logiciel malveillant par la définition de
l’automate et par la création d’un diagramme de séquence, nous pouvons écrire des politiques de
protection dans le but de bloquer ces comportements malveillants.
1575.3. EXPÉRIMENTATIONS
✞ ☎
1 neverallow domain recycle_bin_t:file { execute }
2 neverallow domain recycle_bin_t:process { execute }
✝ ✆
Listing 5.29 – Règle bloquant l’exécution d’un élément de la corbeille
Le premier comportement que l’on peut bloquer est l’exécution d’un élément dans la corbeille
de Windows. Pour ce faire, il suffit de mettre une labellisation générique sur cet élément du type
recycle_bin_t et d’empêcher toute exécution d’un objet de ce type.
Par exemple, les règles 5.29 permettent de contrer l’exécution d’un fichier de type
recycle_bin_t. Pour cela, nous allons utiliser une interaction spécifique de la politique par
l’utilisation de l’instruction neverallow dans la politique de contrôle d’accès. De plus, pour que
cette règle s’applique à tous les sujets du système, nous utiliserons l’instruction domain, qui repré-
sente tous les domaines du système.
Cette règle bloque donc explicitement l’interaction numéro 10 de notre automate 5.12.
Cependant, ces règles de contrôle d’accès peuvent se révéler difficiles à mettre en place. En
effet, elles pourraient nuire à l’utilisation normale du système. Imaginons par exemple qu’un administrateur
définisse la règle suivante 5.30, qui empêche toute écriture de fichier dans la corbeille,
cela implique que les utilisateurs ne peuvent plus déplacer de fichiers ou de dossiers dans la corbeille.
Ce qui nuit au fonctionnement d’un programme ou du système.
✞ ☎
1 neverallow domain recycle_bin_t:file { write }
✝ ✆
Listing 5.30 – Règle bloquant l’écriture d’un élément dans la corbeille
C’est pour cela que nous allons plutôt utiliser des propriétés de sécurité en utilisant le langage
de PIGA. Nous noterons les contextes de sécurité sujets scs et les contextes de sécurité objets sco.
Voici, sous une forme simple, les interactions qui se déroulent sur le système en termes de
contexte de sécurité et d’opérations élémentaires.
1. scs1 →w sco : création d’un nouvel objet, i.e : le sample écrit dans la corbeille.
2. scs1 →w sco1 : création d’un second objet, i.e : le sample écrit dans les fichiers temporaires
l’installateur modifié de FlashPlayer.
3. scs1 →x sco1 ⇒t scs2 : exécution du second objet qui transite vers un nouveau contexte
sc2.
4. scs2 →w scs3 : le nouveau domaine interagit avec un troisième domaine déjà présent sur
le système.
5. scs3 →x sco : ce troisième domaine va exécuter l’objet écrit par le premier domaine.
Cette énumération nous permet d’écrire directement la propriété de sécurité correspondante
5.31.
✞ ☎
1 define zeroaccess_behavior ( $sc1 IN SCS ) [
2 Foreach $eo1 IN is_write_like(IS), Foreach $eo2 IN is_write_like(IS),
Foreach $eo3 IN is_execute_like(IS),
3 Foreach $oe4 IN is_write_write(IS), Foreach $oe5 IN is_execute_like(
IS),
4 Foreach $sc2 IN $SCS, Foreach $sc3 IN $SCS,
5 Foreach $sco1 IN $SCO, Foreach $sco IN $SCO,
6 Foreach $a1 IN ACT, Foreach $a2 IN ACT
7 TQ { ( [ $a2 := $sc3 -> { $eo5 } $sco ] o $sc2 -> { $eo4 } $sc3 )
8 o ( $sc1 -> { $eo3 } $sco1 o $sc1 -> { $eo2 } $so1 o [ $a1 := $sc1
-> { $eo1 } $sco ] ) } ,
9 { INHERIT($a2 , $a1) };
1585.4. DISCUSSION
10
11 ];
✝ ✆
Listing 5.31 – Propriété de sécurité pour PIGA contrant l’installation d’une variante de ZeroAccess
Grâce à cette propriété, nous sommes capables de contrôler de manière un scénario complet.
Nous avons donc proposé deux méthodes pour contrer l’installation de ce logiciel malveillant.
La première méthode consiste à bloquer une interaction directe qui ne semble pas légitime faite
par le logiciel malveillant. Même si cette solution est efficace, sa portée sur le fonctionnement
du système pourrait se révéler très préjudiciable. En effet, les règles d’accès créées pourraient
bloquer le système. C’est pour cela que nous avons proposé une solution basée sur l’utilisation
d’un second moniteur de référence, qui offre la possibilité de bloquer un scénario complet plutôt
qu’une interaction précise.
5.4 Discussion
Dans ce chapitre, nous avons détaillé les choix que nous avions fait pour répondre aux problèmes
soulevés dans la partie formalisation.
En ce qui concerne la problématique de désignation des contextes sous Windows, nous avons
fait le choix, pour la construction des noms symboliques absolus indépendants de la localisation
d’utiliser les variables d’environnement. Elles ont l’avantage d’être à la fois communes à tous
les systèmes Windows et d’être gérées par le système. De plus, elles peuvent être étendues par
l’administrateur pour répondre à des problèmes spécifiques.
Cette solution nous a permis de répondre à un second problème plus lié à l’implantation. En
effet, nous avons dû résoudre la problématique de stockage des contextes de sécurité pour les objets
dans le modèle de protection basé sur DTE. Comme nous ne pouvions utiliser les attributs étendus
du système de fichiers comme le fait SELinux, nous avons mis en place un système de labellisation
dynamique. Cette méthode présente l’avantage d’être plus simple à administrer et plus portable car
ne nécessitant pas de labelliser les systèmes des fichiers.
Nous avons ensuite proposé deux implantations des méthodes de détournement que nous avons
décrites dans la partie formalisation. Ces deux méthodes nous ont permis de tester et de valider
nos politiques de protection pour les deux modèles PBAC et DTE. Nous avons ensuite fait le choix
de poursuivre nos expérimentations en utilisant le modèle de protection DTE.
Nos expérimentations ont porté sur deux aspects. Le premier point montre que nous sommes
capables d’associer notre moniteur Windows au moniteur PIGA pour contrôler efficacement les
scénarios complets. Le second concerne la protection contre les logiciels malveillants. Une architecture
dédiée permet l’envoi des traces de notre moniteur à un serveur limitant ainsi la compromission
de l’analyse. L’analyse permet de comprendre le scénario complet et de déduire une
politique pour notre moniteur ou pour PIGA qui empêche le scénario d’attaque. La solution PIGA
propose une méthode optimiste qui limite moins les activités légitimes.
5.4.1 Pertinence/complétude de la solution
Notre solution, basée sur une architecture modulaire est capable d’implanter deux modèles de
protection. Le premier est basé sur le modèle PBAC et le second sur le modèle DTE. Ces deux modèles
permettent de définir des politiques de contrôle d’accès fines et précises. Chaque ressource
du système est parfaitement identifiée.
Notre solution facilite la maintenabilité du mécanisme de contrôle d’accès. Le mécanisme de
création de politique basé à la fois sur un mode d’apprentissage auquel s’ajoute un outil de création
de politique de contrôle d’accès, facilite le travail de l’administrateur. Quel que soit le modèle de
1595.4. DISCUSSION
protection utilisé, il est possible d’avoir une couche d’abstraction efficace des ressources et ainsi
de pouvoir porter facilement des politiques d’un système à un autre.
Que ce soit en modifiant la table contenant tous les appels système ou par l’ajout d’un filterdriver,
nous sommes capables de gérer finement les accès, que ce soit sur le registre, au niveau
réseau et ou sur le système de fichiers. Non seulement nous pouvons vérifier les accès en prétraitement,
mais aussi en post-traitement puisque nous détournons entièrement le flux d’exécution,
chose que ne font pas encore les MAC tels que SELinux.
Grâce à cette implantation, nous contrôlons toutes les entrées/sorties des processus. Nous
contrôlons aussi les méthodes de synchronisations entre threads. Ces évènements passent par
des appels système que nous contrôlons.
5.4.2 Performances
Même si l’objectif de nos expérimentations n’était pas les performances, nous avons évalué la
latence que génère notre implantation. Nous avons fait ce test de performance sur la version qui
modifie la table des appels système.
Nous avons ainsi pu noter qu’il y avait une latence générée au démarrage des applications par
notre mécanisme de contrôle d’accès. Cela s’explique par les nombreuses interactions faites sur
le système de fichiers réalisées par l’application pour charger ses bibliothèques, créer ses fichiers
spécifiques, accéder au registre pour récupérer ses informations de configuration, etc.
Cette latence, que nous avons notée et estimée à un ajout de 2 secondes en moyenne par rapport
au temps de lancement normal de l’application, peut facilement être réduite en introduisant les
mêmes optimisations que pour SELinux. Par exemple, l’ajout d’un système de cache dans notre
driver SEWINDOWS pourrait accélérer la prise de décision. Ainsi, il ne serait pas nécessaire d’aller
consulter la politique SEWINDOWS à chaque interaction faite par le même contexte sujet.
Une seconde optimisation serait de ne pas vérifier à chaque fois les accès pour certains types
d’interactions, comme les opérations de lecture ou d’écriture. Par exemple, lorsqu’un sujet demande
l’accès en lecture sur un objet, l’accès est vérifié une première fois dans la politique. Puis,
tant que les contextes de sécurité mis en jeu ne sont pas modifiés, nous pouvons considérer qu’il
est inutile de vérifier de nouveau l’accès. Il faudrait vérifier que cette optimisation ne nuit pas à
la sécurité du système et qu’il n’existe pas de solution pour la contourner. Il faut noter que cette
optimisation a été mise en place dans SELinux.
Enfin, une troisième optimisation concerne le parcours de la politique par le serveur de sécurité.
Nous avons développé une première version où le moniteur mémorise la politique sous la forme de
chaîne de caractères. Nous avons ensuite mis en place un système basé sur des tables de hashages.
Une méthode pour optimiser la recherche dans la politique serait d’avoir une table par sujet, ainsi,
il ne serait plus nécessaire de parcourir la politique entièrement à chaque fois.
160Chapitre 6
Conclusion
Les enjeux de cette thèse étaient doubles. D’une part, il s’agissait d’améliorer la sécurité des
systèmes de calcul intensif basés sur Linux. D’autre part, des solutions devaient être apportées pour
que les postes de travail Windows puissent garantir des objectifs de sécurité. Le fait de rassembler
ces deux points présentait déjà une difficulté technique puisqu’il fallait connaitre deux systèmes
d’exploitation et maîtriser le développement dans leurs noyaux respectifs. Cet aspect technique
constituait en soi un pari. Un des objectifs était donc d’offrir un cadre commun pour protéger des
contextes d’usages aussi différents que le calcul intensif et les postes de travail Windows. Définir
une approche extensible était une première difficulté. De plus, il était nécessaire de s’intéresser
en parallèle à la sécurité et aux performances, ce qui est en soi assez antinomique. Enfin, il fallait
s’intéresser aux vulnérabilités des postes de travail et offrir des méthodes avancées d’analyse et
de protection. Il aurait été possible de faire une thèse sur chacun de ces points pris séparément. Il
n’en reste pas moins que s’intéresser de façon globale à ces domaines en dégageant correctement
les problèmes et en proposant des solutions extensibles constitue déjà un objectif ambitieux et
intéressant. Au final, nous répondons globalement à ces différents points d’étude en définissant un
cadre commun à la protection du calcul intensif et des postes de travail.
En introduction, nous avons ainsi décrit le problème de sécurité, à savoir contrôler les interactions
directes et être capable de contrôler les scénarios d’attaque complets. Nous avons aussi
synthétisé les manques dans ces domaines, à savoir l’absence de modèle général, non seulement
pour observer les appels système, mais aussi pour répartir efficacement différents observateurs afin
de détecter et prévenir des scénarios d’attaque complets. Nous nous sommes intéressés aux observateurs
appelés moniteurs de référence et capables de garantir l’intégrité et la confidentialité. Nous
avons considéré aussi le besoin d’une méthode pour répartir ces moniteurs, ainsi que mesurer et
comparer les performances de différentes solutions. Enfin, nous avons considéré, d’une part, la
nécessité d’un observateur constituant un moniteur de référence portable pour contrôler les interactions
directes, et d’autre part, d’une implantation de ce moniteur pour Windows afin d’analyser
et prévenir les scénarios d’activité des logiciels malveillants.
Dans le chapitre 2, nous avons établi l’état de l’art. Il montre à la fois le manque de modèle gé-
nérique d’observateurs, les faiblesses des moniteurs de référence existants et le manque de modèle
et de solutions pour répartir différents observateurs et évaluer leurs performances de façon précise
et extensible. Cet état de l’art étaye les points adressés par notre étude et justifie la réalité des
difficultés que nous avons listées en introduction. Il montre qu’il y a un réel manque de moniteurs
répartis pour le calcul intensif et de solutions pour les postes de travail Windows.
Le chapitre 3 a proposé une définition générique de la notion d’observateur capable de capturer
les appels système des différents processus pour contrôler les accès aux ressources du système
d’exploitation. Nous avons distingué trois modes de sécurité : requête/réponse, évidence et noti-
fication. Ils couvrent la majorité des approches permettant de détecter ou protéger les activités.
161Cette notion d’observateur est très générale et correspond à un large ensemble de mécanismes
de sécurité (pare-feu, contrôle d’accès des processus, antivirus, antimalware, détection d’intrusion.
. . ). Nous avons définis un type particulier d’observateur, le moniteur de référence, qui nous
intéresse en priorité. Ensuite, nous avons proposé un modèle conceptuel qui caractérise la répartition
des observateurs en terme d’association, de localisation et de redondance. Les deux types
d’association, cascade et notification, permettent de décrire le couplage de différents observateurs.
En pratique, le type cascade est le plus représentatif car il couvre bien la façon habituelle de coopérer
des observateurs. Les quatre localisations distinguent les observateurs colocalisés, distants,
parallèles et partagés. Ces différentes localisations visent à classifier les méthodes de répartition
des observateurs et de leurs clients. La redondance concerne les méthodes de tolérance aux pannes
d’un observateur. Pour la partie poste de travail, nous avons proposé une politique pour contrôler
les accès directs de façon obligatoire (MAC). Cette politique est générique, mais correspond bien
aux modèles DTE et PBAC adoptés sous Unix. Nous avons défini une façon de mettre en œuvre
cette politique pour Windows en offrant un mécanisme de désignation des processus et des ressources
qui simplifie l’administration des politiques. Nous avons proposé différentes méthodes
pour détourner les appels système des processus sous Windows afin de pouvoir contrôler leurs
activités. Ainsi, par la conjonction du modèle de politique et d’un détournement, nous sommes
capables d’offrir un modèle conceptuel de moniteur de référence qui est bien adapté à Windows.
Le chapitre 4 a étudié la répartition des observateurs en environnement de calcul intensif.
Nous avons proposé d’abord un objectif de mesure précise des performances. Pour cela, nous nous
sommes concentrés sur la répartition de deux observateurs en mode cascade en considérant qu’ils
peuvent être colocalisés ou distants. Nous avons proposé un calcul de la combinatoire des évaluations
et établissons la liste de mesures à effectuer. Nous avons proposé ainsi différentes mesures
globales et mesures détaillées. Nous pouvons déduire le temps de communication entre les deux
observateurs et comparer les performances pour les combinaisons des différentes approches. Une
mise en œuvre du mode distant à haute performance est proposée en utilisant des technologies
InfiniBand. L’efficacité repose sur deux coupleurs InfiniBand pour les communications entre les
deux observateurs. Nous avons proposé un protocole de mesure des performances reposant sur
deux logiciels de test. Le premier logiciel est le benchmark Linpack pour le HPC. Ce benchmark
n’est pas complètement représentatif des codes de calcul du CEA mais constitue le meilleur des
cas puisqu’il fait peu d’opérations d’entrée/sortie. Le second est un logiciel développé spécifiquement
pour stresser le système en réalisant un grand nombre d’entrées/sorties avec des politiques
SELinux et PIGA exigeantes en temps de calcul. On peut considérer qu’il s’agit donc du pire cas.
La réalité se situant entre ces deux cas, nous avons montré qu’il est possible de limiter le surcoût
à 10% pour les nœuds de calcul pour le mode détection et 25% pour le mode protection. Des
optimisations supplémentaires permettront de pouvoir passer en dessous de 5% et 10% respectivement
pour le mode détection et protection. Si ces résultats restent discutables, ils montrent la
possibilité d’un faible surcoût au regard du contrôle de scénarios d’attaque complets. L’approche
est efficace en termes de sécurité puisqu’elle réalise un contrôle optimiste qui ne limite pas les
activités légitimes.
Dans le chapitre 5, nous avons décrit la mise en œuvre d’un moniteur de référence pour Windows
autorisant l’analyse et le contrôle des logiciels malveillants. Nous avons proposé une implantation
de la désignation des ressources basée sur les variables d’environnement. Cette méthode
calcule dynamiquement les contextes de sécurité et évite donc d’avoir à les stocker au niveau des
systèmes de fichiers, simplifiant ainsi l’administration. Nous utilisons le moniteur en mode dé-
tection pour transférer de façon sûre les accès observés à un serveur. Cette approche a pour but
d’analyser le scénario d’attaque complet via différentes représentations graphiques. Ainsi, nous
sommes capables de décrire le déroulement temporel et logique du scénario. Nous montrons que
nous pouvons définir une politique pour notre moniteur, ou pour le moniteur PIGA, qui empêche
1626.1. PERSPECTIVES
l’attaque observée. Le contrôle des interactions directes par notre moniteur est plus immédiat,
mais présente le risque de limiter les activités légitimes des processus. A contrario, l’approche
PIGA est plus optimiste puisqu’elle peut bloquer le scénario à un point précis de son avancement.
Nous avons développé deux méthodes de détournement des appels système, la seconde étant davantage
portable. Globalement, nous livrons ainsi un moniteur portable aussi bien en termes de
détournement que de politique pour des environnements Windows 7 hétérogènes.
6.1 Perspectives
Amélioration des performances de PIGA Nous avons montré au cours du chapitre 4 que l’inté-
gration de SELinux dans les environnements HPC était aujourd’hui possible, notamment grâce aux
différentes optimisations réalisées. Cette intégration est possible car le surcoût dû à SELinux est
de l’ordre d’une µs par appel système. Même si le déport par Infiniband du moniteur PIGA amé-
liore les performances, des optimisations supplémentaires sont nécessaires pour passer en dessous
d’un surcoût de 5% pour les nœuds de calcul. C’est pour cela qu’il est nécessaire de travailler à
l’optimisation de PIGA.
Cela peut passer par la réécriture complète de la partie PIGA-UM pour qu’elle soit résidente
en espace noyau. Actuellement, la partie PIGA-UM est écrite en Java, qui est une technologie
consommatrice de ressources. En modifiant le code avec un langage moins consommateur, il serait
alors possible de co-localisé PIGA-UM sur un nœud client. De plus, comme nous l’avons présenté
au cours de notre étude, nous avons utilisé PIGA avec des politiques de sécurité extrêmement
génériques capable de couvrir un large ensemble de scénarios complets. Cette large couverture
n’est pas spécifique aux environnements HPC, il est donc nécessaire de travailler ces propriétés
pour qu’elles soient spécifiques à ces environnements. Grâce aux nouvelles propriétés, PIGA aurait
un plus petit nombre d’activités à surveiller et ces performances en seront améliorées.
Enfin, les compressions des signatures proposées dans [Clairet et al., 2012] devraient diminuer
de façon importante le temps de traitement et l’occupation mémoire.
Observateurs dans les systèmes répartis Nous avons commencé à mettre en place le mode de
redondance maître-esclave sur l’architecture que nous avons proposée dans le chapitre 4. Il est
nécessaire de poursuivre les travaux que nous avons commencés dans le but d’avoir un système
tolérant aux différentes pannes.
Nous avons concentré notre étude sur le mode distant pour le second observateur. Nous pouvons
maintenant orienter nos travaux sur les modes parallèles et partagés des observateurs, dans
un premier temps pour résoudre le problème de dimensionnement du mécanisme de protection, et
dans un second temps pour pouvoir corréler les requêtes reçues par le second observateur. En effet,
actuellement, le mode distant impose d’avoir une machine dédiée par observateur distant (dans
notre étude PIGA), ce qui pose un problème de dimensionnement de l’architecture de protection
puisque si nous voulons protéger 1 000 nœuds, il est nécessaire d’avoir 1 000 serveurs de sécurité
pour une localisation en mode distant. En travaillant sur les modes parallèles et partagés, nous
pourrions ainsi réduire le nombre de serveurs de sécurité utilisés dans notre architecture de protection.
De plus, il serait alors possible d’écrire des propriétés de sécurité adaptées aux systèmes
répartis.
Expérimentations à plus grande échelle de notre moniteur SEWINDOWS La première extension
pour les systèmes Windows serait la mise en place d’expérimentations à grande échelle pour
notre mécanisme de protection. Les objectifs seraient de corriger les limites de nos implantations,
de définir des politiques de plus en plus complètes ainsi que de connaître précisément l’impact sur
les performances du système.
1636.1. PERSPECTIVES
De plus, il serait intéressant de travailler sur les contextes de sécurité. Dans la version actuelle,
seuls les types et les domaines sont traités par notre moniteur, nous pourrions développer le
contrôle d’accès en nous basant sur les SID et sur les rôles.
Association des observateurs sur les systèmes Windows A partir des modèles que nous avons
définis dans le chapitre 3 de ce mémoire, il faudrait, par la suite, associer notre observateur avec
un autre observateur réalisant des calculs plus complexes. Au cours de notre étude, nous avons
réalisé cette composition de façon offline en rejouant les traces générées dans PIGA. Maintenant,
il faudrait les faire fonctionner tous les deux sur un même système.
De plus, les travaux que nous avons présentés sous Linux, visant à utiliser des technologies
du HPC pour déporter de manière efficace le second observateur, pourraient aussi être utilisés sur
les systèmes Windows. En effet, le proxy que nous avons développé est en mesure de réaliser les
mêmes actions que sur les systèmes Linux. Par extension, l’intégration de ce modèle de protection
pourrait être fait dans les architectures de cloud basées sur les technologies de Microsoft.
Extension de la répartition à d’autres systèmes d’exploitation Nous avons présenté la notion
d’observateur pour les systèmes Linux et Windows puis nous avons défini la notion de répartition.
Nous avons montré au cours de notre étude que nous pouvions appliquer ces deux notions sur ces
deux systèmes et dans des environnements hétérogènes. Nous pourrions maintenant étendre ces
notions à d’autres systèmes d’exploitation tels que les les systèmes Android et les OSX.
De plus, comme les systèmes Android ont pour base les systèmes Linux, nous pourrions dé-
ployer les deux observateurs que nous avons testés, à savoir SELinux et PIGA.
164Chapitre 7
Bibliographie
[ Alexander Kjeldaas, 1998] ALEXANDER KJELDAAS (1998). Linux Capability FAQ
v0.1. http://www.uwsg.indiana.edu/hypermail/linux/kernel/9808.1/
0178.html.
[Anderson, 1980] ANDERSON, J. (1980). Computer security threat monitoring and surveillance.
Rapport technique, James P. Anderson Company, Fort Washington, Pennsylvania.
[Anderson, 1972] ANDERSON, J. P. (1972). Computer Security technology planning study. Rapport
technique, Deputy for Command and Management System, USA.
[ANR, 2009] ANR (2009). Anr sec&si. http://www.agence-nationalerecherche.fr/programmes-de-recherche/appel-detail/programmesystemes-embarques-et-grandes-infrastructures-defi-securitesysteme-d-exploitation-cloisonne-et-securise-pour-linternaute-2008/.
[Bell et La Padula, 1973] BELL, D. E. et LA PADULA, L. J. (1973). Secure computer systems :
Mathematical foundations and model. Technical Report M74-244, The MITRE Corporation,
Bedford, MA.
[Biba, 1975] BIBA, K. J. (1975). Integrity considerations for secure computer systems. Technical
Report MTR-3153, The MITRE Corporation.
[Bishop, 2003] BISHOP, M. (2003). Computer Security Art and Science. Numéro ISBN
0201440997. Addison-Wesley Professional.
[Blanc, 2006] BLANC, M. (2006). Sécurité des systèmes d’exploitation répartis : architecture
décentralisée de méta-politique pour l’administration du contrôle d’accès obligatoire. These,
Université d’Orléans.
[Blanc et al., 2014] BLANC, M., BOUSQUET, A., BRIFFAUT, J., CLEVY, L., GROS, D., LEFRAY,
A., ROUZAUD-CORNABAS, J., TOINARD, C. et VENELLE, B. (2014). Mandatory access protection
within cloud systems. In NEPAL, S. et PATHAN, M., éditeurs : Security, Privacy and
Trust in Cloud Systems, pages 145–173. Springer Berlin Heidelberg.
[Blanc et al., 2011] BLANC, M., BRIFFAUT, J., TOINARD, C. et GROS, D. (2011). PIGA-HIPS :
Protection of a shared HPC cluster. International journal on advances in security, 4(1):44–53.
[Blanc et al., 2012] BLANC, M., GROS, D., BRIFFAUT, J. et TOINARD, C. (2012). PIGAWindows
: contrôle des flux d’information avancés sur les systèmes d’exploitation Windows
7. In MajecSTIC 2012, Villeneuve d’Ascq, France.
[Blanc et al., 2013a] BLANC, M., GROS, D., BRIFFAUT, J. et TOINARD, C. (2013a). Mandatory
access control with a multi-level reference monitor : PIGA-cluster. In ACM CLHS ’13 Procee-
165dings of the first workshop on Changing landscapes in HPC security, pages 1–8, New-York,
United States. ACM.
[Blanc et al., 2013b] BLANC, M., GROS, D., BRIFFAUT, J. et TOINARD, C. (2013b). PIGACluster
: a distributed architecture integrating a shared and resilient reference monitor to enforce
mandatory access control in the HPC environment. In SHPCS - 8th International Workshop on
Security and High Performance Computing Systems - 2013, Helsinki, Finland.
[Blanc et Lalande, 2012] BLANC, M. et LALANDE, J.-F. (2012). Improving Mandatory Access
Control for HPC clusters. Future Generation Computer Systems, pages –.
[Boebert et Kain, 1985] BOEBERT, W. E. et KAIN, R. Y. (1985). A practical alternative to hierarchical
integrity policies. In The 8th National Computer Security Conference, pages 18–27,
Gaithersburg, MD, USA.
[Briffaut, 2007] BRIFFAUT, J. (2007). Formalization and guaranty of system security properties :
application to the detection of intrusions. Thèse de doctorat, Université d’Orléans. SDS.
[Briffaut et al., 2009] BRIFFAUT, J., LALANDE, J.-F. et TOINARD, C. (2009). Formalization of
security properties : enforcement for MAC operating systems and verification of dynamic MAC
policies. International journal on advances in security, 2(4):325–343. ISSN : 1942-2636.
[Casey Schaufler , 2008] CASEY SCHAUFLER (2008). The Simplified Mandatory Access
Control Kernel . White Paper, pages 1–11.
[Clairet et al., 2012] CLAIRET, P., BERTHOMÉ, P. et BRIFFAUT, J. (2012). Compression de signatures
pour PIGA IDS. In ETIEN, A., éditeur : 9ème édition de la conférence MAnifestation
des JEunes Chercheurs en Sciences et Technologies de l’Information et de la Communication -
MajecSTIC 2012 (2012), Villeneuve d’Ascq, France. Nicolas Gouvy.
[Clark et Wilson, 1987] CLARK, D. D. et WILSON, D. R. (1987). A Comparison of Commercial
and Military Computer Security Policies. Proc. IEEE Symp. Computer Security and Privacy,
IEEE CS Press, pages 184–194.
[Corporation, 2003] CORPORATION, N. D. (2003). Tomoyo. http://tomoyo.
sourceforge.jp/index.html.en.
[Darivemula et al., 2006] DARIVEMULA, A., BOX, C., TIKOTEKAR, A. et POURZANDI, M.
(2006). Work in progress : Rass framework for a cluster-aware selinux. Cluster Computing
and the Grid, IEEE International Symposium on, 2:29.
[Ferraiolo et Kuhn, 1992] FERRAIOLO, D. F. et KUHN, D. R. (1992). Role-based access controls.
In 15th National Computer Security Conference, pages 554–563, Baltimore, MD, USA.
[Focardi et Gorrieri, 2001] FOCARDI, R. et GORRIERI, R. (2001). Classification of security properties
(part i : Information flow).
[Gros et al., 2012] GROS, D., TOINARD, C. et BRIFFAUT, J. (2012). Contrôle d’accès mandataire
pour Windows 7. In SSTIC 2012, pages 266–291, Rennes, France.
[Hagimont et J.Mossière, 1996] HAGIMONT, D. et J.MOSSIÈRE (1996). Problèmes de désignation,
de localisation et d’accès dans les systèmes répartis à objets . Rapport technique.
[Harrison et al., 1976] HARRISON, M. A., RUZZO, W. L. et ULLMAN, J. D. (1976). Protection in
operating systems. Communications of the ACM, 19(8):461–471.
[Hoglund et Butler, 2005] HOGLUND, G. et BUTLER, J. (2005). Rootkits : Subverting the Windows
Kernel. Addison-Wesley Professional.
[Hunt et Brubacher, 1999] HUNT, G. et BRUBACHER, D. (1999). Detours : Binary interception
of win32 functions. In Proceedings of the 3rd Conference on USENIX Windows NT Symposium
- Volume 3, WINSYM’99, pages 14–14, Berkeley, CA, USA. USENIX Association.
166[ITSEC, 1991] ITSEC (1991). Information Technology Security Evaluation Criteria (ITSEC)
v1.2. Technical report.
[Labs, 2005] LABS, C. (2005). Core force user’s guide. pages 1–2.
[Lampson, 1969] LAMPSON, B. W. (1969). Dynamic protection structures. In AFIPS Fall Joint
Computer Conference (FJCC 1969), volume 35, pages 27–38, Las Vegas, Nevada, USA. AFIPS
Press.
[Lampson, 1971] LAMPSON, B. W. (1971). Protection. In The 5th Symposium on Information
Sciences and Systems, pages 437–443, Princeton University.
[Lampson, 1973] LAMPSON, B. W. (1973). A note on the confinement problem. Commun. ACM,
16(10):613–615.
[Leangsuksun et Haddad, 2004] LEANGSUKSUN, C. et HADDAD, I. (2004). Building highly available
hpc clusters with ha-oscar. In Cluster Computing, 2004 IEEE International Conference
on, page 2.
[Leangsuksun et al., 2005] LEANGSUKSUN, C., TIKOTEKAR, A., POURZANDI, M. et HADDAD,
I. (2005). Feasibility study and early experimental results towards cluster survivability. In
Proceedings of the Fifth IEEE International Symposium on Cluster Computing and the Grid -
Volume 01, CCGRID ’05, pages 77–81, Washington, DC, USA. IEEE Computer Society.
[M. Fox et Thomas, 2003] M. FOX, J. Giordano, L. S. et THOMAS, A. (2003). Selinux and grsecurity
: a side-by-side comparison of mandatory access control and access control list implementations.
Rapport technique.
[McAfee, 2013] MCAFEE (2013). ZeroAccess Rootkity. Rapport technique, McAfee.
[Microsoft, 2009] MICROSOFT (2009). Applocker. http://technet.microsoft.com/
en-us/library/dd759117.aspx.
[Microsoft, 2013] MICROSOFT (2013). Windows integrity mechanism design. In The Microsoft
Developper Network.
[Naldurg et al., 2006] NALDURG, P., SCHWOON, S., RAJAMANI, S. et LAMBERT, J. (2006). Netra
: : seeing through access control. In FMSE ’06 : Proceedings of the fourth ACM workshop
on Formal methods in security, pages 55–66, New York, NY, USA. ACM.
[OASIS, 2013] OASIS (2013). Xacml. https://www.oasis-open.org/committees/
tc_home.php?wg_abbrev=xacml.
[Pourzandi et al., 2002] POURZANDI, M., HADDAD, I., LEVERT, C., ZAKRZEWSKI, M. et DAGENAIS,
M. (2002). A distributed security infrastructure for carrier class linux clusters.
[Richard Ward, 2006] RICHARD WARD, Jeffrey Hamblin, P. B. (2006). Mandatory integrity
control.
[Rouzaud-Cornabas, 2010] ROUZAUD-CORNABAS, J. (2010). Formalisation de propriétés de
sécurité pour la protection des systèmes d’exploitation. Thèse de doctorat.
[Saltzer et Schroeder, 1975] SALTZER, J. et SCHROEDER, M. (1975). The protection of information
in computer systems. Proceedings of the IEEE, 63(9):1278 – 1308.
[Sandhu, 1988] SANDHU, R. S. (1988). The schematic protection model : Its definition and analysis
for acyclic attenuating schemes. Journal of the ACM, 35(2):404–432.
[Sandhu, 1992] SANDHU, R. S. (1992). The Typed Access Matrix Model. In Proceedings of the
IEEE Symposium on Research in Security and Privacy, pages 122–136, Oakland, CA, USA.
IEEE.
[Sandhu et al., 1996] SANDHU, R. S., COYNE, E. J., FEINSTEIN, H. L. et YOUMAN, C. E. (1996).
Role-based access control models. Computer, 29:38–47.
167[Soshi et al., 2004] SOSHI, M., MAEKAWA, M. et OKAMOTO, E. (2004). The dynamic-typed
access matrix model and decidability of the safety problem. IEICE Transactions, 87-A(1):190–
203.
[Spencer et al., 1998] SPENCER, R., SMALLEY, S., LOSCOCCO, P., (national SECURITY
AGENCY), P. L., HIBLER, M., LEPREAU, J. et ANDERSEN, D. (1998). The flask
security architecture : System support for diverse security policies. In in Proceedings of The
Eighth USENIX Security Symposium, pages 123–139.
[Spender, 2003] SPENDER (2003). Grsecurity feature. https://grsecurity.net/
features.php.
[Spengler, 2002] SPENGLER, B. (2002). Detection, prevention, and containment : A study of
grsecurity. In In Libre Software Meeting 2002 (LSM2002), Bordeaux, France.
[Takeda, 2009] TAKEDA, K. (2009). Tomoyo linux overview. security mini-conf.
[TCSEC, 1985] TCSEC (1985). Trusted Computer System Evaluation Criteria. Technical Report
DoD 5200.28-STD, Department of Defense.
[Team, 2012] TEAM, P. (2012). 20 Years of PaX. pages 1–20, Rennes, France. SSTIC 2012.
[Wang et al., 2008] WANG, X., LI, Z., LI, N. et CHOI, J. Y. (2008). Precip : Towards practical
and retrofittable confidential information protection. In In 16th Annual Network and Distributed
System Security Symposium.
[Wright et al., 2002] WRIGHT, C., COWAN, C., SMALLEY, S., MORRIS, J. et KROAHHARTMAN,
G. (2002). Linux security modules : General security support for the linux kernel.
In Proceedings of the 11th USENIX Security Symposium, pages 17–31, Berkeley, CA, USA.
USENIX Association.
168Première partie
Annexes
169Annexe A
Configuration pour le logiciel linpack
et utilisation
✞ ☎
1 HPLinpack benchmark input file
2 Innovative Computing Laboratory, University of Tennessee
3 HPL.out output file name (if any)
4 6 device out (6=stdout,7=stderr,file)
5 1 # of problems sizes (N)
6 26752 Ns
7 1 # of NBs
8 128 NBs
9 0 PMAP process mapping (0=Row-,1=Column-major)
10 1 # of process grids (P x Q)
11 2 Ps
12 4 Qs
13 16.0 threshold
14 3 # of panel fact
15 0 1 2 PFACTs (0=left, 1=Crout, 2=Right)
16 2 # of recursive stopping criterium
17 2 4 NBMINs (>= 1)
18 1 # of panels in recursion
19 2 NDIVs
20 3 # of recursive panel fact.
21 0 1 2 RFACTs (0=left, 1=Crout, 2=Right)
22 1 # of broadcast
23 0 BCASTs (0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM)
24 1 # of lookahead depth
25 0 DEPTHs (>=0)
26 2 SWAP (0=bin-exch,1=long,2=mix)
27 64 swapping threshold
28 0 L1 in (0=transposed,1=no-transposed) form
29 0 U in (0=transposed,1=no-transposed) form
30 1 Equilibration (0=no,1=yes)
31 8 memory alignment in double (> 0)
✝ ✆
Listing A.1 – Fichier de configuration pour le logiciel linpack
171172Annexe B
Code utilisé pour la réalisation des tests
de performances
✞ ☎
1 #include
2 #include
3 #include
4 #include
5 #include
6
7 int main(){
8 struct timespec t1,t2;
9 FILE * file =NULL;
10 char buffer[42];
11 char fichier[102];
12
13 while(1)
14 {
15 bzero(buffer, sizeof(buffer));
16 bzero(fichier, sizeof(fichier));
17 srand(time(NULL));
18
19 clock_gettime(CLOCK_MONOTONIC, &t1);
20
21 file = fopen("/dev/urandom", "rb+");
22 if(file ==NULL) exit(-1);
23
24 fread(buffer, sizeof(buffer),1,file);
25 fclose(file);
26
27 strcat(fichier,"/local/test/");
28 sprintf(fichier,"%s%i", fichier,rand());
29 sprintf(fichier,"%s%li", fichier,t1.tv_nsec);
30 sprintf(fichier,"%s%i", fichier,rand());
31
32 file =NULL;
33 file =fopen(fichier, "wb+");
34 if(file == NULL) exit(-6);
35
36 fwrite(buffer, sizeof(buffer), 1, file);
37 fclose(file);
38
39 clock_gettime(CLOCK_MONOTONIC, &t2);
40 printf("time : %li.%li\n", t1.tv_sec, t1.tv_nsec);
41 printf("time : %li.%li\n", t2.tv_sec, t2.tv_nsec);
42 }
43 return 1;
44 }
✝ ✆
Listing B.1 – Code utilisé pour les tests de performances
173174Annexe C
Les techniques de détournements
Il existe plusieurs techniques pour détourner les appels système sur les systèmes Windows.
Ces techniques sont dangereuses car elle peuvent endommager le système en générant des BSOD
(Blue Screen of Death), c’est-à-dire que le noyau crashe, et ainsi rendre le système complètement
instable ce qui rend ces techniques illégitimes. Il existe cependant des techniques de détournement
légitimes, c’est-à-dire qu’elles sont nativement intégrées au système. Nous détaillerons dans cette
partie trois techniques spécifiques. Nous avons choisi ces techniques car ce sont les plus connues
et les plus utilisées à ce jour. Ces trois techniques sont des techniques destinées à être utilisées en
espace noyau. Il existe d’autres techniques en espace utilisateur, mais leur efficacité ainsi que leur
portée sur le système n’est pas la même.
C.1 Détournement de la table des appels système
La première technique est le détournement de la table des appels système. Cette méthode est
apparue sur les systèmes Windows avec les premiers rootkits nommés rustock 1
.
Avantages et portée Cette première technique est plutôt simple à mettre en place avec une
grande portée puisque toutes les applications utilisent la table des appels système pour réaliser
une action sur le système. Elle gère les accès au système de fichiers, les accès au registre, les
actions entre les processus comme la création de pipe nommé mais aussi les accès réseau.
L’un des principaux avantages de cette technique est qu’elle est maintenant assez documentée.
On peut par exemple retrouver les explications techniques pour la mettre en œuvre dans le
livre [Hoglund et Butler, 2005]. De plus, lorsqu’elle est correctement mise en place, elle peut permettre
l’empilement des logiciels de sécurité, c’est-à-dire que plusieurs driver peuvent détourner
les mêmes appels système sans pour autant nuire à la sécurité du système ou à sa stabilité. Le second
avantage de cette méthode est la possibilité de réaliser des contrôles en post-traitement mais
aussi en prétraitement. En effet, lorsqu’une fonction est détournée de la table des appels système,
elle est exécutée directement par le driver si l’exécution est autorisée. Mais dans ce cas, c’est aussi
le driver qui récupère le retour de la fonction. Il peut ainsi réaliser un nouveau contrôle.
Cette méthode de détournement des appels système permet de contrôler toutes les actions sur
le système réalisées par des applications mais pas les driver qui résident en espace noyau et qui
n’utilisent pas cette table pour réaliser des actions sur le système.
1. rustock : https://www.securelist.com/en/analysis/204792011/Rustock_and_All_
That
175C.2. INLINE HOOK
Limites et légitimité Cette technique modifie la mémoire du noyau, c’est-à-dire que les modifications
ne sont pas pérennes et ne résistent pas à un redémarrage. Il est donc nécessaire de
recommencer l’opération de détournement à chaque démarrage du système. Cette technique a été
énormément utilisée par les logiciels de sécurité comme les antivirus ou les pare-feux sur les systèmes
Windows XP. Même si cette technique a été utilisée par les éditeurs de logiciels de sécurité,
elle n’est pas recommandée par Microsoft. En effet, une mauvaise gestion des détournements entraîne
la génération de BSOD.
De plus, pour contrôler toutes les actions sur le système, il est nécessaire de détourner un par
un tous les appels système, opération qui peut se révéler très longue. Par exemple, sur un Windows
7, on trouve plus de 400 appels système alors qu’il n’y en a que 200 sur Windows XP. Cela nous
amène à une première limite de cette technique : la portabilité entre les différentes versions de
Windows. A chaque nouvelle version de Windows, la table des appels système est modifiée, il faut
donc refaire le détournement pour chaque nouveau Windows. De plus, le traitement de chaque
fonction peut être différent entre les versions de Windows puisque les paramètres des fonctions ne
sont pas toujours les mêmes.
Certains logiciels de sécurité détournent certains appels système dans le but de protéger leur
application. Ce détournement a pour but de contrôler la terminaison des processus et ainsi protéger
leurs processus et autres services d’un kill provenant d’un processus non autorisé à le faire. Il
existe néanmoins des techniques contournant les protections 2 mises en place au niveau de la table
des appels système. Il devient ainsi possible de tuer les processus protégés par ces détournements.
Enfin, depuis Windows Vista en version 64 bits et sur les versions supérieures de Windows,
la table des appels système est protégée par le mécanisme appelé Kernel Patch Protection 3
. Cette
protection empêche tout driver de modifier cette table. Donc la technique de détournement de la
table des appels système n’est pas portable sur les systèmes Windows 64 bits supérieurs à Windows
Vista. Il faut noter que certaines personnes ont pu réaliser ces modifications mais en désactivant
le Kernel Patch Protection, ce qui revient à désactiver un mécanisme de sécurité essentiel aux
nouvelles versions de Windows.
Pour que le contrôle réalisé par l’observateur soit efficace, il est nécessaire de contrôler le chargement
de tous les driver, puisqu’un driver pourrait supprimer ces détournements, et de vérifier
constamment que :
— la table des appels système possède toujours les modifications faites par le driver;
— qu’aucun driver malveillant ne soit chargé.
C.2 Inline Hook
Le seconde technique pour détourner les appels système est appelée inline hook. A la diffé-
rence de la modification de la table des appels système qui n’est réalisable qu’en espace noyau,
l’inline hook est une technique qui s’applique à n’importe quelle fonction et peut être réalisée en
espace utilisateur tout comme en espace noyau.
Avantages et portée Grâce à l’utilisation des frameworks, Microsoft Research ou easyhook, le
travail de détournement est grandement facilité et la portabilité entre les différentes versions de
Windows est assurée.
Depuis les systèmes Windows XP, le junk code des fonctions de l’API Win32 a été normalisé
par Microsoft. Ainsi, il n’est plus nécessaire de "rechercher" l’emplacement libre en début de
fonction pour placer le saut inconditionnel.
2. http://www.kernelmode.info/forum/viewtopic.php?f=11&t=1878
3. http://blogs.msdn.com/b/windowsvistasecurity/archive/2006/08/11/695993.
aspx
176C.3. FILTER-DRIVER
En modifiant toutes les fonctions du noyau, il est possible de contrôler toute l’activité du
système, même des driver qui résident en espace noyau, à condition qu’ils utilisent les fonctions
du noyau.
Limites et légitimité Le fait d’introduire un junk code en début de fonction est une réalisation
de Microsoft pour justement permettre le hot-patching. On peut donc considérer que ces techniques
sont autorisées par Microsoft, qui fournit à la fois l’espace nécessaire pour placer un saut
inconditionnel mais aussi un framework facilitant le déploiement de cette technique.
Pour pouvoir modifier les fonctions du noyau, il est nécessaire de désactiver Kernel Patch
Protection car il vérifie aussi l’intégrité des fonctions. En désactivant ce mécanisme de sécurité, la
signature des driver qui sont chargés ne sera plus vérifiée, ce qui peut conduire au chargement de
driver malveillant.
De plus, on se retrouve avec les mêmes inconvénients qu’avec la technique modifiant la table
des appels système. Il faut en effet modifier chaque fonction pour contrôler de manière globale le
système. Cette méthode ne se limitant pas qu’aux appels système cette technique devient extrêmement
contraignante à mettre en place.
Enfin, la modification des fonctions implique de connaître parfaitement leur fonctionnement.
Or, certaines fonctions ne sont pas documentées et peuvent être modifiées par Microsoft, que ce
soit dans leur prototypage ou dans leur fonctionnement.
C.3 Filter-driver
La troisième technique que nous décrivons se base sur les filter-driver. Elle se base sur une architecture
spécifique mise en place par Microsoft pour réaliser des contrôles sur les entrées/sorties
au niveau du système de fichiers.
Avantages et portée Les filter-driver reposent sur un système entièrement normalisé et documenté
par Microsoft. En plus de fonctionner sur toutes les architectures classiques, Microsoft
s’engage à assurer la portabilité des fonctions de l’API qu’il propose. Ainsi, un filter-driver fonctionnant
sur Windows XP fonctionne aussi sur Windows 7 ainsi que sur les différentes architectures
32 et 64 bits.
Un filter-driver ne gère que les accès au système de fichiers, mais grâce à l’utilisation des IRP,
qui regroupent des classes d’action, il est possible de contrôler non seulement les applications mais
aussi les autres driver qui réalisent des opérations sur le système de fichiers. Il est ainsi possible
de contrôler l’ensemble du système sans pour autant devoir modifier toutes les fonctions.
Limites et légitimité Comme c’est un mécanisme entièrement documenté et décrit par Microsoft,
c’est le système qu’il faut utiliser pour détourner le flux d’exécution du système. Comme les
appels système sont contenus dans les IRP, on ne détourne plus directement les appels système,
mais une classe d’appel système.
Comme nous l’avons expliqué, le modèle des filter-driver repose sur des couches de driver.
Ils sont représentés comme un empilement de driver. Cela signifie que potentiellement, le driver
précédent dans l’opération, que ce soit en prétraitement ou en post-traitement, peut modifier les
informations de l’IRP sans que le filter-driver ne puisse le savoir. Il faut donc contrôler les driver
autorisés à se charger dans la couche de driver.
177Damien GROS
Protection obligatoire répartie
La thèse porte sur deux enjeux importants de sécurité. Le premier concerne l’amélioration de la
sécurité des systèmes Linux présents dans le calcul intensif et le second la protection des postes
de travail Windows. Elle propose une méthode commune pour l’observation des appels système et
la répartition d’observateurs afin de renforcer la sécurité et mesurer les performances obtenues.
Elle vise des observateurs du type moniteur de référence afin de garantir de la confidentialité et de
l’intégrité. Une solution utilisant une méthode de calcul intensif est mise en œuvre pour réduire les
surcoûts de communication entre les deux moniteurs de référence SELinux et PIGA. L’évaluation
des performances montre les surcoûts engendrés par les moniteurs répartis et analyse la faisabilité
pour les différents noeuds d’environnements de calcul intensif. Concernant la sécurité des postes
de travail, un moniteur de référence est proposé pour Windows. Il repose sur les meilleures
protections obligatoires issues des systèmes Linux et simplifie l’administration. Nous présentons
une utilisation de ce nouveau moniteur pour analyser le fonctionnement de logiciels malveillants.
L’analyse permet une protection avancée qui contrôle l’ensemble du scénario d’attaque de façon
optimiste. Ainsi, la sécurité est renforcée sans nuire aux activités légitimes.
Mots clés : sécurité, contrôle d’accès obligatoire, systèmes d’exploitation, logiciels malveillants,
poste de travail, calcul intensif
Distributed mandatory protection
This thesis deals with two major issues in the computer security field. The first is enhancing
the security of Linux systems for scientific computation, the second is the protection of Windows
workstations. In order to strengthen the security and measure the performances, we offer a common
method for the distributed observation of system calls. It relies on reference monitors to ensure
confidentiality and integrity. Our solution uses specific high performance computing technologies to
lower the communication latencies between the SELinux and PIGA monitors. Benchmarks study
the integration of these distributed monitors in the scientific computation. Regarding workstation
security, we propose a new reference monitor implementing state of the art protection models from
Linux and simplifying administration. We present how to use our monitor to analyze the behavior of
malware. This analysis enables an advanced protection to prevent attack scenarii in an optimistic
manner. Thus, security is enforced while allowing legitimate activities.
Keywords : security, mandatory access control, operating systems, malware, workstation, high performance
computing
Laboratoire d’Informatique
Fondamentale d’Orléans
Bâtiment IIIA Rue Léonard de Vinci
B.P. 6759
F-45067 ORLEANS Cedex 2
CEA/DAM/DIF
Bruyères-le-Châtel
91297 Arpajon Cedex
M´ethodes et structures non locales pour la restauration
d’images et de surfaces 3D
Guillemot Thierry
To cite this version:
Guillemot Thierry. M´ethodes et structures non locales pour la restauration d’images et de
surfaces 3D. Signal and Image Processing. Telecom ParisTech, 2014. French.
HAL Id: tel-01022843
https://tel.archives-ouvertes.fr/tel-01022843
Submitted on 16 Jul 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.T
H
È
S
E
EDITE - ED130 2014-ENST-0006
Doctorat ParisTech
T H È S E
pour obtenir le grade de docteur délivré par
Télécom ParisTech
Spécialité : Signal et Images
Présentée et soutenue publiquement par
Thierry GUILLEMOT
le 3 Février 2014
Méthodes et structures non locales
pour la restauration d’images
et de surfaces 3D
Jury :
Mme. Julie DELON, Professeur, Université Paris Descartes Présidente
M. Pierre ALLIEZ, Directeur de recherche, Inria Sophia-Antipolis Rapporteur
M. Jean-Michel MOREL, Professeur, CMLA, Ecole Normale Supérieure de Cachan Rapporteur
M. Cyril CRASSIN, Chercheur, Nvidia Examinateur
Mme Pooran MEMARI, Chargé de Recherche, CNRS-LTCI, Télécom ParisTech Examinatrice
M. Andrés ALMANSA, Chargé de Recherche, CNRS-LTCI, Télécom ParisTech Directeur
M. Tamy BOUBEKEUR, Professeur, CNRS-LTCI, Télécom ParisTech Directeur
TELECOM ParisTech
École de l’Institut Mines-Télécom - Membre de ParisTech
46 rue Barrault 75013 Paris - (+33) 1 45 81 77 77 - www.telecom-paristech.frRemerciements
Tout d’abord, je tiens à remercier mes directeurs de thèse Andrès Almansa et Tamy
Boubekeur pour leurs qualités pédagogique, scientifique mais surtout humaine. Grâce à
eux, j’ai pu découvrir le monde de la recherche, apprendre beaucoup sur le traitement des
images et des données 3D. Leur soutien, gentillesse et optimisme m’ont permis de travailler
dans un cadre idéal pour réaliser ce doctorat.
Je remercie les membres du Jury, Pierre Alliez, Jean-Michel Morel, Cyril Crassin, Julie Delon
et Pooran Memari d’avoir accepté d’évaluer mon travail ainsi que pour leurs remarques
et conseils.
Mais que serait une thèse sans les soutiens de ces collègues devenus des amis au fils des
années ? Je pense ici aux amis du bureau C07 (ou "Bureau Link") : Baptiste et Cécilia
soutiens infaillibles depuis les premiers jours de stage, Alasdair pour sa touche anglaise et
son optimisme, Yann pour la sagesse de l’ancien et son goût de la bonne bière et Guillaume
pour sa gloutonnerie et ces blagues qui ne font rire que lui (et Alasdair). Je pense également
aux autres collègues de TSI, les sages Noura et Jean-Marc pour leurs innombrables conseils
et soirées improvisées, Charline, Emilie et Loredana pour leur inflexible bonne humeur,
Guillaume pour ses remotivations ludiques, Edoardo pour son amour de la cuisine, David
pour son amour de la bière, Joseph pour sa passion des débats, Julien pour son accent
américain, Pooran pour sa gentillesse, ainsi que tous les autres Malik, Hélène, Stéphane,
Flora, Sonia, Flora, Beibei, Leila, Mathias et Bert pour leurs discussions et conseils.
Je souhaite également remercier les anciens collègues pour m’avoir acceuilli dans les premiers
jours de thèse : Charles, Vincent et plus particulièrement Benoit pour son humour,
sa passion du monde ludique, son immense culture... et ses talents d’improvisation. Je voudrais
aussi remercier Andrés, Tamy, Isabelle, Yann, Julie, Florence et Michel pour m’avoir
donné l’envie de faire une thèse quand j’étais étudiant et pour leur accueil au laboratoire
TSI.
Avant de terminer, je voudrais exprimer ma gratitude à tous mes amis. Les plus Vieux :
Ludovic, Tom, Fabien, Sandrine et Mylène, les plus Récents : Cédric, Marine, Sophie et
Valérie, les plus Toulousains : Delphine et Manu, les plus Anglais : Terry, Cécile et Laurie,
les plus Théatreux : Marie, Cyril, Anne, Benoit, Florian, Bianka, Emmanuelle, Alban et
Sophie et les plus Télécommiens : Alexis, Romane, Rémi, Chloé, Laure et Morgane qui
ont toujours été là pour moi, même dans les moments les plus difficiles.
Je voudrais terminer ces remerciements en exprimant ma gratitude à mes proches : mon
père, ma mère et mes deux soeurs Karine et Coralie qui m’ont toujours encouragé, aidé
et soutenu pendant toutes ces années. A vous tous, sans qui rien de tout cela n’aurait été
possible, merci !
Je dédie cette thèse à mes neuveux et nièces à qui je souhaite d’avoir autant de soutien,
d’aide et d’encouragement que ce que j’ai pu avoir jusqu’à présent pour réussir ce qu’ils
entreprendront.
iTable des matières
Table des matières iii
1 Introduction 1
1.1 Contextes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Du Local au Non Local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Méthodes de restauration locales . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Méthodes de restauration non locales . . . . . . . . . . . . . . . . . . 4
1.3 Problématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Organisation de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6 Prix et Publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Tour d’horizon des méthodes de restauration non locales 7
2.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Filtres à moyennes non locales . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Formulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Limitations et améliorations des NL-Means . . . . . . . . . . . . . . 12
2.3 Filtres 3D non locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1 Filtres surfaciques non locaux . . . . . . . . . . . . . . . . . . . . . . 15
2.3.2 Filtres non locaux de nuage de points . . . . . . . . . . . . . . . . . 15
2.3.3 Limitations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Filtres collaboratifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 Méthodes de restauration collaboratives . . . . . . . . . . . . . . . . 18
2.4.3 Généralisation des filtres collaboratifs . . . . . . . . . . . . . . . . . 19
3 Surface de points non locale 21
3.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.1 Acquisition 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.2 Travaux existants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.3 Généralisation des PSS . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.4 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Surfaces de points non locales . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1 Principe général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.2 Carte de déplacement . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.3 Fonction de pondération . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.4 Opérateur de projection non local . . . . . . . . . . . . . . . . . . . 29
3.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.1 Détails d’implémentation et performance . . . . . . . . . . . . . . . 30
3.3.2 Analyse des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.3 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
iiiiv
3.3.4 Analyse de la qualité de la surface . . . . . . . . . . . . . . . . . . . 42
3.3.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4 Limitation et possibles améliorations . . . . . . . . . . . . . . . . . . . . . . 47
4 Arbre de covariances 51
4.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1 Filtrage à hautes dimensions . . . . . . . . . . . . . . . . . . . . . . 51
4.1.2 Travaux existants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.1.3 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Arbre de Covariance Simplifié . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.2 Construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.3 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.4 Requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3 Généralisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.2 CovTree généralisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.3.3 Algorithme généralisé . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4 Analyse et temps de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4.1 Complexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.4.2 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5 Limitations et possibles améliorations . . . . . . . . . . . . . . . . . . . . . 72
5 Filtrage collaboratif généralisé 75
5.1 Débruitage d’images par filtre collaboratif . . . . . . . . . . . . . . . . . . . 75
5.1.1 Non Local Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1.2 Débruitage d’images par CovTree . . . . . . . . . . . . . . . . . . . . 78
5.1.3 Analyse des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.1.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2 Restauration par dictionnaires . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.1 Principe général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2.2 Débruitage d’images . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.2.3 Reconstruction d’image échantillonnée aléatoirement . . . . . . . . . 92
5.2.4 Limitations et possibles améliorations . . . . . . . . . . . . . . . . . 93
5.3 Restauration de surface 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.1 Positionnement du problème . . . . . . . . . . . . . . . . . . . . . . 94
5.3.2 Surface de points par NLB . . . . . . . . . . . . . . . . . . . . . . . 95
5.3.3 Restauration de surface par dictionnaire . . . . . . . . . . . . . . . . 96
6 Conclusion 99
7 Perspectives 101
Bibliographie 103C h a p i t r e 1
Introduction
1.1 Contextes
Les technologies à base de semi-conducteurs ont évolué de façon significative au début
des années 90 et ont permis l’arrivée de nouveaux systèmes d’acquisition numérique. Cependant,
leur qualité de capture était à l’origine trop limitée par rapport aux systèmes
analogiques. L’augmentation de la résolution des capteurs est donc rapidement devenue
un enjeu crucial de cette décennie. C’est à cette époque qu’apparaissent les premiers appareils
photographiques entièrement numériques : les pellicules et leur développement sont
respectivement remplacées par des cartes de stockages réutilisables et des impressions instantanées.
Les appareils numériques réussissent ainsi à s’imposer progressivement face aux
analogiques.
Les précédentes avancées ont permis le développement d’autres techniques dans des domaines
différents de la photographie. De nouveaux systèmes de capture ont ainsi émergés
tels que les scanners 3D. Les systèmes de capture 3D classiques, estimant la profondeur
par contact, sont ainsi améliorés par l’utilisation de capteurs CCD et de Laser. Ce nouveau
type de scanner est particulièrement employé dans des domaines tels que la conservation
du patrimoine (par ex. project Michelangelo - Figure 1.1) où il est nécessaire de numériser
des objets sans qu’ils ne subissent de détériorations. Cependant la nature des données
3D diffère de celle des images 2D. Des outils spécifiques à leur traitement ont donc été
introduits et définissent ainsi les toutes premières chaines d’acquisition 3D.
À la fin des années 90, les capteurs numériques réussissent à atteindre des résolutions équivalentes
ou supérieures à celles obtenues par des systèmes classiques. Malheureusement,
l’utilisation des appareils numériques reste réservée à une élite. Ce phénomène peut être
expliqué par plusieurs facteurs : un prix d’achat trop élevé, et des systèmes de capture
qui ne sont généralement pas adaptés aux besoins du grand public (difficulté d’utilisation,
encombrement, poids élevé, etc.). Ainsi, l’adaptation des systèmes d’acquisition numérique
à ces besoins est devenu l’enjeu principal des années 2000.
Cette démocratisation est particulièrement visible avec l’apparition des appareils photos
compacts. L’utilisation de nouveaux algorithmes de gestion automatique des paramètres
intrinsèques (focus, ouverture, balance des blancs, etc.) les rendent facile d’utilisation pour
les non-connaisseurs. La photographie numérique devient donc accessible à tous à partir
12
Figure 1.1: Résultat du projet Michelangelo : Gauche : numérisation 3D sans détérioration
utilisant des capteurs CCD et Laser. Droite : comparaison entre la statue réelle et le
résultat 3D obtenu. Les images proviennent de [LPC+00]
du début des années 2000. À partir de là, de nombreux constructeurs se sont mis à dé-
velopper des appareils de plus en plus performants à des prix toujours plus bas afin de
mieux satisfaire les demandes de ces nouveaux utilisateurs. Au milieu des années 2000,
de nouvelles avancées technologiques permettent de produire des capteurs miniaturisés à
l’extrême pour des coûts dérisoires. Désormais plus petits qu’une pièce de monnaie, ils
se retrouvent rapidement intégrés aux téléphones portables et bouleversent par la même
occasion les habitudes d’utilisation du grand public. La résolution et les performances de
capture (zoom, iso etc.) deviennent progressivement des arguments de vente incontournables.
Pendant ces années 2000, les systèmes de captures 3D ne cessent d’évoluer. De nouveaux
types de capteurs font leur apparition en proposant l’exploitation de plusieurs images
par stéréovision, la projection de motifs connus par lumière structurée, l’analyse du focus
d’un appareil photo ou, plus récemment, les capteurs plénoptiques. Pendant cette période,
l’utilisation des capteurs 3D se généralise à de nombreux domaines tels que le cinéma, les
jeux vidéo, la robotique, l’automobile, etc. . Durant plusieurs années, l’utilisation de ces
scanners 3D reste néanmoins réservée à un public restreint. Ce n’est qu’à partir du début
des années 2010 que les capteurs 3D grand public sont démocratisés par l’industrie des jeux
vidéos (par ex. Microsoft Kinect). Grâce à leur faible prix, il devient facile d’acquérir des
données 3D. Cela permet d’attirer de nouveaux utilisateurs et d’élargir les types d’usage
de ces données.
À l’heure actuelle, la démocratisation des capteurs numériques est telle, qu’en France, des
millions d’appareils photos numériques sont vendus chaque année, environ la moitié de
la population possède un capteur photo sur son téléphone (smartphone) et environ un
million de personnes possèdent une Kinect. Ainsi, chaque jour, une quantité astronomique
de données 2D et 3D est ainsi générée à travers le monde. Avec l’essor des réseaux de communications
et avec l’apparition des smartphones, une grande partie de cette information
se retrouve partagée avec le reste du monde. En guise d’exemple, des dizaines de milliards
de photos sont échangées chaque année sur l’un des principaux réseaux sociaux actuels
(Facebook).
Désormais, la majorité des systèmes d’acquisition numérique modernes sont connectés
aux réseaux de communications (3G, 4G en préparation, etc.). Ils peuvent donc trans-1.2. DU LOCAL AU NON LOCAL 3
Restauration locale Restauration non locale Restauration par base de données
Figure 1.2: Illustration des différentes méthodes de restauration. Nous représentons en
rouge le voisinage retenu.
mettre très facilement l’information acquise. Aujourd’hui, ces données partagées restent
néanmoins difficilement exploitables par les machines de calculs modernes (ordinateur
personnel, smartphone, etc.) dans la mesure où elles ne disposent pas d’une capacité de
mémoire suffisante pour pouvoir les gérer. Ainsi, les différentes évolutions récentes laissent
à penser que cette exploitation sera le nouveau challenge de ces années 2010.
Cette thèse s’inscrit au cœur de cette évolution en proposant quelques éléments de réponse
à l’un des enjeux technologiques des années 2010, à savoir : la capture, transmission et
traitements de masses de données 2D et 3D. Après cette brève introduction sur l’historique
de la capture numérique, nous introduisons les enjeux de la restauration moderne.
1.2 Du Local au Non Local
Durant ces dernières années, les technologies d’acquisition numériques n’ont cessées de
se perfectionner. Ces différentes évolutions ont donc permis l’apparition de capteurs miniaturisés,
économes en énergie et surtout capables d’acquérir des données avec une qualité
toujours plus fine. Malgré ces différentes améliorations, les capteurs restent sujet à
des perturbations (tel que bruit électronique, résonance magnétique, etc.). Ces problèmes
électroniques ajoutés aux contraintes d’acquisition (distorsions, effets de masquage, etc.)
viennent perturber la capture entrainant l’apparition de défauts tels que du bruit, des
points parasites, des trous dans les données acquises, etc.
Ces imperfections sont inhérentes à toute technologie de capture et ne peuvent pas être
corrigées matériellement. Elles nécessitent donc un traitement logiciel particulier. Ainsi,
en même temps que l’apparition des tout premiers capteurs numériques dès le début des
années 90 apparaissent les premières méthodes de restauration telles que le débruitage, la
reconstruction, le suréchantillonnage, etc.
1.2.1 Méthodes de restauration locales
Jusqu’au milieu des années 2000, ces approches s’appuient uniquement sur un traitement
local des données (Figure 1.2). Dans le cadre du traitement des images, cette localité
s’exprime de deux manières différentes :4
Durant les années 90, la puissance de calcul et la capacité de stockage en mémoire restant
limitées, seul des filtres simples pouvaient être évalués. Ainsi, le support du filtre a été
restreint à un support local : un pixel est filtré par rapport aux pixels appartenant à un
voisinage local. C’est à cette époque que sont introduits les filtres par minimisation de la
variation totale, bilatéraux, etc..
Avant le milieu des années 2000, les réseaux de communications ne permettent pas d’échanger
une quantité de donnée importante. Ainsi, les approches de restauration sont réduites
à l’utilisation d’une seule image : un pixel est filtré à partir de l’information contenue dans
l’image à filtrer.
1.2.2 Méthodes de restauration non locales
À partir du milieu des années 2000, les performances de calcul et la quantité de mémoire
présentes sur les ordinateurs ont suffisamment évolué pour que les limitations locales pré-
cédentes soient supprimées.
Dans un premier temps, les méthodes non locales proposent d’étendre le support local
du filtre de restauration à l’ensemble de l’image en faisant l’hypothèse que les données
acquises sont autosimilaires (Figure 1.2). Ainsi, l’information détériorée est restaurée en
utilisant des données similaires présentes en d’autres endroits de l’image. Face à leur
succès en traitement des images, ces méthodes sont progressivement étendues au cas 3D
où l’hypothèse d’autosimilarité peut être supposée de manière équivalente.
Dans un deuxième temps, de nouvelles méthodes plus générales ont permis de combiner
les idées introduites par les méthodes non locales avec la multiplication de la quantité de
données (Figure 1.2). La non localité est désormais définie par rapport à une information
extraite à partir de plusieurs images.
1.3 Problématiques
S’il est vrai qu’il y a eu un développement récent des méthodes non locales, ces dernières
ont principalement été utilisées afin de restaurer des données régulières et structurées
telles que des images. À l’heure actuelle, ces méthodes restent encore peu étendues dans
le cadre de données irrégulières. Dans le cas extrême des nuages de points 3D qui sont à
la fois irréguliers et non structurés, il n’existait au début de cette thèse aucune méthode
de restauration capable d’exploiter la redondance de l’information judicieusement afin de
définir une surface 3D.
Avec la démocratisation des capteurs numériques, la quantité de données transmise sur
les réseaux de communication ne cesse d’augmenter. Le challenge est donc de réussir à
exploiter judicieusement ces grands ensembles d’information. Néanmoins, à l’heure actuelle
seules quelques grosses entreprises possèdent les infrastructures de calcul et de stockage
nécessaires pour y arriver. Bien évidémment, le grand public ne peut avoir à sa disposition
de telles structures. Il faut donc réussir à trouver un moyen pour que cette exploitation
puisse être réalisée sur des systèmes possédant des capacités limitées (par ex. smartphones).1.4. CONTRIBUTIONS 5
Malheureusement, les données accessibles sont généralement brutes, semi-structurées ou
non structurées. Il devient donc nécessaire de trouver un moyen pour les regrouper.
Les évolutions récentes des filtres non locaux tendent à incorporer une problématique
orientée big data en proposant des nouvelles démarches qui analysent l’information de
sorte à extraire un modèle pour améliorer la restauration des données. Malheureusement,
ce type de méthodes reste peu utilisable en pratique à cause du temps qu’il nécessite
pour effectuer l’analyse. Il devient donc nécessaire d’introduire des nouvelles méthodes
non locales qui soient à la fois flexibles pour pouvoir être utilisées sur n’importe quel type
de données et génériques pour être utilisables par une large variété d’applications.
1.4 Contributions
Le point de départ de cette thèse est le débruitage non local de nuages de points. Ce
problème a mis en évidence le besoin de structures dédiées aux traitements non-locaux
des données de dimension deux et supérieure, ainsi que la possibilité de généraliser les
méthodes existantes de restauration non-locale 2D et 3D.
Les principales contributions de cette thèse sont :
– une définition de surface de points capable d’exploiter le caractère autosimilaire d’un
nuage de points. Cette définition permet d’étendre n’importe quelle définition de surface
de points locales précédente.
– une structure de données flexible et générique capable d’apprendre les distributions d’un
grand ensemble d’échantillons avec une capacité de mémoire limitée. Cette structure
permet de définir pour tout voisinage, la gaussienne anisotrope associée aux échantillons
qui sont compris dans ce voisinage.
– une généralisation des méthodes de restauration par filtres collaboratifs appliquées aux
données 2D et 3D qui utilisent la structure de données introduite précédemment pour
apprendre un modèle statistique a priori à partir d’un grand ensemble de données.
1.5 Organisation de la thèse
Dans le Chapitre 2, nous introduisons de manière générale les méthodes de restauration non
locales. Au travers ce chapitre, nous présenterons les méthodes de débruitage par moyenne
non locale, leurs applications aux cas 3D ainsi qu’une analyse générale des méthodes
collaboratives.
Le Chapitre 3 sera consacré à l’adaptation de la méthode de filtrage par moyennes non
locales au cas des nuages de points.
Dans le Chapitre 4, nous introduisons une nouvelle structure capable d’apprendre rapidement
une grande base de données en utilisant uniquement une quantité de mémoire
limitée.
Cette structure sera utilisée au Chapitre 5 pour résoudre différents problèmes de restauration
collaboratifs.6
Finalement, le Chapitre 6 offrira une conclusion générale des contributions de cette thèse
et le Chapitre 7 une ouverture générale des travaux de recherche à venir.
1.6 Prix et Publications
Covariance Tree for 2D and 3D Processing, Thierry Guillemot, Andrés Almansa et
Tamy Boubekeur, Computer Vision and Pattern Recognition (CVPR), Columbus, 2014
Non Local Point Set Surface, Thierry Guillemot, Andrés Almansa et Tamy Boubekeur,
3D Imaging Modeling Processing Visualization Transmission (3DIMPVT), Zurich, 2012
Non Local Point Set Surface, Thierry Guillemot, Andrés Almansa et Tamy Boubekeur,
Symposium on Geometry Processing (SGP), Tallinn, 2012 - Best Poster AwardC h a p i t r e 2
Tour d’horizon des méthodes de
restauration non locales
Dans ce chapitre, nous allons introduire un état de l’art des méthodes non locales. Nous
commençons par présenter un contexte général de la restauration des images ainsi qu’un
historique des méthodes de débruitage par moyenne de valeurs. Cet historique est suivi
d’une analyse des méthodes non locales qui se concentrera sur l’influence des paramètres,
les limitations et les évolutions des méthodes non locales. Nous présentons ensuite, une
généralisation de ces méthodes au cas 3D en nous focalisant sur le débruitage surfacique
et de nuage de points. Finalement, nous introduisons les filtres collaboratifs ainsi que leurs
différentes applications en traitement des images. Durant ce chapitre, nous introduisons
les notions indispensables qui seront utilisées durant l’ensemble de cette thèse. Nous précisons
au lecteur que des analyses de l’état de l’art plus spécifiques aux travaux développés
durant cette thèse seront présentées en début des Chapitres 3, 4 et 5.
2.1 Contexte
Quel que soit le système d’acquisition et la précision de ce dernier, les signaux modernes
restent altérés lors de leur capture. Ces dégradations, généralement dues aux contraintes
matérielles (optique, capteur CCD, etc.), algorithmiques (compression JPEG, etc.) ou
transmissives (satellitaires, internet, etc.), doivent être traitées afin de récupérer au mieux
l’information originalle contenue dans ces signaux. Dans cette partie, nous considérerons
des images discrètes dont chaque élément (pixel) est associé à une couleur (Rouge, Vert,
Bleu - RGB).
Plusieurs hypothèses sont généralement faites afin de modéliser les dégradations subies par
l’image. En particulier, nous supposerons que nous avons accès à une observation dégradée
de l’image qui associe à chaque pixel xi une couleur f(xi) obtenue à partir de la couleur
réelle u(xi) en ajoutant un bruit n(xi) gaussien i.i.d. (indépendant et identiquement distribué)
de variance σ connue :
fi = f(xi) = u(xi) + n(xi) (2.1)
Ce modèle est utilisé de manière standard dans la communauté du traitement des images,
car il est à la fois simple et efficace pour modéliser le bruit dû à l’acquisition de l’image.
78Zone homogène Contour Zone texturée
Images bruitées Poids gaussien Poids bilatéral Poids non local
Figure 2.1: Nous illustrons la définition des poids gaussien, bilatéral et non local pour
trois différentes zones de l’image : une zone homogène, un contour, une zone texturée. Pour
tout ces exemples, les poids sont calculés en fonction du pixel central de chaque image.
Les poids élevés sont représentés en blanc tandis que les poids faibles sont représentés en
noir.
D’autres modèles, par exemple les modèles poissoniens, ne seront pas abordés dans cette
thèse (voir [Bov05] pour plus de détails).
Le principe des méthodes de débruitages consiste à éliminer le bruit ajouté lors de l’acquisition
afin d’estimer une couleur ˆu(xi) proche de la couleur originale u(xi). Pour résoudre
ce problème, des nombreux travaux ont été introduits proposant une minimisation de
la variation totale [ROF92], l’application de filtres de Wiener empiriques [YY85], une
décomposition de l’image en ondelettes [Don95], l’utilisation de voisinages de taille variable
[PS00,KEA02,KFEA04,FKEA04], ou plus récemment une analyse de l’a priori des
textures de l’image par dictionnaire [DFKE09,ZDZS10,YSM10], etc..
Parmi toutes ces méthodes, un grand nombre de filtres peuvent s’exprimer comme une
moyenne sur les pixels de l’image. En considérant un sous-ensemble de pixels N(xi) proches
du pixel d’intérêt xi
, la forme générale de ces filtres peut être exprimée comme une combinaison
des couleurs fj pondérées par les poids wij :
uˆ(xi) = X
xj∈N(xi)
wij fj (2.2)2.1. CONTEXTE 9
Images bruitées Filtrage gaussien
Filtrage bilatéral Filtrage non local
Figure 2.2: Résultat des différents filtrages gaussien, bilatéral et non local appliqués sur
l’image barbara bruitée avec un bruit gaussien de variance 0.08.
Les poids wij sont normalisés : P
xj∈N(xi) wij = 1, et leur définition permet de définir
les caractéristiques du filtre souhaité. Ce dernier peut dépendre de la position spatiale xi
,
de la couleur des pixels fi
, ou de toute autre caractéristique de l’image. En particulier,
l’Équation 2.2 peut être utilisée pour exprimer la convolution par un noyau gaussien φ
d’écart type hp. Dans ce cas, les poids wij sont fonction de l’éloignement spatial entre les
pixels de l’image xj et le pixel d’intérêt xi
:
wij ∝ φ(kxi − xjk
2
/h2
p
) (2.3)
Une analyse du filtre gaussien [BCM05] démontre que l’écart entre l’image originale et
l’image filtrée est directement proportionnel au laplacien de l’image. Il en résulte que
le filtre gaussien permet de récupérer correctement les valeurs des zones homogènes de
l’image, mais floute les bords et les zones texturées (Figure 2.1 et 2.2). Par conséquent,
à cause de ces faibles performances, ce filtre est assez peu utilisé par les systèmes de
débruitage modernes.10
La simplicité de la formulation du filtre gaussien restant très attrayante, de nombreux
travaux ont proposé d’améliorer ses performances afin d’obtenir un débruitage des images
plus efficace. En proposant une approche similaire aux travaux de Lee [Lee83] et de Yaroslavsky
[YY85], Tomasi introduit le filtre bilatéral [TM98] en définissant un poids dépendant
à la fois de la distance spatiale entre les pixels et de la distance entre leurs couleurs
associées (distance colorimétrique). D’une manière totalement équivalente, le filtre bilatéral
peut être vu comme un filtre gaussien défini dans un espace augmenté qui mélange
les positions des pixels xi et leurs valeurs associées fi
. Les poids du filtre sont calculés en
combinant deux noyaux φ, ψ définis respectivement dans les domaines spatial (différence
des positions des pixels) et colorimétrique (différences des couleurs des pixels) :
wij ∝ φ(kxi − xjk
2
/h2
p
)ψ(kfi − fjk
2
/h2
f
) (2.4)
Ces noyaux, généralement gaussiens, sont dépendants de deux paramètres hp et hc utilisés
pour limiter la taille du voisinage spatial et colorimétrique. Désormais seuls les pixels qui
possèdent à la fois des positions et des couleurs proches du point d’intérêt ont un poids
élevé. Par exemple, les pixels proches d’un contour appartenant à une zone différente de
celle du pixel d’intérêt possèdent dans ce cas un poids négligeable. Le filtre bilatéral permet
de débruiter correctement les zones homogènes tout en préservant les bords de l’image.
Néanmoins, l’utilisation d’une unique valeur pour estimer un voisinage colorimétrique reste
trop sensible au bruit de l’image (Figure 2.1 et 2.2). Les zones texturées de l’image restent
donc difficilement récupérables par une telle approche.
Face au succès des méthodes de synthèse de texture [EL99] et d’inpainting [CPT03,CPT04]
utilisant la notion de patch (correspondant à une imagette de l’image considérée), Buades
et coll. [BCM05] (et en même temps [AW05,KB06,AW06]) introduisent le filtre à moyennes
non local (Non Local Means - NL-Means). Ce dernier étend l’idée du filtre bilatéral d’utiliser
la couleur des pixels pour raffiner l’estimation du voisinage en la remplaçant par un
patch (ou imagette) décrivant l’information contenue autour du pixel. Ce patch PW
f,xi
∈ R
dP
de dimension dP = (2W + 1)2
est défini comme l’ensemble des valeurs de f comprises dans
une fenêtre carrée de taille W centrée sur le pixel considéré xi
. Les poids non locaux wij
sont donc définis par l’intermédiaire d’un noyau de pondération φ dépendant de la distance
entre patchs :
wij ∝ φ(kP
W
f,xi − P
W
f,xj
k
2
/h2
) ∝ φ(
X
dP
k=1
kfi+k − fj+kk
2
/h2
) (2.5)
Le paramètre h permet de définir le nombre de voisins utilisés pour le débruitage. Désormais
le poids dépend uniquement de la similarité entre les patchs et non de l’éloignement
spatial entre les pixels (d’où son caractère non local). Il est intéressant de noter qu’une
version dégénérée des NL-Means, où la taille du patch est réduite à un unique pixel, nous
permet d’obtenir une forme équivalente au filtre bilatéral. Tout comme ce dernier, le filtre
NL-Means peut être exprimé de manière équivalente comme un filtre gaussien appliqué
dans l’espace des patchs. Par l’utilisation d’un ensemble de couleurs {fi+k}k∈[[1,dP]], les
poids définis par les NL-Means sont moins dépendants du bruit et permettent d’obtenir
un débruitage de l’image satisfaisant dans les zones homogènes, les contours et les zones
texturées de l’image (Figure 2.1 et 2.2). Cette propriété est due au fait que les images naturelles
présentent une auto similarité affine locale [Ale05]. De par leur formulation simple
et leur capacité de débruitage, les NL-Means sont devenus durant ces dernières années l’un
des filtres les plus utilisés pour le débruitage d’images.2.2. FILTRES À MOYENNES NON LOCALES 11
2.2 Filtres à moyennes non locales
Dans cette partie, nous effectuons une étude plus approfondie des NL-Means. Nous nous intéresserons
en particulier à l’analyse de ses différents paramètres, évolutions et limitations.
Lebrun et. coll. [LCBM12] fait une analyse en profondeur des propriétés mathématiques
de ces filtres et ses généralisations en traitement d’images.
2.2.1 Formulations
Nous rappelons ici la définition des NL-Means telle qu’elle a été introduite par Buades et
coll. [BCM05] :
uˆi =
X
xj∈N(xi)
φ(kP
W
f,xi − P
W
f,xj
k
2
/h2
)fj (2.6)
où N(xi) est un ensemble de pixels voisins de xi
, φ un noyau de pondération, W la taille
des patchs PW
f,xi
centrés sur xi et h le facteur d’autosimilarité. Tous ces paramètres sont
directement liés à la qualité de la restauration. De nombreux travaux ont proposé une
analyse détaillée de leur influence respective.
Noyau de pondération
Le noyau de pondération φ permet de définir le poids de chaque échantillon en fonction
de la similarité de leurs voisinages. La pondération est normalisée de sorte que :
X
xj∈N(xi)
φ(kP
W
f,xi − P
W
f,xj
k
2
/h2
) = 1 (2.7)
Les travaux originels des NL-Means [BCM05, AW05, KB06, AW06] utilisent un noyau de
pondération gaussien. Chaque pixel de la somme possède un poids non nul qui influence
l’estimateur final. L’accumulation des poids des pixels les plus éloignés peut par conséquent
biaiser le débruitage. Par conséquent, n’importe quel point, même le plus éloigné, influence
l’estimateur non local. Pour résoudre ce problème, de nombreux travaux [GLPP08,DAG10,
Sal10a] arrivent à la conclusion qu’il est préférable d’utiliser un noyau à support compact
qui permet d’annuler l’influence des échantillons trop différents.
Dans l’Équation 2.6, le patch PW
f,xi
possède le double rôle de patch de référence (utilisé
pour définir la similarité entre deux patchs) et de patch estimateur (combiné pour définir
la moyenne). Ce pixel particulier possédera donc un poids plus important que les autres
pixels de l’image biaisant par la même occasion l’estimateur non local. Pour résoudre
ce problème, Buades et coll. [BCM05] suggèrent de le remplacer par le poids maximal
des autres pixels utilisés dans la somme. Cette solution n’est pas vérifiée théoriquement,
mais permet d’obtenir de bons résultats pratiques. Zimmer et coll. [ZDW08] proposent
d’annuler l’influence de ce patch particulier. Néanmoins, une telle solution ne permet
pas de concilier le double rôle du patch central. Salmon [Sal10b] résout ce problème en
supprimant la variance du bruit dans la distance euclidienne utilisée pour comparer les
patchs. Ainsi, tout patch qui possède une distance inférieure à la variance du bruit possède
un poids égal à 1.12
Facteur d’autosimilarité
Le facteur d’autosimilarité h définit le degré de similarité des échantillons. Il est choisi de
manière globale et peut être assimilé à la quantité de flou des méthodes locales. Le choix
d’une valeur globale pour ce facteur reste dfficile à choisir, en effet certaines textures de
l’image sont plus redondantes que d’autres. Ce paramètre est donc généralement estimé
par une analyse heuristique sur un ensemble représentatif d’images. Des estimations de h
basées sur l’estimateur SURE (Stein’s Unbiased Risk Estimate) sont néanmoins calculées
globalement par Van et coll. [VDVK09] et localement par Duval et coll. [DAG10].
Taille des patchs
La taille des patchs W correspond au niveau de détail à utiliser pour définir la similarité
entre deux patchs. Augmenter l’échelle W permet de définir une mesure de similarité plus
robuste et moins dépendante du bruit. Malheureusement, cela limite le nombre de patchs
similaires utilisés pour le débruitage et augmente le temps de calcul des NL-Means.
Par conséquent, la taille W doit être idéalement choisie en fonction de la quantité de
bruit et de l’image à traiter. Généralement, elle est déterminée par une analyse statistique
effectuée sur une base d’images représentatives.
Zones de recherche
Initialement, le voisinage N(xi) a été introduit comme un moyen d’accélérer l’estimation
des NL-Means [BCM05]. En effet, le temps de calcul est directement proportionnel au
nombre d’échantillons utilisé par l’Équation 2.6. Nous pourrions penser qu’augmenter la
taille du voisinage améliorerait la qualité de restauration. En effet, nous obtiendrions dans
ce cas un nombre de patchs similaires plus élevé. Malheureusement, nous augmenterions
par la même occasion le nombre de mauvais candidats susceptibles de parasiter le résultat
final. Pour résoudre ce problème, Kervrann et coll. [KB06] proposent de définir un voisinage
adaptatif permettant de récupérer un plus grand nombre de patchs similaires sans
introduire un trop grand nombre de mauvais représentants.
2.2.2 Limitations et améliorations des NL-Means
Les NL-Means sous leur forme originale présentent des limitations. De nombreux travaux
ont été proposés pour enrichir le modèle de départ afin de corriger ces problèmes tout en
améliorant les performances qualitatives et temporelles de la restauration.
L’un des problèmes principaux des NL-Means vient de la redondance des patchs. En effet,
nous avons supposé que le patch était suffisamment bien représenté pour pouvoir être
débruité correctement. Malheureusement, il arrive que certains pixels de l’image soient
moins bien représentés que d’autres. Une première catégorie de méthodes propose entre
autres d’augmenter le nombre de patchs similaires en utilisant le caractère autosimilaire
local des images naturelles [Ale05]. Plusieurs approches [ZDW08, JCSX09] utilisent une
analyse des moments robuste aux bruits afin de rendre les patchs invariants par rotation.2.2. FILTRES À MOYENNES NON LOCALES 13
D’autres travaux [BCM05] suggèrent l’utilisation d’espace échelle afin de simuler l’invariance
par changement d’échelles. Dans ce cas, les patchs calculés sur les différentes images
sous-échantillonnées sont ajoutés à l’ensemble des patchs utilisé classiquement.
La mesure de similarité est faite sur un ensemble de patchs bruités. Idéalement, cette
dernière devrait être effectuée sur des patchs non bruités. Ces données étant inaccessibles,
Buades et coll. [BCM05] ont proposé l’utilisation de la distance euclidienne, car elle permet
d’être peu dépendant du bruit de l’image. D’autres méthodes [BC07,BKC08] proposent de
calculer la similarité sur les patchs débruités de manière itérative. Ces NL-Means itératifs
débruitent l’image en utilisant une mesure de similarité calculée sur des patchs extraits de
l’image qui a été débruitée à l’itération précédente. En d’autres termes, ce type d’approches
permet un regroupement des patchs en fonction de la ressemblance du voisinage débruité
à l’itération précédente.
À l’origine, les patchs utilisés sont centrés sur le pixel d’intérêt xi
. Dans le cas d’un patch
contenant un contour de l’image, la mesure de similarité risque d’être biaisée et donc de
favoriser un côté du contour par rapport à l’autre. Ce phénomène d’adhérence introduit des
poids parasites dans la combinaison finale des pixels. Il en résulte une apparition de halos
autour des bords de l’image. D’autres méthodes [DFKE07, DFKE08, DFKE09, LBM13]
proposent d’utiliser des patchs carrés décentrés pour corriger ces halos en reformulant
l’Équation 2.6 d’une manière équivalente par :
Pˆ W
f,xi =
X
xj∈N(pi)
φ(kP
W
f,xi − P
W
f,xj
k
2
/h2
)P
W
f,xj
(2.8)
L’estimation finale est définie en effectuant des moyennes sur les estimateurs [SS12]. Ce
type de solutions permet d’étendre l’agrégation d’estimateurs [Nem00] au cas des patchs.
Parmi ces méthodes, Deledalle, Salmon et Duval [DDS12] proposent en particulier l’utilisation
d’un estimateur SURE (Estimateur de risque sans biais de Stein - Stein’s Unbiased
Risk Estimate) couplée à l’utilisation de patchs de différentes formes (non carrés). Cette
idée (utilisée de manière similaire par Baraniuk et coll. [MNB12]) permet de tirer parti
de la géométrie locale de l’image tout en étant peu victime du phénomène d’adhérence.
Salmon [Sal10a] propose une étude plus détaillée concernant l’agrégation d’estimateurs
dans le cas des NL-Means.
En plus de ces facteurs limitant la qualité de restauration de l’image, l’un des problèmes
majeurs des NL-Means reste son temps de calcul. De nombreuses approches ont été proposées
afin d’accélérer l’estimation. Certaines proposent une estimation approchée des plus
proches patchs [BSFG09,OA12,KA11,Tas09,HS12], une approximation de l’image filtrée
par regroupement de patchs similaires [AGDL09,ABD10,HST10,GO12], etc. Une analyse
plus détaillée de ce point de l’état de l’art sera proposée en Section 4.1.1.
La simplicité et les performances des NL-Means ont favorisé la généralisation des filtres
non locaux à de nombreux domaines connexes tels que l’imagerie satellitaire [DDT09], la
vidéo [BCM08,AGDL09], l’imagerie médicale [MCCL+08], etc. Nous focaliserons la suite
de notre analyse sur le traitement 3D.14
Figure 2.3: Nous présentons plusieurs exemples de surface numérisée à partir d’objet
réels d’origine humaine. Tous ces objets peuvent être considérés comme autosimilaires du
fait qu’ils présentent un ensemble de structures redondantes. Une telle hypothèse peut être
faite pour la plupart des objets d’orgines humaine ou naturelle.
2.3 Filtres 3D non locaux
Une chaîne d’acquisition 3D permet d’obtenir une surface maillée à partir d’un objet réel.
Cette dernière peut être résumée par deux principales étapes : l’étape d’acquisition et
l’étape de reconstruction. Tout d’abord, l’étape d’acquisition définit à partir de l’objet
réel un nuage de points 3D. Pour ce faire, cette étape utilise généralement des capteurs
automatiques (par ex. systèmes d’acquisitions Kinect), des appareils photo et/ou camé-
ras vidéo couplés à des méthodes de stéréovision [BBH08,BBB+10,BHB+11], etc. Lors de
cette étape, le nuage de points obtenu peut être dégradé par du bruit, des trous, des points
aberrants et/ou des taux d’échantillonnages variables. Ensuite, l’étape de reconstruction
permet de définir une surface maillée à partir du nuage de points acquis. Plusieurs mé-
thodes peuvent être utilisées telles que les Marching Cubes [LC87], la reconstruction de
Poisson [KBH06], etc.
Si elles ne sont pas traitées correctement, les dégradations introduites lors de l’étape d’acquisition
parasitent la reconstruction de la surface maillée. Durant ces dernières années, les
méthodes de débruitage ont donc été particulièrement utilisées afin de corriger les erreurs
apportées par la chaîne d’acquisition. Nous pouvons diviser ces méthodes en deux principales
catégories. La première catégorie, que nous appellerons filtres de nuages de points
est appliquée sur le nuage de points 3D obtenu en amont de l’étape de reconstruction.
Ces filtres permettent d’obtenir une surface maillée résultante de meilleure qualité. La
deuxième, appelée filtre surfacique, est appliquée sur la surface maillée obtenue en aval de
l’étape de reconstruction. Ces filtres sont utilisés dans le cas où l’utilisateur ne peut pas
avoir accès à la chaîne d’acquisition.
La plupart de ces méthodes ont été inspirées des avancées en traitement des images [FDCO03,
JDD03,VB11]. Des hypothèses similaires à celles utilisées pour les images peuvent en effet
être faites concernant les données 3D. En particulier, ces dernières sont considérées de nature
autosimilaire, car elles sont généralement issues d’objets réels d’origines naturelles ou
humaines et possèdent de nombreuses primitives et structures redondantes (Figure 2.3).
Les méthodes non locales ont donc logiquement été adaptées afin d’améliorer la qualité
de la restauration 3D. Pour ce faire, ces dernières nécessitent la définition d’un signal à
débruiter et d’une mesure de similarité adaptée aux données 3D considérées. Contrai-2.3. FILTRES 3D NON LOCAUX 15
rement aux images qui possèdent un échantillonnage régulier et une définition de signal
bruité évidente, les données 3D ne possèdent pas de support pouvant être utilisé pour les
deux définitions précédentes. Plusieurs solutions ont donc été introduites dans le cas des
surfaces et des nuages de points pour définir des notions équivalentes.
2.3.1 Filtres surfaciques non locaux
Yoshizawa et coll. [YBS06] étendent les NL-Means aux filtrages surfaciques comme un
moyen de supprimer les dégradations tout en préservant les structures principales de la
surface maillée. Ils proposent une approche itérative basée sur [FDCO03] qui déplace les
points du maillage xi dans la direction de la normale n(xi). Ce déplacement est calculé
comme une combinaison des valeurs < xi − xj , n(xi) > des points xj ∈ N (xi) compris
dans un voisinage de xi pondérées par rapport à la similarité des surfaces locales autour de
xi et de xj . Dans ce cas, l’utilisation de Radial Basis Functions (RBF) permet de définir
une interpolation de la surface ainsi qu’un repère de comparaison normalisé.
Wang et coll. [WCZ+08] proposent une démarche similaire à [YBS06] en remplaçant la
mesure de similarité sur les RBF par une mesure plus proche des NL-Means classiques
qui utilisent des patchs. Ainsi, ils introduisent un repère normalisé local défini par le plan
tangent à la surface au point du maillage xi orienté par rapport à l’analyse en composantes
principales des points compris dans le voisinage de xi
. Dans ce repère, ils définissent des
patchs de la variation géométrique locale de la surface. Ils utilisent une grille régulière
centrée sur xi dont les valeurs sont calculées en interpolant la hauteur des points du
maillage du voisinage. Pour accélérer le temps de calcul et obtenir de meilleurs résultats,
ils proposent d’effectuer un regroupement des points du maillage par Meanshift [CM02].
Adams et coll. [AGDL09] introduisent leur propre filtre surfacique non local comme une
application de sa structure d’accélération de filtres à hautes dimensions. Ils proposent
d’utiliser une surface de référence. Cette dernière, calculée par application itérative du
filtre laplacien sur le maillage, permet d’associer à chaque point du maillage une valeur
bruitée (correspondant à l’écart entre la surface bruitée et la surface de référence). Dans
leur approche la similarité est calculée en utilisant des histogrammes 2D représentant la
répartition locale des points bruités du maillage appartenant aux différentes zones d’un
descripteur cylindrique.
Morigi et coll. [MRS12] proposent un filtre surfacique différent capable de préserver les
structures principales du maillage par un débruitage non local de la courbure moyenne.
Dans ce cas la mesure de similarité de la géométrie locale est définie par rapport à un
descripteur basé sur la courbure moyenne locale.
2.3.2 Filtres non locaux de nuage de points
Malgré les bonnes performances des filtres surfaciques non locaux, il reste difficile de
corriger les dégradations de l’acquisition après reconstruction de la surface maillée. En
effet, une partie de l’information contenue dans le nuage de point 3D est perdue à ce
moment de la chaîne d’acquisition. Par conséquent, il semble plus judicieux de filtrer le
nuage de points 3D avant de reconstruire une surface. Contrairement aux surfaces maillées,16
les nuages de points 3D ne possèdent aucune information de structure. Cette dernière
est malheureusement indispensable pour définir un signal à débruiter et une mesure de
similarité appropriée indispensables à toute restauration non locale.
Pour résoudre ce problème, Deschaud et coll. [DG10] suggèrent l’utilisation de méthodes de
projection par moindres carrés glissants (Moving Least Square - MLS) [Lev98,ABCO+01]
qui définissent localement une surface à partir d’un nuage de points. Leur approche peut
être résumée par trois principales étapes. Tout d’abord, ils définissent pour chaque point du
nuage un système de coordonnées local défini à partir des vecteurs associés aux deux plus
grands vecteurs propres de la covariance des points. Ensuite, les variations de la surface
autour du point d’intérêt sont approchées localement par un polynôme bivarié exprimé
dans ce repère. Finalement, la position débruitée est estimée comme une combinaison
des points proches pondérée par la similarité de leur polynôme bivarié. Cette démarche
appliquée à chaque point du nuage permet d’obtenir le nuage débruité. Malheureusement,
comme le démontre [Dig12], la paramétrisation du repère local n’est pas suffisamment
stable.
Digne [Dig12] propose de décomposer le nuage de points en une surface grossière et un
champ scalaire bruité en utilisant un filtre isotropique [DMSL11]. Elle propose ensuite de
filtrer le champ scalaire par NL-Means. Pour ce faire, elle utilise un patch qui décrit les
variations locales de la surface définie dans un repère local. La paramétrisation du repère
local est calculée à partir d’une analyse en composantes principales des normales du nuage
plus robuste aux variations de la surface [DM11]. Les valeurs du patch sont calculées par
une interpolation sur une grille des hauteurs des points voisins par RBF.
Plus récemment, une méthode de débruitage de nuage de point par analyse spectrale
collaborative de patchs a été introduite [RDK13]. Ces patchs utilisent un opérateur de
Laplace-Beltrami afin débruiter le nuage d’une manière robuste.
2.3.3 Limitations
Les méthodes non locales ont été introduites pour améliorer la correction des dégradations
introduites lors de l’étape d’acquisition. Ces approches ont été définies pour être utilisées
sur deux types de données : la surface maillée, corrigeant ainsi les erreurs introduites par
l’utilisation d’un nuage de points dégradé lors de l’étape de reconstruction ; le nuage de
points, avant que la surface ne soit définie.
En utilisant la méthode de débruitage surfacique, il devient difficile de récupérer l’information
dégradée, car une partie a été perdue lors de la phase de reconstruction. Par
conséquent, il est préférable d’utiliser les méthodes de débruitage de nuages de points.
Néanmoins, dans ce cas, la reconstruction ne permet pas d’exploiter correctement l’ensemble
de l’information présente dans le nuage de points. En particulier, la propriété
autosimilaire du nuage n’est pas exploitée par la reconstruction de la surface.
Nous introduisons au Chapitre 3 un nouvel opérateur capable de définir une surface implicite
qui exploite correctement le caractère autosimilaire du nuage de points. Nous utilisons
ce dernier pour définir des surfaces maillées, le débruitage de nuage de points et l’intensi-
fication des structures de l’objet.2.4. FILTRES COLLABORATIFS 17
Approche des NL-Means Approches collaboratives
Figure 2.4: Principe des filtres collaboratifs : Nous considérons ici un ensemble d’individus
possédant chacun une caractéristique bruitée (cercle interne à chaque individu). Pour les
NL-Means, un individu ( cercle rouge) utilise les caractéristiques que lui transmettent les
individus voisins (cercle discontinu) pour restaurer la valeur de sa propre caractéristique.
Une telle approche peut utiliser des individus qui ne font pas nécessairement partie de la
même famille que l’individu considéré. Dans le cas des filtres collaboratifs, les individus
sont regroupés en familles (cercles en pointillé). L’information sur les caractéristiques des
individus d’une même famille est mise en commun (cercle bleu au centre de chaque famille),
analysée puis retransmise à l’ensemble des individus de la famille. Dans ce cas, toutes les
valeurs des individus d’une même famille sont restaurées en même temps en utilisant une
information partagée par la famille uniquement.
2.4 Filtres collaboratifs
Les récents travaux sur les filtres non locaux ont permis une généralisation des NL-Means à
des domaines d’applications différents de ceux de la restauration d’images et une évolution
de ces principes originaux pour une meilleure exploitation de la redondance de l’information.
De plus en plus, ces évolutions ont rapproché la restauration non locale d’un autre
genre de filtrage : le filtrage collaboratif.
2.4.1 Principe
Le filtrage collaboratif est un procédé de filtrage de l’information utilisant des techniques
qui impliquent une collaboration entre de multiples agents, points de vue, sources de données,
etc. À l’origine, ces derniers ont été particulièrement utilisés dans le domaine de
l’e-commerce comme un système de recommandation automatique à partir d’une connaissance
de l’intérêt d’un grand nombre d’utilisateurs. De manière générale, ces méthodes
consistent à prédire une information inconnue d’un individu (débruitage, complétion, etc.)
par une analyse détaillée d’un groupe de personnes qui possède des caractéristiques communes
à l’individu considéré. Ce genre d’idées diffèrent d’approches plus simples qui four-18
nissent un score moyen non spécifique exprimant l’intérêt d’un ensemble d’utilisateurs
(basé par exemple sur le nombre de votes).
Ce principe de filtrage a été généralisé au traitement des images par [DFKE07]. L’idée
principale dans ce cas consiste à rassembler les patchs similaires par famille puis de les
débruiter en utilisant l’information commune de la famille à laquelle ils appartiennent. Pour
bien comprendre la différence entre NL-Means et les méthodes collaboratives, considérons
un ensemble d’individus chacun associé à une caractéristique bruitée. Pour les deux types
de méthodes, le but est de débruiter chaque caractéristique à l’aide d’autres individus
(Figure 2.4). Dans le cas des NL-Means, elle est débruitée en combinant les caractéristiques
des individus proches. L’individu en question ne retransmet aucune information qu’il a pu
récupérer de ses voisins. Pour les filtres collaboratifs, les individus sont d’abord regroupés
par familles d’individus proches. Ensuite, les individus d’une même famille se mettent
d’accord mutuellement sur les valeurs débruitées de leurs caractéristiques respectives. En
opposition aux filtres collaboratifs classiques, la collaboration en traitement d’image vient
d’une analyse commune du groupe de patch qui est ensuite utilisée pour améliorer la qualité
de la restauration. Ce type de filtre permet de révéler les détails partagés par l’ensemble du
groupe tout en conservant les caractéristiques uniques de chaque patch. Le patch obtenu
est donc plus proche de la position originale qu’en le débruitant par NL-Means.
2.4.2 Méthodes de restauration collaboratives
Dabov et coll. [DFKE07,DFKE08,DFKE09] sont les premiers à introduire le filtrage collaboratif
pour la restauration des images. Leur méthode, appelée BM3D (Block Matching
and 3D Filtering), se base sur trois principales étapes. Tout d’abord ils empilent les patchs
en les regroupant en fonction de leurs similarités de sorte à former des piles de patchs. Ensuite,
cette pile 3D est débruitée en gardant les fréquences principales d’une transformée
(ondelettes, transformées en cosinus discret) appliquées sur la pile. Un filtrage appliqué sur
cette troisième dimension permet de garder les caractéristiques communes de la famille
tandis que le filtrage des deux autres dimensions permet de garder les caractéristiques
spécifiques à chaque patch. Ainsi, la collaboration vient du fait que les patchs d’une même
famille sont débruités conjointement en considérant l’analyse globale de la pile. Finalement,
les patchs débruités sont agrégés de sorte à définir les valeurs débruitées de l’image.
Ces trois étapes sont itérées deux fois afin d’améliorer la qualité finale du débruitage.
BM3D constitue l’une des méthodes applicatives les plus performantes actuellement pour
le débruitage d’images. Néanmoins, l’influence de ces nombreux paramètres reste difficile
à analyser.
Yu et coll. [YSM12] proposent d’étendre le principe des filtrages collaboratifs à d’autres
problèmes inverses tels que le débruitage, l’amélioration de la résolution ou d’inpainting
en introduisant l’estimateur linéaire par morceaux (Piecewise Linear Estimator - PLE).
Leur idée basée sur les travaux sur les structures parcimonieuses [MBP+09] approxime
l’ensemble des patchs par un modèle de mélange de gaussiennes (Gaussian Mixture Model
- GMM). Les gaussiennes sont ajustées à l’ensemble des patchs inconnus à restaurer via
une Maximisation A Posteriori (MAP) qui utilise un algorithme d’espérance-maximisation
(Expectation Maximisation - EM) itératif. Pour cette méthode il est difficile de trouver le
bon nombre de classes des GMM ainsi qu’une bonne initialisation afin que la procédure2.4. FILTRES COLLABORATIFS 19
EM converge vers un bon minimum de la fonction objectif non convexe. En pratique, le
nombre de gaussiennes est fixé à l’avance à environ une dizaine afin de garder la complexité
du calcul sous contrôle.
Quand l’ensemble des patchs est corrompu par un bruit gaussien de variance σ
2
, l’Équation
2.6 des NL-Means peut être reformulée comme une Espérance A Posteriori (EAP)
bayésienne. Lebrun et coll. [LBM13] reformule les NL-Means pour définir les Non Local
Bayes (NLB) en remplaçant la formulation EAP des NL-Means par une Maximisation A
Posteriori (MAP). Désormais en plus de la moyenne non locale, chaque patch est associé
à une matrice de covariance Σ décrivant la variabilité au sein du groupe de patchs. La
covariance étant bruitée, le côté collaboratif de ce filtre vient du fait que tous les patchs
sont débruités conjointement par l’opération de filtrage de la covariance Σ˜ = Σ−σ
2
Id. En
utilisant une approche similaire aux BM3D, le patch est débruité en deux étapes : la première
étape débruite à partir de variations estimées sur les patchs bruités et la deuxième
à partir des patchs débruités à la première étape. Tout comme BM3D, une phase d’agré-
gation permet de définir un meilleur débruitage des pixels de l’image. Nous proposons
en Section 5.1.1 plus de détails concernant les NLB. Les NLB permettent actuellement
d’obtenir les meilleures performances de débruitage. Néanmoins, leur approche nécessite
une grande quantité de calcul dans la mesure où un modèle gaussien local a besoin d’être
appris deux fois autour de chaque patch. Pour être calculable, l’estimation du voisinage
est approchée par une recherche des k plus proches voisins dans l’espace des patchs.
2.4.3 Généralisation des filtres collaboratifs
Durant ces dernières années, la formulation collaborative des méthodes de débruitage a
permis d’améliorer significativement la qualité de la restauration d’images bruitées. Le
principe introduit par BM3D [DFKE07, DFKE08, DFKE09] a ensuite été amélioré par
NLB [LBM13] en remplaçant la formulation EAP des NL-Means par une formulation
MAP qui permet de mieux récupérer les structures communes d’un groupe de patchs similaires
tout en préservant ses caractéristiques spécifiques. Néanmoins, de telles approches
nécessitent une grande quantité de calculs et sont généralement simplifiées pour pouvoir
être calculables.
De plus, PLE [YSM12] a proposé une généralisation des filtres collaboratifs à d’autres
applications du traitement des images. Cette solution offre d’excellentes performances,
mais utilise une GMM simplifiée pour pouvoir obtenir de bons résultats dans un temps
raisonnable. Par conséquent, une telle approche semble difficilement applicable sur de
grands ensembles de données.
Nous introduisons au Chapitre 4 une nouvelle structure de données capable d’apprendre
les variations d’un grand ensemble de points avec une quantité de mémoire limitée. Elle
représente les variations des données apprises en n’importe quelles positions et échelles
de l’espace des patchs par une gaussienne anisotropique. Une telle structure est définie
comme une approche hybride entre PLE et NLB.
Nous utilisesons cette structure au Chapitre 5 pour reformuler des problèmes de restauration
2D et 3D d’un point de vue d’une MAP collaborative. En outre, nous apprendrons20
les variations de grandes bases de données avec une quantité de mémoire limitée afin de
mieux restaurer des données dégradées.C h a p i t r e 3
Surface de points non locale
Dans ce chapitre, nous proposons de définir la première surface qui exploite l’autosimilarité
présente dans un nuage de points (Non Local Point Set Surfaces — NLPSS). Nous
commencerons par décrire dans la Section 3.1 une généralisation des méthodes de surface
de points. En Section 3.2, nous introduisons notre opérateur de projection non local ainsi
que l’ensemble des outils nécessaires à sa définition. Nous montrerons en Section 3.3 que
notre approche permet de retrouver les caractéristiques importantes de l’objet tout en
comblant l’information manquante par une augmentation locale du ratio signal sur bruit.
Finalement en Section 3.4, nous proposons différentes améliorations possibles pour notre
opérateur non local.
3.1 Contexte
3.1.1 Acquisition 3D
Avec la démocratisation des appareils d’acquisition 3D, il est devenu aujourd’hui facile de
numériser des objets réels avec une haute précision. Généralement sous la forme de nuages
de points bruts corrompus par du bruit, des points aberrants, des trous et/ou des taux
d’échantillonnages variables, ces acquisitions doivent être traitées pour définir des surfaces
maillées exploitables.
Les méthodes basées points ont donc été introduites comme un moyen d’améliorer la
qualité des données acquises sans pour autant faire de choix concernant la nature de la
surface sous-jacente. Les surfaces de nuages de points (Point Set Surfaces — PSS) ont été
définies en ce sens, et permettent de faire le lien entre les nuages de points et les surfaces
maillées. Elles introduisent une représentation surfacique lisse non maillée essentiellement
définie par l’ensemble des points fixes d’un opérateur de projection.
3.1.2 Travaux existants
Alexa [ABCO+01] introduit initialement les PSS en se basant sur les travaux de Levin
[Lev98,Lev03] qui étend une classe de méthodes d’approximation fonctionnelles de don-
2122
nées parcimonieuses — les moindres carrés glissants (Moving Least Squares - MLS) [She68]
— au cas d’approximation de formes. Cette première version des PSS est définie par l’intermédiaire
d’un opérateur de projection itératif. À chaque étape, un point d’évaluation
est projeté sur une surface localement définie par un polynôme bivarié paramétré sur
un plan qui approxime les données. Ces deux derniers sont estimés localement par une
minimisation non linéaire du carré de la distance des données aux points d’évaluation.
Amanta et coll. [AK04] démontre qu’il est possible de définir une surface d’aussi bonne
qualité en effectuant une moyenne pondérée des positions, sans utiliser de polynôme bivarié
ou de minimisation non linéaire. Ils introduisent une fonction de distance signée
permettant une représentation implicite de la surface. Cette représentation peut être utilisée
par différents algorithmes de remaillage comme les Marching Cubes [LC87] ou une
triangulation de Delaunay restreinte [BO05] pour définir une surface polygonale.
Adamson et coll. [AA04a] exploitent cette idée pour introduire un modèle simple de surface
de nuages de points (Simple Point Set Surfaces — SPSS). Dans le cas de nuages de points
munis de normales, le plan local de projection peut être estimé par une combinaison linéaire
pondérée des positions et des normales. Si le nuage de point ne comporte pas de normales,
une analyse en composantes principales [HDD+94] permet d’équiper chaque point du nuage
avec une normale estimée. Avec les SPSS, Adamson [AA04b] introduit trois procédures
différentes pour estimer itérativement la projection d’un point sur la surface : l’orthogonale
qui projette le point d’évaluation précisément au terme de calculs sophistiqués, la basique
d’une faible complexité, mais peu précise, et l’orthogonale approximative qui constitue un
bon compromis entre simplicité et précision.
Fleishman et coll. [FCOS05] améliorent cette définition en introduisant une formule implicite
des moindres carrés glissants (Implicit Moving Least Squares - IMLS) qui préserve les
bords anguleux de la surface. Alexa et Adamson [AA09] proposent une surface de point
hermitienne (Hermite Point Set Surfaces — HPSS) qui limite les effets de réduction des
méthodes précédentes. Au lieu de projeter le point sur un seul plan, il est projeté sur
l’ensemble des plans définis par chaque échantillon voisin. Ensuite la position est calculée
par une combinaison pondérée de ces différentes projections permettant de définir une
combinaison hermitienne.
La procédure d’estimation du plan peut devenir rapidement instable quand le nuage de
points n’est pas assez dense par rapport à la taille du support de l’opérateur ou quand
les taux d’échantillonnage du nuage de points sont trop variables. Guennebaud et coll.
[GG07] proposent de remplacer le plan par une sphère algébrique définissant une nouvelle
surface de points algébrique (Algébraic Point Set Surfaces — APSS). Ce modèle est ensuite
amélioré en contraignant les gradients de la sphère algébrique à correspondre aux normales
des échantillons [GGG08].
Les méthodes précédentes ne sont pas adaptées pour définir une surface à partir d’un nuage
de points corrompu par des points aberrants. En utilisant une méthode de régression par
noyau qui ajuste itérativement les poids de chaque échantillon, Öztireli et coll. [ÖGG09] introduisent
une nouvelle formule implicite et robuste des moindres carrés glissants (Robust
Implicit Moving Least Square - RIMLS). En plus d’une résistance aux points aberrants,
cette définition permet une meilleure préservation des caractéristiques de la surface. Nous
vous renvoyons vers [CWL+08] pour un état de l’art plus complet sur les surfaces MLS.3.1. CONTEXTE 23
Figure 3.1: Gauche : Le SPSS [AA04a] définit une surface à partir d’un nuage de points
X muni de normales par l’intermédiaire d’un opérateur Π qui projette pour tout x ∈ R
3
sur
un plan estimé localement de normale n(x). Droite : L’opérateur de projection Π introduit
une fonction implicite f(x) dont l’ensemble des valeurs nulles définissent la surface de
l’opérateur (en orange).
3.1.3 Généralisation des PSS
Jusqu’à la fin de ce chapitre, nous considérerons comme entrée des PSS un nuage de points
X = {xi
, ni} où xi ∈ R
3
correspond à la position spatiale d’un point et ni ∈ R
3
est la
normale qui lui est associée. D’après la procédure de projection orthogonale approximative
introduite par Adamson et Alexa [AA04b], l’ensemble des définitions PSS précédentes
peuvent s’exprimer à l’aide d’un opérateur de projection Π :
MLSX : R
3 → R
3
, x → Π(x) (3.1)
Chaque point d’évaluation x est projeté sur une primitive Q localement estimée par
moindres carrés (e. g. plan pour le SPSS, sphère algébrique pour l’APSS) :
Π(x) = x − f(x)n(x) (3.2)
Cette formulation permet de mettre en évidence la distance implicite f(x) entre x et sa
projection sur Q et n(x) la normale PSS définie en cet emplacement. Q est paramétrée
sur X par rapport à x à une échelle t liée à la taille du support choisie pour le noyau de
pondération spatial sous-jacent.
Par exemple dans le cas des SPSS (Figure 3.1), cette définition générale peut être exprimée
par :
n(x) =
P
xi∈X wt(x, xi)ni
k
P
xi∈X wt(x, xi)nik
c(x) =
P
xi∈X wt(x, xi)xi
P
xi∈X wt(x, xi)
f(x) =< x − c(x), n(x) >24
Figure 3.2: Gauche : les opérateurs PSS conventionnels définissent la surface en considé-
rant un voisinage local. Face aux conditions réelles de capture, ce point de vue purement
local devient insuffisant pour définir une surface correcte. Droite : le principe de notre
algorithme est d’exploiter le caractère autosimilaire des nuages de points pour augmenter
localement le ratio signal sur bruit et ainsi proposer une définition de surface plus adaptée
aux conditions de capture.
Le noyau de pondération spatial wt(x, xi) est généralement défini à partir d’une fonction
à support compact polynomiale par morceaux g :
wt(x, xi) = 1
Zt(x)
g(
1
t
kx − xik)
Zt(x) est choisie de manière à assurer la somme unitaire des poids P
xi∈X wt(x, xi) = 1.
Le paramètre t associé à wt correspond au paramètre de filtrage de la surface : plus t
est grand, plus la surface résultante est lisse. Faire varier t permet de décomposer le PSS
à différentes échelles. Au cours de ce chapitre, nous appellerons respectivement Πt
(x),
f
t
(x) et n
t
(x) l’opérateur de projection, la distance implicite et la normale définie par
l’opérateur PSS à cette échelle t.
3.1.4 Problématique
Dans tous les modèles PSS, le choix de la taille du support du noyau spatial induit la
qualité de la surface résultante : une taille élevée lissera la surface en éliminant les défauts
introduits lors de l’acquisition, et à l’opposé une taille fine fera ressortir les détails importants
de l’objet sans débruiter la surface. Malheureusement, il est difficile de trouver une
taille de support idéale pour satisfaire le compromis lissage/préservation des caractéristiques
de l’objet car le problème est restreint à un point de vue strictement local.
Pour résoudre ce problème de manière adéquate, nous proposons de ne plus nous limiter
à un point de vue strictement local, mais d’utiliser l’information apportée par l’ensemble
du nuage lors de la projection d’un point d’évaluation. Comme le montre la Figure 3.2,
une telle approche permet d’augmenter le ratio information/bruit et ainsi de résoudre les
ambiguïtés dues aux défauts du nuage de points.
Ainsi, nous proposons de définir une surface de points non locale (Non Local Points Set
Surfaces — NLPSS) qui possède les avantages suivants :3.2. SURFACES DE POINTS NON LOCALES 25
1. Définition d’une surface non locale : Notre définition n’est pas restreinte au
débruitage de nuages de points dans le sens où nous proposons un nouvel opérateur
PSS exploitant l’autosimilarité du nuage et qui peut être utilisé pour de la reconstruction,
du débruitage et d’autres traitements plus génériques sur un ensemble non
organisé du nuage de points.
2. Généralisation : Nous proposons une extension de toutes les méthodes PSS précé-
dentes en leur incorporant une propriété non locale.
3. Dégénérescence : Notre définition dégénère en la définition traditionnelle du PSS
sur lequel il se base dans le cas de faible autosimilarité.
3.2 Surfaces de points non locales
Dans cette partie nous allons définir notre opérateur non local de surface de points. Pour
pouvoir introduire cette définition, nous introduirons trois notions :
1. Signal : De par la nature non structurée des nuages de points, il n’est pas possible
de définir un signal en considérant directement leur positions spatiales des points
du nuage. Nous introduirons un signal adapté qui contient les défauts du nuage sur
lequel nous appliquerons les méthodes non locales.
2. Descripteur local : La comparaison de deux sous-ensembles d’un nuage de points
doit être peu sensible à la nature des nuages de points et aux défauts introduits
lors de l’acquisition. Nous définirons un descripteur local adapté au nuage de points
défini dans un repère local normalisé.
3. Fonction de pondération : Nous proposerons une fonction de pondération tenant
compte de la quantité d’information non locale qui est présente.
3.2.1 Principe général
En considérant une échelle t0 suffisamment large, le PSS peut être décomposé en une surface
grossière St0
et un champ scalaire de déplacement résiduel m(xi)n
t0 (xi) qui contient
les caractéristiques du nuage de points contaminées par le bruit. L’idée principale de notre
approche est d’utiliser les méthodes non locales pour supprimer le bruit du champ scalaire
résiduel, et, simultanément, calculer la projection (interpolation) à une échelle fine pour
tous les points d’évaluation x ∈ R
3
.
Nous appliquons tout d’abord un opérateur de projection PSS local Πt0 à une échelle large
t0 pour définir une surface grossière St0
. Nous ajoutons ensuite à St0 un champ scalaire
de déplacement fin mNL(x)n
t0 (x) défini par une approximation non locale de la distance
résiduelle m(x) entre la surface grossière et la reconstruction de X . Les différentes étapes
de notre approche sont présentées figure 3.3.
Nous introduisons donc la première définition de surface de points non locale (Non Local
Point Set Surfaces — NLPSS) par l’opérateur de projection :
ΠNL(x) = Πt0
(x) − mNL(x)n
t0
(x) (3.3)
Nous présentons Figure 3.4 notre schéma de projection non local.26
+
Estimation non locale
PSS à échelle grossière
Figure 3.3: Nous utilisons un opérateur PSS grossier sur notre nuage de points d’entrée
X pour décomposer le signal en une surface grossière St0
(en vert) et un champ scalaire de
déplacement résiduel m. Ce dernier étant éventuellement bruité et défini seulement aux
points du nuage de points original, nous approximons ces valeurs en tout point de la surface
grossière mNL par une méthode non locale qui améliore la qualité de l’approximation
en exploitant le caractère autosimilaire du nuage. Notre surface non locale SNL est par
conséquent définie en ajoutant à la surface grossière le champ scalaire de déplacement
approximé.
3.2.2 Carte de déplacement
Le champ scalaire de déplacement m(x) est défini par la distance résiduelle entre la surface
grossière St0
et X . Pour tout x = xi ∈ X :
m(xi) = D
xi − Π
t0
(xi), n
t0
(xi)
E
= f
t0
(xi) (3.4)
Malheureusement, la nature parcimonieuse du nuage de points et les défauts introduits
par l’acquisition 3D font que le champ de déplacement est défini seulement pour les points
du nuage xi ∈ X et peut être bruité.
Dans le but de débruiter ces valeurs et d’étendre sa définition pour tous les points x ∈ R
3
,
nous considérons une moyenne pondérée non locale des m(xi) :
mNL(x) = X
xi∈X
wNL(x, xi)m(xi) (3.5)
Ainsi nous allons devoir introduire une mesure de similarité wNL entre les voisinages
locaux des deux points x et xi
. Pour cela, nous introduirons un descripteur 3D défini par
l’intermédiaire de repères locaux pour faciliter leur comparaison.
3.2.3 Fonction de pondération
Dans cette partie nous allons introduire une mesure de similarité entre deux sous-ensembles
du nuage de points. Par conséquent nous allons introduire un patch qui décrit localement3.2. SURFACES DE POINTS NON LOCALES 27
Figure 3.4: Notre définition permet de projeter tout point x ∈ R
3 par l’intermédiaire de
l’opérateur ΠNL. x est projeté dans un premier temps sur la surface grossière (représentée
en vert) en Πt0 (x). La projection ΠNL(x) sur la surface NLPSS (représentée en rouge)
est définie en ajoutant la valeur du champ scalaire de déplacement débruité mNL dans la
direction de la normale grossière n
t0 (x).
le champ scalaire de déplacement dans un repère normalisé tangent à la surface grossière
St0
.
Descripteur 3D
Figure 3.5: Gauche : Nous définissons la mesure de similarité entre deux sous-ensembles
du nuage de points par l’intermédiaire d’un patch de taille l = 5δ (où δ correspond à l’écart
moyen entre les points) avec n = 2 centré en Πt0
(x). L’ensemble des points qui composent
le patch sont disposés sur le plan tangent à la surface St0 définie par la normale nt0
(x).
Droite : Les valeurs du patch sont calculées en utilisant la surface St1
(en bleu). Les valeurs
colorées du patch représentent les différences locales entre St0
(en vert) et St1
.28
La définition de notre patch est présentée figure 3.5. Pout tout point x ∈ R
3
, notre patch
local de déplacement est défini par un ensemble de dimension (2n + 1) × (2n + 1) points
D = [[−n, n]]2 ⊂ Z
2
. Ces points sont localisés dans un carré de taille l × l défini par
l’intermédiaire d’un systeme de coordonnées local centré en xt0 = Πt0 (x) dont deux axes
définissent le plan tangent à la surface grossière en xt0
. Pour (i, j) ∈ D, chaque point xi,j
du patch a une valeur Pxt0
(i, j) correspondant à la valeur de déplacement m(xi,j ).
Comme nous l’avons expliqué section 3.2.2, les valeurs de la carte de déplacement ne sont
connues que pour les points du nuage x = xi ∈ X . Par conséquent, nous approximons les
valeurs de m(xi,j ) en utilisant un PSS local pour définir une surface St1
à une échelle fine
t1 ≪ t0. Ici, St1
représente une surface peu débruitée et interpolée de X .
Les valeurs Pxt0
correspondent donc à la projection des points du patch sur la surface fine
St1
:
Pxt0
(i, j) = f
t1
(xi,j ) ∀(i, j) ∈ D. (3.6)
Pour que la distance entre les points xi,j et St0
soit négligeable par rapport à Pxt0
, nous
choisissons la taille du patch l ≈
t0
3
.
Orientation du repère
Pour comparer les descripteurs locaux d’une manière similaire, nous introduisons un repère
orthonormé local (u, v, n
t0 ). Pour bien définir le patch de distance, les deux axes u, v
appartiennent au plan tangent à la surface grossière St0
au point xt0
. Par conséquent notre
patch est défini à une orientation près. Pour que cette dernière reste robuste au bruit et
au taux d’échantillonnage, nous la choisissons en fonction des directions principales de
courbures de la surface. Digne [Dig12,DM11] a montré qu’il était possible de les calculer
par une simple analyse en composantes principales des normales. Le vecteur propre associé
à la plus grande valeur propre est tangent à la direction principale.
Nous estimons la moyenne nm et la matrice de covariance Σn des normales en considérant
un sous-ensemble de points X˜ autour de xt0
:
nm =
1
|X | ˜
X
ni∈X˜
ni (3.7)
Σn =
1
|X | ˜
X
ni∈X˜
(ni − nm).
t
(ni − nm) (3.8)
Le vecteur propre u˜ associé à la plus grande valeur propre de la matrice de covariance Σn
n’appartient pas nécessairement au plan tangent à la surface St0
. Par conséquent, nous
redéfinissons les directions u et v par v =
n
t0∧u˜
knt0∧u˜k
et u =
v∧n
t0
kv∧nt0 k
. Désormais, le repère
(u, v, n
t0 ) est défini à une direction près.
Si nous définissons, les moments mk d’ordre k du patch par :
mk =
X
i,j
< (xi,j − xt0
), u >
k
. < (xi,j − xt0
), nt0 >
mk =
X
i,j
< (xi,j − xt0
), u >
k
.Pxt0
(i, j)
(3.9)3.2. SURFACES DE POINTS NON LOCALES 29
Nous utilisons le moment m1 d’ordre 1 pour lever l’ambiguïté sur la direction de u lors du
calcul du patch. La direction pour le vecteur u est obtenue de telle sorte que m1 > 0.
Mesure de similarité
1
0similarity
Figure 3.6: Résultats de notre mesure de similarité par rapport à un point appartenant
à un bord de l’objet (gauche) et à un point appartenant à un plan (droite) représenté dans
chaque cas en blanc. Les couleurs représentent la similarité entre le point de référence et
les autres points de l’objet, allant du rouge (très similaire) au bleu (peu similaire).
Pour deux points y, z ∈ R
3
, nous définissons la distance entre leurs patchs associés par :
d(y, z) = 1
2n + 1
kPyt0
− Pzt0
k2 (3.10)
La mesure de similarité correspondante est définie par l’intermédiaire d’un paramètre h :
wNL(y, z) = 1
ZNL(y)
exp
−
d(y, z)
2
h
2
!
(3.11)
La constante de normalisation ZNL(y) assure que P
xi∈X wNL(y, xi) = 1. Le paramètre h
permet d’ajuster la mesure en fonction de l’autosimilarité du nuage de points.
Nous présentons figure 3.6 les résultats de notre mesure de similarité entre un point de
référence et l’ensemble des points de l’objet.
3.2.4 Opérateur de projection non local
Notre opérateur de projection ΠNL(x) est défini en utilisant la distance implicite fNL(x)
d’un point x ∈ R
3 à la surface de points non locale :
ΠNL(x) = x − fNL(x)n
t0
(x) (3.12)
La distance implicite non locale est définie par :
fNL(x) = f
t0
(x) −
X
xi∈X
wNL(x, xi)m(xi) (3.13)30
Dégénérescence du noyau de pondération non local
Pour des points x dont le facteur d’autosimilarité est faible, notre définition aura tendance
à ne pas débruiter suffisamment le point résultant introduisant ainsi des artefacts dans la
définition de notre surface non locale. Dans ces cas-là, l’utilisation de PSS locaux semble
plus adaptée. Notre définition précédente peut être facilement modifiée pour tenir compte
de cette particularité. Pour cela, nous ajoutons au noyau non local wNL un noyau spatial
wt (correspondant à la définition locale des PSS). Notre nouveau noyau de pondération
w˜NL permet de combiner l’information locale et non locale par l’intermédiaire d’un facteur
de contrôle α :
w˜NL(x, xi) = 1
Z(x)
(αZt(x)wt(x, xi) + ZNL(x)wNL(x, xi)) (3.14)
La constante de normalisation Z(x) est choisie pour assurer une somme unitaire. Dans
cette formule, quand x fait partie d’un ensemble très représenté, le terme non local domine,
permettant d’augmenter la qualité du débruitage et d’améliorer la résolution. Au contraire,
si x appartient à une zone peu représentée, le terme spatial domine, assurant ainsi une
meilleure completion des trous du nuage. Le paramètre α permet de choisir l’impact du
noyau non local par rapport au noyau local dans la définition de la surface finale.
Noyau à support compact
Lors du calcul de la projection non locale, dû à l’utilisation d’un noyau gaussien, chaque
point xi ∈ X possède un poids wNL non nul. Par conséquent, la somme des points de poids
faibles ne peut plus être considérée comme négligeable. Ce phénomène est d’autant plus
important que le paramètre h est élevé (ce qui aura pour conséquence de rendre similaires
l’ensemble des patchs de l’image).
En traitement des images, cette somme est généralement réduite à un sous ensemble de
pixels locaux autour du point d’évaluation. Dans ce cas, l’impact des points similaires
dans la somme finale est plus significatif. Malheureusement, une telle démarche peut dif-
ficilement être appliquée au cas des nuages de points. En effet, il est plus intéressant de
considérer le nuage de points dans sa totalité permettant, par conséquent, de débruiter les
caractéristiques du nuage les plus rares.
Ainsi, pour limiter l’impact des points parasites, nous remplaçons le voisinage local par
l’ensemble des k patchs qui sont les plus similaires. Le poids des autres points du nuage
est imposé à zéro. Cette démarche permet à la fois d’obtenir des résultats d’une meilleure
qualité et une accélération du temps de calcul.
3.3 Résultats
3.3.1 Détails d’implémentation et performance
Nous avons implémenté notre algorithme en C++. La recherche des k plus proches patchs
telle que nous l’avons décrite section 3.2.4 est accélérée par l’utilisation d’un algorithme3.3. RÉSULTATS 31
Figure 3.7: Nuage de points original Fandisk (gauche) qui a été bruité par un bruit
uniforme (droite) permettant de simuler un système d’acquisition 3D de basse qualité.
de recherche approximatif des plus proches voisins : FLANN [ML12,ML09]. Pour mieux
représenter les différences des résultats, nous présenterons les surfaces NLPSS maillées
finement. L’entrée de notre algorithme restera malgré tout un nuage de points muni de
normales et non une surface maillée.
3.3.2 Analyse des paramètres
Dans cette partie nous allons présenter en détail l’influence des paramètres de notre opérateur
non local. Pour permettre une meilleure analyse des résultats, nous utiliserons, jusqu’à
la fin de cette section, le même objet Fandisk comme entrée des différents algorithmes. Le
nuage de points original a été bruité artificiellement avec un bruit uniforme de variance
égale à l’espacement moyen entre les points du nuage (Figure 3.7). Toutes les mesures
d’écart des surfaces résultantes seront effectuées par rapport au maillage original.
Échelle grossière
L’échelle grossière t0 est utilisée pour définir la surface grossière St0
ainsi que le champ scalaire
de déplacement résiduel bruité m(x). Pour que l’utilisation des méthodes non locales
ait du sens, cette dernière doit définir un signal autosimilaire bruité dont les variations
principales sont liées aux traits principaux de l’objet considéré. Nous présentons Figure 3.8
différents choix pour l’échelle t0 ainsi que le champ scalaire résiduel et les surfaces NLPSS
associées.
Le choix idéal pour l’échelle t0 (représenté en vert sur la Figure 3.8) est dépendant de la
quantité de bruit appliqué à l’objet. Si nous choisisson une valeur de t0 trop faible (cas
t0 = 5), la surface grossière résultante exhibera uniquement les structures de bruit locales
introduisant un champ scalaire dont les variations ne sont pas liées à l’aspect de l’objet
considéré. De la même manière, si t0 est trop large (cas t0 = 30) les lignes caractéristiques
de l’objet seront filtrées excessivement entraînant l’apparition de variations parasites dans
le champ de déplacement résiduel.32
Surface grossière Distance résiduelle
bruitée
Distance résiduelle
débruitée
NLPSS
2.5 10
-2
Déplacement:
-2.5 10 0
-2
Figure 3.8: Évolution de la surface NLPSS en fonction de l’échelle grossière t0. Cette
dernière permet de définir une surface dont le bruit et les caractéristiques principales ont
été lissés et a fortiori une carte de déplacement résiduel contenant les variations principales
de l’objet. Un choix idéal pour le paramètre t0 a été représenté en vert.3.3. RÉSULTATS 33
Surface fine Écart entre la surface
grossière et fine
NLPSS
1.5 10
-2
Déplacement:
-1.5 10 0
-2
Figure 3.9: Évolution de la surface NLPSS en fonction de l’échelle fine t1. Cette dernière
permet de définir la carte d’écart entre la surface grossière St0
et St1 utilisée par nos patchs
pour définir la mesure de similarité de deux sous-ensembles du nuage de points. Un choix
idéal pour le paramètre t1 a été représenté en vert.
Par conséquent, la valeur t0 idéale doit être choisie de manière à définir un champ scalaire
dont les variations correspondent à l’aspect de l’objet. En pratique, si la valeur de t0 est
choisie entre 10 et 20 fois l’écart moyen des points du nuage.
Échelle fine
L’échelle fine t1 définit une surface fine St1 utilisée par notre mesure de similarité pour
estimer les variations des patchs. Pour définir une surface d’une meilleure qualité, t1 doit
être choisi de manière à ce que la mesure de similarité soit peu dépendante des structures34
locales de bruits. En Figure 3.9, nous présentons différents choix pour t1, la carte d’écart
entre St0
et St1
ainsi que les surfaces NLPSS associées.
Une fois encore, le choix idéal de l’échelle t1 (représenté en vert sur la Figure 3.9) dépend
du niveau de bruit appliqué à l’objet. Elle doit être choisie suffisamment petite par rapport
à t0 de manière à approcher les caractéristiques de l’objet tout en lissant les structures
locales de bruit. Pour des valeurs de t1 faibles (cas t1 = 3), la mesure de similarité rassemblera
des structures locales de bruits similaires exagérant ainsi les variations parasites de
l’objet. Au contraire pour des valeurs de t1 élevées (cas t1 = 10), la mesure de similarité
associera ensemble des traits non similaires de l’objet tendant à introduire des artefacts
et à uniformiser les traits principaux de la surface NLPSS résultante.
Choisir une valeur de t1 supérieure à t0, n’aurait pas de sens et résulterait d’un mauvais
choix de t0. De plus, prendre t1 = t0 définirait un ensemble de patchs égaux rendant
impossible toute mesure de similarité de deux sous-ensembles du nuage de points. En
pratique, nous choisissons t1 ≈ 0.5t0 .
Opérateur PSS local sous-jacent
Notre opérateur NLPSS est défini pour étendre n’importe quel opérateur PSS local afin
d’exploiter le caractère autosimilaire des nuages de points. Nous présentons en Figure 3.10
une comparaison des surfaces non locales générées en considérant différents opérateurs
PSS locaux.
La qualité de notre NLPSS est très dépendante du choix du PSS local sous-jacent. Ce
dernier permet de définir la surface grossière et la surface fine à partir du nuage de points
(Figure 3.11). Il est important de noter que les propriétés intéressantes des PSS locaux
sont transmises au NLPSS. Ainsi, un opérateur qui préserve les bords d’un objet produira
un NLPSS qui les préserve également (cf. NLPSS basé sur le RIMLS). Notre définition
permet également de corriger les imperfections introduites par les PSS locaux. Dans le cas
du SPSS et HPSS qui exagèrent les caractéristiques principales d’un objet sans filtrer les
structures de bruits locales, notre NLPSS réussit à définir une surface les supprimant tout
en préservant les arêtes et les coins de l’objet.
Malheureusement, notre définition est très dépendante de la qualité de la surface grossière :
toutes les discontinuités introduites par l’opérateur PSS local à échelle grossière seront
difficilement corrigées par notre approche. De manière équivalente, un PSS local capable de
définir une surface fine qui préserve les caractéristiques principales d’un objet définira une
mesure de similarité plus précise. Mesure qui est utile pour définir une surface non locale
de meilleure qualité. L’APSS et le RIMLS qui génèrent des surfaces grossières exemptes
de défauts remarquables et des surfaces fines préservant les caractéristiques de l’objet
définissent des NLPSS idéaux. En pratique, nous utilisons l’APSS comme opérateur de
notre NLPSS car il donne de manière générale les meilleurs résultats.3.3. RÉSULTATS 35
Resultat Local NLPSS Erreur Local Erreur NLPSS
SPSS HPSS APSS RIMLS
7.0 10
-3 0 Erreur
Figure 3.10: Comparaison des surfaces NLPSS utilisant différents opérateurs PSS sousjacents
et des surfaces PSS originales. Les erreurs ont été calculées par rapport au Fandisk
original.36
Échelle fine Échelle grossière
SPSS HPSS APSS RIMLS
Figure 3.11: Surfaces fines St1
et grossières St0 utilisées par notre NLPSS pour étendre
les PSS conventionnels.
NLPSS
Figure 3.12: Évolution de la surface NLPSS en fonction de la taille du patch l. Cette
taille est utilisée pour définir la taille des détails qui doivent être pris en compte lors
du débruitage par les méthodes non locales. Si cette dernière est choisie trop fine, notre
approche non locale dégénère en une approche bilatérale. La définition du patch sur un
plan tangent à la surface grossière St0
, implique que le paramètre l ne doit pas être choisi
supérieur à l’échelle fine t1. Le choix idéal pour l a été représenté en vert.
Taille du descripteur
La largeur l des patchs permet de sélectionner la taille des traits de l’objet présents dans
le nuage de points que notre NLPSS doit récupérer. En Figure 3.12, nous présentons
différents choix pour la taille l du descripteur ainsi que les surfaces NLPSS résultantes.3.3. RÉSULTATS 37 NLPSS Temps (s)
5
10
15
Figure 3.13: Évolution de la surface NLPSS en fonction du nombre de points n par patch.
Les surfaces résultantes sont peu influencées par le nombre de points compris dans chaque
patch. Néanmoins, le temps de calcul pour estimer ces dernières augmente linéairement
avec le nombre de points. En définitive, des patchs de taille 5 × 5 semblent être un bon
compromis qualité/temps de calcul.
Il est intéressant de noter que pour des valeurs faibles de l (cas l = 1), notre approche non
locale dégénère en un simple opérateur de projection bilatéral [TM98, JDZ04]. La surface
NLPSS résultante aura donc tendance à s’accrocher aux valeurs du champ scalaire résiduel
les plus proches. Pour des valeurs de l plus élevées (cas l = 4), la mesure de similarité est
peu influencée par le bruit présent dans le nuage de points résultant en une suppression
des variations locales dans les zones plates.
Néanmoins, à cause de l’approximation de la surface grossière par un plan tangent à
la surface (cf. Section 3.2.3), l doit être choisie inférieure à t1. Pour des valeurs de l
supérieures à t1 (cas l = 10) les variations décrites par les patchs ne correspondent pas
aux variations réelles entre la surface grossière et la surface fine. Ainsi, la mesure de
similarité est faussée ce qui entraîne l’apparition d’artefacts dans la surface NLPSS. En
pratique, nous choisissons l variant entre 3 et 5 fois l’écart moyen des points du nuage.
Nombre de points par patch
Le nombre de points du patch n est utilisé pour décrire plus précisément les variations
locales de la surface. Figure 3.13, nous présentons une analyse du temps de calcul des38
Distance résiduelle
débruitée
NLPSS
1.0 10
-2
Déplacement:
-1.0 10 0
-2
Figure 3.14: Évolution de la surface NLPSS en fonction du degré d’autosimilarité h du
nuage de points. Ce dernier permet de sélectionner le degré de débruitage des caracté-
ristiques principales de l’objet. Si ce dernier est choisi trop faible, les caractéristiques de
l’objet resteront bruitées. À l’opposé, pour des valeurs trop élevées ces dernières seront
complètement lissées. Le choix idéal (représenté en vert) correspond au degré de filtrage
de notre méthode. L’utilisateur peut interagir avec ce paramètre sans contrainte de temps
de calcul.
patchs en fonction de la qualité de la surface NLPSS associée à des nombres de points
différents par patchs.
De toute évidence, augmenter le nombre de points par patch permet de définir une mesure
de similarité plus fiable en contrepartie d’un temps de calcul élevé. En pratique, l’influence
du nombre de points par patchs reste négligeable. Ainsi, le choix d’un nombre points par
patch faible s’impose. Dans de rares cas, le choix de patch 3 × 3 peut être insuffisant pour
décrire correctement la différence entre les surfaces grossière et fine. Par conséquent, nous
avons opté pour des patchs 5 × 5 ce qui constitue un bon compromis qualité/temps de
calcul.
Facteur d’autosimilarité du nuage
Le paramètre h définit le degré de similarité présent dans le nuage de points et correspond
au facteur de filtrage du nuage de points. Nous présentons Figure 3.14 différents choix
pour h ainsi que le champ scalaire résiduel débruité et les surfaces NLPSS associées.3.3. RÉSULTATS 39
Pour des valeurs h ≈ 0 (cas h = 0.1), la mesure de similarité aura tendance à différencier
l’ensemble des patchs ce qui s’exprimera en pratique par des poids qui tendent vers
0. Comme la somme des poids de l’équation 3.11 est assurée d’être unitaire, les points
prendront la valeur m(xi) du point pi
le plus similaire. Par conséquent, le champ scalaire
résiduel ne sera pas débruité et la surface non locale résultante approximera le bruit
contenu dans le nuage. De même, pour des valeurs trop faibles de h (cas h = 10), les
lignes singulières de l’objet seront peu débruitées. À l’opposé des zones plates, ces zones
sont plus rares dans l’objet entraînant un débruitage plus faible. À l’opposé, si h est choisi
trop grand (cas h = 100), les poids de l’équation 3.11 seront tous égaux entraînant une
uniformisation du champ scalaire de déplacement résiduel.
La valeur idéale de h (représentée en vert sur la Figure 3.14) doit être choisie par l’utilisateur
et correspond au facteur de filtrage de notre méthode. Une fois l’ensemble des patchs
calculés et les k plus proches patchs déterminés, l’estimation d’une surface pour différentes
valeurs de h n’est pas coûteuse. Ainsi, l’utilisateur peut intéragir avec le paramètre h sans
contrainte sur le temps de calcul.
Facteur de dégénérescence local
L’utilisation du facteur α de l’équation 3.14 nous permet de choisir des valeurs h moins
élevées. Ainsi, les traits peu présents dans l’objet sont mieux préservés et les artefacts
introduits par les éléments les plus rares de l’objet sont lissés par l’opérateur local. En
Figure 3.15, nous présentons l’évolution de la surface NLPSS pour différentes valeurs de
α.
Lorsque α = ∞, l’équation 3.15 dégénère simplement en une définition locale des PSS.
Au contraire quand α = 0, le résultat obtenu correspond à la surface NLPSS. Les valeurs
intermédiaires de α permettent d’obtenir une combinaison de ces deux surfaces. Pour des
valeurs croissantes de α, les traits les moins présents dans le nuage sont les premiers à être
remplacés par les valeurs des PSS locaux permettant d’améliorer la qualité de la surface
NLPSS résultante. Ainsi, comme le montre la figure 3.15 pour des valeurs croissantes de
α, les coins, les arêtes puis finalement les zones plates vont être remplacés par les PSS
locaux.
La valeur idéale dépendra de la présence de points peu autosimilaires dans le nuage. Il
est intéressant de noter que changer la valeur du facteur α ne nécessite que peu de calcul
supplémentaire. En effet l’équation 3.2.4 peut s’exprimer comme une combinaison linéaire
des points des nuages résultants de l’opérateur PSS local et non local.
Choix pratique
Parmi les sept différents paramètres que possède notre NLPSS, seulement deux d’entre
eux ont besoin d’être réellement choisis par l’utilisateur : le facteur d’autosimilarité h et
le facteur de dégénérescence α.
En pratique, pour des nuages de points issus de scanners 3D dont l’écart moyen entre
les points est défini par ¯δ, les meilleurs résultats sont obtenus pour des NLPSS basés sur
l’APSS dont l’échelle grossière t0 = 12¯δ, l’échelle fine t1 = 7¯δ et les patchs de taille l = 4¯δ40
NLPSS PSS local NLPSS dégénéré
Figure 3.15: Évolution de la surface NLPSS en fonction du facteur α. Ce paramètre
est complémentaire au paramètre h et permet de remplacer les structures peu débruitées
(peu autosimilaires) par leurs versions débruitées en utilisant l’opérateur PSS sous-jacent.
Pour des valeurs croissantes de α notre définition remplace en premier les structures peu
autosimilaires pour finir par les caractéristiques les plus présentes dans le nuage de points.
Nous pouvons par conséquent faire un compromis entre localité (pour les structures peu
autosimilaires) et similarité (pour les structures très autosimilaires). Calculer les surfaces
résultantes pour différentes valeurs de α est possible sans avoir besoin d’estimer de nouveau
l’ensemble des patchs et les k plus proches voisins. α peut donc être choisi interactivement
par l’utilisateur.3.3. RÉSULTATS 41
i) Calcul de la surface grossière ii) Calcul des patches iii) Calcul des plus proches patches iv) Calcul des valeurs débruitées
Temps de calcul avec accélération
5
10
15
10000 50000 100000
Temps (s)
Temps de calcul sans accélération
Temps (s)
150
300
10000 50000 100000
Figure 3.16: Gauche : Temps de calcul des différentes étapes de notre approche estimés en
utilisant un seul cœur. Notre approche est plus longue que les opérateurs PSS précédents,
car elle nécessite un plus grand nombre de projections (dû aux projections successives sur
la surface grossière et sur la surface fine). Droite : Temps de calcul des différentes étapes
de notre approche en utilisant différents outils d’accélération (parallélisation, GPU). En
pratique, nous avons grandement accéléré le temps de calcul (20x) permettant de définir
une utilisation plus interactive de notre NLPSS.
sont définis avec une précision de 5 × 5 points. De plus, dans la mesure où ces paramètres
sont fixés, le calcul des patchs du nuage peut être effectué une fois pour toutes. Ainsi, les
surfaces résultantes peuvent être générées rapidement pour différentes valeurs de h et α.
3.3.3 Performances
Notre approche non locale reste plus lente que des méthodes PSS conventionnelles. Ces
performances inférieures peuvent s’expliquer par : (i) un nombre de projections sur les
surfaces plus conséquent que les approches locales, (ii) la nécessité de comparer l’ensemble
des patchs entre eux. Nous présentons en Figure 3.16, l’évolution des temps de calcul pris
par chacune des étapes de notre algorithme en fonction du nombre de points à projeter.
Certains paramètres du NLPSS influencent directement le temps de calcul, comme les
échelles t0 et t1 du PSS sous-jacent. Ces dernières sont directement liées à la taille du
voisinage nécessaire pour estimer les projections sur les surfaces grossières et fines. Ainsi,
plus ce voisinage est grand, plus le temps de calcul est élevé. De la même manière, le
nombre de points influence le nombre de projections nécessaires (Figure 3.13). Néanmoins
comme nous l’avons expliqué en Section 3.3.2, le nombre de points par patch est fixé car il
influence peu la qualité de la surface résultante. Pour estimer rapidement le voisinage d’un
point donné, chaque PSS est basé sur un ball-tree tels qu’il est introduit par Guennebaud
et coll. [GGG08]. De même, pour accélérer la comparaison des patchs, la moyenne non
locale définie par l’Équation 3.13 est limitée à une recherche approximée des 500 plus
proches voisins du patch considéré par FLANN [ML12,ML09].
Pour une meilleure interactivité avec l’utilisateur, ces temps de calcul sont grandement
diminués (Figure 3.16) grâce à des outils de parallélisation CPU et GPU. De plus, notre
approche peut être divisée en quatre étapes successives : (i) calcul de la surface grossière,
(ii) estimation des patchs, (iii) calcul approché des plus proches voisins et (iv) calcul des
valeurs débruitées (réglage de h et α). Comme les paramètres utilisés par notre approche42
Original SPSS HPSS
APSS RIMLS NLPSS
Figure 3.17: Comparaison entre les reconstructions PSS locales et notre NLPSS obtenues
à partir d’un nuage de point 2D.
peuvent être généralisés, seule l’étape ( iv) nécessite une interaction réelle avec l’utilisateur.
De plus, une fois les étapes précédentes estimées, cette dernière peut être calculée
rapidement (comme le montre le graphique de droite de la Figure 3.16) sans avoir besoin
de réappliquer la chaîne complète. Les valeurs idéales de h et α peuvent donc être choisies
interactivement par l’utilisateur.
3.3.4 Analyse de la qualité de la surface
Les opérateurs PSS conventionnels essayent d’extraire une surface à partir d’un voisinage
purement local. Comme le montre la Figure 3.17 qui présente différentes reconstructions de
surfaces PSS à partir d’un nuage de points 2D synthétique, ce point de vue ne permet pas
de conserver les caractéristiques présentent dans le nuage de points d’entrée supprimant
par la même occasion les symétries originales du nuage d’entrée. En utilisant un point
de vue plus global, notre NLPSS permet de générer une surface capable de conserver les
symétries présentes dans l’objet original.
Dans le cas d’un nuage de points réel issu d’un scanner 3D (Figure 3.18), les opérateurs
PSS conventionnels doivent, en plus, faire un compromis entre la préservation des caracté-
ristiques principales de l’objet et la suppression du bruit. Ce problème est particulièrement
visible pour les SPSS qui tendent à trop filtrer les arêtes et pour le HPSS qui exagère les
structures locales de bruits. D’autres opérateurs, comme l’APSS, possèdent un fort pouvoir
débruitant, mais doivent être utilisés à des échelles de filtrage fines pour éviter une sup-3.3. RÉSULTATS 43
Original SPSS HPSS APSS RIMLS NLPSS
Figure 3.18: Comparaison entre différentes surfaces obtenues par des PSS locaux et notre
NLPSS obtenues à partir du modèle 3D scanné Ramesses
pression complète des arêtes de l’objet. Malheureusement, à de telles échelles, ce dernier
est incapable de supprimer complètement le bruit. Contrairement aux autres opérateurs,
le RIMLS a été défini pour extraire les arêtes tout en supprimant le bruit de l’objet. Cette
définition fournit de bons résultats dans le cas d’objets purement géométriques possédant
des arêtes vives (par ex. objets manufacturés). Malheureusement, dans le cas d’objets réels,
le RIMLS tend à exagérer les caractéristiques de l’objet.
En comparaison, notre NLPSS réussit à éliminer le bruit introduit par la numérisation sans
altérer les structures présentes dans l’objet. Cet avantage est dû à l’utilisation de l’information
non locale qui peut augmenter localement le rapport signal sur bruit. Contrairement
au RIMLS qui exagère les structures, notre opérateur NLPSS réussit à générer une surface
qui est proche du nuage d’entrée.
Il est important de comprendre que notre définition de surface non locale est plus gé-
nérale qu’une simple combinaison d’un algorithme de filtrage de nuage de points (par
exemple [DM11,Dig12]) et d’un modèle de reconstruction de surface existant. Pour mieux
appréhender les différences fondamentales entre ces deux types d’approches, nous présentons
en Figure 3.19 deux reconstructions de surfaces différentes. Dans le premier cas, la
surface est définie en utilisant L’APSS à partir d’un nuage de points préalablement dé-
bruité par un algorithme de débruitage non local. Dans le deuxième cas, la surface est
directement définie en utilisant notre NLPSS. La première approche réussit à débruiter
les points en exploitant l’autosimilarité du nuage, mais reste incapable de reconstruire une
surface en exploitant l’autosimilarité du nuage. Ainsi, la surface résultante ne permet de
compléter les trous en respectant le caractère périodique du nuage original. Au contraire,
notre modèle NLPSS est capable de reconstruire la surface pour chaque point en exploitant
l’autosimilarité et la redondance des structures du nuage de points. De manière similaire,
une troisième approche, qui consisterait à reconstruire une surface directement à partir
des points du nuage puis à utiliser une méthode non locale de débruitage de maillage surfacique
[FDCO03,YBS06,WCZ+08,MRS12], n’exploiterait pas totalement l’autosimilarité
du nuage tout en introduisant des problèmes de définition.
Comme le montre la Figure 3.20, dans le cas de nuages très épars et bruités, les modèles
PSS existants peuvent difficilement générer une surface correcte à des tailles de filtrage44
Largeur du patch :
NL APSS
NLPSS
Figure 3.19: Comparaison des surfaces obtenues en utilisant l’APSS [GGG08] à partir
d’un nuage de points débruité par un algorithme de filtrage non local et la surface obtenue
directement avec notre définition de surface NLPSS.
Nuage de points original APSS RIMLS NLPSS
Figure 3.20: Comparaison entre différentes surfaces obtenues en utilisant des opérateurs
PSS locaux et notre NLPSS sur un modèle d’étoile 3D synthétique.
petites. Pour résoudre ce problème, les modèles de PSS conventionnels doivent augmenter
leur niveau de filtrage, supprimant par conséquent toute l’information de basse échelle
présente dans le nuage. Contrairement à ces définitions, notre NLPSS est capable de
générer une surface plus stable. Cette propriété est due à (i) l’utilisation d’une surface
grossière comme base à notre surface qui définit une structure topologique à notre PSS
et (ii) la moyenne non locale qui est capable de débruiter des structures fines et de les
rajouter sur la surface grossière sans introduire de fausses structures comme le font les
modèles de PSS conventionnels.
En Figure 3.21 et 3.22, nous présentons les surfaces obtenues par notre NLPSS à partir de
nuages de points bruités issus de scanners 3D. Il est intéressant de noter que notre NLPSS
est capable d’utiliser l’ensemble de l’information pour compléter les trous du nuage de3.3. RÉSULTATS 45
Original NLPSS
Figure 3.21: Illustration du pouvoir débruitant de notre NLPSS sur le nuage de points
3D Dragon (413k points) acquis par numérisation 3D.
Original NLPSS
Figure 3.22: Application du NLPSS sur le nuage de points Ramesses (350K points) issu
d’une numérisation 3D. Notre approche est capable de combler les trous de l’objet en
utilisant l’autosimilarité présente dans le nuage de points.
points. Cette propriété est illustrée en Figure 3.22) où l’information inconnue du visage
d’un relief est complétée par l’information connue d’un relief similaire présent sur la statue.
Néanmoins, cette propriété reste très dépendante de la qualité de la surface grossière sousjacente.46
Figure 3.23: Application de notre opérateur NLPSS au cas du débruitage de nuages de
points. Nous avons utilisé le jeu de données Pyramid (120k points) issue de [DAL+11]
Figure 3.24: Application de notre NLPSS pour définir une surface maillée en utilisant
un algorithme de type Marching Cubes [LC87].
3.3.5 Applications
Filtrage de nuages de points
Une des applications les plus évidentes des PSS est le filtrage de nuages de points. En
considérant un nuage de points bruités, l’opération de débruitage du nuage consiste à
remplacer chaque point xi ∈ X du nuage par leur projection x˜i = ΠNL(xi) sur la surface
définie par l’opérateur de projection ΠNL définie par l’Équation 3.12. Ainsi, le nuage
débruité est défini par P˜ = {x˜i}. Nous présentons en Figure 3.23, le résultat du débruitage
obtenu par NLPSS.
Reconstruction de surface
L’une des utilisations majeures des opérateurs PSS est de définir une surface maillée à
partir de la définition implicite de la surface. Nous définissons la surface comme la 0-3.4. LIMITATION ET POSSIBLES AMÉLIORATIONS 47
Figure 3.25: Application de notre NLPSS à l’édition de surfaces. Le paramètre β permet
de moduler à quel point le champ scalaire de déplacement doit être ajouté à la surface
grossière. Gauche : pour des valeurs β > 1, ces détails sont exagérés. Droite : pour des
valeurs β < 0, ces derniers sont inversés.
surface de la distance implicite fNL définie par l’Équation 3.13. La surface maillée est
obtenue en utilisant un algorithme de Marching Cubes. Nous présentons en Figure 3.24 la
surface NLPSS maillée obtenue à partir d’un nuage de points bruités.
Améliorations des détails
Pour illustrer le potentiel de notre NLPSS, nous proposons une utilisation de notre dé-
finition pour l’édition de surfaces. Comme nous l’avons expliqué en Section 3.2.1, notre
opérateur NLPSS est défini par une surface grossière sur laquelle nous ajoutons un champ
scalaire de déplacement. Nous pouvons modifier la fonction implicite fNL définie en Équation
3.13 en multipliant le champ scalaire de déplacement par un champ scalaire continu
β(x) :
fNL(x) = f
t0
(x) − β(x)
X
xi∈X
wNL(x, xi)f
t0
(xi) (3.15)
Par conséquent, β(x) permet de décrire pour chaque x à quel point les détails fins fNL(x)
sont ajoutés à la surface grossière St0
. Les détails sont ajoutés à la surface grossière pour
des valeurs de β(x) > 0, et exagérés si β(x) > 1. Des valeurs de β(x) négatives permettent
de supprimer les détails de la surface grossière, inversant de la même manière les caractéristiques
de l’objet. Ainsi, l’utilisateur peint directement sur la surface grossière St0
les
valeurs de β(x) choisissant, de la même manière, les éléments de l’objet qu’il souhaite
exagérer. Nous présentons en Figure 3.25 une illustration de cette démarche.
3.4 Limitation et possibles améliorations
Dans cette partie nous avons défini un opérateur PSS capable d’exploiter le caractère
autosimilaire des nuages de points pour définir une surface. Notre définition est capable48
Figure 3.26: Gauche : Notre approche non locale peut résulter en l’apparition de halos
sur la surface. Centre : Une solution simple pour résoudre ce problème consiste à définir
différentes surfaces NLPSS en utilisant des patchs décentrés. Droite : Une simple moyenne
de ces différentes valeurs débruitées permet de limiter les effets des halos introduits.
d’améliorer la qualité des surfaces définies par des opérateurs PSS locaux en augmentant
le rapport signal/bruit. Néanmoins, les résultats de notre opérateur sont très dépendants
de l’aspect autosimilaire du nuage à traiter. Plus le nuage de points présentera de parties
similaires, plus la qualité de la surface générée par notre approche sera élevée. Dans le cas,
peu probable, d’absence d’autosimilarité dans le nuage de points, notre NLPSS obtiendra
des résultats identiques à l’opérateur PSS local sous-jacent (Section 3.2.4).
Il est courant que l’utilisation de patchs par les méthodes non locales introduise des oscillations
ou halos autour des arêtes des images. Le même phénomène peut être observé sur
les surfaces définies par notre approche autour des arêtes vives de l’objet (Figure 3.26). Ce
problème peut s’expliquer par le phénomène d’adhérence des patchs. [LBM13] proposent
une solution simple pour résoudre ce problème. Elle consiste à faire une moyenne des différentes
cartes débruitées en considérant des patchs décentrés. Nous présentons en Figure
3.26 une extension de cette solution à notre NLPSS. Cette solution permet d’éliminer les
halos et d’améliorer la qualité de la surface résultante au prix de temps de calcul plus
coûteux.
Pour définir notre mesure de similarité (Section 3.2.3), nous avons utilisé une distance
euclidienne entre les patchs. Cette distance nous permet de définir des surfaces NLPSS
correctes, mais reste néanmoins trop sensible au bruit et aux points aberrants. Remplacer
la norme L2 par une norme L1 permettrait de définir une surface moins sensible aux points
aberrants. Il serait intéressant de redéfinir les patchs en ajoutant pour chaque point projeté
la normale associée à cette projection. Ainsi, la distance entre les patchs correspondrait à
une distance L2,1 qui tient compte à la fois des variations des positions et des normales. Une
telle approche revient à étendre les patchs de manières "géodésique" plus qu’euclidienne
permettant ainsi de différencier les caractéristiques intrinsèques de l’objet tout en étant
moins sensibles au bruit.
En comparaison avec les définitions de PSS conventionnelles, le NLPSS requiert un temps
de calcul supérieur. Ce phénomène s’explique par la nécessité de projeter plus de points
que les méthodes PSS précédentes et de rechercher les patchs les plus similaires. Durant3.4. LIMITATION ET POSSIBLES AMÉLIORATIONS 49
ces dernières années, beaucoup de travaux se sont fixés comme objectif d’accélérer le calcul
des filtres à moyennes non locales (Section 4.1.1). Un point important de notre travail futur
consistera à essayer d’adapter ces méthodes au cas des nuages de points et à utiliser les
technologies de parallélisation offerte par les cartes graphiques modernes pour que notre
approche soit utilisable en temps réel.
Pour conclure, notre NLPSS permet le remplissage de trous d’une taille similaire à celle
utilisée pour définir les patchs de surface. Pour des trous d’une échelle supérieure, une
telle approche n’est pas suffisante. Il est donc nécessaire d’utiliser une méthode itérative
d’inpainting de surfaces. Malheureusement, de telles méthodes restent difficile à calculer
et nécessitent la connaissance d’un a priori sur les surfaces 3D.C h a p i t r e 4
Arbre de covariances
Dans ce chapitre, nous présentons une structure de données capable d’apprendre les variations
de grands ensembles d’échantillons en utilisant une quantité de mémoire limitée.
En Section 4.1, nous présentons un historique des méthodes d’accélérations des filtres à
hautes dimensions. Dans la Section 4.2, nous introduisons une version simplifiée de notre
arbre définie dans un domaine spatial. Cette version est ensuite étendue en Section 4.3 en
distinguant deux domaines : spatial et des attributs. Les performances de notre structure
sont ensuite analysées en Section 4.4. Finalement, nous proposons en Section 4.5 diverses
améliorations de notre structure de données.
4.1 Contexte
4.1.1 Filtrage à hautes dimensions
Avec l’apparition des nouvelles technologies et de nouvelles capacités de calculs, le filtrage
à hautes dimensions est devenu durant ces dernières années une brique fondamentale pour
une variété d’applications telles que le débruitage [BCM05], la récoloration [CPD07], le
suréchantillonage [KCLU07], la manipulation de détails [BPD06,FAR07], le filtrage spatiotemporel
[BM05]. Implémentés naïvement, de tels filtres restent difficiles et lents à calculer
et nécessitent d’être accélérés. Ainsi, le rapport entre le temps de calcul et la qualité des
résultats obtenue est devenu un enjeu important pour les communautés de la vision par
ordinateur, du traitement des images et de la photographie calculatoire.
De nombreuses approches ont été introduites afin d’accélérer leur estimation. Parmi
elles, une première catégorie de méthodes propose une accélération par estimation d’un
champ approché des k-plus proches voisins comme par exemple PatchMatch [BSFG09]
(récemment étendu à d’autres domaines [NFP+13, CFGS12, BRR11] et accéléré par kdtree
[HS12], l’utilisation d’images intégrales [OA12], l’utilisation d’une transformée de Fourier
[WGY+06, DDS12], la réduction de la dimensionnalité des patches par les filtres de
Haar [KA11] ou une analyse en composantes principales [APG07,Tas08,Tas09], la limitation
de la recherche à un voisinage 2D local (utilisé en pratique par [BCM05,LBM13]).
Ces méthodes restent néanmoins trop spécifiques aux problèmes de traitement des images
et peuvent difficilement être étendues au cas 3D. De plus, les approches de débruitage par
5152
filtres collaboratifs, définissant une meilleure restauration de l’image que les approches
par moyenne non locale, ne peuvent être accélérées par une estimation approchée des
k-plus proches voisins. Par conséquent, nous focaliserons notre étude sur l’utilisation de
structures d’accélération qui permettent une réduction de la complexité computationnelle
des filtres au prix d’approximations visuelles résultantes.
4.1.2 Travaux existants
Parmi tous les filtres non linéaires, le filtre bilatéral [TM98] a été l’un des premiers à avoir
été accéléré car il constitue une approximation intéressante des filtres anisotropes [Bar02].
Durand et Dorsey [DD02] sont parmi les premiers à proposer une accélération de ce filtre
appliquée à l’affichage d’images à grande dynamique (High Dynamic Range - HDR). Leur
idée principale est de réduire la complexité du filtre en utilisant une approximation linéaire
par morceaux du filtre bilatéral, ce qui revient à appliquer un filtre gaussien, plus rapide à
calculer, sur un sous-échantillonnage du domaine spatial. Ces valeurs sous-échantillonnées
sont ensuite interpolées pour obtenir le signal filtré.
En remarquant que le filtre bilatéral peut être exprimé par un filtre gaussien appliqué dans
un espace de dimensions supérieures, Paris et Durand [PD06] introduisent la grille bilaté-
rale. Cette dernière sous-échantillonne le signal à filtrer par des voxels de taille uniforme
en exprimant le signal à filtrer comme une variété linéaire par morceaux définie dans un
espace qui associe le domaine spatial et colorimétrique (appelé par la suite espace augmenté).
Pour rendre l’accélération plus performante, l’espace colorimétrique est réduit à
une unique dimension. Néanmoins, les distances en chrominance ne sont pas respectées ce
qui introduit des effets de flou parasites. Ce problème est résolu dans une version ultérieure
de leurs travaux [PD09] par l’utilisation de toutes les dimensions colorimétriques. La grille
bilatérale, définissant désormais un volume 5D, nécessite une quantité de mémoire et en
temps supérieur. En particulier pour des échelles de filtrage faibles, cette méthode devient
impraticable.
Adams et coll. [AGDL09] proposent de remplacer le pavage régulier par un pavage adaptatif
de l’espace augmenté. Ils introduisent une structure d’accélération indépendante de
l’échelle de filtrage, le kd-tree gaussien (Gaussian KD-Tree - GKD-Tree), en se basant sur
les travaux de Aray et coll. [AMN+98]. Ils proposent de paver l’espace augmenté avec des
voxels de tailles non uniformes en utilisant un kd-tree [Ben75] qui regroupe les échantillons
proches. Les valeurs des voxels sont estimées par diffusion des valeurs des échantillons qui
lui sont proches (splatting), filtrées entre elles (blurring) et finalement interpolées pour
définir les valeurs filtrées de chaque échantillon (slicing). Cette approche peut être gé-
néralisée à l’accélération de l’ensemble des filtres non linéaires à poids gaussiens (filtre
gaussien, bilatéral, à moyenne non locale, etc.). Ultérieurement, Adams et coll. [ABD10]
étendent leurs travaux en pavant l’espace avec des simplexes et en stockant les valeurs de
ces derniers dans une table de hachage. Ainsi, la structure d’accélération permet d’appliquer
des filtres non linéaires de hautes dimensions avec une complexité linéaire par rapport
au nombre de points et polynomiale par rapport à la dimensionnalité du filtre.
Dans le cas des filtres à très hautes dimensions, la complexité polynomiale par rapport aux
nombres de dimensions des précédentes approches ne permet pas qu’elles soient appliquées
en temps réel. He et coll. [HST10] proposent de réduire la dimensionnalité du problème4.1. CONTEXTE 53
en comparant indirectement chaque pixel de l’image par rapport à leur relation à un
guide. Même si cette approche permet une accélération significative, elle introduit des
artefacts dus à l’utilisation d’une distance non euclidienne. De la même manière, Gastal et
Oliveira [GO11] proposent, dans le cas des filtres bilatéraux, l’utilisation d’une transformée
de l’image qui déforme la géométrie du domaine spatial 2D du signal à filtrer de sorte
que la distance spatiale entre deux points de l’espace déformé corresponde à la distance
géodésique dans l’espace augmenté 5D. Ainsi, le filtre bilatéral est approximé par un filtre
gaussien appliqué dans le domaine spatial.
Ces travaux sont ensuite généralisés au cas de filtres de plus hautes dimensions [GO12].
Gastal et Oliveira démontrent que le signal à filtrer peut rarement être défini par une
variété linéaire. Par conséquent, l’utilisation de voxels n’est pas adaptée pour obtenir un
sous-échantillonnage correct de l’espace. À la place, ils proposent l’utilisation de variétés
non linéaires adaptatives qui sont définies en appliquant récursivement un filtre passebas
sur les échantillons du signal. Le signal filtré est estimé en utilisant une approche
similaire au GKD-Tree [AGDL09] : les valeurs des variétés sont estimées par diffusion des
valeurs des échantillons (splatting), puis filtrées entre elles indépendamment des valeurs
des autres variétés (blurring) et finalement interpolées pour définir les valeurs filtrées de
chaque échantillon (slicing). Cette approche permet d’obtenir une complexité qui est à la
fois linéaire par rapport à la dimensionnalité du filtre et du nombre d’échantillons.
4.1.3 Problématique
Si l’on devait résumer les progrès de ces dernières années, le calcul de filtres non linéaires
a été accéléré de deux manières : (i) en redéfinissant les filtres non linéaires par des
filtres linéaires exprimés dans des espaces augmentés qui associent les domaines spatial et
colorimétrique (ii) en interpolant une version sous-échantillonnée du signal filtré adapté
à l’échelle de filtrage. Même si les structures d’accélérations associées sont aujourd’hui
capables d’appliquer en temps réels des filtres non linéaires à hautes dimensions, elles ne
peuvent pas être utilisées pour accélérer le calcul de filtres probabilistes collaboratifs tels
que les Non-Local Bayes. De plus, elles doivent être entièrement reconstruites pour chaque
modification des paramètres de filtrage.
D’un autre point de vue, avec l’augmentation de la quantité d’information, peu de mé-
thodes à l’heure actuelle exploitent réellement l’information contenue dans les grandes
bases de données ou au prix d’une quantité de mémoire et de calculs beaucoup trop importante.
Les structures d’accélération de filtrage non linéaire actuelles ne sont pas conçues
pour être directement exploitées sur ces bases.
Nous proposons d’associer les avancés récentes sur les structures d’accélération des filtres
non linéaire avec les dernières avancées du domaine non local. Nous proposons une nouvelle
structure de données, plus générale qu’une simple structure d’accélération, capable d’apprendre
les distributions locales d’un grand ensemble d’échantillons en les représentant
par des gaussiennes anisotropes. Contrairement aux méthodes qui représentent les distributions
d’échantillons par un modèle de mixture de gaussiennes de nombre fini [YSM12],
ces gaussiennes sont estimées en fonction de la région de l’espace considéré.54
Ainsi, nous introduisons l’arbre de covariance (Covariance Tree - CovTree) qui possède les
caractéristiques suivantes :
1. Apprentissage de grande base de données : En utilisant une approche similaire
aux structures d’accélérations des filtres non linéaires, l’ensemble des échantillons est
réparti en sous-ensembles adaptés représentés par des gaussiennes indépendantes du
nombre d’échantillons.
2. Optimisation de la mise à jour des données : L’ajout d’un échantillon dans
notre structure n’entraîne pas la reconstruction complète de la structure. Seules les
gaussiennes qui décrivent les distributions de chaque sous-ensemble sont modifiées.
L’ajout d’un point dans notre structure permet d’améliorer l’estimation des statistiques
des distributions sans changer la quantité de mémoire utilisée.
3. Estimation des distributions locales à différentes échelles : Contrairement
aux structures d’accélération des filtres non linéaires, notre CovTree a été conçu
pour être indépendant des paramètres d’échelles. Ainsi, l’estimation des distributions
locales peut être effectuée en un temps raisonnable sans avoir besoin de reconstruire
entièrement la structure.
4. Généralisation de la structure d’apprentissage : Notre approche est générique
et peut être appliquée dans un espace de dimensions arbitraires. Pour être utilisable
par un plus grand nombre d’applications, elle est définie en utilisant deux
domaines distincts : un domaine spatial (utilisé pour calculer une distance entre les
échantillons) et un domaine des valeurs (utilisé pour exprimer les statistiques sur les
distributions).
Notre structure d’apprentissage est beaucoup plus générique qu’une simple structure d’accélération
de filtres collaboratifs. Comme nous le montrerons dans le chapitre 5, cette
dernière peut être utilisée pour des applications 2D et 3D variées.
4.2 Arbre de Covariance Simplifié
Pour mieux appréhender les idées fondamentales de notre approche, nous introduisons
dans cette section une version simplifiée de notre CovTree qui sera utilisé pour apprendre
les distributions d’échantillons dans un espace fini. Elle nous permettra d’introduire les
principes sous-jacents à notre structure de données.
Néanmoins, cette définition reste trop spécifique pour être utilisée en pratique. Par consé-
quent, nous introduisons en Section 4.3 une définition plus générique de notre CovTree
utilisable pour résoudre des problèmes de restauration variés.
4.2.1 Principe
Idée générale
Considérons un ensemble d’échantillons P = {pi} où pi ∈ S ⊂ R
dS . Notre CovTree est
défini comme une structure de données qui apprend localement la distribution des points
de P à partir d’un sous-échantillonnage adaptatif (cellules) de S. Pour n’importe quelle4.2. ARBRE DE COVARIANCE SIMPLIFIÉ 55
Figure 4.1: Gauche : Nous illustrons le principe de notre CovTree sur un nuage de points
pi extrait d’une courbe 2D pour un voisinage centré en q et de rayon σq. Droite : Le but de
notre CovTree est d’apprendre la distribution des points P et de modéliser la répartition
des points qui sont compris dans ce voisinage par une gaussienne anisotrope représentée
par une moyenne µˆ et une matrice de covariance Σˆ .
requête de position q ∈ S et échelle σq ∈ R, la structure retourne la gaussienne anisotrope
correspondante à la distribution locale des échantillons de P appris.
En Figure 4.1, nous illustrons les entrées et sorties de notre Cov-Tree dans le cas où P
correspond à un nuage de points 2D issu d’une courbe. Dans ce cas, les pi définis dans un
espace S = R
2
représentent les positions des points du nuage. Notre CovTree permet donc
d’apprendre la répartition des points du nuage et fournit pour n’importe quel voisinage
euclidien, la gaussienne anisotrope correspondante à la distribution des points du nuage
compris dans ce voisinage.
Dans le cas où P correspond à l’ensemble des patchs d’une image bruitée, cette structure
de donnée simplifiée peut être utiliser pour estimer le résultat de filtres collaboratifs tels
que les Non Local Bayes [LBM13].
Représentation des distributions locales
Pour apprendre les distributions des échantillons de P, nous effectuons une analyse statistique
de sous-ensembles C ⊂ P d’échantillons locaux. L’idée fondamentale de notre
CovTree est de remplacer ces sous-ensembles par leurs statistiques respectives. Dans cette
partie, nous fournissons une analyse de pouvoir synthétique de ces dernières et de leur
impact sur les performances de notre CovTree.
En considérant que l’ensemble des points de C sont compris dans une boule de rayon
négligeable, la distribution peut être représentée correctement par une simple moyenne
des points de C. Cette solution est utilisée pour accélérer le calcul des filtres à hautes
dimensions [AGDL09] car pour des échelles inférieures à l’échelle de filtrage, il est inutile de
conserver de plus fines variations des échantillons. Comme nous le présentons en Figure 4.2,
cette solution est équivalente à conserver l’ensemble des échantillons de P en mémoire pour
des échelles de filtrage fines. De plus, comme la moyenne ne fournit aucune information56
(a) Nuage de points 2D
(c) Représentation par des gaussiennes isotropes
(b) Représentation par des moyennes
(d) Représentation par des
gaussiennes anisotropes
Figure 4.2: Différentes représentations statistiques du nuage de points 2D. (a) Nuage
de points 2D original. (b) Utiliser une moyenne par cellules pour représenter un nuage de
points revient à garder l’ensemble des points du nuage pour des tailles de cellules faibles et
ne permet de représenter efficacement les variations du nuage à de grandes échelles. (c) En
utilisant des gaussiennes isotropes, la modélisation devient plus fiable à des échelles fines,
mais reste malgré tout trop grossière pour représenter la distribution à des échelles élevées.
(d) Nous proposons l’utilisation de gaussiennes anisotropes qui permettent de représenter
correctement les distributions à de grandes échelles avec un nombre de gaussiennes limitées.
sur les variations des échantillons qu’elle représente, elle ne peut être utilisée correctement
à de larges échelles pour représenter la distribution de grands ensembles de données.
Pour de grandes échelles comme la moyenne ne fournit aucune information variationnelle,
il devient difficile de représenter correctement la distribution des échantillons d’un grand
ensemble de données.
Pour des ensembles d’échantillons de C distribués de manière isotrope dans une boule,
l’approche précédente peut être améliorée en associant à la moyenne des points de C une
variance. La distribution peut par conséquent être modélisée par une gaussienne isotrope.
Désormais, la représentation dépend directement de la répartition des données et non
de l’échelle de filtre à appliquer. Comme nous l’illustrons en Figure 4.2, cette contrainte
d’isotropie reste difficile à satisfaire pour des échelles élevées. De plus, elle revient à garder
en mémoire l’ensemble des échantillons pour des échelles fines.
Les deux approches précédentes ne sont pas suffisantes pour apprendre les distributions
d’échantillons. Par conséquent, nous préférons les représenter par l’intermédiaire de gaussiennes
anisotropes. Nous associons donc chaque sous-ensemble C à sa moyenne µ et sa
matrice de covariance Σ. Comme nous le démontrons en Figure 4.2, ce choix permet de4.2. ARBRE DE COVARIANCE SIMPLIFIÉ 57
Figure 4.3: Notre CovTree est basé sur trois étapes principales. Construction : à partir
d’un ensemble d’échantillons, nous construisons un arbre binaire qui partitionne l’espace
en fonction des positions des échantillons {pi} pour créer des cellules de taille σb. Apprentissage
: chaque nœud apprend les distributions statistiques locales modélisées par des
noyaux anisotropes en propageant l’ensemble des échantillons à travers l’arbre en fonction
de leur position pi et ajoutant une contribution pondérée des pi au noyau de chaque
nœud de l’arbre traversé. Requête : pour toute requête constituée d’une position q ∈ S et
échelle σq ∈ R, notre CovTree modélise la distribution locale des données apprises en q
et à l’échelle σq par une gaussienne multivariée définie par sa moyenne µˆ et sa matrice de
covariance Σˆ .
représenter correctement les distributions des échantillons à des échelles fines et élevées.
De plus, l’utilisation d’une gaussienne anisotrope nous permet de diminuer la quantité de
mémoire nécessaire, d’augmenter le pouvoir descriptif de notre CovTree et d’être plus indé-
pendant des contraintes d’échantillonnages (complétion des trous/données manquantes).
Chaîne de traitement
Notre approche, résumée en Figure 4.3, peut être divisée essentiellement en trois étapes.
Ces dernières peuvent être comparées avec les trois étapes de splatting, blurring, slicing
utilisé par les travaux sur l’accélération de filtres à hautes dimensions [PD09, ABD10,
GO12].
1. Construction : Nous effectuons un sous-échantillonnage hiérarchique pyramidal de
S basé sur les échantillons de P jusqu’à l’obtention de cellules de taille σb. Il en
résulte un arbre binaire dont chaque nœud (correspondant à un sous-espace de S)
est associé à un noyau anisotrope modélisant la distribution statistique des points
de P appartenant à la cellule spatiale correspondante (Section 4.2.2).
2. Apprentissage : Nous apprenons les distributions de points par propagation (entraînement)
des données à travers l’arbre binaire. Chaque point est classifié en considérant
sa position et ajoute une contribution pondérée au noyau anisotrope de chaque
nœud de l’arbre qu’il traverse (Section 4.2.3).
3. Requête : Pour toute requête définie par une boule de centre q ∈ S et échelle
σq ∈ R, notre CovTree fournit la distribution des données apprises correspondant
à ce voisinage. Elle est modélisée par une gaussienne multivariée représentée par58
(a) Partionnement par grille (b) Partionnement par kd-tree (c) Partionnement par bsp-tree
Figure 4.4: Nous proposons ici différents partitionnements de l’espace. (a) : Une grille
régulière permet de définir des cellules régulières. Ces dernières sont définies indépendamment
des données qu’elles contiennent résultant des cellules vides ou mal définies. (b) : Le
kd-tree définit un partitionnement hiérarchique de l’espace dont les partitions sont faites
dans des directions indépendantes des données à apprendre. Il ne crée pas de cellules
vides, mais ne tient pas compte de l’anisotropie des données. (c) : Notre bsp-tree définit
un partitionnement hiérarchique de l’espace qui permet de tenir compte de l’anisotropie
des données à apprendre.
une une moyenne µˆ et d’une matrice de covariance Σˆ interpolée en q à l’échelle σq
(Section 4.2.4).
Il est important de comprendre que σb et σq sont liés à la quantité d’informations que nous
voulons récupérer. L’application successive des trois étapes de construction, d’apprentissage
et de requête est approximativement équivalente à estimer une matrice de covariance
avec un noyau gaussien de taille √
2σq.
Pour prévenir tout problème de calcul σq doit être choisi plus grand que σb, suffisamment
large pour outrepasser le bruit, mais suffisamment petit pour capturer les structures
locales. Généralement, σb ≈ σn et σq ≥ σn.
4.2.2 Construction
Pavage adapté de l’espace
Durant l’étape de construction, nous définissons un partitionnement de l’espace S en
cellules spatiales. Ces cellules doivent être adaptées à la distribution des échantillons de P
afin de respecter les variations topologiques de P (et d’obtenir un meilleur apprentissage
des données). Nous fournissons dans cette partie une analyse de plusieurs solutions pour
partitionner l’espace et de leur impact sur les performances du CovTree.
Une des solutions les plus faciles est de diviser l’espace en un ensemble de cellules régulières
par l’intermédiaire d’une grille [PD06, PD09]. Malgré sa simplicité de mise en œuvre,
utiliser ce schéma de subdivision pour notre CovTree présente trois problèmes (Figure 4.4).
Tout d’abord, la quantité de mémoire utilisée est d’autant plus grande que l’espace S est
de dimension élevée et que la taille des cellules est faible. Ensuite, les cellules sont définies
indépendamment du signal à considérer, ainsi, les gaussiennes anisotropes ne sont pas
nécessairement représentatives des variations des échantillons. Le problème majeur vient4.2. ARBRE DE COVARIANCE SIMPLIFIÉ 59
du fait que ces cellules ne contiennent pas obligatoirement des échantillons et accaparent
inutilement de l’espace mémoire.
Pour résoudre ce problème, il est plus judicieux d’utiliser des structures de subdivision
hiérarchique telle que le kd-tree [AGDL09]. Ce dernier est défini comme un arbre binaire
dans lequel chaque nœud est associé à un sous-espace de S. Chaque nœud interne de l’arbre
divise l’espace en deux demi-espaces distincts selon un hyperplan normal à la direction
de plus grande variation des points. Cette direction est choisie parmi les directions d’un
repère orthonormé fixe de l’espace S définie indépendamment de P. Une fois encore, les
cellules spatiales échouent à capturer l’anisotropie des données correctement (Figure 4.4).
Les échantillons, regroupés de manière inadéquate, définissent des distributions locales de
P parasites. De plus, le partitionnement ainsi défini est différent pour tout changement
d’orientation.
Par conséquent, nous définissons notre CovTree par l’intermédiaire d’une structure de
partitionnement binaire de l’espace, le bsp-tree [FKN80], qui divise l’espace en deux sousespaces
distincts par l’intermédiaire d’un hyperplan orienté selon la direction de plus
grande variation des données d’entrées. Les cellules ainsi obtenues ne sont pas nécessairement
parallélépipédiques et permettent de tenir compte de l’anisotropie des données
à apprendre (Figure 4.4). Les gaussiennes anisotropes résultantes permettent de mieux
représenter le signal.
Algorithme
Nous divisons l’espace par l’intermédiaire d’un bsp-tree dont chaque nœud est associé à un
sous-espace C ⊂ S, un sous-ensemble d’échantillons pj ∈ P ∩ C et à un rayon de cellule
ηr (utilisé pour apprendre les distributions à différentes échelles). Chaque nœud interne
de l’arbre divise l’espace en deux demi-espaces distincts par l’intermédiaire d’un plan de
coupe {ηc, ηd} dont la normale ηd est définie comme le vecteur propre normalisé associé
à la plus grande valeur propre de la covariance des {pj} et ηc par la moyenne des {pj}.
En pratique, ηd est estimé avec une complexité linéaire par rapport à la dimension de S
et au nombre d’échantillons en utilisant la méthode de la puissance itérée. Le rayon de
cellule est défini par :
ηr = max
pj
kpj − ηck (4.1)
L’ensemble des points {pj} est partagé en deux sous-ensembles par rapport à leur distance
signée au plan (pj − ηc)
tηd. Les deux sous-branches du nœud η sont ensuite construites
en se basant sur ces deux sous-ensembles.
En initialisant le nœud racine avec l’ensemble des données d’entrée {pi}, nous appliquons
récursivement ce schéma de subdivision tant que le rayon de cellule ηr > σb. Par consé-
quent, l’utilisateur peut choisir la précision d’apprentissage de notre CovTree (ainsi que la
quantité de mémoire qu’il va utiliser) en modifiant la valeur du paramètre σb. L’Algorithme
1 présente le pseudo-code de cette étape de construction.60
Algorithm 1: Construction de l’arbre
Fonction ConstruireNœud(C ⊂ P, σb ∈ R)
Entrées: C un sous-ensemble de P, σb l’échelle d’arrêt
Sorties: η le nœud créé
Allouer un nouveau nœud η
// Estimation des paramètres de la cellule
ηd ← le vecteur associé à la plus grande valeur propre de cov(C)
ηc ← mean
pi∈Ck
(pi)
ηr ← max
pi∈Ck
kpi − ηck
si ηr ≤ σb alors
Marquer η comme feuille de l’arbre
sinon
// Répartition des points dans les deux sous-espaces
Cgauche ← {pi ∈ Ck,(pi − ηc)
tηd ≤ 0}
Cdroit ← {pi ∈ Ck,(pi − ηc)
tηd ≥ 0}
// Création des deux sous-arbres
ηgauche ← ConstruireNœud(Cgauche, σb)
ηdroit ← ConstruireNœud(Cdroit , σb)
fin
retourner η
fin
4.2.3 Apprentissage
Algorithme
Une fois la structure de l’arbre initialisée, nous pouvons calculer les statistiques de chaque
cellule en propageant l’ensemble des données d’apprentissage {pi} à travers l’arbre. En
partant de la racine, les points traversent l’arbre jusqu’à atteindre une feuille. Le parcours
est effectué en considérant les positions des points pi
. Les gaussiennes anisotropes associées
à chacun des nœuds η traversés sont enrichies des valeurs pi pondérées par un poids
wi = φ
kpi−ηck
ηr
. Ce poids est défini grâce à une approximation compacte, linéaire par
morceaux du noyau gaussien φ centré en ηc et de variance ηr :
φ(x) =
4 − 0.75x
2
(2 − x) si 0 < |x| ≤ 1
0.25(2 − x)
3
si 1 < |x| ≤ 2
0 sinon
(4.2)
Pour simplifier les deux étapes d’apprentissage et de requête, la moyenne et la covariance
des échantillons ne sont pas directement conservées en chaque nœud. A la place, nous4.2. ARBRE DE COVARIANCE SIMPLIFIÉ 61
Algorithm 2: Apprentissage des variations locales
Fonction ApprendreVariations(p, η)
Entrées: p un point à ajouter dans la structure, η un nœud de l’arbre
// Calcul des poids w par approximation d’une gaussienne de variance ηr
w ← φ
kpi−ηck
ηr
// Mise à jour des statistiques de chaque nœud
wη := wη + w
w2η := w2η + w.w
µη
:= µη + w.p
Ση := Ση + w.p
tp
// Apprentissage des statistiques à une échelle inférieure
si η n’est pas une feuille de l’arbre alors
si (p − ηc)
tηd ≤ 0 alors
ApprendreVariations(p, ηgauche)
sinon
ApprendreVariations(p, ηdroit)
fin
fin
fin
stockons une somme partielle µη
, une somme croisée partielle des positions Ση et deux
constantes de normalisation wη et w2η :
wη := wη + wi
w2η := w2η + wi
.wi
µη
:= µη + wi
.pi
Ση := Ση + wip
t
ipi
(4.3)
La moyenne et la covariance représentatives des variations du nœud peuvent être retrouvées
à partir de ces quatres variable. L’Algorithme 2 présente le pseudo-code de l’étape
d’apprentissage.
Complétion des données d’apprentissage
De manière générale, le même ensemble de points P est utilisé lors de l’étape de construction
et d’apprentissage. Néanmoins, il est possible d’utiliser un sous-ensemble représentatif
P
′ ⊂ P différent pour définir un partitionnement de l’espace S lors de l’étape de construction.
Cette approche possède deux avantages : (i) le partitionnement de l’espace peut être
défini plus rapidement (en particulier dans le cas d’une large base de données), (ii) il n’est
pas nécessaire de connaître l’ensemble des données pour commencer l’apprentissage des
données (par ex. traitement vidéo).
De plus, comme nous utilisons une analyse statistique partielle (nous stockons en mémoire
uniquement des sommes partielles et non directement les statistiques), il devient possible62
d’ajouter au fur et à mesure des échantillons par l’intermédiaire de l’Équation 4.3. Chaque
point ajouté durant l’étape d’apprentissage augmente la précision des distributions apprises
par chaque cellule. L’avantage d’une telle approche est que l’espace mémoire utilisé
reste constant quel que soit le nombre d’échantillons rajoutés. En effet, nous ne gardons
pas en mémoire l’ensemble des échantillons, mais uniquement les quatre variables wη, w2η,
µη
et Ση.
Cette propriété peut être utilisée pour apprendre la distribution d’échantillons issus d’une
grande base de données. Notre structure représente localement la répartition des échantillons
par l’intermédiaire de gaussiennes multivariées utilisant peu d’espace mémoire.
Cette propriété sera utilisée en Section 5.2 pour approcher l’a priori sous-jacent aux patchs
des images naturelles.
4.2.4 Requête
Accélération de la requête
Pour tout voisinage de centre q ∈ S et de rayon σq ∈ R, la gaussienne anisotrope est
estimée par une combinaison des données apprises sur chaque nœud de l’arbre avec des
poids décroissants par rapport à l’éloignement au centre de la requête q. Pour accélérer
le calcul de cette estimation, il suffit de sélectionner uniquement les nœuds qui possèdent
les poids les plus élevés.
Certaines méthodes [AGDL09] proposent par exemple un schéma de requête à importance
des échantillons. L’idée principale est de distribuer un nombre d’échantillons à travers
l’arbre jusqu’à atteindre les feuilles en favorisant les nœuds de poids les plus élevés. Cette
démarche peut être perçue comme une méthode de Monte-Carlo qui propage les points
dans l’arbre de manière probabiliste de sorte à atteindre les nœuds les plus proches. Même
si une telle démarche fonctionne relativement bien pour des espaces de basses dimensions
(car peu d’échantillons sont nécessaires pour estimer correctement les distributions), pour
des espaces de dimensions élevées il devient nécessaire de faire un choix entre précision de
l’estimation et temps de calculs. En effet le nombre d’échantillons nécessaires pour avoir
une précision de l’estimation suffisante est plus élevé.
Par conséquent, ce genre d’approche ne peut être utilisé dans notre CovTree. Pour ré-
soudre ce problème, nous proposons d’utiliser l’apprentissage des distributions à différents
niveaux de l’arbre et le rayon ηr associé à chaque nœud. Cette démarche nous permet de
limiter le parcours en profondeur de l’arbre, le nombre de nœuds à explorer et d’être plus
indépendant de l’échelle de la requête σq.
Algorithme
Une fois notre CovTree complètement construit et appris, nous utilisons un schéma de requête
pour estimer la gaussienne anisotrope décrivant la distribution des données apprises
pour n’importe quel voisinage centré en q ∈ S d’échelle σq ∈ R.
Tout d’abord, nous collectons l’ensemble des nœuds η qui intersecte la boule [q, σq]. Pour
ce faire, chaque requête traverse l’arbre jusqu’à atteindre une feuille ou un nœud vérifiant4.2. ARBRE DE COVARIANCE SIMPLIFIÉ 63
Algorithm 3: Interroger l’arbre
Fonction InterrogerArbre(q, σq)
Entrées: q ∈ S un point requête et σq une échelle de requête
Sorties: la gaussienne anisotrope N (µˆ, Σˆ )
// Requête de l’arbre en commençant par la racine η0
{w, ˆ wˆ2, µ, Σ} ←CalculerVariations(q, σq, η0)
// Estimation des paramètres de la gaussienne multivariée
µˆ ← 1
wˆµ
Σˆ ← wˆ
2−wˆ2
wˆ
(Σ − wˆµˆ
tµˆ)
retourner N (µˆ, Σˆ )
fin
Fonction CalculerVariations(q, σq, η)
Entrées: q ∈ S un point requête, σq une échelle de requête et η un nœud de
l’arbre
Sorties: µ, Σ, ˆw et ˆw2
si ηr ≤ σq où η est une feuille de l’arbre alors
// Calcul des poids w par approximation d’une gaussienne de variance σq
w ← φ
kq−ηck
σq
// Ajout des variations du nœud η
wˆ := ˆw + w
wˆ2 := ˆw2 + w
2
µ := µ + wµη
Σ := Σ + wΣη
sinon
// Ajout des variations du nœud η en résultat
si (q − ηc)
tηd ≤ σq alors
{w, ˆ wˆ2, µ, Σ} := {w, ˆ wˆ2, µ, Σ}+CalculerVariations(q, σq, ηgauche)
sinon
{w, ˆ wˆ2, µ, Σ} := {w, ˆ wˆ2, µ, Σ}+CalculerVariations(q, σq, ηdroit)
fin
fin
retourner {w, ˆ wˆ2, µ, Σ}
fin
ηr > σq. Lors de la propagation de la requête, nous considérons que chaque cellule est
élargie de σq. Ainsi pour des distances au plan de coupe |(q − ηc)
tηd| < σq, les deux
sous-arbres gauche et droit sont explorés.64
Au final, la distribution en q est estimée par une combinaison des distributions des nœuds
collectés {µi
, Σi} pondérées par des poids wi définis à partir de l’approximation du noyau
gaussien φσq
centré en q et de variance σq :
wˆ =
X
i
wiwηi
wˆ2 = ˆw
2−
X
i
wiw2ηi
µˆ =
1
wˆ
X
i
wiµηi
Σˆ =
wˆ
wˆ2
X
i
wiΣηi − wˆµˆ
tµˆ
(4.4)
Si σq est choisi suffisamment large, la gaussienne anisotrope obtenue décrit la distribution
de l’ensemble des données apprises. L’Algorithme 3 présente le pseudo-code de l’étape de
requête.
4.3 Généralisation
Dans la partie précédente, nous avons présenté une version simplifiée de notre CovTree
qui permet d’apprendre la distribution d’un ensemble de points d’un espace de dimension
arbitraire. Pour une majorité d’applications de notre CovTree, cette définition reste trop
limitée. Nous proposons dans cette section de la généraliser en utilisant deux domaines
distincts : le domaine spatial S qui définit les distances entre les différents échantillons de
l’espace et le domaine des attributs R qui associe chaque échantillon à une valeur.
4.3.1 Notations
Soit un domaine spatial S ∈ R
dS et un nuage de points P = {pi}i∈[[1,N]] de N échantillons.
Nous allons considérer une correspondance f : S → R associant à chaque échantillon de
position spatiale pi ∈ S, une valeur fi du domaine des attributs R ∈ R
dR.
Pour une meilleure compréhension, il peut être utile de considérer f comme une fonction.
Néanmoins, notre structure ne requiert pas que la correspondance f soit connue explicitement,
bien définie ou unique pour n’importe quel p ∈ S. L’association entre les p
et les f est apprise à l’aide de notre approche à partir d’une base de données de paires
d’échantillons (pi
,fi).
Une telle représentation peut par exemple être utilisée pour représenter des images RGB
associant à chaque pixel de l’image pi = (xi
, yi)
T une valeur couleur fi = (ri
, gi
, bi)
T
,
des nuages de points 3D définis par leurs positions spatiales et normales pi = fi =
(xi
, yi
, zi
, nx
i
, n
y
i
, nz
i
)
T
, etc.4.3. GÉNÉRALISATION 65
(a) Population (pi
, fi
) (b) Principe de notre CovTree généralisé
f0
f5
f2
f1
f7
f6
f4
f3
f0
f5
f2
f1
f7
f6
f4
f3
{f1 f3 f6 f4 f7 {
Figure 4.5: Gauche : Considérons une foule dont chaque individu possède une position
spatiale pi définie dans le domaine spatial S et un attribut fi défini dans le domaine des
attributs R. À l’aide de notre CovTree généralisé, nous apprenons la répartition des {fi}
par rapport à leur position spatiale {pi} et à différentes échelles spatiales. Droite : Ainsi en
considérant un sous-ensemble spatial de centre q ∈ S de taille σq ∈ R (représenté en Vert),
notre structure de données permet d’estimer la distribution des attributs des individus qui
sont compris dans ce voisinage en la modélisant par une gaussienne multivariée définie dans
l’espace des attributs R. Cette dernière est définie par une moyenne µˆ ∈ R et une matrice
de covariance Σˆ ∈ R × R.
4.3.2 CovTree généralisé
Principe général
Tout comme sa version simplifiée, la version généralisée de notre CovTree permet d’apprendre
des distributions pour différentes échelles et de fournir pour tout voisinage requête
une gaussienne anisotrope modélisant la distribution des données locales apprises comprise
dans ce voisinage. Cette structure est définie par l’intermédiaire d’un domaine spatial S
(utilisé pour définir le voisinage des échantillons) et d’un domaine des attributs R (utilisé
pour définir les distributions). Ainsi, tout regroupement des échantillons et requête
de voisinage sont effectués dans S alors que les distributions apprises et résultantes sont
définies dans R.
Cette différence étant difficile à appréhender, nous proposons une illustration du principe
du CovTree généralisé ainsi que la distinction entre les deux domaines S et R en Figure
4.5 considérons une population d’individus possédant une position spatiale pi ∈ S (correspondant
à leur position dans l’espace) et un attribut fi ∈ R associé (correspondant
aux valeurs inscrites dans chaque individu). Ici, nous ne posons aucune condition sur le
lien qui existe entre pi et fi
. Par l’intermédiaire de notre CovTree généralisé, nous souhaitons
analyser les variations des attributs associés à un sous-ensemble d’individus de cette
foule. Cette distribution d’attributs sera modélisée par l’intermédiaire d’une gaussienne
anisotrope.66
Applications
S
R Méthode de reconstruction
Gaussien 1D Position des pixels Niveau de gris Moyenne
(xi, yi) (gi)
Gaussian 3D Position des pixels Valeur couleur Moyenne
(xi, yi) (ri, gi, bi)
Bilateral Position des pixels + Valeur couleur Valeur couleur Moyenne
(xi, yi, ri, gi, bi) (ri, gi, bi)
NLM patches autour du pixel Valeur couleur EAP
Pxi,yi
(ri, gi, bi)
NLB Patches Patches MAP
Pxi,yi Pxi,yi
Completion de trous pyramidal Patches basse résolutions Patches hautes résolutions MAP
PSS Point 3D Point 3D Moyenne
xi, yi, zi
n
x
i , n
y
i , n
z
i
xi, yi, zi
n
x
i , n
y
i , n
z
i
NLPSS Patches 3D Champs scalaire EAP
Pxi,yi,zi
vi
NLB-PSS Patches 3D Patches 3D + champs scalaire MAP
Pxi,yi,zi
(Pxi,yi,zi , vi)
Table 4.1: Notre CovTree est très flexible : Cette table montre comment définir les domaines spatiaux
S et des attributs
R ainsi que
la méthode de reconstruction à utiliser.4.3. GÉNÉRALISATION 67
Les regroupements des individus (sous-ensembles) sont définis dans le domaine spatial S,
c’est-à-dire en considérant uniquement les positions spatiales pi de chacun de ces individus.
Ensuite, les distributions de ces différents regroupements sont estimées en considérant
uniquement les attributs fi associés à chaque individu de ce sous-ensemble. Par conséquent,
la gaussienne anisotrope résultante correspond uniquement aux variations dans l’espace
des attributs R de ce sous-ensemble d’individus (et non de leur position spatiale pi).
Notre CovTree généralisé permet donc d’apprendre de grandes bases de données de couples
d’échantillons exemples (pi
,fi) et fournit pour tout voisinage spatial q ∈ S de rayon σq ∈ R
la distribution des attributs associée à ces échantillons représentés par une gaussienne
anisotrope définie dans R. Il est possible de retrouver la version simplifiée de notre CovTree
en confondant les deux domaines spatiaux et des attributs : S = R.
Problèmes de restauration simple
Avant de présenter les modifications apportées par la version généralisée de notre CovTree,
nous illustrons ici quelques problèmes de restauration simple qui peuvent être traités par
notre structure :
1. Convolution gaussienne : Considérons une image à niveaux de gris bruitée
u˜(x, y) = u(x, y)+n(x, y). Dans ce cas dS = 2 (correspondant aux deux coordonnées
spatiales) et dR = 1 (correspondant au niveau de gris). En supposant l’image homogène,
un a priori de la valeur ˜u(x, y) peut être estimé à partir des valeurs ˜u(x
′
, y′
)
d’un ensemble de voisins p = (x
′
, y′
) proche du point requête q = (x, y). Dans ce cas,
la convolution gaussienne peut être définie comme Estimation A Posteriori (EAP)
de cet a priori.
2. Filtre Bilateral : Considérons désormais une image bruitée couleur ˜u(x, y) =
u(x, y) + n(x, y). En définissant dS = 5 (correspondant aux deux coordonnées spatiales
(x, y) plus trois canaux couleurs (r, g, b)) et dR = 3 (les trois canaux couleurs
(r, g, b)). Cette fois l’estimation de la valeur débruitée obtenue est plus fine, en effet,
les points (x, y) proches d’un contour pourront être rejetés grâce à l’information de
couleur qui a été ajoutée au domaine spatial S.
3. Filtre Non-Local : Pour des images hautement texturées, la supposition d’image
lisse des deux précédentes illustrations n’est plus valable. Dans ce cas, les filtres non
locaux supposent que l’ensemble des patchs d’une image texturée appartiennent à
une variété lisse de basse dimension. En prenant pi = fi comme l’ensemble de tout
les patchs de l’image, un patch requête q peut être débruité par les NLB [LBM13]
en calculant une gaussienne multivariée à partir d’un ensemble de patchs voisins
{pj , pj ∈ N(q)} proches de la requête q. Cette distribution gaussienne est utilisée
pour estimer le patch débruité via une Maximisation A Posteriori (MAP) Bayesienne.
En complément des exemples précédents, nous présentons en Table 4.1 d’autres problèmes
de restauration qui peuvent être modélisés par cette structure.
4.3.3 Algorithme généralisé
Les principes sous-jacents et les différents explications proposées pour définir la version
simplifiée de notre CovTree 4.2 restent toujours valables dans sa version généralisée. Ainsi,68
Algorithm 4: Construction de l’arbre généralisé
Fonction ConstruireNœud(C ⊂ pi
, σb ∈ R)
Entrées: C un sous-ensemble de pi
, σb l’échelle d’arrêt
Sorties: η le nœud créé
allouer un nouveau nœud η
// Estimation des paramètres de la cellule
ηd ← le vecteur associé à la plus grande valeur propre de cov(C)
ηc ← mean
pi∈Ck
(pi)
ηr ← max
pi∈Ck
kpi − ηck
si ηr ≤ σb alors
Marquer η comme feuille de l’arbre
sinon
// Répartition des points dans les deux sous-espaces
Cgauche ← {pi ∈ Ck,(pi − ηc)
tηd ≤ 0}
Cdroit ← {pi ∈ Ck,(pi − ηc)
tηd ≥ 0}
// Création des deux sous-arbres
ηgauche ← ConstruireNœud(Cgauche, σb)
ηdroit ← ConstruireNœud(Cdroit , σb)
fin
retourner η
fin
nous présenterons uniquement dans cette section les différences entre les opérateurs simplifiés
et les opérateurs généralisés. Pour que le lecteur appréhende bien ces différences,
nous fournissons le pseudo-code généralisé de chaque étape dans leur intégralité.
Construction
Durant l’étape de construction, nous définissons un partitionnement de l’espace spatial S.
Seules les positions spatiales pi des couples d’échantillons interviennent ici pour définir
des cellules représentatives. En effet, comme nous l’avons illustré en Figure 4.5, notre
structure de données fournit une analyse statistique des variations des attributs en fonction
de regroupements spatiaux (et non en fonction des attributs). Par conséquent, le critère
d’arrêt σb ∈ R correspond désormais à une échelle spatiale. L’Algorithme 4 fournit le
pseudo-code de l’étape de construction généralisée.
Apprentissage
Désormais, l’apprentissage des distributions des échantillons est effectué sur le domaine
des attributs. Comme l’arbre est défini en considérant le domaine spatial S, chaque couple
d’échantillons (pi
,fi) explore l’arbre en fonction de sa position spatiale pi
. Chaque échan-4.4. ANALYSE ET TEMPS DE CALCUL 69
Algorithm 5: Apprentissage des variations locales généralisé
Fonction ApprendreVariations(p,f, η)
Entrées: p un point à ajouter dans la structure, η un nœud de l’arbre
// Calcul des poids w par approximation d’une gaussienne de variance ηr
w ← φ
kpi−ηck
ηr
// Mise à jour des statistiques de chaque nœud
wη := wη + w
w2η := w2η + w.w
µη
:= µη + w.f
Ση := Ση + w.f
t
f
// Apprentissage des statistiques à une échelle inférieure
si η n’est pas une feuille de l’arbre alors
si (p − ηc)
tηd ≤ 0 alors
ApprendreVariations(p,f, ηgauche)
sinon
ApprendreVariations(p,f, ηdroit)
fin
fin
fin
tillon ajoute une contribution partielle pondérée de ces attributs fi
. Le poids est défini par
l’approximation de la gaussienne φ et dépend de la distance spatiale entre pi et le centre
spatial de la cellule ηc.
Lors de cette étape, chaque nœud de l’arbre est associé à une gaussienne anisotrope définie
dans le domaine des attributs R, exprimant la distribution des attributs fi des échantillons
qu’il contient. L’Algorithme 5 présente le pseudo-code de l’opérateur d’apprentissage.
Requête
Pour toute requête définie par une position spatiale q ∈ S et échelle spatiale σq ∈ R,
notre CovTree fournit la distribution des attributs de l’ensemble des échantillons appris
appartenant à ce voisinage spatial par l’intermédiaire d’une gaussienne multivariée définie
dans R. Par conséquent la moyenne µˆ et la matrice de covariance Σˆ estimée par notre
CovTree seront respectivement de dimensions dR et dR × dR. L’Algorithme 6 présente le
pseudo-code de l’étape de requête généralisée.
4.4 Analyse et temps de calcul
Dans cette section, nous analysons la complexité et les temps de calcul de chaque étape
de notre CovTree. Cette analyse est effectuée indépendamment des applications possibles70
Algorithm 6: Interroger l’arbre
Fonction InterrogerArbre(q, σq)
Entrées: q ∈ R un point requête et σq une échelle de requête
Sorties: la gaussienne anisotrope N (µˆ, Σˆ )
// Requête de l’arbre en commençant par la racine η0
{w, ˆ wˆ2, µ, Σ} ←CalculerVariations(q, σq, η0)
// Estimation des paramètres de la gaussienne multivariée
µˆ ← 1
wˆµ
Σˆ ← wˆ
2−wˆ2
wˆ
(Σ − wˆµˆ
tµˆ)
retourner N (µˆ, Σˆ )
fin
Fonction CalculerVariations(q, σq, η)
Entrées: q ∈ S un point requête, σq une échelle de requête et η un nœud de
l’arbre
Sorties: µ, Σ, ˆw et ˆw2
si ηr ≤ σq où η est une feuille de l’arbre alors
// Calcul des poids w par approximation d’une gaussienne de variance σq
w ← φ
kq−ηck
σq
// Ajout des variations du nœud η
wˆ := ˆw + w
wˆ2 := ˆw2 + w
2
µ := µ + wµη
Σ := Σ + wΣη
sinon
// Ajout des variations du nœud η en résultat
si (q − ηc)
tηd ≤ σq alors
{w, ˆ wˆ2, µ, Σ} := {w, ˆ wˆ2, µ, Σ}+CalculerVariations(q, σq, ηgauche)
sinon
{w, ˆ wˆ2, µ, Σ} := {w, ˆ wˆ2, µ, Σ}+CalculerVariations(q, σq, ηdroit)
fin
fin
retourner {w, ˆ wˆ2, µ, Σ}
fin
de notre structure de données. Par conséquent, seules les performances temps et mémoire
pour estimer des gaussiennes anisotropes seront prises en compte ici.
Pour une analyse plus détaillée concernant les performances qualitatives de notre CovTree,
nous renvoyons le lecteur en Section 5.1.1 où une implémentation des filtrages collaboratifs
réalisés par l’intermédiaire de notre structure est comparée aux méthodes de l’état de l’art.4.4. ANALYSE ET TEMPS DE CALCUL 71
4.4.1 Complexité
Notre CovTree est basé sur les trois principaux opérateurs de construction, apprentissage
et requête. Nous rappelons que S est un domaine spatial de dimension dS et R un domaine
des valeurs de dimension dR.
Nous proposons d’analyser la complexité temporelle de ces trois principales étapes :
1. Construction : Supposons que nous utilisons Nb points pour définir le partitionnement
de l’espace. Durant cette étape de construction, chacun des Nb points apparaît
une seule fois dans chaque nœud de l’arbre. À chaque division est effectuée une
analyse en composantes principales pour déterminer la direction de plus grande variation.
Cette dernière est accélérée par la méthode des puissances qui estime le
vecteur propre principal avec une complexité O(2mdSNb) ou la constante m = 3.
Ainsi, en considérant que notre arbre possède Kb nœuds l’étape de construction
complète prend O(dSNblog(Kb)).
2. Apprentissage : Supposons que nous utilisons Nl échantillons pour apprendre les
distributions des données (e. g. Nl >> Nb). Comme les Nl points parcourent l’arbre
en partant de la racine jusqu’à atteindre une feuille en n’explorant qu’une seule
des deux sous-branches de chaque nœud, la classification des points prend donc
O(NldSlog(Kb)). Pour chaque nœud rencontré, les matrices de covariance et moyenne
sont mises à jour ce qui requiert un temps de O(Nld
2
Rlog(Kb)). L’étape d’apprentissage
totale requiert donc O(Nl(dS + d
2
R)log(Kb)).
3. Requête : Supposons que nous utilisons Nq points en requête de notre arbre. Tout
d’abord nous effectuons la recherche des Kq plus proches nœuds demandant une
complexité de O(NqdSKq). Ensuite, l’estimation des gaussiennes anisotropes né-
cessite O(Nqd
2
RKq). Au total, notre étape de requête possède une complexité de
O(Nq(dS + d
2
R)Kq).
Le coût mémoire de notre structure dépend uniquement du nombre de nœuds créés lors
de l’étape de construction. En effet chaque point appris lors de l’étape d’apprentissage ne
fait que mettre à jour les données apprises par chaque nœud de l’arbre sans prendre plus
de mémoire. Par conséquent, le coût total en mémoire de notre structure de données est
O(Kbd
2
R).
4.4.2 Discussion
Il est intéressant de noter que l’arbre peut être construit sur un ensemble d’échantillons
différents de ceux de la base d’apprentissage. De toute évidence pour que cette propriété
soit intéressante, il est nécessaire que l’ensemble utilisé pour la construction soit significatif
par rapport à l’ensemble des échantillons de l’étape d’apprentissage. Outre l’accélération
évidente qu’apporte la diminution du nombre d’échantillons, notre structure permet un
apprentissage progressif des données. Il devient possible de raffiner la précision des distributions
pour un budget mémoire constant en apprenant des données supplémentaires.
Cette propriété est l’un des aspects principaux de notre CovTree. Nous pouvons donc apprendre
la distribution d’échantillons issue de grandes bases de données tout en contrôlant
la quantité mémoire nécessaire à son apprentissage. Cette propriété permet également de72
1
5.5
10
128 256 512 1024
Temps (s)
Facteur de filtrage
Figure 4.6: Temps de calcul (en seconde) pour estimer 5.105
requêtes (excluant les étapes
de construction et d’apprentissage qui sont exécutées une seule fois) par notre CovTree
pour différentes échelles σq. Le temps est mesuré en se contraignant à l’utilisation d’un
seul cœur de calcul sur un PC avec un processeur 2.4 GHz Intel Xeon avec 12 GB de
mémoire.
pouvoir réapprendre et/ou mettre jour les distributions sans pour autant avoir besoin de
reconstruire complètement l’arbre.
Une fois les données apprises, l’arbre peut être réutilisé pour différentes applications sans
avoir besoin de recommencer son apprentissage complet. Cette propriété, particulièrement
utile dans les technologies mobiles qui possèdent des capacités limitées, est possible grâce à
notre algorithme de requête. L’estimation d’une gaussienne anisotrope pour tout voisinage
de centre q ∈ S et toute échelle σq ∈ R ne requiert pas de recalculer l’arbre.
Nous présentons en Figure 4.6 la courbe des temps de calcul pour interroger notre CovTree
pour différentes échelles σq. Il est intéressant de noter que le temps requis pour
résoudre une requête reste peu affecté par la taille σq de la requête. Cet avantage est dû à
l’apprentissage des distributions à différentes échelles qui permet de limiter le nombre de
nœuds (et du coup la complexité de calcul) nécessaires pour évaluer une requête. Comme
nous le montrons en Figure 4.7, pour des échelles σq faibles, le parcours de l’arbre est
uniquement effectué en profondeur. Pour des échelles σq élevées, au lieu de parcourir un
grand nombre de nœuds (et ainsi de renvoyer les variations d’un grand nombre de feuilles),
notre démarche permet d’effectuer un parcours en largeur de l’arbre tout en limitant son
exploration en profondeur. Le pire des cas correspond aux échelles σq de taille moyenne.
En effet, la requête doit effectuer un parcours en largeur et en profondeur. Il en résulte un
grand nombre de nœuds à explorer pour pouvoir estimer cette requête.
4.5 Limitations et possibles améliorations
Dans ce chapitre, nous avons introduit une nouvelle structure de données capable de traiter
une famille continue de gaussiennes multivariés locales. Notre structure est efficace pour
apprendre de grandes quantités d’échantillons avec peu d’espace mémoire et permet une
estimation rapide des requêtes. Le modèle extrait varie continûment sur un domaine de valeurs
R quand le point requête varie sur un domaine spatial S (potentiellement différent).
En plus de la position, différentes échelles peuvent être spécifiées à la requête permet-4.5. LIMITATIONS ET POSSIBLES AMÉLIORATIONS 73
Figure 4.7: Notre requête accélérée permet de limiter le nombre de nœuds du CovTree
à explorer (en vert) pour estimer une distribution anisotrope locale. (a) Quand la requête
possède une échelle σq large, seuls les nœuds supérieurs de l’arbre sont explorés. (b) Pour
des valeurs plus petites de σq, l’arbre est parcouru plus en profondeur tout en limitant
son parcours en largeur.
tant de définir différents degrés de localité spatiale pour le modèle statistique extrait.
Cette structure de données sera utilisée dans le chapitre suivant pour résoudre différents
problèmes de restauration.
Néanmoins, notre structure de données peut être améliorée. En effet, lors de la construction
de l’arbre, nous définissons un partitionnement de l’espace par l’intermédiaire d’un bsp-tree.
Par rapport à d’autres structures de partitionnement, cet type d’arbre permet de mieux
gérer l’anisotropie des données. Néanmoins, il n’offre aucune garantie sur la conservation
de la topologie des échantillons que nous souhaitons apprendre. Par conséquent, les sousespaces
définis de cette manière ne sont pas obligatoirement les plus significatifs pour
représenter la variété sous-jacente aux données. Il en résulte une augmentation significative
du nombre de nœuds pour représenter les échantillons ainsi qu’une mauvaise estimation
des matrices de covariances correspondantes. Ce genre de problème peut être résolu par
l’utilisation de structures de partitionnement qui respectent la topologie des données.
Dans tout ce chapitre, nous avons fait la supposition que l’ensemble des échantillons étaient
connus à l’avance ou qu’une partie suffisamment significative était connue. Pour de nombreuses
applications où les échantillons arrivent au fur et à mesure (par ex. traitement
vidéo, internet), il est impossible de définir un sous-ensemble significatif sans connaître
l’intégralité des données. Ce type de problèmes peut être géré par notre structure de données
en modifiant l’étape de construction. Une solution possible serait de partitionner
l’arbre progressivement en fonction des données qui sont fournies en entrée de l’arbre. Il
faut donc distinguer trois cas : (a) quand le nombre d’échantillons d’un nœud est trop
faible, il est nécessaire de garder en mémoire l’ensemble des échantillons (b) quand le
nombre d’échantillons d’un nœud est trop élevé le sous-espace correspondant doit être
divisé en deux (c) sinon il faut garder en mémoire la distribution des échantillons. Malheureusement,
une telle solution ne permet pas de résoudre les problèmes concernant la
propagation des données apprises d’un nœud à ses enfants.74
Une autre amélioration possible de notre structure de données serait de faire évoluer les
données apprises avec le temps. Considérons le cas où un ensemble d’échantillons a besoin
d’être appris à des temps {t0, t1, . . . , tn} (par ex. flux vidéo). Nous supposons que pour deux
temps consécutifs tk, tk+1, les variations entre échantillons à apprendre sont faibles. Au
temps tk+1, il est intéressant de conserver partiellement les données apprises au temps tk.
Nous proposons d’introduire un facteur d’oubli 0 ≤ α ≤ 1. Ce dernier serait multiplié aux
données apprises à chaque changement de temps pour permettre de simuler une persistance
mémorielle. Pour α = 0, l’ensemble d’échantillons appris est oublié d’un temps à l’autre.
Pour α = 1, l’ensemble des échantillons est gardé en mémoire indéfiniment. Pour toutes
valeurs de α, les données sont oubliées au fur et à mesure et remplacées par les nouveaux
échantillons. Une telle solution suppose que le partitionnement de l’espace spatial S n’a
pas besoin d’être mis à jour, ce qui est rarement vérifiable en pratique.C h a p i t r e 5
Filtrage collaboratif généralisé
Dans cette partie, nous présentons plusieurs applications de restauration d’images et de
surfaces 3D basées sur notre structure de données, le CovTree, introduite au Chapitre 4.
En Section 5.1, nous proposons d’appliquer notre CovTree au débruitage d’images pour
calculer l’algorithme des Non Local Bayes. Cette section nous permet de valider les performances
qualitatives de notre structure de données, en comparant les performances des
Non Local Bayes obtenues par notre CovTree et leur implémentation originale [LBM13].
En Section 5.2, nous utilisons notre CovTree pour apprendre un grand ensemble de patchs
non bruités de sorte à définir un a priori des images naturelles. Nous l’utilisons pour amé-
liorer le débruitages des images et pour définir la reconstruction d’images échantillonnées
aléatoirement. En Section 5.3, nous introduisons les problèmes et les idées principaux pour
pouvoir étendre les filtres collaboratifs au cas des nuages de points 3D. Dans cette section,
nous utilisons les outils développés au Chapitre 3, pour étendre les NLPSS au cas des
Non Local Bayes. Nous présentons également comment définir une base de données 3D
appliquée à l’augmentation de la résolution du nuage de points.
5.1 Débruitage d’images par filtre collaboratif
Durant ces dernières années, les différentes évolutions des filtres non locaux ont permis
de développer un nouveau type de filtre : les filtres collaboratifs. Contrairement aux approches
par NL-Means qui débruitent les patchs de l’image sans se soucier d’une information
globale, ce type de filtre effectue une analyse commune de l’information basée sur des
regroupements de patchs similaires. Ces méthodes permettent d’extraire les détails communs
d’un groupe tout en préservant les caractéristiques spécifiques du patch considéré.
Nous allons particulièrement nous intéresser aux NLB (Non Local Bayes) [LBM13] car
ils exploitent l’information commune par l’intermédiaire d’une analyse de la moyenne et
de la covariance du groupe de patchs. Malheureusement, comme il est coûteux et difficile
d’effectuer des regroupements directement dans l’espace des patchs, ces statistiques sont
généralement approchées de sorte que le filtre reste calculable.
La formulation des NLB étant particulièrement adaptée, nous proposons, dans cette section,
de les accélérer par l’intermédiaire de notre CovTree généralisé (Section 4.3.3). Cette
application nous permet d’étendre au cas des NLB certaines accélérations classiques des
7576
NL-Means (telle que la réduction de la dimensionnalité globale des patchs par une analyse
en composantes principales [APG07, Tas08, Tas09]) et de fournir une analyse qualitative
des performances de notre CovTree.
5.1.1 Non Local Bayes
Principe
Considérons un ensemble P = {fi} de patchs de dimension dP obtenu à partir d’un ensemble
de patchs non bruités P˜ = {ri} corrompu par un bruit additif ni gaussien d’écart
type σn :
fi = ri + ni
La probabilité du bruit qui est rajoutée à chaque patch correspond donc à une gaussienne
isotrope d’écart type σn.
Introduit par Lebrun et coll. [LBM13], les NLB débruitent un patch d’intérêt q ∈ R
dP en
utilisant une Maximisation A Posteriori (MAP) bayésienne. Cette maximisation, équivalente
à projeter le patch q localement sur la variété de patchs non bruités, suppose que les
variations probabilistes des patchs s’expriment par une gaussienne anisotrope N (µq
, Σq)
de moyenne µq
et de matrice de covariance Σq. Ne pouvant être directement calculée sur
un ensemble de patchs non bruités, cette gaussienne est estimée à partir des patchs bruités
{fi}.
Les NLB sont basés sur trois principaux opérateurs inspirés des travaux concernant les
BM3D (Block Matching 3D) [DFKE07,DFKE08,DFKE09] :
1. Regroupement : un groupe de patchs N(q) similaires à q est formé en considérant
une distance quadratique normalisée. Le voisinage est défini à la fois dans l’espace
des patchs et dans l’espace spatial (distance pixelique entre les centres des patchs).
Cette restriction permet de rendre la recherche des patchs similaires calculables pour
de grandes images, car elle devient indépendante de la taille de l’image. De plus, pour
ne pas être trop sensible aux patchs parasites, le groupe est généralement limité aux
k plus proches patchs.
2. Débruitage collaboratif : les variations des patchs associés au groupe sont modélisées
de manière probabiliste par une gaussienne anisotrope N (µq
, Σq) qui est
ensuite utilisée pour définir un estimateur par MAP du patch débruité. Lors de cette
étape, chaque patch est débruité indépendamment les uns des autres.
3. Agrégation : chaque pixel de l’image, commun à plusieurs patchs, est associé à
plusieurs valeurs débruitées. Une valeur débruitée finale est donc obtenue par une
moyenne sur l’ensemble des valeurs débruitées.
Débruitage itératif
Afin d’améliorer les performances du débruitage et d’estimer une gaussienne anisotropique
N (µq
, Σq) non biaisée, ces trois étapes sont itérées deux fois.
Lors de la première itération, le patch d’intérêt q est débruité en considérant l’ensemble des
patchs bruités {fi}. La gaussienne anisotrope correspond donc aux variances de l’ensemble5.1. DÉBRUITAGE D’IMAGES PAR FILTRE COLLABORATIF 77
des patchs bruités. Afin de débruiter conjointement les patchs du groupe tout en obtenant
une modélisation des patchs non bruités, la matrice de covariance Σq est filtrée par un
facteur σ
2
d
correspondant à la variance du bruit estimée que contient l’image (σd ≈ σn) :
Σ′
q = Σq − σ
2
d
Id. L’estimateur de débruitage NLB(1) est défini pour tout patch bruité q
associé à une moyenne µq
et une matrice de covariance Σq calculée sur l’ensemble {fi}
par :
NLB(1)(q, µq
, Σq) = µq + [Σq − σ
2
d
Id]Σ−1
q
(q − µq
) (5.1)
Les patchs bruités {fi} sont donc débruités une première fois par :
ˆr
(1)
i = NLB(1)(fi
, µfi
, Σfi
) (5.2)
Durant la deuxième itération, le patch d’intérêt q est débruité en considérant l’ensemble
des patchs {ˆr
(1)
i
}. La gaussienne anisotrope décrit donc, désormais, les variations de
l’ensemble des patchs débruités autour du patch d’intérêt débruité une première fois
q
(1) = NLB(1)(q, µq
, Σq). L’estimateur de débruitage NLB(2) est défini pour tout patch
bruité q associé à une moyenne µq(1) et une matrice de covariance Σq(1) calculée sur
l’ensemble {ˆr
(1)
i
} par :
NLB(2)(q, µq(1) , Σq(1) ) = µq(1) + Σq(1) [Σq(1) + σ
2
d
Id]
−1
(q − µq(1) ) (5.3)
Les patchs bruités {fi} sont donc débruités une deuxième fois par :
ˆr
(2)
i = NLB(2)(fi
, µˆr
(1)
i
, Σˆr
(1)
i
) (5.4)
Critère d’homogénéité
Lors du calcul de l’Équation 5.1, certaines instabilités peuvent apparaître lorsque σd ≤ σn.
Ces instabilités sont dues à l’estimation de la matrice de covariance débruitée Σ′
q
. Il faut
donc s’assurer par une Analyse en Composantes Principales (ACP) que l’ensemble des
valeurs propres de Σ′
q
restent positives ou nulles. Malheureusement, effectuer une ACP
est d’autant plus coûteux que la dimension de l’espace des patchs dP est élevée. Les NLB
proposent une résolution partielle de ce problème en introduisant un critère d’homogénéité.
Dans le cas où l’ensemble des valeurs propres de Σ′
q
sont négatives, les variations du
groupe dans n’importe quelle direction correspondent uniquement à celles du bruit (cas
d’un groupe de patchs homogène). Par conséquent, le meilleur estimateur pour le patch
débruité est un patch moyen ¯r dont les valeurs sont toutes définies par :
∀k ∈ [[1, dP]], ¯r(k) = X
fi∈N(q)
X
dP
l=1
fi(l) (5.5)
Le critère d’homogénéité permet de vérifier que le patch d’intérêt q n’est pas un patch
homogène avant d’appliquer l’une des deux Équations 5.1 ou 5.3 accélérant ainsi le temps
de calcul. En considérant un ensemble de m valeurs (correspondant à l’ensemble des valeurs
contenues dans chaque patch du groupe), le critère d’homogénéité définit l’écart type des
valeurs du groupe σh :
σ
2
h =
1
m − 1
X
fi∈N(q)
X
dP
k=1
fi(k)
2 −
X
fi∈N(q)
X
dP
k=1
fi(k)
2
(5.6)78
Lorsque σh ≤ σn, le patch débruité est défini par l’Équation 5.5 sinon il reste débruité par
les Équations 5.1 ou 5.3.
Il est important de noter que ce critère permet de résoudre les problèmes d’instabilités
quand l’ensemble des valeurs propres de Σ′
q
sont négatives, mais ne permet pas résoudre
les instabilités de calculs lorsqu’une partie des valeurs propres sont négatives. En pratique,
ce problème reste peu visible, car il est atténué par l’étape d’Agrégation et l’utilisation de
la double itération de l’algorithme.
5.1.2 Débruitage d’images par CovTree
Adaptation des NLB
Nous rappelons que le CovTree, tel qu’il a été introduit en Section 4.3.3, est une structure
de données capable d’apprendre les variations d’un ensemble d’échantillons (pi
,fi) où pi
est une position dans le domaine spatial S et fi est un attribut du domaine des attributs R.
Le domaine spatial S est utilisé pour effectuer des regroupements entre les échantillons et le
domaine des attributs R est utilisé pour analyser les variations des échantillons. Pour toute
requête (q ∈ S, σq ∈ R), la structure retourne la gaussienne anisotrope N (µq,σq
, Σq,σq
)
de moyenne µq,σq ∈ R et de covariance Σq,σq ∈ R × R modélisant les variations des
échantillons compris dans un voisinage spatial N(q, σq).
La formulation des NLB étant particulièrement adaptée pour être calculée par notre CovTree,
nous pouvons faire un parallèle entre les opérateurs du CovTree et les étapes des
NLB. Par exemple, les opérateurs d’Apprentissage et de Requête peuvent être utilisés pour
estimer une gaussienne anisotropique équivalente à celle estimée lors de l’étape de Débruitage
collaboratif. Dans ce cas-là, le domaine des attributs R est défini par l’espace des
patchs. Les attributs appris correspondent donc aux patchs de l’image.
Pour pouvoir appliquer les deux itérations des NLB de manière équivalente, nous devons
utiliser deux CovTree différents. La première est construite et apprise en utilisant
l’ensemble des patchs de l’image bruités {fi} puis utilisée afin de débruiter l’ensemble
des patchs par l’Équation 5.1 pour obtenir un premier débruitage des patchs {ˆr
(1)
i
}. La
deuxième est définie par rapport à l’ensemble des patchs débruités {ˆr
(1)
i
} de sorte à pouvoir
être utilisée par l’Équation 5.3 pour définir le patch débruité final.
La gaussienne anisotropique N (µq,σq
, Σq,σq
) estimée par notre CovTree dépend explicitement
de la taille du voisinage σq considéré. Contrairement aux NLB originaux qui fixent
définitivement cette taille pour accélérer le calcul du filtre, nous pouvons estimer diffé-
rentes images débruitées en changeant la taille σq avec une influence négligeable sur le
temps de calcul total.
Critère de regroupement
La distinction entre le domaine spatial S et celui des attributs R nous permet de définir
différents critères de regroupement. En effet l’étape de Construction de notre CovTree
permet d’effectuer des divisions dans S qui servent à rassembler les échantillons proches.5.1. DÉBRUITAGE D’IMAGES PAR FILTRE COLLABORATIF 79
La Construction du CovTree est donc équivalente à l’étape de Regroupement. La définition
des données spatiales utilisées par notre CovTree permet d’introduire différents types de
regroupement N(q).
Nous introduisons donc trois différents types de voisinage pour les NLB :
1. Voisinage global : nous définissons un domaine spatial S qui est confondu avec
le domaine des attributs R par p = fi
. Dans ce cas, le voisinage N(q) dépend
uniquement de la similarité entre les patchs bruités fi et le patch requête q. Le
domaine spatial S est donc de dimension dS = dP.
2. Voisinage local : afin de définir un voisinage équivalent à celui utilisé dans la version
originale des NLB, nous proposons d’augmenter S avec les coordonnées pixéliques du
centre du patch x = (xi
, yi). Par conséquent, les pi doivent désormais être proches
spatialement de q. Ce voisinage est défini dans un domaine spatial S de dimension
dS = dP + 2.
3. Voisinage local compressé : l’idée ici est d’adapter la réduction de dimensionnalité
des patchs proposée dans le cas des NL-Means [APG07,Tas08,Tas09] au NLB. Nous
proposons donc de réduire les dP dimensions de l’espace des patchs aux l < dP
dimensions principales par une ACP globale de l’ensemble des patchs bruités de
l’image. Dans ce cas, S est de dimension dS = l + 2.
Il est important de noter que seul le domaine spatial S est changé (et a fortiori les regroupements
des différents patchs). En particulier, le domaine des attributs R ne change pas,
ce qui permet de calculer les NLB avec différent types de voisinages sans avoir à modifier
les équations originales.
Critère d’homogénéité
Tout comme dans la version originale des NLB, nous pouvons définir un critère homogène
calculable à partir de la moyenne µq
, la matrice de covariance Σq et des deux constantes
de normalisation wq et w2q estimées par notre CovTree. Dans notre cas, l’écart type des
valeurs du groupe σh est défini par :
σ
2
q =
1
w2
qdP − w2q
(w
2
q − w2q)
Tr(Σq) + wq
µq
2
2
−
w
2
q
dP
X
l=1
µq
(l)
!2
(5.7)
De plus, l’ensemble des valeurs de patch moyen ¯r sont définies par
∀k ∈ [[1, dP]], ¯r(k) = 1
dP
X
dP
l=1
µq
(l) (5.8)
Le critère d’homogénéité tel qu’il a été introduit dans les cas de NLB originaux reste
inchangé dans le cas de l’utilisation de notre CovTree.
5.1.3 Analyse des paramètres
Dans cette partie, nous proposons une analyse des différents paramètres de l’application
du CovTree au débruitage d’images. Nous n’analysons pas ici l’influence de l’échelle d’arrêt
de notre CovTree car il est lié uniquement à la taille mémoire finale utilisée par notre80
structure. Nous n’analysons pas non plus l’influence de la taille des patchs sur la reconstruction,
nous renvoyons donc le lecteur vers une analyse plus approfondie de ce paramètre
effectué par Lebrun et coll. [LBM13].
Facteur de filtrage
Le facteur de filtrage σd correspond à la quantité de bruit que contiennent les patchs
bruités. Nous présentons en Figure 5.1 les restaurations d’une image corrompue par un
bruit gaussien d’écart type σn = 0.08 obtenu pour différentes valeurs de σd. Pour mieux
analyser l’influence de ce paramètre sur la qualité de la restauration finale, une seule
itération des NLB sans utiliser le critère d’homogénéité a été appliquée (Équation 5.1).
Une analyse de la qualité de la restauration de l’image en fonction de l’évolution de ce
paramètre n’est généralement pas effectuée car il est évident que la meilleure restauration
sera obtenue pour des valeurs , σd ≈ σn. Dans notre cas, l’évolution de ce facteur nous
permet d’analyser les performances qualitatives de notre CovTree.
Pour des valeurs de σd trop faibles (cas σd = 0.04), la matrice de covariance Σ′
q =
Σq − σ
2
d
Id n’est pas assez débruitée. Ainsi, le patch débruité obtenu est proche du patch
bruité passé en requête. Pour des valeurs de σd trop élevées (cas σd = 1.00), l’ensemble
des valeurs propres associées à la matrice de covariance Σ′
q
sont nulles. Le patch débruité
obtenu est donc confondu avec la moyenne µq
estimée par notre CovTree. Pour des valeurs
de σd moyennes (cas σd = 0.08), la matrice de covariance Σ′
q
est exploitée efficacement de
sorte à extraire l’information commune à l’ensemble des patchs bruités du groupe. L’image
résultante réussit à supprimer le bruit tout en préservant les détails fins.
Il est important de noter que l’image moyenne (cas σd = 1.00) conserve les caractéristiques
principales de l’image d’entrée. Ainsi, les différentes divisions effectuées par notre structure
de données dans le domaine spatial S respectent la topologie des patchs. L’image moyenne
réussit en effet à flouter les zones homogènes tout en préservant les contours principaux de
l’image. Une grande majorité des détails de l’image ont néanmoins été supprimés, car le
nombre de nœuds de notre structure reste limité. Contrairement à d’autres structures d’accélération
telle que les Gaussian KD-Tree [AGDL09], notre structure utilise des matrices
de covariance pour représenter les variations du groupe. Le pouvoir de représentation des
covariances étant plus important que celui de simples moyennes, le nombre de noeuds né-
cessaire pour apprendre l’information contenue dans l’image est inférieur. Cette propriété
est illustrée dans le cas σd = 0.08 où des détails fins de l’image sont restaurés, confirmant
que les gaussiennes anisotropes estimées lors des étapes d’Apprentissage et de Requête sont
représentatives des variations de chaque groupe de patchs.
Taille du voisinage spatial
Par l’intermédiaire de notre CovTree, on peut estimer une gaussienne anisotrope pour
différentes tailles de voisinage σq. Contrairement au NLB classique, il est possible d’estimer
les gaussiennes anisotropes pour différentes échelles pour un coût équivalent (Section 4.4.2).
Nous présentons en Figure 5.2, les restaurations de trois différentes images bruitées avec
un bruit additif gaussien d’écart type σn = 0.5 obtenues pour différentes tailles σq.5.1. DÉBRUITAGE D’IMAGES PAR FILTRE COLLABORATIF 81
Image originale
Bruit d'écart type 0.08
Figure 5.1: Restauration d’une image corrompue par un bruit gaussien d’écart type 0.08
obtenu pour différents σd. Le choix idéal de σd est représenté en gras.82
Figure 5.2: Restaurations d’une image corrompue par un bruit additif gaussien d’écart
type 0.2 obtenues pour différentes échelles d’estimation de la gaussienne anisotrope σq.
Plus la taille σq est élevée plus la gaussienne anisotrope résultante est grossière. La taille
idéale pour estimer la matrice de covariance est représentée en gras. Contrairement au
NLB, la taille du voisinage peut être changée sans nécessiter de calculs supplémentaires.
Pour des valeurs de σq trop larges (cas σq = 1.5), la gaussienne anisotrope estimée est
trop grossière pour correctement modéliser la variété sous-jacente des patchs débruités.5.1. DÉBRUITAGE D’IMAGES PAR FILTRE COLLABORATIF 83
Bruit écart type 0.08 Crit. global (147-D) Crit. local (147+2-D) Crit. compressé (6+2-D)
PSNR 22.7 dB PSNR 27.6 dB PSNR 28.0 dB PSNR 28.4 dB
Figure 5.3: Comparaison des restaurations obtenues pour différents critères de voisinage.
La première ligne correspond aux débruitages obtenus et la deuxième à l’écart entre le
débruitage et l’image originale.
Par conséquent, l’image restaurée perd toute l’information haute fréquence qu’elle contient
entraînant la création de zones floues.
Pour des tailles σq faibles (cas σq = 0.5), il n’est pas possible d’extraire les caractéristiques
communes à chaque groupe. Ainsi, la gaussienne anisotrope résultante permet de
représenter uniquement les structures de bruit locales ce qui se traduit par l’apparition
d’un bruit de haute fréquence sur les images restaurées. La taille de voisinage idéale (cas
σq = 0.6) doit être choisie par rapport à la quantité de bruit contenue dans les patchs bruités.
Une telle taille permet de limiter l’apparition des hautes fréquences tout en préservant
les caractéristiques de l’image.
Choix du voisinage
Nous présentons en Figure 5.3 différentes restaurations d’une image corrompue par un
bruit additif gaussien d’écart type 0.08 pour différents types de voisinages.
En utilisant un critère global, les regroupements de patchs se font uniquement en considérant
une distance calculée dans l’espace des patchs. L’ensemble des patchs appris étant
bruité, cette distance est très dépendante de la quantité de bruit dans les patchs. Ainsi,
les groupes de patchs contiennent plus facilement des patchs parasites influençant négativement
la qualité de la restauration finale. Un critère global peut donc être difficilement
utilisé dans le cas de patchs bruités.
Pour résoudre ce problème, il suffit d’augmenter de deux dimensions le domaine spatial
correspondant à la position pixelique du centre du patch. Ce critère local permet de limiter84
30.7
31
31.3
1 2 4 8 16 32 64
PSNR(dB)
Dimensionnalité spatiale ( )
Figure 5.4: Évolution du PSNR du débruitage de 20 images par notre CovTree-NLB en
fonction de la réduction par ACP de la dimensionnalité du domaine spatial. La courbe
moyenne est représentée en rouge et l’écart type des données centrées en gris. Les courbes
de PSNR de chaque images présentent des formes similaires et montrent un pic autour des
valeurs dS = 4.
le nombre de points parasites présents dans un groupe. L’image restaurée est donc d’une
meilleure qualité. Dans la version originale des NLB, ce critère est également utilisé afin
d’accélérer le calcul du filtre en rendant indépendante de la taille de l’image l’étape de
Regroupement.
Comme nous le présentons en Figure 5.4, le critère compressé qui effectue une réduction
de dimensionnalité par ACP appliqué sur le domaine S permet non seulement d’accélérer
la recherche, mais de produire également de meilleurs résultats. Ce phénomène peut être
expliqué par le fait que les valeurs propres les plus petites contiennent principalement du
bruit. En gardant uniquement les valeurs propres les plus élevées, la distance entre les
patchs devient donc moins sensible au bruit permettant de définir des regroupements de
patchs plus pertinents.
Schéma itératif
Nous présentons en Figure 5.5, trois images restaurées obtenues après la première itération
(Équation 5.1 puis la deuxième itération (Équation 5.3) des NLB. Les images sont
corrompues avec un bruit additif gaussien d’écart type σn = 0.2.
La première itération des NLB permet de récupérer les caractéristiques principales de
l’image. Étant calculée uniquement sur l’ensemble des patchs bruités, l’estimation des gaussiennes
anisotropes reste néanmoins biaisée entraînant l’apparition d’artefacts de hautes
fréquences et de changements de teinte de certaines zones de l’image.
Appliquer une deuxième itération calculée sur l’ensemble des patchs débruités permet
de corriger ces problèmes. Désormais les variations et les regroupements sont calculés en
considérant une distance entre les patchs qui n’est plus biaisée par le bruit. Les regroupements
formés sont donc plus pertinents et permettent de mieux faire ressortir les détails
communs à chaque groupe de patchs. Les images résultantes obtenues préservent mieux
les caractéristiques.5.1. DÉBRUITAGE D’IMAGES PAR FILTRE COLLABORATIF 85 Première itération des NLB Deuxième itération des NLB
PSNR 24.1 dB
PSNR 24.6 dB PSNR 29.2 dB PSNR 29.6 dB
PSNR 29.0 dB PSNR 29.6 dB
Figure 5.5: Images débruitées obtenues après la première et la deuxième itération de notre
CovTree-NLB à partir de trois images corrompues par un bruit additif gaussien d’écart
type 0.2. Afin de mieux comparer les performances, nous fournissons des agrandissements
des trois images sur les deux lignes centrales.
Néanmoins, lorsque l’information d’un groupe est trop filtrée lors de la première itération,
il devient difficile de récupérer cette information lors de la deuxième itération. Inversement,
si le bruit présent dans le groupe n’est pas totalement éliminé alors il pourra être
considéré comme une caractéristique principale du groupe diminuant ainsi la qualité de la
restauration.86Original NL-Means NLB Original NLB par CovTree Bruit
PSNR 14.7 dB PSNR 14.6 dB PSNR 14.8 dB
PSNR 27.9 dB PSNR 23.8 dB PSNR 28.8 dB
PSNR 29.0 dB PSNR 24.7 dB PSNR 29.5 dB
PSNR 29.2 dB PSNR 24.6 dB PSNR 29.6 dB
Figure 5.6: Résultats de restaurations obtenus pour différents algorithmes de débruitages
non locaux : les NL-Means [GO12], les NLB originaux [LBM13] et notre CovTree-NLB.
Un agrandissement de ces images est proposé en Figure 5.7
5.1.4 Résultats
Nous présentons en Figure 5.6 les résultats obtenus pour trois méthodes : les NL-Means
calculées par l’approche de Gastal et coll. [GO12], les NLB originaux [LBM13] et notre
CovTree-NLB. Ces méthodes sont appliquées à trois différentes images corrompues par
un bruit additif gaussien d’écart type 0.2. Pour mieux percevoir les différences entre les
différentes méthodes, nous présentons en Figure 5.7 des vues détaillées de ces différents
résultats. Les résultats du CovTree sont obtenus sans utiliser le critère d’homogénéité et
en réduisant la dimensionnalité des patchs aux 6 principales dimensions.5.1. DÉBRUITAGE D’IMAGES PAR FILTRE COLLABORATIF 87 Original NL-Means NLB Original NLB par CovTree
PSNR 14.7 dB PSNR 14.6 dB PSNR 14.8 dB
PSNR 27.9 dB PSNR 23.8 dB PSNR 28.8 dB
PSNR 29.0 dB PSNR 24.7 dB PSNR 29.5 dB
PSNR 29.2 dB PSNR 24.6 dB PSNR 29.6 dB
Bruit
Figure 5.7: Comparaison de différents algorithmes non locaux : les NL-Means [GO12],
les NLB originaux [LBM13] et notre CovTree-NLB.88
Dans le cas des NL-Means, les pixels de l’image sont débruités à partir d’une combinaison
de valeurs bruitées. Le poids de chaque élément est calculé en fonction d’une mesure de
similarité évaluée à partir d’un voisinage autour du pixel. Malheureusement, ce voisinage
est défini à partir de l’image bruitée. Par conséquent, la mesure de similarité aura tendance
à rechercher des pixels dans l’image qui possèdent des voisinages qui sont bruités de la
même manière que le patch d’intérêt. Ce phénomène reste peu visible pour des écarts types
σn faibles, mais se traduit par l’apparition d’un bruit résiduel haute fréquence pour des
valeurs de σn élevées. Ce problème est particulièrement visible en Figure 5.7, où il entraine
l’apparition d’imprécisions et la modification des contours de l’image.
Ce problème est corrigé dans les NLB originaux en analysant l’information commune
à un groupe de patchs similaires. À la différence des NL-Means, le filtrage est effectué
collaborativement. Les caractéristiques principales communes à l’ensemble des patchs du
groupe sont donc extraites indépendamment du bruit puis utilisées pour filtrer le patch.
Les NLB permettent donc de mieux préserver les détails principaux contenus dans l’image
sans introduire de bruit haute fréquence.
Notre CovTree-NLB permet d’obtenir des résultats légèrement supérieurs aux NLB originaux.
Nous pouvons expliquer cette différence par l’utilisation du critère de voisinage
local compressé. Il permet de former des groupes de patchs similaires moins dépendants
du bruit. De plus, dans la formulation originale des NLB, la moyenne et la covariance sont
estimées avec un poids constant à partir d’une combinaison des k plus proches voisins.
Dans notre cas, la combinaison est pondérée en utilisant un noyau gaussien qui limite
l’influence des patchs parasites.
En effectuant une comparaison plus détaillée, nous pouvons remarquer que les NLB originaux
ont tendance à créer des zones régulières. Ce problème est dû à l’utilisation du
critère homogénéité qui a tendance à uniformiser l’ensemble des valeurs du patch. Comme
notre CovTree-NLB n’utilise pas le critère d’homogénéité, le patch est remplacé dans notre
cas par la moyenne estimée durant la phase de requête de notre CovTree. Comme nous
l’avons vu précédemment, la moyenne estimée par notre structure permet de bien préserver
les caractéristiques principales. Elle remplace donc les zones régulières qui provoquent
un phénomène de quantification par des variations lisses entre les différentes zones.
Pour conclure, les deux implémentations des NLB produisent des résultats globalement
équivalents. Ce constat nous permet donc d’affirmer que notre CovTree est correctement
défini pour estimer la moyenne et la covariance d’un ensemble d’échantillons pour diffé-
rentes requêtes qui peuvent être utilisées dans des approches telles que les NLB.
5.2 Restauration par dictionnaires
Une propriété intéressante de notre CovTree est qu’il peut être utilisé pour apprendre les
variations à différentes échelles de grandes bases d’échantillons en utilisant une quantité de
mémoire limitée. Nous proposons d’exploiter ce caractère compressif afin de résoudre deux
applications : le débruitage par dictionnaire et la reconstruction d’images échantillonnées
aléatoirement.5.2. RESTAURATION PAR DICTIONNAIRES 89
Figure 5.8: Échantillons de la base de données de façades parisiennes comprenant plus
de 120 images (soit plus de 108 patchs).
5.2.1 Principe général
Avec la démocratisation des capteurs numériques et la facilité d’accès aux réseaux de communication,
il est devenu facile aujourd’hui de récupérer et/ou partager de l’information.
Malgré la multiplication de ces données, il existe encore peu de moyens réussissant à exploiter
cette grande quantité d’informations et d’en extraire des caractéristiques utiles.
Pourtant, l’utilisation d’une telle connaissance pourrait être particulièrement utile dans
des domaines tels que la restauration.
Durant ces dernières années, les méthodes de restauration des images ont proposé des approches
de plus en plus performantes pour réussir à récupérer l’information contenue dans
des images corrompues. Néanmoins, les performances de ces méthodes resteront toujours
limitées du fait que les données sont trop détériorées ou trop rares pour être récupérées.
L’utilisation d’une analyse de l’information commune à de grands ensembles d’images
pourrait donc permettre de résoudre ce problème tout en améliorant la qualité de la restauration.
Cette idée est confirmée dans [LN11] où l’utilisation de grandes bases d’images est proposée
comme un moyen d’apprendre l’a priori sous-jacent aux patchs d’images naturelles. Ce
genre d’approche (appelée shotgun NLM [LCBM12]) a été utilisé pour estimer les limites
fondamentales des méthodes de débruitage non locales. Néanmoins, aucune proposition n’a
été faite afin de rendre ce genre de méthodes calculables dans le cas d’applications réelles.
Une idée similaire a ensuite été proposée par [ZW11]. Elle définit un apprentissage sur une
large base de données par l’intermédiaire d’une approche similaire à celle des PLE [YSM12].
Malheureusement, une telle approche nécessite plusieurs jours pour apprendre l’a priori
sous-jacent.
Nous proposons donc d’utiliser notre CovTree généralisé afin d’apprendre l’a priori sousjacent
aux patchs des images naturelles rapidement et en utilisant une quantité de mémoire
limitée. Une fois encore, cet avantage est possible, car la quantité de mémoire utilisée par90
notre structure de données dépend uniquement de la précision de l’information que l’on
souhaite apprendre et non du nombre d’échantillons à apprendre.
Dans toute cette section, nous considérons un ensemble de 108 patchs non bruités de
dimension 7×7 extraits d’une base de plus de 120 images de façades parisiennes. Ces patchs
seront utilisés lors de l’étape d’Apprentissage de sorte à pouvoir définir une approximation
de l’a priori sous-jacent de l’ensemble des patchs appartenant aux images naturelles. Nous
présentons en Figure 5.8 un sous-ensemble d’images appartenant à cette base de données.
En terme de performance, un tel apprentissage nécessite environ 5 heures de calcul sur un
PC possédant un processeur 2.4 GHz Intel Xeon et utilise 8GB de RAM pour retenir l’ensemble
de la structure de données. En comparaison, ce temps de calcul est bien plus rapide
que les temps de calcul reportés dans [LN11, ZW11] alors que la quantité d’échantillons
apprise par notre structure est largement supérieure.
5.2.2 Débruitage d’images
Principe
Les démarches par NLB restaurent l’image en utilisant uniquement un ensemble de patchs
bruités. Par conséquent, la gaussienne anisotrope utilisée pour modéliser l’a priori sousjacent
représente les variations des patchs bruités. Les NLB résolvent ce problème en
débruitant la matrice de covariance d’un facteur σd et en itérant deux fois leurs différentes
étapes. Néanmoins, l’estimation de la gaussienne reste limitée.
Dans cette section nous proposons de définir une approche similaire à [LCBM12]. Nous
définissons un algorithme de débruitage, le Shotgun NLB, qui utilise un a priori appris
sur une grande base de données à partir notre CovTree. Cette idée a deux principaux
avantages : nous pouvons augmenter le nombre de patchs appris (par rapport aux NLB
classiques) et les données utilisées ne sont pas dégradées par du bruit, permettant ainsi
d’augmenter la précision de la gaussienne anisotropique estimée.
En pratique, nous construisons notre arbre en considérant un critère de voisinage global
(sans coordonnées pixeliques) afin de définir les cellules dans le domaine spatial S. Ensuite,
nous apprenons le modèle gaussien de chaque cellule à partir de l’ensemble des patchs non
bruités provenant de la base de données. Finalement, la matrice de covariance Σq et le
vecteur moyen µq
sont estimés à partir d’un patch bruité q avec un rayon σq proche de
l’écart type du bruit du patch. Contrairement aux NLB classiques, les gaussiens anisotropes
N (µq
, Σq) estimées par la structure sont non bruitées. Par conséquent, nous appliquons
directement l’Équation 5.3 sans avoir besoin de débruiter la matrice de covariance.
Résultats
En Figure 5.9, nous présentons une comparaison d’images filtrées par les NLB originaux, les
CovTree-NLB et notre Shotgun NLB. Les résultats sont obtenus à partir d’images corrompues
par un bruit gaussien additif d’écart type 0.08. Dans cette partie, les CovTree-NLB
sont calculés à partir du critère de voisinage local compressé aux 6 principales dimen-5.2. RESTAURATION PAR DICTIONNAIRES 91
Bruit écart type 0.08 NLB Original (147+2-D) NLB CovTree (147+2-D) Shotgun NLB (147-D)
PSNR 22.4 dB PSNR 30.2 dB PSNR 30.0 dB PSNR 31.1 dB
Figure 5.9: Comparaison des images débruitées obtenues pour différentes versions des
NLB : le NLB original, notre CovTree NLB et notre Shotgun NLB. La deuxième ligne
présente des agrandissements des résultats obtenus sur la première ligne.
sions sans utiliser de critère d’homogénéité. Notre Shotgun-NLB est évalué avec une seule
itération.
Pour mieux illustrer nos propos, nous allons baser nos explications sur les agrandissements
proposés en Figure 5.9 représentant un mur de briques. Ce cas de restauration est particulièrement
difficile, car les détails fins et le bruit de l’image sont confondus. La gaussienne
anisotrope résultante de ce groupe de patchs sera donc principalement composée du bruit
du groupe. En effet, la distance utilisée pour former les groupes de patch aura tendance à
rassembler les patchs par rapport à la similarité de leur bruit respectif plutôt que de l’information
réelle qu’ils contiennent. Les groupes ainsi formés contiendront donc un grand
nombre de patchs parasites qui perturberont l’extraction des caractéristiques communes.
La légère perte de performance de notre CovTree-NLB par rapport aux NLB originaux
est due à ce problème. Les NLB originaux utilisent le critère d’homogénéité pour éviter
d’exacerber les structures de bruits locales. Il permet d’harmoniser l’ensemble des valeurs
quand il est difficile de faire la distinction entre l’information contenue dans le groupe et
le bruit.
Le Shotgun-NLB est particulièrement efficace pour résoudre ce genre de cas. En effet, il
permet d’estimer, en toutes circonstances, des gaussiennes anisotropes représentatives des
variations des patchs non bruités. Pour ce faire, il utilise l’information commune de la base
de patchs non bruités pour définir un a priori qui approche celui des patchs des images
naturelles. Cet a priori peut donc contenir une information sur les caractéristiques fines des
patchs qui se retrouvaient précédemment confondues dans le bruit de l’image. Le ShotgunNLB
permet de restaurer des détails fins de l’image que les filtres classiques ne sont pas
capables de retrouver. De plus amples expérimentations restent néanmoins nécessaires92
pour déterminer si la restauration obtenue est proche de la limite fondamentale présentée
par [LN11].
5.2.3 Reconstruction d’image échantillonnée aléatoirement
Principe
Dans cette section, nous proposons de reconstruire une image à partir d’un sous-ensemble
aléatoire de ces pixels. Comme le proposent entre autres les PLE [YSM12], nous proposons
d’utiliser l’a priori sous-jacent aux patchs des images naturelles qui a été appris par l’intermédiaire
de notre CovTree sur une large base de données pour compléter l’information
manquante.
Considérons un patch q˜ échantillonné aléatoirement à partir d’un patch original q par
un opérateur q˜ = Sq. Ici, l’opérateur S dépend de la position spatiale de q. De manière
équivalente aux filtres NLB, nous allons considérer ici que les patchs de l’image peuvent être
modélisés localement par une gaussienne anisotrope dont la moyenne µq
et la covariance
Σq ont été estimées à partir d’un dictionnaire local. Par conséquent, nous pouvons définir
le patch reconstruit qˆ comme une MAP bayésienne :
qˆ = (ΣqS
HS +
σ
2
2
Id)
−1
(ΣqS
Hq˜ +
σ
2
2
µq
) (5.9)
Dans la minimisation précédente, la gaussienne anisotrope N (µq
, Σq) est estimée autour
du patch complet original q. Ce patch étant bien évidemment inconnu, nous utilisons une
approche itérative basée sur trois étapes pour approcher cette gaussienne :
1. Estimation : le patch qˆt−1 reconstruit à l’itération précédente t − 1 est utilisé en
requête de notre CovTree afin de définir une approximation de l’a priori statistique
local autour de q représentée par une gaussienne anisotrope N (µqˆt−1
, Σqˆt−1
).
2. Reconstruction : le patch qˆt est reconstruit à l’itération t à partir d’une MAP
bayésienne et de la gaussienne anisotrope N (µqˆt−1
, Σqˆt−1
) par :
qˆt = (Σqˆt−1S
HS +
σ
2
2
Id)
−1
(Σqˆt−1S
Hq˜ +
σ
2
2
µqˆt−1
) (5.10)
3. Agrégation : tout comme pour les NLB, un pixel de l’image appartient à plusieurs
patchs de l’image. Par conséquent, le patch qˆt et l’image sont estimés à l’itération t
par une moyenne des valeurs des pixels reconstruits.
En pratique, nous initialisons la reconstruction à partir d’une estimation initiale qˆ0 du
patch complet effectué en utilisant une interpolation cubique basée sur une triangulation
de Delaunay des pixels connus. De plus, pour obtenir une meilleure reconstruction de
l’image, lors de l’étape d’Estimation nous utilisons des échelles de filtrage σqˆ,t = α
tσqˆ,0 de
plus en plus fines à partir d’une échelle grossière σqˆ,0 et d’un facteur d’échelle α ∈ [0, 1].
Résultats
Nous présentons en Figure 5.9 la restauration obtenue à partir d’une image où seulement
20% des pixels échantillonnés aléatoirement ont été conservés. Notre approche est initia-5.2. RESTAURATION PAR DICTIONNAIRES 93
Original 20% pixels originaux Reconstruction cubique Notre reconstruction
PSNR 24.9 dB PSNR 27.2 dB
Figure 5.10: Résultat de la reconstruction d’une image dont 20% des pixels échantillonnés
aléatoirement ont été retenus. Notre approche est initialisée à partir d’une reconstruction
cubique définie sur la triangulation de Delaunay des pixels connus.
lisée par une première interpolation cubique définie sur la triangulation de Delaunay des
pixels connus pour des valeurs α = 0.8 et σqˆ,0 = 0.65.
Comme nous l’avons expliqué précédemment, nous avons théoriquement besoin de
connaître le patch restauré pour pouvoir définir un modèle local des patchs. Pour ré-
soudre ce problème, nous avons introduit une approche itérative qui évalue à chaque étape
une reconstruction de plus en plus fine. Ce schéma itératif est initialisé à partir d’une
restauration grossière de l’image. Il est important de comprendre que tout le cœur de
notre problème de restauration réside dans l’estimation d’une gaussienne anisotrope correcte.
C’est grâce à elle que l’information manquante est comblée. Par conséquent, plus la
requête sera proche du patch original meilleure sera la restauration.
Pour éviter de bloquer les itérations dans des minimums locaux, nous utilisons des échelles
de requêtes σqˆ,t décroissantes. Cette idée nous permet de récupérer des détails de l’image
qui n’était pas nécessairement présents dans l’approximation originale. Ce phénomène est
parfaitement illustré en Figure 5.10 par la restauration des briques ou des carreaux de la
porte de la maison. Malheureusement, une telle solution ne permet pas de résoudre toutes
les ambiguïtés. Les patchs restaurés peuvent parfois être assez éloignés de leur version
originale. Néanmoins, ce problème n’est pas forcément choquant visuellement.
5.2.4 Limitations et possibles améliorations
Dans cette section, nous avons utilisé notre CovTree pour apprendre rapidement la distribution
d’une grande base de données de patchs issues d’images naturelles et avec une94
quantité de mémoire limitée. Nous avons démontré que ce modèle peut être utilisé effi-
cacement pour résoudre des problèmes de restauration par MAP bayésienne tels que le
débruitage ou la reconstruction d’images.
Nous avons fait la supposition que l’a priori sous-jacent est appris sur une base de patchs
non bruités représentatifs des patchs à restaurer. Cette hypothèse n’est pas toujours vérifiée
en pratique. En effet, l’apprentissage est effectué ici sur un ensemble de patchs extraits
d’images différentes. Ces images ne sont pas nécessairement acquises avec des appareils
ou dans des conditions équivalentes. Par conséquent, des changements de teintes ou de
contraste peuvent limiter la qualité de l’apprentissage.
Ce problème peut bien évidemment être résolu en augmentant la quantité d’images apprises.
Mis à part l’augmentation de la quantité de temps nécessaire à l’apprentissage, les
statistiques apprises pourraient être corrompues par l’introduction de patchs aberrants.
Pour résoudre ce problème, une première solution consisterait à apprendre les statistiques
indépendamment des changements de contraste et/ou de teintes. Cette solution reviendrait
en quelque sorte à normaliser les patchs avant de les apprendre. Notre CovTree devrait
donc être modifié pour gérer indépendamment la moyenne et les covariances. Plus simplement,
nous pourrions utiliser l’information contenue dans les patchs corrompus quand
celles de l’a priori ne sont pas suffisante. Cette idée est équivalente à celle de la dégéné-
rescence du noyau non local introduit en Section 3.2.4 pour les NLPSS.
5.3 Restauration de surface 3D
Notre CovTree peut être utilisé pour résoudre des problèmes de restauration d’images tels
que le débruitage ou la reconstruction. Nous proposons d’étendre ces différentes applications
au cas des nuages de points 3D. Pour cela, nous utilisons les principes et outils
introduits pour les NLPSS ainsi que le CovTree dans sa version étendue. Nous présentons
uniquement les idées et les problèmes sous-jacents à la mise en œuvre de ces applications.
5.3.1 Positionnement du problème
Nous rappelons ici les notations introduites au Chapitre 3. Soit X = (xi
, ni) un nuage
de point 3D extrait à partir d’une surface S inconnue, où xi ∈ R
3
est la position d’un
point et ni ∈ R
3
est la normale qui lui est associée. Pour tout point x ∈ R
3
, l’opérateur
PSS Πt projette x sur la surface S
t définie à l’échelle t. Nous appelons respectivement
Πt
(x), f(x) et n(x), la projection de x sur S
t
, la distance implicite et la normale associée.
En appliquant Πt0 à une échelle t0 large, nous obtenons une surface grossière S
t0 et un
champ scalaire résiduel bruité m(xi) défini uniquement pour les points du nuage xi ∈ X
(Section 3.2.2).
De manière générale, adapter les méthodes restaurations MAP non locales pose principalement
deux contraintes :
1. Tout d’abord, elles nécessitent la définition d’un signal corrompu et d’un descripteur
pour définir la mesure de similarité entre deux échantillons. En traitement
des images (et en particulier dans le cas des filtres collaboratifs), c’est le patch qui5.3. RESTAURATION DE SURFACE 3D 95
Figure 5.11: Reconstruction de surface obtenue à partir de notre opérateur NLB-PSS.
possède le double rôle de descripteur et de signal à débruiter. Dans le cas des NLPSS,
le signal est défini par le champ scalaire résiduel bruité m(xi) (uniquement pour tout
xi ∈ X ) et le descripteur par un patch de surface 3D (Section 3.2.3). 1
2. Ensuite, les formulations MAP (par ex. l’Équation 5.1) nécessitent de connaître
le signal corrompu en tout point du domaine. En effet, elles peuvent être
vues généralement comme une projection d’un échantillon corrompu sur une variété
locale (Section 5.1.1). Leur formulation fait donc explicitement intervenir le signal
corrompu. Un tel problème ne se pose pas nécessairement dans le cas de formulations
EAP (par ex. l’Équation des NLPSS).
En conclusion, tout l’enjeu de l’adaptation des restaurations MAP au cas de surface 3D
sera dans la définition d’une valeur du signal corrompue pour tout point de l’espace x ∈ R
3
.
5.3.2 Surface de points par NLB
Nous proposons maintenant de définir un opérateur NLB-PSS qui étend les NLPSS au cas
des NLB. Dans le cas des nuages de points 3D, il est difficile de définir un signal bruité
pour tout x ∈ R
3
. Dans les NLPSS, ce problème a été résolu en utilisant le champ scalaire
résiduel bruité m(pi) qui est uniquement défini pour les points du nuage xi ∈ X . Pour
pouvoir définir un patch de surface 3D, ce signal a été approché par un opérateur PSS
Πt1 à une échelle t1. Πt1 permet de définir une surface S
t1 qui approxime finement X . Le
patch de surface 3D peut donc être considéré comme une approximation peu filtrée du
signal bruité. Il peut donc être débruité par l’Équation 5.1.
Nous définissons l’opérateur NLB-PSS ΠNLB pour tout x ∈ R
3 par :
ΠNLB(x) = x − fNLB(x)n
t0
(x) (5.11)
1. Ces deux notions sont intimement liées aux deux domaines des attributs R et spatial S introduit
dans la version généralisée de notre CovTree. R correspond au signal à débruiter et S aux descripteurs.96
où fNLB(x) correspond à la valeur centrale du patch de surface débruitée définie à partir du
patch de surface bruité Px par l’Équation 5.3. Pour les NLB-PSS, nous n’effectuons aucune
étape d’agrégation En effet, contrairement aux patchs définis en traitement des images, les
patchs de surface ne possèdent aucunes valeurs en commun. En pratique, le NLB-PSS est
accéléré par notre CovTree. Nous le construisons et l’apprenons en considérant l’ensemble
des patchs 2 Pxi
associé à chaque point xi ∈ X . Une requête de notre arbre est donc définie
par un patch de surface Px et un rayon de requête σx ∈ R. Nous présentons en Figure 5.11
les premiers résultats des NLB-PSS.
5.3.3 Restauration de surface par dictionnaire
Comme nous l’avons proposé dans le cas des images, nous pouvons apprendre les variations
d’un ensemble de patchs de surface non bruités afin de définir un a priori des surfaces 3D.
Il peut être utilisé pour des applications telles que le débruitage et la reconstruction de
surface.
Problèmes
Dans les NLPSS, les patchs de surface (Section 3.2.3) sont définis par rapport à une
surface grossière S
t0 (utilisée pour définir les valeurs du patch) et à une largeur de patchs
(employée pour estimer l’orientation du patch). Malheureusement ces deux paramètres
sont dépendants de la résolution du nuage de points considérée. Par conséquent, un nuage
acquis à différentes résolutions ne produira pas des ensembles de patchs qui contiennent
des informations équivalentes.
Dans le cas de grands ensembles de nuages de points, ce problème est d’autant plus présent
que les nuages ne sont pas acquis par le même capteur. Pour résoudre ce problème, nous
proposons d’extraire les patchs du nuage à différentes échelles. La base de données ainsi
constituée sera donc moins dépendante des problèmes d’acquisition. Plus d’expérimentations
sont néanmoins nécessaires pour valider cette hypothèse.
Densification de nuages de points 3D
L’apprentissage de grand ensemble de patchs est particulièrement utile pour augmenter
la résolution d’un nuage de points. Pour pouvoir être défini de manière équivalente aux
problèmes de reconstruction d’image échantillonnée aléatoirement, nous proposons d’introduire
un patch de surface incomplet P˜
x, pour tout x ∈ R
3
, en projetant les points
xj ∈ N(x) ⊂ X sur le plan du patch (Figure 5.12). Une discrétisation du plan permet
de définir les valeurs du patch ainsi qu’un opérateur d’échantillonnage S. Les valeurs sont
obtenues par une combinaison pondérée des m(xj ) et l’opérateur d’échantillonnage comme
la somme des poids reçus dans les cases correspondantes.
2. Pour tout point xi ∈ X , la valeur centrale du patch correspond à la valeur du signal bruité m(xi).
Par conséquent, chaque xi ∈ X est associé à un patch amélioré P
′
xi
. En pratique, notre arbre est donc
construit par rapport à l’ensemble des patchs approchés {Pxi } et appris sur l’ensemble des patchs améliorés
{P
′
xi
}.5.3. RESTAURATION DE SURFACE 3D 97
0.8 0.6 0.8
0.2 0.7 0.2
0.8 0.4 0.8
S =
xj
Figure 5.12: Définition d’un patch de surface incomplet. Les points xj sont projetés sur
le plan du patch. À partir d’une discrétisation du plan, nous obtenons les valeurs du patch
et l’opérateur d’échantillonnage S.
Par conséquent, les patchs incomplets peuvent être reconstruits en considérant une approche
similaire à celle proposée en Section 5.2.3. Une fois l’ensemble des {P˜
xi
} reconstruits
par l’Équation 5.10 un nuage est densifié en ajoutant des points en fonction des
valeurs du patch reconstruit (Figure 5.12).C h a p i t r e 6
Conclusion
À partir du débruitage non local de nuages de points, nous avons mis en évidence le
besoin de structures dédiées aux traitements non-locaux des données de dimension deux et
supérieure, ainsi que la possibilité de généraliser les méthodes existantes de restauration
non-locale 2D et 3D. Pour pouvoir y répondre nous avons introduit les contributions
suivantes :
Surface de point non locale Les opérateurs de surface de points (PSS) conventionnels
permettent de définir une surface à partir d’un voisinage local. Malheureusement face
aux conditions réelles de capture, ce point de vue devient rapidement insuffisant pour
définir une surface correcte. Pour résoudre ce problème, nous avons proposé une nouvelle
définition qui étend toutes les définitions PSS locales précédentes en exploitant le
caractère autosimilaire du nuage de points. Pour ce faire, nous utilisons un opérateur PSS
défini à une échelle grossière pour définir une surface grossière (servant de support à notre
méthode) et un champ scalaire résiduel contenant les caractéristiques bruitées de la surface.
Notre surface non locale est définie en ajoutant à cette surface grossière le champ
scalaire de déplacement résiduel débruité par la méthode des moyennes non locales. La
mesure de similarité entre deux parties du nuage de points est définie par l’intermédiaire
de patchs de surfaces dont les valeurs représentent les variations entre la surface grossière
et une surface calculée par un PSS à échelle fine. Nous avons démontré que notre définition
est capable d’améliorer la qualité des surfaces PSS locales en augmentant le rapport
signal/bruit. Néanmoins ces résultats sont très dépendants du caractère autosimilaire du
nuage à traiter. Dans le cas peu probable, d’absence d’autosimilarité, notre opérateur non
local obtiendra des résultats identiques à ceux de l’opérateur PSS sous-jacent. En pratique,
l’estimation de notre opérateur non local est accélérée par GPU permettant une utilisation
plus interactive.
Arbre de covariances Avec l’augmentation de la quantité d’information, peu de mé-
thodes à l’heure actuelle exploitent réellement l’information contenue dans les grandes
bases de données ou au prix d’une quantité de mémoire et de calculs beaucoup trop
importante. Comme solution, nous introduisons le CovTree, une nouvelle structure de
données capable d’apprendre les distributions locales d’un grand ensemble d’échantillons
en les représentant par des gaussiennes anisotropes. Cette structure est définie par l’in-
99100
termédiaire de trois principales étapes. Tout d’abord, nous construisons un arbre binaire
à partir d’un ensemble d’échantillons qui partitionne l’espace en fonction de la position
des différents échantillons. Ensuite, nous apprenons les distributions statistiques locales
de chaque nœud en propageant l’ensemble des échantillons à travers l’arbre en fonction de
leur position et ajoutant une contribution pondérée des points au noyau de chaque nœud
de l’arbre traversé. Finalement, pour toute requête, notre arbre modélise la distribution
locales des données apprises. Pour permettre une utilisation générique, nous définissons
une version généralisée de notre structure par l’intermédiaire de deux domaines : spatial
correspondant au descripteur du point et des attributs correspondant à signal associé.
Par l’intermédiaire d’un schéma de requête adaptatif, il devient possible d’interroger à
n’importe quelle échelle pour des temps sensiblement équivalents.
Restauration collaboratives Les filtres collaboratifs utilisent l’information commune
à des ensembles de patchs similaires afin d’améliorer la qualité de la restauration. Malheureusement,
il est coûteux et difficile d’analyser l’information contenue dans une grande base
de données. Ces approches sont donc généralement simplifiées et limitées à un ensemble de
points réduit. Pour résoudre ce problème, différents ensemble de données sont appris par
l’intermédiaire du CovTree. Nous introduisons différentes applications de débruitages et
de reconstructions de données 2D et 3D. Par rapport aux approches précédentes, il devient
possible d’apprendre un a priori à partir d’une grande base d’échantillons de données non
détériorées. Nous utilisons cet a priori pour améliorer les performances des méthodes de
restauration. Dans cette partie, nous effectuons une analyse qualitative des performances
de notre CovTree qui permet de valider son utilisation.
En conclusion, nos différentes contributions permettent de s’attaquer aux problématiques
soulevées par les évolutions récentes des méthodes de restaurations non locales et de l’augmentation
de la quantité de données. Cette thèse s’inscrit donc au cœur de cette évolution
en proposant quelques éléments de réponse à l’un des enjeux technologiques des années
2010, à savoir : la capture, transmission et traitements de masses de séquences temporelles
de données 2D et 3D.C h a p i t r e 7
Perspectives
Dans cette thèse, nous avons travaillé sur différents thèmes découlant de la restauration
par méthodes non locales d’un ensemble de données 2D et 3D. Au-delà des contributions
techniques proposées, un certain nombre de nouvelles pistes plus générales que celle abordées
en Section 3.4 et 4.5 peut découler de ce travail de recherche.
La définition des NLPSS suppose que le nuage de points 3D est corrompu par un bruit
additif gaussien 3D. Cette supposition est indispensable pour pouvoir utiliser les moyennes
non locales. Néanmoins, à l’heure actuelle, il n’existe (à notre connaissance) aucune analyse
du modèle statistique du bruit introduit par les scanners 3D car il est trop dépendant du
type de capteurs utilisé. Il serait donc intéressant de définir les NLPSS pour des bruits
différents comme c’est proposé en traitement des images dans [DDT09]. Une telle idée
nécessiterait de définir des mesures de similarité spécifiques. Les travaux de Deledalle et
coll. [DDT12] et Desolneux et coll. [DD13] donnent quelques pistes le deuxième étant
particulièrement pertinent car il pourrait permettre de rendre le NLPSS plus robuste aux
points aberrants. Néanmoins, le changement du type de bruit entrainerait nécessairement
un problème dans l’estimation du repère de normalisation des patchs.
L’amélioration des systèmes de captures par agrégation des données 3D du type Kinect
Fusion [IKH+11] pourrait être une autre piste de recherche intéressante. Une telle application
nécessiterait de coupler notre CovTree afin de cumuler les données dans le temps,
avec un système d’acquisition de données 3D en temps réel (tels que Microsoft Kinect par
exemple). Une telle idée nécessite néanmoins de faire évoluer notre CovTree temporellement
(Section 4.5).
101Bibliographie
[AA04a] A. Adamson and M. Alexa. Approximating bounded, nonorientable surfaces
from points. In Proceedings of Shape Modeling Applications, pages 243–252.
IEEE, 2004.
[AA04b] M. Alexa and A. Adamson. On normals and projection operators for surfaces
defined by point sets. In Symposium on Point-Based Graphics, pages 149–
155. Citeseer, 2004.
[AA09] M. Alexa and A. Adamson. Interpolatory point set surfaces - convexity and
hermite data. ACM Transactions on Graphics (TOG), 28(2) :20, 2009.
[ABCO+01] M. Alexa, J. Behr, D. Cohen-Or, S. Fleishman, D. Levin, and C. T. Silva.
Point set surfaces. In Proceedings of the Conference on Visualization, pages
21–28. IEEE, October 2001.
[ABD10] A. Adams, J. Baek, and M. A. Davis. Fast high-dimensional filtering using
the permutohedral lattice. Computer Graphics Forum (CGF), 29(2) :753–
762, 2010.
[AGDL09] A. Adams, N. Gelfand, J. Dolson, and M. Levoy. Gaussian kd-trees for fast
high-dimensional filtering. ACM Transactions on Graphics (TOG), 28(3) :21,
July 2009.
[AK04] N. Amenta and Y. J. Kil. Defining point-set surfaces. ACM Transactions on
Graphics (TOG), 23(3) :264–270, August 2004.
[Ale05] S. K. Alexander. Multiscale methods in image modelling and image processing.
Ph.d. thesis, University of Waterloo, Ontario, Canada, 2005.
[AMN+98] S. Arya, D. M. Mount, N. S. Netanyahu, R. Silverman, and A. Y. Wu. An optimal
algorithm for approximate nearest neighbor searching fixed dimensions.
Journal of the ACM (JACM),, 45(6) :891–923, 1998.
[APG07] N. Azzabou, N. Paragios, and F. Guichard. Image denoising based on adapted
dictionary computation. In International Conference on Image Processing
(ICIP), volume 3, pages 109–112. IEEE, 2007.
[AW05] S. P. Awate and R. T. Whitaker. Higher-order image statistics for unsupervised,
information-theoretic, adaptive, image filtering. In Computer Vision
and Pattern Recognition (CVPR), volume 2, pages 44–51. IEEE, 2005.
[AW06] S. P. Awate and R. T. Whitaker. Unsupervised, information-theoretic, adaptive
image filtering for image restoration. IEEE Trans. Pattern Analysis and
Machine Intelligence (PAMI), 28(3) :364–376, 2006.
[Bar02] D. Barash. Fundamental relationship between bilateral filtering, adaptive
smoothing, and the nonlinear diffusion equation. IEEE Trans. Pattern Analysis
and Machine Intelligence (PAMI), 24(6) :844–847, 2002.
103104
[BBB+10] T. Beeler, B. Bickel, P. Beardsley, B. Sumner, and M. Gross. High-quality
single-shot capture of facial geometry. ACM Transactions on Graphics
(TOG), 29(3) :40, 2010.
[BBH08] D. Bradley, T. Boubekeur, and W. Heidrich. Accurate multi-view reconstruction
using robust binocular stereo and surface meshing. In Computer Vision
and Pattern Recognition (CVPR), pages 1–8. IEEE, 2008.
[BC07] T. Brox and D. Cremers. Iterated nonlocal means for texture restoration.
In Scale Space and Variational Methods in Computer Vision, pages 13–24.
Springer, 2007.
[BCM05] A. Buades, B. Coll, and J.-M. Morel. A non-local algorithm for image denoising.
In Computer Vision and Pattern Recognition (CVPR), volume 2, pages
60–65. IEEE, 2005.
[BCM08] A. Buades, B. Coll, and J.-M. Morel. Nonlocal image and movie denoising.
Springer International Journal of Computer Vision (IJCV), 76(2) :123–139,
2008.
[Ben75] J. L. Bentley. Multidimensional binary search trees used for associative searching.
Communications of the ACM, 18(9) :509–517, 1975.
[BHB+11] T. Beeler, F. Hahn, D. Bradley, B. Bickel, P. Beardsley, C. Gotsman, R. W.
Sumner, and M. Gross. High-quality passive facial performance capture using
anchor frames. ACM Transactions on Graphics (TOG), 30 :75, August 2011.
[BKC08] T. Brox, O. Kleinschmidt, and D. Cremers. Efficient nonlocal means for
denoising of textural patterns. IEEE Transactions on Image Processing,
17(7) :1083–1092, 2008.
[BM05] E. P. Bennett and L. McMillan. Video enhancement using per-pixel virtual
exposures. ACM Transactions on Graphics (TOG), 24(3) :845–852, 2005.
[BO05] J.-D. Boissonnat and S. Oudot. Provably good sampling and meshing of
surfaces. Graphical Models, 67(5) :405–451, 2005.
[Bov05] A. C. Bovik. Handbook of image and video processing. Academic Press, 2005.
[BPD06] S. Bae, S. Paris, and F. Durand. Two-scale tone management for photographic
look. ACM Transactions on Graphics (TOG), 25(3) :637–645, 2006.
[BRR11] M. Bleyer, C. Rhemann, and C. Rother. Patchmatch stereo - stereo matching
with slanted support windows. In British Machine Vision Conference
(BMVC), volume 11, pages 1–11, 2011.
[BSFG09] C. Barnes, E. Shechtman, A. Finkelstein, and D. Goldman. Patchmatch :
a randomized correspondence algorithm for structural image editing. ACM
Transactions on Graphics (TOG), 28(3) :24, 2009.
[CFGS12] X. Chen, T. Funkhouser, D. B. Goldman, and E. Shechtman. Non-parametric
texture transfer using meshmatch. Adobe Technical Report, November 2012.
[CM02] D. Comaniciu and P. Meer. Mean shift : A robust approach toward feature
space analysis. IEEE Trans. Pattern Analysis and Machine Intelligence
(PAMI), 24(5) :603–619, 2002.BIBLIOGRAPHIE 105
[CPD07] J. Chen, S. Paris, and F. Durand. Real-time edge-aware image processing
with the bilateral grid. ACM Transactions on Graphics (TOG), 26(3) :103,
2007.
[CPT03] A. Criminisi, P. Pérez, and K. Toyama. Object removal by exemplar-based
inpainting. In Computer Vision and Pattern Recognition (CVPR), volume 2,
pages II–721. IEEE, 2003.
[CPT04] A. Criminisi, P. Pérez, and K. Toyama. Region filling and object removal by
exemplar-based image inpainting. IEEE Transactions on Image Processing,
13(9) :1200–1212, 2004.
[CWL+08] Z-Q. Cheng, Y-Z. Wang, B. Li, K. Xu, G. Dang, and S-Y. Jin. A survey of
methods for moving least squares surfaces. In Proceedings of conference on
Point-Based Graphics, pages 9–23. IEEE, 2008.
[DAG10] V. Duval, J.-F. Aujol, and Y. Gousseau. On the parameter choice for the
non-local means. Technical Report hal-00468856, 2010.
[DAL+11] J. Digne, N. Audfray, C. Lartigue, C. Mehdi-Souzani, and J-M. Morel. Farman
Institute 3D Point Sets - High Precision 3D Data Sets. Image Processing
On Line (IPOL), 2011.
[DD02] F. Durand and J. Dorsey. Fast bilateral filtering for the display of highdynamic-range
images. ACM Transactions on Graphics (TOG), 21(3) :257–
266, 2002.
[DD13] J. Delon and A. Desolneux. A patch-based approach for removing impulse
or mixed gaussian-impulse noise. Journal on Imaging Sciences (SIAM),
6(2) :1140–1174, 2013.
[DDS12] C.-A. Deledalle, V. Duval, and J. Salmon. Non-local methods with shapeadaptive
patches (NLM-SAP). Journal of Mathematical Imaging and Vision,
43(2) :103–120, 2012.
[DDT09] C.-A. Deledalle, L. Denis, and F. Tupin. Iterative weighted maximum likelihood
denoising with probabilistic patch-based weights. IEEE Transactions
on Image Processing, 18(12) :2661–2672, 2009.
[DDT12] C.-A. Deledalle, L. Denis, and F. Tupin. How to compare noisy patches ?
patch similarity beyond gaussian noise. Springer International Journal of
Computer Vision (IJCV), 99(1) :86–102, 2012.
[DFKE07] K. Dabov, A. Foi, V. Katkovnik, and K. Egiazarian. Image denoising by
sparse 3D transform-domain collaborative filtering. IEEE Transactions on
Image Processing, 16(8) :2080–2095, 2007.
[DFKE08] K. Dabov, A. Foi, V. Katkovnik, and K. Egiazarian. Image restoration by
sparse 3D transform-domain collaborative filtering. In Proceedings of Electronic
Imaging 2008, page 681207, 2008.
[DFKE09] K. Dabov, A. Foi, V. Katkovnik, and K. Egiazarian. BM3D Image Denoising
with Shape-Adaptive Principal Component Analysis. In Signal Processing
with Adaptive Sparse Structured Representations (SPARS), 2009.106
[DG10] J.-E. Deschaud and F. Goulette. Point cloud non local denoising using local
surface descriptor similarity. IAPRS, 2010.
[Dig12] J. Digne. Similarity based filtering of point clouds. Computer Vision and
Pattern Recognition (CVPR), 2012.
[DM11] J. Digne and J.-M. Morel. Numerical analysis of differential operators on raw
point clouds. Numerische Mathematik, pages 1–35, 2011.
[DMSL11] J. Digne, J.-M. Morel, C.-M. Souzani, and C. Lartigue. Scale space meshing
of raw data point sets. Computer Graphics Forum (CGF), 30(6) :1630–1642,
2011.
[Don95] D. L. Donoho. De-noising by soft-thresholding. IEEE Transactions on Information
Theory, 41(3) :613–627, 1995.
[EL99] A. A. Efros and T. K. Leung. Texture synthesis by non-parametric sampling.
In Proceedings of International Conference on Computer Vision (ICCV), volume
2, pages 1033–1038. IEEE, 1999.
[FAR07] R. Fattal, M. Agrawala, and S. Rusinkiewicz. Multiscale shape and detail
enhancement from multi-light image collections. ACM Transactions on Graphics
(TOG), 26(3) :51, 2007.
[FCOS05] S. Fleishman, D. Cohen-Or, and C. T. Silva. Robust moving least-squares fitting
with sharp features. ACM Transactions on Graphics (TOG), 24(3) :544–
552, 2005.
[FDCO03] S. Fleishman, I. Drori, and D. Cohen-Or. Bilateral mesh denoising. ACM
Transactions on Graphics (TOG), 22(3) :950–953, 2003.
[FKEA04] A. Foi, V. Katkovnik, K. Egiazarian, and J. Astola. A novel anisotropic
local polynomial estimator based on directional multiscale optimizations “.
In International conference of IMA, pages 79–82, 2004.
[FKN80] H. Fuchs, Z. M. Kedem, and B. F. Naylor. On visible surface generation by a
priori tree structures. ACM SIGGRAPH Computer Graphics, 14(3) :124–133,
1980.
[GG07] G. Guennebaud and M. H. Gross. Algebraic point set surfaces. ACM Transactions
on Graphics (TOG), 26(3) :23, 2007.
[GGG08] G. Guennebaud, Marcel Germann, and M. H. Gross. Dynamic sampling and
rendering of algebraic point set surfaces. Computer Graphics Forum (CGF),
27(2) :653–662, 2008.
[GLPP08] B. Goossens, Q. Luong, A. Pizurica, and W Philips. An improved nonlocal
denoising algorithm. In International workshop on Local and Non-Local
Approximation in Image Processing (LNLA), pages 143–156, 2008.
[GO11] E. S. L. Gastal and M. M. Oliveira. Domain transform for edge-aware image
and video processing. ACM Transactions on Graphics (TOG), 30(4) :69,
2011.BIBLIOGRAPHIE 107
[GO12] E. S. L. Gastal and M. M. Oliveira. Adaptive manifolds for real-time highdimensional
filtering. ACM Transactions on Graphics (TOG), 31(4) :33,
2012.
[HDD+94] H. Hoppe, T. DeRose, T. Duchamp, J. McDonald, and W. Stuetzle. Surface
reconstruction from unorganized points. PhD thesis, University of Washington,
1994.
[HS12] K. He and J. Sun. Computing nearest-neighbor fields via propagation-assisted
kd-trees. In Computer Vision and Pattern Recognition (CVPR), pages 111–
118. IEEE, 2012.
[HST10] K. He, J. Sun, and X. Tang. Guided image filtering. In European Conference
on Computer Vision (ECCV), pages 1–14. Springer, 2010.
[IKH+11] S. Izadi, D. Kim, O. Hilliges, D. Molyneaux, R. Newcombe, P. Kohli, J. Shotton,
S. Hodges, D. Freeman, and A. Davison. KinectFusion : real-time 3D reconstruction
and interaction using a moving depth camera. In Proceedings of
symposium on User interface software and technology, pages 559–568. ACM,
2011.
[JCSX09] Z. Ji, Q. Chen, Q.-S. Sun, and D.-S. Xia. A moment-based nonlocal-means
algorithm for image denoising. Information Processing Letters, 109(23) :1238–
1244, 2009.
[JDD03] T. R. Jones, F. Durand, and M. Desbrun. Non-iterative, feature-preserving
mesh smoothing. ACM Transactions on Graphics (TOG), 22 :943–949, July
2003.
[JDZ04] T. R. Jones, F. Durand, and M. Zwicker. Normal improvement for point
rendering. IEEE Computer Graphics and Applications, 24(4) :53–56, 2004.
[KA11] S. Korman and S. Avidan. Coherency sensitive hashing. In International
Conference on Computer Vision (ICCV), pages 1607–1614. IEEE, 2011.
[KB06] C. Kervrann and J. Boulanger. Optimal spatial adaptation for patch-based
image denoising. IEEE Transactions on Image Processing, 15(10) :2866–2878,
2006.
[KBH06] M. Kazhdan, M. Bolitho, and H. Hoppe. Poisson surface reconstruction. In
Proceedings of Symposium on Geometry processing (SGP), 2006.
[KCLU07] J. Kopf, M. F. Cohen, D. Lischinski, and M. Uyttendaele. Joint bilateral
upsampling. ACM Transactions on Graphics (TOG), 26(3) :96, 2007.
[KEA02] V. Katkovnik, K. Egiazarian, and J. Astola. Adaptive window size image
de-noising based on intersection of confidence intervals (ICI) rule. Journal of
Mathematical Imaging and Vision, 16(3) :223–235, 2002.
[KFEA04] V. Katkovnik, A. Foi, K. Egiazarian, and J. Astola. Directional varying scale
approximations for anisotropic signal processing. In Proceedings in European
Signal Processing Conference (EUSIPCO), pages 101–104. Citeseer, 2004.
[LBM13] M. Lebrun, A. Buades, and J-M. Morel. Implementation of the "Non-Local
Bayes" (NL-Bayes) Image Denoising Algorithm. Image Processing On Line
(IPOL), 2013 :1–42, 2013.108
[LC87] W. E. Lorensen and H. E. Cline. Marching cubes : A high resolution 3d
surface construction algorithm. In Proceedings of SIGGRAPH, pages 163–
169, 1987.
[LCBM12] M. Lebrun, M. Colom, A. Buades, and J-M. Morel. Secrets of image denoising
cuisine. Acta Numerica, 21(1) :475–576, 2012.
[Lee83] J.-S. Lee. Digital image smoothing and the sigma filter. Computer Vision,
Graphics, and Image Processing, 24(2) :255–269, 1983.
[Lev98] D. Levin. The approximation power of moving least-squares. Mathematics
of Computation, 67 :1517–1531, 1998.
[Lev03] D. Levin. Mesh-independent surface interpolation. Geometric Modeling for
Scientifc Visualization(2003), pages 1517–1523, 2003.
[LN11] A. Levin and B. Nadler. Natural image denoising : Optimality and inherent
bounds. In Computer Vision and Pattern Recognition (CVPR), pages 2833–
2840. IEEE, 2011.
[LPC+00] M. Levoy, K. Pulli, B. Curless, S. Rusinkiewicz, D. Koller, L. Pereira, M. Ginzton,
S. Anderson, J. Davis, and J. Ginsberg. The digital michelangelo project
: 3d scanning of large statues. In Proceedings of Computer Graphics and
Interactive Techniques, pages 131–144. ACM, 2000.
[MBP+09] J. Mairal, F. Bach, J. Ponce, G. Sapiro, and A. Zisserman. Non-local sparse
models for image restoration. In International Conference on Computer Vision,
pages 2272–2279. IEEE, 2009.
[MCCL+08] J. V. Manjón, J. Carbonell-Caballero, J. J. Lull, G. García-Martí, L. Martí-
Bonmatí, and M. Robles. MRI denoising using non-local means. Medical
image analysis, 12(4) :514–523, 2008.
[ML09] M. Muja and D. G. Lowe. Fast approximate nearest neighbors with automatic
algorithm configuration. In International Conference on Computer Vision
Theory and Application (VISSAPP), pages 331–340. INSTICC Press, 2009.
[ML12] M. Muja and D. G. Lowe. Fast matching of binary features. In Computer
and Robot Vision (CRV), pages 404–410. IEEE, 2012.
[MNB12] A. Maleki, M. Narayan, and R. G. Baraniuk. Anisotropic nonlocal means
denoising. Applied and Computational Harmonic Analysis, 2012.
[MRS12] S. Morigi, M. Rucci, and F. Sgallari. Nonlocal surface fairing. Scale Space
and Variational Methods in Computer Vision, pages 38–49, 2012.
[Nem00] A. Nemirovski. Topics in non-parametric. Ecole d’Ete de Probabilites de
Saint-Flour, 28 :85, 2000.
[NFP+13] A. Newson, M. Fradet, P. Pérez, A. Almansa, and Y. Gousseau. Towards
fast, generic video inpainting. HAL Technical Report 00838927, June 2013.
[OA12] I. Olonetsky and S. Avidan. Treecann-kd tree coherence approximate nearest
neighbor algorithm. In European Conference on Computer Vision (ECCV),
pages 602–615. Springer, 2012.BIBLIOGRAPHIE 109
[ÖGG09] A. C. Öztireli, G. Guennebaud, and M. H. Gross. Feature preserving point
set surfaces based on non-linear kernel regression. Computer Graphics Forum
(CGF), 28(2) :493–501, 2009.
[PD06] S. Paris and F. Durand. A fast approximation of the bilateral filter using
a signal processing approach. In European Conference on Computer Vision
(ECCV), pages 568–580. Springer, 2006.
[PD09] S. Paris and F. Durand. A fast approximation of the bilateral filter using a signal
processing approach. International Journal of Computer Vision (IJCV),
81(1) :24–52, 2009.
[PS00] J. Polzehl and V. G. Spokoiny. Adaptive weights smoothing with applications
to image restoration. Journal of the Royal Statistical Society (Statistical
Methodology), 62(2) :335–354, 2000.
[RDK13] G. Rosman, A. Dubrovina, and R. Kimmel. Patch-collaborative spectral
point-cloud denoising. In Computer Graphics Forum (CGF). Wiley Online
Library, 2013.
[ROF92] L. I. Rudin, S. Osher, and E. Fatemi. Nonlinear total variation based noise
removal algorithms. Physica D : Nonlinear Phenomena, 60(1) :259–268, 1992.
[Sal10a] J. Salmon. Agrégation d’estimateurs et méthodes à patch pour le débruitage
d’images numériques. PhD thesis, Université Paris-Diderot-Paris VII, 2010.
[Sal10b] J. Salmon. On two parameters for denoising with non-local means. IEEE
Signal Processing Letters, 17(3) :269–272, 2010.
[She68] D. Shepard. A two-dimensional interpolation function for irregularly-spaced
data. In Proceedings of the ACM national conference, pages 517–524. ACM,
1968.
[SS12] J. Salmon and Y. Strozecki. Patch reprojections for non-local methods. Signal
Processing, 92(2) :477–489, 2012.
[Tas08] T. Tasdizen. Principal components for non-local means image denoising.
In IEEE International Conference on Image Processing (ICIP), pages 1728–
1731, 2008.
[Tas09] T. Tasdizen. Principal neighborhood dictionaries for nonlocal means image
denoising. IEEE Transactions on Image Processing, 18(12) :2649–2660, 2009.
[TM98] C. Tomasi and R. Manduchi. Bilateral filtering for gray and color images. In
Proceedings of International Conference on Computer Vision (ICCV), page
839. IEEE Computer Society, 1998.
[VB11] G. Vialaneix and T. Boubekeur. Sbl mesh filter : fast separable approximation
of bilateral mesh filtering. In SIGGRAPH Talks, page 24. ACM, 2011.
[VDVK09] D. Van De Ville and M. Kocher. SURE-based non-local means. IEEE Signal
Processing Letters, 16(11) :973–976, 2009.
[WCZ+08] R. F. Wang, W. Z. Chen, S. Y. Zhang, Y. Zhang, and X. Z. Ye. Similaritybased
denoising of point-sampled surfaces. Journal of Zhejiang UniversityScience,
9(6) :807–815, 2008.110
[WGY+06] J. Wang, Y. Guo, Y. Ying, Y. Liu, and Q. Peng. Fast non-local algorithm
for image denoising. In IEEE International Conference on Image Processing
(ICIP), pages 1429–1432, 2006.
[YBS06] S. Yoshizawa, A. Belyaev, and H.-P. Seidel. Smoothing by example : Mesh
denoising by averaging with similarity based weights. In In Proceedings of
IEEE International Conference on Shape Modeling and Applications, pages
38–44, 2006.
[YSM10] G. Yu, G. Sapiro, and S. Mallat. Image modeling and enhancement via structured
sparse model selection. In IEEE International Conference on Image
Processing (ICIP), pages 1641–1644, 2010.
[YSM12] G. Yu, G. Sapiro, and S. Mallat. Solving inverse problems with piecewise
linear estimators : from gaussian mixture models to structured sparsity. IEEE
Transactions on Image Processing, 21(5) :2481–2499, 2012.
[YY85] L. P. Yaroslavsky and L. P. Yaroslavskij. Digital picture processing. an introduction.
Springer Seriesin Information Sciences, 1, 1985.
[ZDW08] S. Zimmer, S. Didas, and J. Weickert. A rotationally invariant block matching
strategy improving image denoising with non-local means. In Proceedings
of International Workshop on Local and Non-Local Approximation in Image
Processing, pages 135–142, 2008.
[ZDZS10] L. Zhang, W. Dong, D. Zhang, and G. Shi. Two-stage image denoising by
principal component analysis with local pixel grouping. Pattern Recognition,
43(4) :1531–1549, 2010.
[ZW11] D. Zoran and Y. Weiss. From learning models of natural image patches
to whole image restoration. In Proceedings of International Conference on
Computer Vision (ICCV), pages 479–486. IEEE, 2011.Méthodes et structures non locales pour la restauration
d’images et de surfaces 3D
Thierry GUILLEMOT
Résumé : Durant ces dernières années, les technologies d’acquisition numériques n’ont cessé
de se perfectionner, permettant d’obtenir des données d’une qualité toujours plus fine. Néanmoins, le
signal acquis reste corrompu par des défauts qui ne peuvent être corrigés matériellement et nécessitent
l’utilisation de méthodes de restauration adaptées.
Jusqu’au milieu des années 2000, ces approches s’appuyaient uniquement sur un traitement ocal du
signal détérioré. Avec l’amélioration des performances de calcul, le support du filtre a pu être étendu à
l’ensemble des données acquises en exploitant leur caractère autosimilaire. Ces approches non locales
ont principalement été utilisées pour restaurer des données régulières et structurées telles que des
images. Mais dans le cas extrême de données irrégulières et non structurées comme les nuages de
points 3D, leur adaptation est peu étudiée à l’heure actuelle. Avec l’augmentation de la quantité de données
échangées sur les réseaux de communication, de nouvelles méthodes non locales ont récemment
été proposées. Elles utilisent un modèle a priori extrait à partir de grands ensembles d’échantillons pour
améliorer la qualité de la restauration. Néanmoins, ce type de méthode reste actuellement trop coûteux
en temps et en mémoire.
Dans cette thèse, nous proposons, tout d’abord, d’étendre les méthodes non locales aux nuages
de points 3D, en définissant une surface de points capable d’exploiter leur caractère autosimilaire.
Nous introduisons ensuite une nouvelle structure de données, le CovTree, flexible et générique, capable
d’apprendre les distributions d’un grand ensemble d’échantillons avec une capacité de mémoire limitée.
Finalement, nous généralisons les méthodes de restauration collaboratives appliquées aux données
2D et 3D, en utilisant notre CovTree pour apprendre un modèle statistique a priori à partir d’un grand
ensemble de données.
Mots-clefs : non local, restauration, structure de données, débruitages, surface, nuage de points,
filtre collaboratif
Abstract : In recent years, digital technologies allowing to acquire real world objects or scenes
have been significantly improved in order to obtain high quality datasets. However, the acquired signal
is corrupted by defects which can not be rectified materially and require the use of adapted restoration
methods.
Until the middle 2000s, these approaches were only based on a local process applyed on the
damaged signal. With the improvement of computing performance, the neighborhood used by the filter
has been extended to the entire acquired dataset by exploiting their self-similar nature. These non-local
approaches have mainly been used to restore regular and structured data such as images. But in the
extreme case of irregular and unstructured data as 3D point sets, their adaptation is few investigated at
this time. With the increase amount of exchanged data over the communication networks, new non-local
methods have recently been proposed. These can improve the quality of the restoration by using an a
priori model extracted from large data sets. However, this kind of method is time and memory consuming.
In this thesis, we first propose to extend the non-local methods for 3D point sets by defining a surface
of points which exploits their self-similar of the point cloud. We then introduce a new flexible and generic
data structure, called the CovTree, allowing to learn the distribution of a large set of samples with a
limited memory capacity. Finally, we generalize collaborative restoration methods applied to 2D and 3D
data by using our CovTree to learn a statistical a priori model from a large dataset.
Keywords : non local, restauration, data structure, denoising, surface, points set, collaborative filter
Couplage de mod`eles, algorithmes multi-´echelles et
calcul hybride
Jean-Matthieu Etancelin
To cite this version:
Jean-Matthieu Etancelin. Couplage de mod`eles, algorithmes multi-´echelles et calcul hybride.
Analysis of PDEs. Universit´e de Grenoble, 2014. French.
HAL Id: tel-01094645
https://tel.archives-ouvertes.fr/tel-01094645v2
Submitted on 15 Dec 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THÈSE
Pour obtenir le grade de
DOCTEUR DE L’UNIVERSITÉ DE GRENOBLE
Spécialité : Mathématiques Appliquées
Arrêté ministériel : 7 août 2006
Présentée par
Jean-Matthieu Etancelin
Thèse dirigée par Georges-Henri Cottet
et codirigée par Christophe Picard
préparée au sein du Laboratoire Jean Kuntzmann
et de l’école doctorale MSTII: Mathématiques, Sciences et Technologies
de l’Information, Informatique
Couplage de modèles, algorithmes
multi-échelles et calcul hybride
Thèse soutenue publiquement le 4 décembre 2014,
devant le jury composé de :
M. Stéphane Labbé
Professeur, Université Joseph Fourier, Président
M. Florian De Vuyst
Professeur, École Normale Supérieure de Cachan, Rapporteur
M. Philippe Helluy
Professeur, Université de Strasbourg, Rapporteur
M. Guillaume Balarac
Maître de conférences, Grenoble INP, Examinateur
M. Georges-Henri Cottet
Professeur, Université Joseph Fourier, Directeur de thèse
M. Alexis Herault
Maître de conférences, Conservatoire National des Arts et Métiers, Examinateur
M. Christophe Picard
Maître de conférences, Grenoble INP, Co-Directeur de thèse
M. Christophe Prud’homme
Professeur, Université de Strasbourg, Examinateur
M. Jean-Baptiste Lagaert
Maître de conférences, Université Paris-Sud, InvitéCouplage de modèles, algorithmes
multi-échelles et calcul hybride
Thèse présentée et soutenue publiquement par :
Jean-Matthieu Etancelin
le 4 décembre 2014
Composition du jury :
Président :
Stéphane Labbé,
Professeur, Université Joseph Fourier
Rapporteurs :
Florian De Vuyst,
Professeur, École Normale Supérieure de Cachan
Philippe Helluy,
Professeur, Université de Strasbourg
Examinateurs :
Guillaume Balarac,
Maître de conférences, Grenoble INP
Georges-Henri Cottet,
Professeur, Université Joseph Fourier (Directeur de thèse)
Alexis Herault,
Maître de conférences, Conservatoire National des Arts et Métiers
Christophe Picard,
Maître de conférences, Grenoble INP (Co-Directeur de thèse)
Christophe Prud’homme,
Professeur, Université de Strasbourg
Invité :
Jean-Baptiste Lagaert,
Maître de conférences, Université Paris-Sud
Thèse préparée au sein du Laboratoire Jean Kuntzmann
et de l’école doctorale MSTII : Mathémaiques, Sciences
et Technologies de l’Information, Informatique.
Cette thèse a été effectuée dans le cadre du projet ANR HAMM (ANR-10-COSI-0009).iiRemerciements
Je voudrais exprimer ma gratitude auprès de toutes les personnes, du Laboratoire Jean
Kuntzmann ou d’ailleurs, qui ont contribué à la réussite de cette thèse aussi bien sur le plan
scientifique qu’humain.
Je remercie très chaleureusement mon directeur de thèse, Georges-Henri Cottet, et mon
co-encadrant, Christophe Picard, pour leur disponibilité et leur soutient tout au long de ces
trois années. Votre encadrement a été réel et complémentaire sur le fond et la forme de ces
travaux.
Je remercie l’ensemble des membres de mon jury d’avoir pris le temps d’examiner mon
travail, en particulier Florian De Vuyst et Philippe Helluy, rapporteurs de cette thèse.
Je remercie également Franck, Chloé, Jean-Baptiste et Éric pour les nombreux questionnements
et discussions lors des réunions du groupe de travail. Ces échanges ont été en
grande partie à l’origine des avancées majeures des travaux et ont permis de conserver une
motivation à chaque instant.
Je voudrais adresser ma reconnaissance aux membres de l’équipe des Moyens Informatiques
et Calcul Scientifique du LJK et du mésocentre CIMENT qui ont contribué à la
résolution des nombreux problèmes techniques qui se sont posés tout au long de la thèse.
Je remercie en particulier Franck (encore) pour sa grande disponibilité, surtout le vendredi
après-midi, pour répondre à mes très nombreuses questions techniques. Pour les aspects informatiques,
je remercie aussi Frédéric pour ses nombreuses remises en route de la machine
de calcul du laboratoire. Je voudrais remercier l’ensemble des gestionnaires administratives
du laboratoire qui assurent une présence rassurante pour mener à bien toutes les démarches.
Je remercie l’ensemble des doctorants et post-doctorants sur lesquels on peut compter
pour un repas au RU, un café, des mots fléchés, de bons conseils, une soirée jeux, une
sortie cinéma, une bière, une randonnée, des crêpes, une sortie ski, un footing, un trail,. . .
Pour tout cela, merci à Chloé, Roland, Vincent, Bertrand, Thomas, Madison, Lukáš, PierreOlivier,
Matthias, Nelson, Romain, Morgane, Pierre-Jean, Meriem, Kevin, Gilles, Euriell,
Amin, Kolé, Louis, Federico Z., Mahamar, Abdoulaye, Federico P., Margaux, Olivier, . . .
Merci à Martial pour les très nombreuses « buissonnades » en tout genre dans lesquelles
on se laisse facilement embarquer. Je remercie également les copains de l’INSA pour leur
promptitude à traverser la France et à proposer des hébergements pour passer du bon temps.
Merci à ma famille pour son soutient tout au long de mes études.
Enfin, et non des moindres, merci à Myriam pour tout ces instants que l’on partage au
quotidien.
iiiRésumé
Dans cette thèse nous explorons les possibilités offertes par l’implémentation de mé-
thodes hybrides sur des machines de calcul hétérogènes dans le but de réaliser des simulations
numériques de problèmes multiéchelles. La méthode hybride consiste à coupler des
méthodes de diverses natures pour résoudre les différents aspects physiques et numériques
des problèmes considérés. Elle repose sur une méthode particulaire avec remaillage qui
combine les avantages des méthodes Lagrangiennes et Eulériennes. Les particules sont dé-
placées selon le champ de vitesse puis remaillées à chaque itération sur une grille en utilisant
des formules de remaillage d’ordre élevés. Cette méthode semi-Lagrangienne bénéficie des
avantages du maillage régulier mais n’est pas contrainte par une condition de CFL.
Nous construisons une classe de méthodes d’ordre élevé pour lesquelles les preuves de
convergence sont obtenues sous la seule contrainte de stabilité telle que les trajectoires des
particules ne se croisent pas.
Dans un contexte de calcul à haute performance, le développement du code de calcul
a été axé sur la portabilité afin de supporter l’évolution rapide des architectures et leur
nature hétérogène. Une étude des performances numériques de l’implémentation GPU de la
méthode pour la résolution d’équations de transport est réalisée puis étendue au cas multiGPU.
La méthode hybride est appliquée à la simulation du transport d’un scalaire passif
dans un écoulement turbulent 3D. Les deux sous-problèmes que sont l’écoulement turbulent
et le transport du scalaire sont résolus simultanément sur des architectures multi-CPU et
multi-GPU.
Mots clés: Méthodes pariculaires ; couplage de modèles ; calcul hybride ; écoulements turbulents.
ivAbstract
In this work, we investigate the implementation of hybrid methods on heterogeneous
computers in order to achieve numerical simulations of multi-scale problems. The hybrid
numerical method consists of coupling methods of different natures to solve the physical
and numerical characteristics of the problem. It is based on a remeshed particle method
that combines the advantages of Lagrangian and Eulerian methods. Particles are pushed
by local velocities and remeshed at every time-step on a grid using high order interpolation
formulas. This forward semi-lagrangian method takes advantage of the regular mesh on
which particles are reinitialized but is not limited by CFL conditions.
We derive a class of high order methods for which we are able to prove convergence
results under the sole stability constraint that particle trajectories do not intersect.
In the context of high performance computing, a strong portability constraint is applied
to the code development in order to handle the rapid evolution of architectures and their
heterogeneous nature. An analysis of the numerical efficiency of the GPU implementation
of the method is performed and extended to multi-GPU platforms. The hybrid method
is applied to the simulation of the transport of a passive scalar in a 3D turbulent flow.
The two sub-problems of the flow and the scalar calculations are solved simultaneously on
multi-CPU and multi-GPU architectures.
Keywords: Particle methods; model coupling; hybrid computing; turbulent flows.
vTable des matières
Remerciements iii
Résumé iv
Introduction générale 1
1. Calcul intensif pour la mécanique des fluides 5
1.1. Mécanique des fluides numérique . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1. Modèle mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Équations de Navier-Stokes . . . . . . . . . . . . . . . . . . . . . . 6
Fluides incompressibles . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.2. Principales méthodes de résolution . . . . . . . . . . . . . . . . . . . 9
Méthodes Eulériennes . . . . . . . . . . . . . . . . . . . . . . . . . 9
Méthodes de Lattice Boltzmann . . . . . . . . . . . . . . . . . . . 12
Méthodes Lagrangiennes . . . . . . . . . . . . . . . . . . . . . . . 13
Qualité des résultats numériques . . . . . . . . . . . . . . . . . . . 16
1.1.3. Exemples d’application . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2. Calcul intensif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.1. Augmentation des besoin et des ressources de calcul . . . . . . . . . 18
Ressources de calcul pour les simulations numériques . . . . . . . . 18
Augmentation de la puissance de calcul des machines . . . . . . . 18
Difficulté d’adaptation des codes de calcul . . . . . . . . . . . . . . 20
1.2.2. Mesure de performances . . . . . . . . . . . . . . . . . . . . . . . . . 20
Scalabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Modèle roofline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Efficacité énergétique . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.2.3. Défi de l’exascale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Pourquoi l’exascale ? . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Principales difficultés . . . . . . . . . . . . . . . . . . . . . . . . . 25
Quelques stratégies . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3. Transport de scalaire passif dans un écoulement turbulent . . . . . . . . . . 26
1.3.1. Domaines d’application . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3.2. Physique du problème . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3.3. Formulation mathématique . . . . . . . . . . . . . . . . . . . . . . . 28
viiTable des matières
2. Méthode particulaire pour l’équation de transport 31
2.1. Méthode particulaire avec remaillage . . . . . . . . . . . . . . . . . . . . . . 32
2.1.1. Deux classes de méthodes semi-Lagrangiennes . . . . . . . . . . . . . 32
2.1.2. Principe général de la méthode particulaire avec remaillage . . . . . 33
2.1.3. Cas monodimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.4. Lien avec la méthode des différences finies . . . . . . . . . . . . . . . 37
2.1.5. Construction des formules de remaillage . . . . . . . . . . . . . . . . 39
Construction à partir des moments discrets . . . . . . . . . . . . . 39
Construction à partir de B-splines . . . . . . . . . . . . . . . . . . 39
Extrapolation à partir de noyaux réguliers . . . . . . . . . . . . . . 40
2.1.6. Exemple d’implémentation . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2. Advection semi-Lagrangienne d’ordre élevé . . . . . . . . . . . . . . . . . . . 42
2.2.1. Construction de formules de remaillage d’ordre élevé . . . . . . . . . 42
Utilisation des poids de remaillage . . . . . . . . . . . . . . . . . . 45
Précision numérique du schéma d’Horner . . . . . . . . . . . . . . 46
2.2.2. Consistance de la méthode semi-Lagrangienne . . . . . . . . . . . . . 47
Advection par un schéma d’Euler . . . . . . . . . . . . . . . . . . . 50
Advection par un schéma de Runge-Kutta du second ordre . . . . 50
Cas d’une seule particule par cellule . . . . . . . . . . . . . . . . . 51
2.2.3. Stabilité de la méthode semi-Lagrangienne . . . . . . . . . . . . . . . 51
Advection à vitesse constante . . . . . . . . . . . . . . . . . . . . . 52
Advection à vitesse non constante . . . . . . . . . . . . . . . . . . 56
3. Méthode hybride pour le transport turbulent 59
3.1. Idée générale d’une méthode hybride . . . . . . . . . . . . . . . . . . . . . . 59
3.1.1. Méthode hybride en méthode numérique . . . . . . . . . . . . . . . . 60
3.1.2. Méthode hybride en résolution . . . . . . . . . . . . . . . . . . . . . 60
3.1.3. Méthode hybride en matériel . . . . . . . . . . . . . . . . . . . . . . 61
3.2. Application au transport turbulent . . . . . . . . . . . . . . . . . . . . . . . 61
3.2.1. Méthodes spectrale et différences finies . . . . . . . . . . . . . . . . . 61
3.2.2. Méthodes spectrale et semi-Lagrangienne . . . . . . . . . . . . . . . 62
3.2.3. Méthodes semi-Lagrangiennes et architecture hybride . . . . . . . . . 62
4. Développement d’un code multiarchitectures 65
4.1. Développement d’une librairie de calcul scientifique . . . . . . . . . . . . . . 66
4.1.1. Conception préliminaire . . . . . . . . . . . . . . . . . . . . . . . . . 66
Découpage sémantique des concepts mathématiques . . . . . . . . 66
Différents niveaux d’abstraction . . . . . . . . . . . . . . . . . . . 67
Couplage faible et cohésion forte . . . . . . . . . . . . . . . . . . . 67
Schéma d’utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1.2. Conception détaillée . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1.3. Fonctionnement de la librairie . . . . . . . . . . . . . . . . . . . . . . 70
Langages de programmation . . . . . . . . . . . . . . . . . . . . . 70
Dépendances externes . . . . . . . . . . . . . . . . . . . . . . . . . 71
Fonctionnement global . . . . . . . . . . . . . . . . . . . . . . . . . 72
viiiTable des matières
4.2. Calcul générique sur carte graphique . . . . . . . . . . . . . . . . . . . . . . 72
4.2.1. Description du matériel . . . . . . . . . . . . . . . . . . . . . . . . . 72
Fonctionnement des cartes graphiques . . . . . . . . . . . . . . . . 72
Architecture des cartes graphiques . . . . . . . . . . . . . . . . . . 74
4.2.2. Différentes méthodes de programmation . . . . . . . . . . . . . . . . 75
Programmation par directives . . . . . . . . . . . . . . . . . . . . . 75
Programmation directe . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.3. Les modèles de programmation OpenCL . . . . . . . . . . . . . . . . 76
4.2.4. Analyse de performances par le modèle roofline . . . . . . . . . . . . 80
4.3. Utilisation de cartes graphiques dans la librairie . . . . . . . . . . . . . . . . 82
5. Mise en œuvre sur cartes graphiques 85
5.1. Implémentations GPU de méthodes semi-Lagrangiennes . . . . . . . . . . . 86
5.1.1. Méthodes semi-Lagrangiennes . . . . . . . . . . . . . . . . . . . . . . 86
5.1.2. Deux types d’interpolations . . . . . . . . . . . . . . . . . . . . . . . 86
5.2. Implémentation et performances . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2.1. Adéquation de la méthode au matériel . . . . . . . . . . . . . . . . . 89
5.2.2. Préambule à l’étude des performances . . . . . . . . . . . . . . . . . 91
5.2.3. Initialisation des particules . . . . . . . . . . . . . . . . . . . . . . . 94
Copie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Transposition XY . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Transposition XZ . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2.4. Advection et remaillage . . . . . . . . . . . . . . . . . . . . . . . . . 98
Advection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Remaillage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Noyau complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.3. Application simple GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.3.1. Transport de scalaire 2D . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.3.2. Transport de scalaire 3D . . . . . . . . . . . . . . . . . . . . . . . . . 111
6. Implémentation sur architectures hétérogènes 115
6.1. Lien entre la méthode et l’architecture hybride . . . . . . . . . . . . . . . . 116
6.1.1. Description d’une machine hybride . . . . . . . . . . . . . . . . . . . 116
6.1.2. Différents niveaux de parallélisme . . . . . . . . . . . . . . . . . . . . 117
6.1.3. Stratégie d’utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.2. Application multi-GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.2.1. Mécanisme de communication . . . . . . . . . . . . . . . . . . . . . . 119
6.2.2. Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.3. Transport turbulent d’un scalaire passif . . . . . . . . . . . . . . . . . . . . 126
6.3.1. Application hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.3.2. Exploitation d’une machine hétérogène . . . . . . . . . . . . . . . . . 128
6.3.3. Résultats et performances . . . . . . . . . . . . . . . . . . . . . . . . 129
Conclusion générale 135
Bibliographie 139
ixTable des matières
A. Formules de remaillage de type Λp,r 145
A.1. Formules de type Λ2,r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
A.2. Formules de type Λ4,r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
A.3. Formules de type Λ6,r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
A.4. Formules de type Λ8,r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
B. Publications 157
B.1.. High order semi-Lagrangian particle methods for transport equations : numerical
analysis and implementation issues . . . . . . . . . . . . . . . . . . . 159
B.2.. Multi-scale problems, high performance computing and hybrid numerical methods
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
xIntroduction générale
La réalisation de simulations numériques est une activité majeure dans les secteurs de
la recherche et de l’industrie. Une simulation numérique permet d’obtenir une solution à
un problème mathématique qu’il n’est généralement pas possible de résoudre analytiquement.
Ces problèmes sont constitués d’équations modélisant un phénomène à étudier. Les
premières simulations numériques datent du milieu du XXe
siècle lorsque l’informatique
commence à être utilisée dans ce but. En 1955, Fermi et al. réalisent une des premières
simulations numériques d’un système dynamique monodimensionnel constitué de 64 masses
reliées par des ressorts. Depuis, l’usage des calculateurs n’a cessé de se développer avec
l’essor de l’informatique et des machines de calcul.
D’une part, les objectifs des simulations numériques sont de permettre une validation
des modèles physiques et mathématiques utilisés pour l’étude d’un phénomène, par rapport
à la théorie et à d’éventuelles données expérimentales. D’autre part, elles servent d’outils de
conception et d’optimisation à des fins industrielles et permettent d’éviter le recours à de
nombreux et coûteux modèles réduits et prototypes. L’explosion de la puissance de calcul
développée par les machines parallèles au cours des dernières décennies permet la réalisation
de simulations numériques de plus en plus précises et complexes tout en conservant des
temps de calculs comparables. Ainsi, dans le domaine de la mécanique des fluides, l’évolution
des simulations numériques contribue fortement à l’amélioration de la compréhension
de phénomènes complexes comme la turbulence. En effet, les machines sont capables de
traiter des résolutions toujours plus grandes, ce qui permet d’accroître la finesse des résultats,
en particulier pour des Simulations Numériques Directes (DNS en anglais). De même,
des études de fluides complexes (non Newtoniens, biologiques, alimentaires, . . .) ou de problèmes
multiphysiques (interaction fluide-structure, combustion, plasma, . . .) font appel à
des schémas numériques plus complexes et dont la mise en œuvre nécessite d’importantes
ressources de calcul. Enfin, dans le cadre d’applications graphiques pour le cinéma ou les
jeux vidéos, les capacités des machines actuelles permettent une utilisation de véritables modèles
de fluide plutôt que des approximations afin d’augmenter le réalisme des écoulements
dans des temps de calcul compatibles avec les contraintes de l’application.
Les simulations numériques reposent à la fois sur une ou plusieurs méthodes numériques
et sur un code de calcul qui transcrit ces méthodes sur les machines de calcul. Le choix de la
méthode de résolution dépend essentiellement de l’adéquation entre la nature du problème
à résoudre, les caractéristiques attendues pour les solutions et les spécificités de la méthode.
Le code de calcul met en œuvre les algorithmes issus de la méthode.
1Introduction générale
Le rôle de l’informatique est primordial pour l’obtention d’un code de calcul efficace. La
qualité d’une méthode se mesure à la fois à travers les résultats qu’elle produit, mais aussi à
son implémentation. L’efficacité numérique d’un code se mesure, entre autres, par le temps
de calcul nécessaire à l’obtention de la solution en fonction de la qualité désirée. Ainsi,
l’implémentation d’une méthode nécessite une attention particulière dans le but d’exploiter
au mieux les ressources informatiques disponibles. Le développement d’un code efficace
dans un contexte de calcul à hautes performances est un véritable défi sur des machines
hétérogènes et massivement parallèles. Par conséquent, les méthodes numériques doivent
non seulement être adaptées aux caractéristiques des problèmes à résoudre, mais également
aux architectures des machines sur lesquelles elles seront implémentées. En particulier,
l’aspect hétérogène des composants (CPU, GPU, coprocesseurs, . . .) doit être pris en compte
dès la conception de l’algorithme de résolution et de l’élaboration de la méthode numérique.
Dans cette thèse, nous considérons un problème de transport de scalaire passif dans un
écoulement turbulent comme cadre applicatif. De nombreuses applications sont concernées
par ce type de problème notamment dans les domaines de l’environnement, de l’industrie
ou de la biologie (Shraiman et al., 2000). Le scalaire transporté peut représenter une quantité
réelle comme une concentration en espèce chimique ou en bactéries, ou bien abstraite
comme une interface entre deux fluides. Dans ce travail nous nous limitons à l’étude du
transport de scalaires passifs qui n’influent pas sur l’écoulement en retour. En général, la
physique de ce type de problème se caractérise par la présence de plusieurs phénomènes à
différentes échelles (Batchelor, 1958). L’approche envisagée ici est celle d’une résolution par
une méthode hybride. Cette notion nécessite une précision quant au sens du mot hybride
tel que nous l’entendons. Une méthode hybride consiste à résoudre les différents aspects
physiques à l’aide d’une ou plusieurs méthodes numériques adaptées en fonction de leurs
caractéristiques respectives. La méthodologie employée dans cette thèse est de chercher à
exploiter les spécificités des aspects physiques des problèmes par la mise en place d’une
méthode hybride (Gotoh et al., 2012 ; Lagaert et al., 2014).
Une des problématiques traitées dans ce manuscrit concerne l’exploitation de l’analogie
entre l’aspect hybride de la méthode numérique et la nature hétérogène des machines de
calcul. Nous nous intéressons à exécuter les différents éléments de résolution sur différents
composants des machines. Nous en exposerons les raisons dans le chapitre 6. La mise en
œuvre d’une stratégie hybride sera explorée en combinant des méthodes numériques de
diverses natures, des résolutions différentes et une implémentation sur architecture hétérogène.
L’approche suivie repose sur une implémentation sur cartes graphiques d’une méthode
particulaire avec remaillage. Cette dernière permet, entre autres, de résoudre naturellement
des équations de conservations sans imposer de condition de type Courant-Friedrichs-Lewy
mais une condition de stabilité moins restrictive permettant l’usage de plus grands pas
de temps. L’utilisation de cette méthode conduit, à travers la présence d’une grille sousjacente,
à des algorithmes et des structures de données régulières, ce qui est parfaitement
adapté à l’emploi de cartes graphiques. Enfin, nous utiliserons la puissance de calcul offerte
par les GPU pour proposer une extension à un ordre élevé de la méthode particulaire avec
remaillage. L’analyse des schémas numériques se base sur une approche similaire à celle employée
pour l’étude de schémas aux différences finies (Cottet et al., 2006). Un des aspects
informatiques considéré est lié à la nécessité du développement d’un code de calcul portable
et non spécifique à une architecture afin de supporter l’évolution rapide des matériels et des
librairies.
2L’enchaînement des six chapitres de ce manuscrit reprend une démarche classique du
calcul scientifique. En partant de la description des modèles puis des méthodes numériques et
de leurs spécificités, on aboutit à l’implémentation générique multicœur GPU et hybride sur
des machines hétérogènes combinant des processeurs multicœurs et des cartes graphiques.
La progression et la répartition des différents chapitres sont schématisés par la figure 1.
Chapitre 1
Chapitres 2 et 3
Chapitre 4 Chapitres 5 et 6
Modèle physique
Modèle mathématique
Modèle numérique
Modèle algorithmique
Implémentation
Validation
Observations
Expériences
Figure 1. – Cycle de résolution d’un problème en mathématiques appliquées
Dans un premier chapitre, les modèles mathématiques pour la modélisation de fluides
Newtoniens seront exposés. Nous présenterons également quelques méthodes numériques
usuelles. Elles font appel à des ressources informatiques dont l’évolution, en termes de
capacité et d’architecture, joue un rôle important dans le développement des codes de calcul.
Une description des applications envisagées et notamment le transport de scalaire passif
dans un écoulement turbulent terminera ce chapitre. Le second chapitre sera consacré à la
description de la méthode particulaire avec remaillage. À travers une revue bibliographique
de son évolution et de ses utilisations, nous exposerons l’analogie entre cette méthode et
celle des différences finies. Cette revue sera complétée par une extension à un ordre élevé
faisant intervenir la construction de formules de remaillage appropriées. Une analyse des
schémas numériques en termes de consistance et de stabilité sera également développée.
Dans un troisième chapitre, nous introduirons, à partir de travaux existants, la stratégie
hybride envisagée pour la résolution de problèmes de transport de scalaire. Son application
à un contexte de machine de calcul hétérogène sera abordé. Le quatrième chapitre sera
consacré aux détails du développement d’une librairie de calcul scientifique portable et
multiarchitecture. En particulier, nous verrons comment une conception souple simplifie
l’utilisation de composants comme les cartes graphiques. Le chapitre cinq est dédié aux
détails techniques de l’implémentation sur cartes graphiques de la méthode particulaire avec
remaillage. Les choix d’implémentation seront éclairés par l’analyse de travaux similaires
existants. Ce chapitre sera illustré par des exemples de transport de scalaire dans des cas
où la vitesse est analytique afin de valider la méthode et d’en exposer les performances. Le
3Introduction générale
sixième chapitre sera consacré à l’extension multi-GPU de la méthode. Une analyse de la
stratégie de couplage entre la méthode hybride et l’architecture hétérogène des machines
de calcul sera donnée à travers un exemple de transport turbulent de scalaire passif. Enfin,
nous terminerons ce manuscrit par un chapitre de conclusion donnant lieu à une critique
des travaux effectués ainsi qu’à un énoncé des perspectives dégagées par cette étude.
41. Calcul intensif pour la
mécanique des fluides
Le contexte des travaux de cette thèse est celui des mathématiques appliquées, au point
de rencontre d’une application, d’une méthode numérique et d’un code de calcul. À partir
d’observations de phénomènes naturels ou artificiels, des modèles physiques sont élaborés
puis mis en équations sous la forme de modèles mathématiques. La spécialisation de ces
modèles par rapport à une situation concrète se fait par la spécification de divers paramètres,
de conditions initiales et de conditions aux limites des modèles. Ils expriment ainsi
les conditions d’observations des phénomènes et le contexte expérimental des reproductions
en laboratoire. Dans le cadre de simulations numériques, les modèles mathématiques sont
discrétisés selon une ou plusieurs méthodes numériques conduisant à l’expression d’algorithmes
qui sont implémentés dans des codes de calcul. L’exécution de ces codes sur des
machines de calcul permet d’une part de valider les méthodes et les modèles par rapport
aux phénomènes physiques mais aussi d’explorer les configurations qui ne sont pas aisément
observables ou mesurables.
Ce premier chapitre est dédié à la présentation du contexte mathématique de la mécanique
des fluides à travers la construction du modèle des équations de Navier-Stokes. Nous
donnerons ensuite quelques méthodes de résolution classiques. Dans un second temps, nous
verrons que la mise en pratique des méthodes numériques est étroitement liée à l’exploitation
des ressources de calcul. Une forte contrainte de portabilité et d’adaptivité pèse sur les
algorithmes et leurs implémentations du fait de la rapidité à laquelle les technologies des
machines évoluent. Afin de garantir une certaine pérennité pour les codes de calcul, il est
nécessaire de prendre en compte, dès la conception, non seulement les types ressources et
les technologies actuelles mais aussi à venir, en particulier dans la perspective de l’exascale.
Dans ce cadre, une grande importance est attachée à l’évaluation des performances des
implémentations et à des comparaisons d’algorithmes dont nous donnerons quelques mé-
triques couramment utilisées. Enfin, nous détaillerons les modèles physiques des applications
envisagées pour ce travail.
51. Calcul intensif pour la mécanique des fluides
1.1. Mécanique des fluides numérique
L’objectif de la mécanique des fluides est d’analyser et de comprendre les comportements
de fluides, qu’ils soient liquides ou gazeux, lorsqu’ils sont en mouvement et éventuellement
en présence d’obstacles ou de structures avec lesquels ils interagissent. La majeure partie
des problèmes de mécanique des fluides sont issus de l’ingénierie avec notamment l’industrie
aéronautique et plus généralement les domaines des transports, de l’énergie, du génie civil
et des sciences de l’environnement. Des applications portant sur l’étude de fluides moins
conventionnels sont également considérées en biologie et par l’industrie agro-alimentaire.
La modélisation mathématique de ces problèmes conduit à des systèmes d’équations trop
complexes pour être résolus formellement. Dans de nombreux cas, la démonstration formelle
de l’existence de solutions à ces système reste encore un problème ouvert. Une modélisation
numérique de ces problèmes permet d’approcher une solution par l’utilisation de méthodes
numériques.
Les équations de Navier-Stokes permettent de décrire de manière générale le comportement
d’un fluide en se basant sur des principes physiques de conservation de masse, de
quantité de mouvement et d’énergie.
1.1.1. Modèle mathématique
Équations de Navier-Stokes
Conservation de la masse : Ce principe fondamental de la physique stipule que la masse
totale contenue dans un système fermé reste constante au cours du temps. La matière, ou
l’énergie, du système considéré peut éventuellement changer de forme ou se réarranger dans
l’espace. La variation temporelle de la masse totale contenue dans un volume Ω est égale
au bilan de masse traversant la frontière du domaine, ∂Ω :
d
dt
Z
Ω
ρdx
= −
I
∂Ω
ρu · nds,
où ρ est la masse volumique, u la vitesse et n la normale extérieure unitaire à la surface
du volume de fluide Ω. L’équation se réécrit de manière équivalente sous sa forme locale :
∂ρ
∂t + div(ρu) = 0. (1.1)
Conservation de la quantité de mouvement : De même, la variation temporelle de la
quantité de mouvement d’un système, notée ρu, est égale à son bilan sur la frontière auquel
s’ajoutent d’éventuelles forces F. On note u : u le produit tensoriel de u avec lui-même.
Cela se traduit par la relation :
d
dt
Z
Ω
ρudx
= −
I
∂Ω
ρu : u · nds +
Z
Ω
Fdx,
ou encore sous forme locale :
∂ρu
∂t + div(ρu : u) = F.
61.1. Mécanique des fluides numérique
Le développement de cette équation se simplifie avec l’équation de conservation de la
masse (1.1) pour donner :
ρ
∂u
∂t + (u · ∇)u
= F.
Les forces F s’exerçant sur un volume de fluide se décomposent en deux termes selon leur
nature :
F = div σ¯¯ + fe
.
Les forces extérieures qui agissent sur l’ensemble du système sont notées fe
, et les forces
générées par les contraintes internes du fluide dépendent du tenseur des contraintes totales
σ¯¯ qui se décompose également en deux termes :
σ¯¯ = −PI
¯¯ + τ¯¯ , (1.2)
où P est la pression, I
¯¯ le tenseur identité et τ¯¯ le tenseur des contraintes. Ainsi on obtient
la formulation suivante :
ρ
∂u
∂t + (u · ∇)u
= −∇P + div τ¯¯ + fe
. (1.3)
Loi de comportement : Le tenseur des contraintes τ¯¯ issu de la décomposition du tenseur
des contraintes totales (1.2) permet de modéliser le comportement d’un fluide en particulier.
Dans le cadre de fluides Newtoniens, le tenseur des contraintes est proportionnel au taux
de déformations :
τ¯¯ i,j = ν
∂ui
∂xj
+
∂uj
∂xi
,
avec ν la viscosité dynamique du fluide. Lorsque la viscosité ne dépend pas de l’espace, on
a :
div τ¯¯ = ν (∆u − ∇ div u). (1.4)
Équations de Navier-Stokes : Dans le cadre général, les équations de Navier-Stokes
constituent un système d’équations aux dérivées partielles obtenues à partir des équations de
conservation de masse, (1.1), de quantité de mouvement (1.3) et de la loi de comportement
du fluide (1.4).
∂ρ
∂t + div(ρu) = 0,
ρ
∂u
∂t + (u · ∇)u
= −∇P + ν (∆u − ∇ div u) + ρfe
.
(1.5)
Les inconnues du problème sont la vitesse u, la masse volumique ρ, et la pression P. Une
troisième équation est alors nécessaire pour obtenir un modèle complet. Une équation de
conservation de l’énergie est généralement utilisée. Les forces extérieures sont à préciser
selon le cas d’étude.
71. Calcul intensif pour la mécanique des fluides
Formulation vitesse-vorticité : Dans bon nombre d’écoulements, les zones d’intérêts,
où se forment et évoluent des tourbillons, sont généralement de petite taille relativement au
domaine d’étude et se localisent, entre autres, dans les couches limites et les sillages. Il est
naturel d’employer une formulation adaptée. La vorticité de l’écoulement ω est un champ
vectoriel défini comme le rotationnel du champ de vitesse.
ω = rotu (1.6)
On obtient la formulation vitesse-vorticité en appliquant l’opérateur rotationnel à la
seconde équation du système (1.5) :
ρ
∂ω
∂t + (u · ∇) ω
= ρ(ω · ∇)u + ν∆ω + ρ rot fe
. (1.7)
Fluides incompressibles
Hypothèse d’incompressibilité : Dans de nombreux cas, les fluides considérés ont une
très faible compressibilité. Un fluide est dit incompressible lorsque que la variation de volume
sous l’effet d’une pression extérieure est négligée. Cette hypothèse n’est valide que lorsque
la vitesse du fluide est inférieure à la vitesse du son dans ce fluide. Dans ce cas, la densité
ρ est approchée par une constante, l’équation (1.1) se réduit à :
div u = 0, (1.8)
et la loi de comportement (1.4) se simplifie en :
div τ¯¯ = ν∆u. (1.9)
L’obtention d’un champ de vitesse à divergence nulle, vérifiant (1.8), est généralement
effectuée par l’utilisation d’une méthode de projection. Cette méthode a été introduite par
Chorin (1968) et Temam (1968) et se base sur une décomposition du champ de vitesse selon
une composante à divergence nulle et une composante à rotationnel nul :
u = u∇ + ∇φ, avec div u∇ = 0 et rot ∇φ = 0.
En pratique, un champ de vitesse intermédiaire u
∗ à divergence non nulle est obtenu par la
méthode de résolution puis la fonction scalaire φ est obtenue par résolution d’une équation
de Poisson :
div u
∗ = ∆φ,
et enfin le champ de vitesse incompressible est calculé simplement par : u = u
∗ −∇φ. Dans
le cas de la formulation vitesse-pression, la pression peut jouer le rôle de la fonction scalaire
φ.
Équations de Navier-Stokes pour les fluides Newtoniens incompressibles : À
l’aide de l’hypothèse d’incompressibilité (1.8) et pour une loi de comportement correspondant
à un fluide Newtonien (1.9), le système générique (1.5) se réécrit :
div u = 0,
ρ
∂u
∂t + (u · ∇)u
= −∇P + ν∆u + ρfe
.
(1.10)
81.1. Mécanique des fluides numérique
La formulation vitesse-vorticité conduit au système suivant :
div u = 0,
ω = rotu,
ρ
∂ω
∂t + (u · ∇) ω
= ρ(ω · ∇)u + ν∆ω + ρ rot fe
.
(1.11)
La vorticité et la vitesse sont couplées par la relation ω = rotu, ou bien, de façon équivalente,
par une équation de Poisson, en utilisant ∇ · u = 0 :
(
∆ψ = −ω,
u = rot ψ.
(1.12)
1.1.2. Principales méthodes de résolution
Dans cette section nous donnons quelques unes des méthodes de résolution classiques des
équations précédentes. La plupart de ces méthodes ne se restreignent pas à la mécanique des
fluides et sont utilisées pour résoudre des problèmes aux dérivées partielles plus généraux.
Méthodes Eulériennes
Dans le cas des méthodes Eulériennes, la discrétisation des équations se fait par un
découpage du domaine de calcul en un maillage, structuré ou non. Un maillage structuré se
caractérise par une connectivité régulière des éléments, ce qui permet un accès efficace aux
données des éléments voisins. Dans le cas non structuré, une table de connectivité définissant
les relations de voisinage est nécessaire et permet alors une meilleure discrétisation de
géométries complexes.
Différences finies La plus ancienne et la plus simple de ces méthodes est celle des différences
finies. Elle a été formalisée par Euler en 1768. La méthode est construite sur la
définition de la dérivée :
U
0
(x) = lim
h→0
U(x + h) − U(x)
h
,
qui se généralise sous la forme d’un développement limité :
U(x + h) = U(x) + hU0
(x) + h
2
2
U
00(x) + · · · (1.13)
Lorsque la quantité h représente une distance entre deux points d’une grille et que la
quantité U est approchée en chaque point xi par U(xi) = Ui
, le développement précédent,
tronqué au premier ordre, donne le schéma aux différences finies du premier ordre décentré
en amont suivant :
U
0
i =
Ui+1 − Ui
h
+ O(h). (1.14)
Il est possible de combiner différents développements d’ordres plus élevés pour construire
des schémas d’ordre plus élevés ou approcher des dérivées d’ordres supérieurs. Ces schémas
91. Calcul intensif pour la mécanique des fluides
peuvent être étendus pour l’approximation de variables multidimensionnelles, puis à la
discrétisation de dérivées partielles. Le cas des grilles non uniformes se traite en prenant un
paramètre h dépendant de la grille. Au point d’indice i, on a hi = xi+1 − xi
.
Ainsi la méthode conduit à un calcul relativement simple à mettre en œuvre, dans les cas
explicites, avec un schéma identique sur chaque point du domaine. Dans les cas implicites,
il est nécessaire de résoudre un système linéaire. L’inconvénient majeur de cette méthode
est la difficulté de prise en compte de géométries complexes.
Volumes finis La méthode des volumes finis, est aujourd’hui très largement utilisée,
notamment par les industriels dans les domaines de l’aéronautique et de l’hydrodynamique.
Cette popularité vient, entre autres, du fait que le caractère conservatif des équations est
traduit directement dans la discrétisation. De plus cette méthode s’adapte parfaitement à
de nombreux problèmes qu’ils soient en domaines fermés ou ouvert et sur des discrétisation
spatiales structurées ou non.
Cette méthode permet de résoudre une équation de conservation, sous forme intégrale :
∂
∂t Z
Ω
UdΩ + I
S
F · dS =
Z
Ω
QdΩ, (1.15)
où U représente le vecteur des variables conservatives, F est un flux et Q un terme source.
La discrétisation de ces équations repose sur le découpage du domaine de calcul en petits
volumes de contrôle ΩJ autour d’un point de maillage J. L’équation (1.15) se discrétise
donc sur chaque volume élémentaire par la relation suivante :
∂
∂t (UJΩJ ) + X
Ωk∈ voisins de Ωj
Fk,j · Γk,j = QJΩJ , (1.16)
puis est intégrée entre deux instants consécutifs tn et tn+1. Les quantités UJ et QJ
sont les
valeurs moyennées sur ΩJ à l’instant tn. Ainsi, il est possible d’utiliser un schéma d’inté-
gration en temps implicite ou explicite. L’application de ce schéma nécessite une méthode
de calcul des flux Fk,j traversant la face Γk,j commune aux éléments de maillage Ωj et Ωk.
En plus du calcul des flux en chaque face du maillage, la méthode nécessite un calcul
direct, dans le cas explicite en temps, ou la résolution d’un système, pour le cas implicite.
Le principal inconvénient de cette méthode est la difficulté de la montée en ordre.
Éléments finis La méthode des éléments finis est issue du domaine de la mécanique des
structures. Elle repose sur des principes bien plus abstraits que ceux des deux méthodes
précédentes. L’espace est discrétisé en un ensemble de cellules appelés éléments et se base
sur une formulation intégrale du problème.
Le point clé de la méthode consiste à exprimer le problème sous forme variationnelle,
à partir de sa formulation intégrale. Cette formulation variationnelle du problème fait intervenir
des espaces fonctionnels qu’il est nécessaire de décrire avec précision ainsi que les
normes qui leur sont associées afin de pouvoir déterminer certaines propriétés de convergence.
Les espaces fonctionnels utilisés définissent des classes d’éléments finis sur les élé-
ments de maillage. À partir de ce maillage, le plus souvent non structuré, il est nécessaire de
101.1. Mécanique des fluides numérique
définir des fonctions d’interpolation des variables du problème sur les éléments du maillage.
La discrétisation de la formulation variationnelle sur ces éléments conduit à l’obtention
d’un système linéaire creux dont la taille dépend de la finesse du maillage. L’approximation
d’une quantité u sur un élément se fait par combinaison linéaire des fonctions de base vI
pour chaque nœud I de l’élément.
u˜(x) = X
I
uIvI (x). (1.17)
Selon l’ordre d’approximation, les nœuds sont définis aux sommets, sur les arrêtes ou encore
à l’intérieur des éléments du maillage.
Une fois la discrétisation effectuée, la solution est calculée par l’inversion d’un système
linéaire dont la taille dépend du nombre d’éléments et du nombre de degrés de libertés associé.
Le cadre mathématique de cette méthode permet de réaliser des études des propriétés
numériques des schémas, une montée en ordre assez aisée ainsi que la prise en compte
de géométries complexes. Toutefois, le système linéaire obtenu, peut parfois être difficile
à résoudre. Pour cela des méthodes itératives avec préconditionnement sont généralement
employées. D’autre part, l’inversion d’un système de grande taille creux n’est pas parallélisable
aisément sans utiliser de méthodes additionnelles, de décomposition de domaine
par exemple. Dans le cas des équations de Navier-Stokes, les variables ne sont pas exprimées
dans les mêmes espaces fonctionnels. L’introduction de contraintes supplémentaires
entre les classes d’éléments finis utilisés pour discrétiser la vitesse et la pression permettent
d’assurer la convergence.
Cette méthode n’est pas la plus adaptée pour la résolution de problèmes dont la physique
est dominée par l’advection. Dans un contexte de mécanique des fluides, elle est utilisée
essentiellement pour des simulations de fluides complexes.
Méthodes spectrales Le principe général des méthodes spectrales est de transformer
l’ensemble du problème dans un espace spectral. Pour ce faire, on exprime les variables du
problème dans cet espace, par exemple en séries de Fourier tronquées :
u(x, t) = X
N/2
k=−N/2
uˆk(t)e
ik·x
,
avec uˆk(t) les coefficients de Fourier tels que :
uˆk(t) =
1
2π
3 Z 2π
0
u(x, t)e
−ik·xdx.
Avec ces représentations, le système d’équations à résoudre se réécrit pour les uˆk. On aboutit
généralement à un système d’équations différentielles ordinaires complexes ne dépendant que
du temps. Les équations dans l’espace spectral sont généralement plus simples à résoudre que
dans l’espace réel et permettent une précision numérique très importante même avec un petit
nombre de coefficients. Néanmoins, il est assez difficile de traiter, avec cette méthodes, des
domaines non périodiques ainsi que des géométries complexes. De plus, les transformations
dans l’espace spectral impliquent un calcul global sur l’ensemble du domaine.
111. Calcul intensif pour la mécanique des fluides
L’utilisation de méthodes spectrales nécessite quelques précisions quant à leur mise en
œuvre sur des équations non linéaires. En effet, un produit de fonctions ou des termes
non linéaires dans l’espace réel conduisent à des opérations de type convolution en espace
complexe. Dans le cas discret, une erreur d’aliasing apparaît lors du calcul de ces termes
de manière directe. Il existe différentes techniques de suppression de cette erreur. La règle
des 3/2 est couramment utilisée et son principe est de réaliser les transformées de Fourier
discrètes sur M points au lieu de N, avec M > 3N/2. Les coefficients de Fourier des termes
du produit de convolution pour des nombres d’ondes supérieurs à N/2 sont simplement pris
égaux à zéro. De même, le résultat est tronqué aux N premiers coefficients permettant, par
transformée inverse, d’obtenir les valeurs réelles. En 3D, des erreurs d’aliasing doubles et
triples sont corrigées par des des troncatures adaptées (Canuto et al., 1987).
Méthodes de Lattice Boltzmann
Cette classe de méthode n’est pas basée sur la résolution des équations de Navier-Stokes
mais sur une équation de Boltzmann qui modélise l’évolution cinétique de particules de
fluide (Chen et al., 1998). La méthode de Lattice Boltzmann dérive d’un modèle discret
de dynamique particulaire sur une grille qui peut être vu comme un automate cellulaire
(Lattice gaz method). Le principe de base de cette méthode est de modéliser l’évolution
d’une fonction de distribution de la vitesse des particules f en fonction d’un opérateur de
collision Ω pour les interactions entre particules :
fi(x + ei
, t + ∆t) = fi(x, t) + Ωi(f(x, t)). (1.18)
Cette équation est donnée pour chaque direction i de la grille utilisée. La figure 1.1 représente
les vecteurs ei utilisés dans des grilles courantes. La notation DxQy est employée
pour référencer ces grilles où x est la dimension de l’espace et y le nombre de vecteurs ei
considérés.
(a) Grille D2Q9 (b) Grille D3Q15
Figure 1.1. – Exemple de grilles pour la méthode Lattice Boltzman
Les grandeurs macroscopiques de l’écoulement sont retrouvées à partir des moments de
f :
ρ =
X
i
fi et ρu =
X
i
fiei
.
Dans le cas le plus simple, un modèle de collision de Bhatnagar-Gross-Krook (BGK)
permet d’exprimer Ωi comme une relaxation vers une distribution à l’équilibre f
eq
i
en un
temps caractéristique τ :
Ωi =
f
eq
i − fi
τ
,
121.1. Mécanique des fluides numérique
avec :
f
eq
i = ρwi
1 + 3ei
· u +
9
2
(ei
· u)
2 −
3
2
u
2
, (1.19)
où les wi sont des poids associés à chaque direction ei
.
Le schéma numérique obtenu est local et la mise en œuvre est généralement réalisée en
deux étapes. Dans un premier temps, le membre de droite de l’équation (1.18) est évalué
avec le modèle de collision (1.19). Dans un second temps, l’équation (1.18) est résolue dans
une étape de propagation des fonctions de distribution.
Méthodes Lagrangiennes
De manière générale, les méthodes Lagrangiennes sont adaptées à la résolution d’équations
de conservation de la forme :
d
dt
Z
Ω
U(x, t)dx =
Z
Ω
F(x, t, U, ∇U, . . .)dx. (1.20)
Elles se distinguent des méthodes Eulériennes par le fait que la discrétisation spatiale du
domaine de calcul par un ensemble de particules suit la dynamique du système contrairement
au cadre Eulérien où le maillage reste fixe. On définit la dérivée Lagrangienne d’une fonction
f à partir de la trajectoire d’un point de l’écoulement.
Df
Dt
(x(t), t) = ∂f
∂t (x, t) + dx
dt
· ∇f(x, t)
=
∂f
∂t (x, t) + (u · ∇)f(x, t)
(1.21)
Dans un cadre Lagrangien, les variables sont discrétisées sur un ensemble de particules
qui correspondent à un volume élémentaire du domaine. Le principe général est que les
particules portent des quantités correspondant aux variables du problème. Une quantité U
est ainsi approchée par l’ensemble des particules selon la formule :
U(x) = Z
Ω
U(y)δ(x − y)dy, (1.22)
ou sa forme discrète régularisée :
U(x) '
X
p
UpWε(x − xp). (1.23)
La quantité portée par la particule p, est donnée par sa valeur moyenne :
vpUp =
Z
Vp
U(x)dx,
sur le volume Vp. La fonction Wε, qui apparaît dans l’équation (1.23) est une fonction de
régularisation dont le choix et les propriétés sont propres à chaque méthode. Dans tous les
cas, elle est construite de telle sorte que sa limite quand ε tend vers 0 soit la mesure de
Dirac δ.
131. Calcul intensif pour la mécanique des fluides
Au cours de la résolution, les particules sont déplacées relativement au champ de vitesse
puis interagissent pour donner une nouvelle répartition des quantités transportées qui
conduisent à un nouveau champ de vitesse. La position de chaque particule, xp, est solution
d’une équation de mouvement :
dxp
dt
= u(xp, t). (1.24)
D’autre part, la discrétisation de l’équation (1.20) donne le système d’équations différentielles
:
dUp
dt
= vpFp, (1.25)
où Fp représente le terme source local à la particule p. La difficulté de ces méthodes réside
dans le calcul du second membre de cette équation, en particulier le terme Fp, à partir des
particules. Différentes approches sont possible et conduisent à des méthodes comme SPH
et Vortex, détaillées plus loin. Enfin, le volume des particules varie selon l’équation :
dvp
dt
= vp div u(xp). (1.26)
Une propriété remarquable des méthodes particulaires est que la stabilité du schéma
numérique ne dépend pas explicitement du maillage ou de la distance entre deux particules
contrairement aux méthodes Eulériennes dont le pas de temps est contraint par une condition
de Courant Friedrichs Lewy, notée CF L, dont la constante C est souvent inférieure à
1.
CF L =
∆t||u||∞
∆x
6 C (1.27)
Dans le cas des méthodes particulaires, la contrainte sur le pas de temps dépend du gradient
du champ de vitesse et consiste en l’inégalité suivante :
LCF L = ∆t||∇u||∞ 6 C (1.28)
En pratique, la constante C, appelée quelquefois nombre LCFL (pour Lagrangian CFL),
conduit à une condition moins restrictive que la condition de CFL (1.27). Cela permet géné-
ralement d’utiliser de plus grands pas de temps que dans le cas d’une méthode Eulérienne,
le nombre de CFL obtenu peut alors atteindre des valeurs de plusieurs dizaines.
Méthode SPH Dans la méthode Smoothed Particle Hydrodynamics (SPH), les dérivées
spatiales des variables sont calculées sur les particules à partir d’une régularisation de la
mesure de Dirac, à l’aide d’un noyau Wε. Pour tendre vers la mesure de Dirac lorsque ε
tend vers 0, la fonction Wε est construite à partir d’une fonction d’intégrale égale à 1, à
symétrie radiale et à support compact de rayon supérieur à ε (Liu et al., 2010). Enfin le
noyau Wε doit être suffisamment régulier pour approcher les dérivées spatiales des variables
intervenant dans le calcul des forces.
Le principe suppose qu’en plus de l’équation d’approximation (1.23), on dispose d’approximations
des dérivées obtenues à partir des dérivées de Wε :
∇U(xi) '
X
p
U(xp)∇Wε(xi − yp
)vp. (1.29)
141.1. Mécanique des fluides numérique
Ainsi, avec un schéma d’intégration en temps explicite et une discrétisation du membre
de droite de l’équation (1.20), on obtient le schéma de résolution globale. Les sommes dans
les équations (1.23) et (1.29) impliquent des interactions entre toutes les paires de particules.
Cependant, la compacité du support de la fonction Wε permet de ne considérer que les
particules les plus proches du point de calcul courant à l’aide d’un tri des particules. Les
particules dont le support du noyau d’interpolation intersecte le bord du domaine nécessitent
un traitement particulier en fonction des conditions limites. L’inconvénient majeur de cette
méthode est la difficile montée en ordre du schéma de résolution.
Méthode vortex La méthode vortex est une méthode Lagrangienne adaptée à la résolution
des équations de Navier-Stokes en formulation vitesse et vorticité (1.11). Les particules
portent alors la vorticité de l’écoulement, selon l’approximation (1.23) :
ω(x) = X
p
ωpWε(x − xp). (1.30)
La méthode développée par Chorin (1973) et Leonard (1980) conduit à résoudre le système
d’équations différentielles suivant :
dxp
dt
= u(xp), (1.31a)
dωp
dt
= ωp∇u(xp) + ν∆ω(xp). (1.31b)
Le champ de vitesse est alors obtenu en résolvant l’équation de Poisson (1.12) en fonction
de la vorticité portée par les particules :
u(x) = u∞ +
Z
Ω
Kε(x − y)ω(y)dy. (1.32)
Le noyau Kε est une régularisation d’un noyau obtenu par le rotationnel de la solution
fondamentale de l’équation de poisson. Ce noyau s’exprime comme la convolution de la
fonction de Green pour l’opérateur laplacien et du champ de vorticité. D’autre part, le
gradient du champ de vitesse est obtenu par :
∇u(x) = Z
Ω
∇Kε(x − y)ω(y)dy.
Différentes techniques peuvent être employées pour discrétiser le terme de diffusion des
équations (1.31). Nous pouvons citer par exemple la méthode de marche aléatoire, Randomwalk,
introduite par Chorin (1973) ou encore la méthode PSE, Particle Strength Exchange
par Degond et al. (1989) et Cottet et al. (1990).
La discrétisation du terme d’étirement au second membre de l’équation (1.31b) et de
l’équation de Poisson par une équation de Biot-Savart (1.32) nécessitent l’évaluation d’interactions
entre toutes les paires de particules, ce qui engendre une complexité en O(N2
)
pour N particules. Une complexité en O(N) est possible en utilisation une méthode FMM
(Fast Multipole Method). Cette dernière consiste en un algorithme hiérarchique, basé sur
un arbre, permettant de traiter des problèmes à N corps par une approximation des interactions
combinant des développement locaux et multipôles du noyau Kε (Cheng et al.,
1999).
151. Calcul intensif pour la mécanique des fluides
Méthode particulaire avec remaillage Cette méthode faisant l’objet du chapitre 2,
nous donnons ici uniquement l’idée générale de la méthode. Le remaillage est employé dans
les méthodes particulaire, en particulier les méthodes Vortex, et consiste en une redistribution
des particules sur une grille (Koumoutsakos et al., 1995). Il permet d’assurer le recouvrement
nécessaire au maintient des propriétés de convergence de la méthode. La méthode
obtenue lorsque le remaillage est effectué systématiquement à chaque itération s’apparente
à une méthode semi-Lagrangienne explicite. Ainsi, après une advection des particules de
manière Lagrangienne, une étape de remaillage permet de redistribuer les quantités portées
par les particules sur une grille sous-jacente. Enfin les termes d’étirement et de diffusion
ainsi que l’équation de Poisson peuvent être résolus sur cette grille.
Qualité des résultats numériques
Toutes ces méthodes de résolution reposent sur une approximation numérique des variables
et des équations. Le principe commun est de discrétiser le domaine de calcul en
divers éléments : grille, maillage ou particules. Dans tous les cas, la solution est donnée sur
ces éléments discrets. Ainsi, l’augmentation du nombre d’éléments conduit à un meilleur
niveau de détail de la solution. Une discrétisation temporelle plus fine permet également
une meilleure description de la solution. Cependant, les pas de temps sont généralement
choisis les plus grands possibles tout en veillant à préserver la stabilité du schéma.
D’autre part, la plupart des méthodes permettent une estimation de l’erreur d’approximation
des équations par le schéma numérique. Cette erreur s’exprime généralement en
fonction des résolutions spatiales et temporelles de la discrétisation. En contrepartie de
l’amélioration de la précision et du niveau de détail des solutions, le coût de calcul augmente
avec la résolution. Ce coût provient du nombre d’opérations arithmétiques à réaliser
mais aussi du stockage et de l’accès aux données. En pratique, l’obtention de résultats pour
une résolution plus fine permet généralement une plus grande précision dans la prise en
compte des phénomènes physiques, ce qui contribue à une meilleure compréhension des
mécanismes mis en jeu.
La conséquence de ce phénomène est que les ressources informatiques nécessaires à un
raffinement des solutions numériques deviennent importantes et que les stratégies mises en
œuvre pour l’implémentation des méthodes ont un impact direct sur cette augmentation de
qualité numérique.
1.1.3. Exemples d’application
Dans ce paragraphe nous donnons quelques exemples d’implémentation des méthodes
décrites précédemment dans un contexte de calcul à haute performance. L’objectif est simplement
d’illustrer comment sont employées les différentes méthodes numériques à travers
les quantités de ressources de calcul nécessaires.
Récemment, une méthode de volumes finis a été implémentée par Rossinelli et al. (2013)
pour la simulation de la coalescence de 15 000 bulles de vapeur. Les auteurs ont réalisé
des simulations allant jusqu’à 13.1012 points de calcul en utilisant 1,6 millions de cœurs
CPU. Les performances obtenues sont, en partie, dues à l’utilisation de schémas numériques
161.2. Calcul intensif
d’ordre élevés en espace ce qui conduit à un nombre d’opérations par itérations élevé. Les
auteurs emploient également des techniques permettant d’augmenter la localité des données
ainsi que des opérations vectorisées spécifiques à la machine utilisée.
L’écoulement autour d’un modèle complet de voiture a été étudié par Jansson et al.
(2011) en utilisant une méthode de résolution par éléments finis. Le domaine de calcul est
discrétisé par 4,5 millions de points et 24 millions d’éléments et les solutions sont obtenues
en utilisant 3 000 cœurs CPU. Cette étude montre que les résultats obtenus par une
méthode par éléments finis associée à simulation aux larges échelles adaptative et à un raf-
finement automatique de maillage sont comparables, voire meilleurs, que certains modèles
de turbulence.
Enfin, une comparaison de méthodes spectrales et vortex est réalisée par Yokota et al.
(2013) sur 4 000 cartes graphique pour des résolutions de 69 milliards de particules ou points
de calcul dans le cadre de simulations de turbulence homogène. Dans cet article, les auteurs
montrent les limites des méthodes spectrales lors de l’utilisation d’un très grand nombre
de cartes graphiques. En particulier, les opérations non locales des transformées de Fourier
engendrent un coût de communication très important, ce qui n’est pas le cas en utilisant une
méthode multipôle rapide (Fast Multipole Method). Ainsi, l’étude montre que la méthode
FMM permet d’atteindre une efficacité parallèle bien meilleure que les méthodes spectrales
sur plusieurs milliers de cartes graphiques.
Ces études montrent l’importance d’une bonne exploitation des ressources informatiques.
En général, les méthodes numériques ne sont pas directement adaptées à de grandes machines
de calcul car les coûts de communication deviennent prohibitifs. Ainsi, il est nécessaire
de prendre en compte ces architectures au niveau de la méthode numérique développée.
L’implémentation de méthodes numériques, nécessaire à la résolution de nombreux problèmes
physiques, est indissociable des ressources informatiques disponibles. En particulier
lorsque les applications considérées nécessitent un haut niveau de détail des solutions, ce
qui implique un coût de calcul élevé.
1.2. Calcul intensif
Le calcul intensif est un domaine de l’informatique qui consiste à utiliser des supercalculateurs
pour des applications relevant généralement du calcul scientifique. L’objectif est
d’exploiter au maximum de leurs performances l’ensemble des ressources disponibles pour
obtenir la solution d’un problème numérique.
On distingue deux contextes d’utilisation intensive des ressources de calcul. Le premier,
que nous considérerons par la suite, consiste à résoudre un seul problème sur un ensemble
de ressources d’une machine de calcul. Dans ce cas, la méthode numérique employée est
distribuée sur les éléments de calculs de manière collaborative, ce qui implique des communications
entre les éléments. Une machine de calcul est constituée de différents niveaux
hiérarchiques de ressources. Elle est composée de nœuds de calcul interconnectés sur lesquels
est installé un système d’exploitation. Un nœud comprend généralement de la mémoire vive,
un disque local, des processeurs et éventuellement des accélérateurs, coprocesseurs ou cartes
graphiques. Ces ressources sont partagées par les différents processeurs multicœurs. Les uti-
171. Calcul intensif pour la mécanique des fluides
lisateurs se partagent la machine et peuvent réserver des ressources selon leurs besoins par
l’intermédiaire d’un gestionnaire de ressources.
D’un autre côté, pour des calculs d’optimisation, des études de sensibilité par rapport
à des paramètres ou des calculs de quantification d’incertitudes, le problème initial est de
taille relativement modeste mais il doit être résolu un très grand nombre de fois à partir
de données initiales différentes . Pour cela, des grilles de calcul sont utilisées, comme
par exemple dans le projet Folding@home de l’Université de Standford. Dans ce cadre, un
réseau composé d’un très grand nombre de machines grand public est constitué à travers
Internet par les utilisateurs volontaires et est en perpétuelle évolution au gré des connexions
et déconnexions des utilisateurs. Les différentes exécutions sont indépendantes et ne nécessitent
pas de communications entre elles. Une des difficultés techniques rencontrées dans
ce contexte est que les machines présentent de très nombreuses caractéristiques différentes
notamment en termes de matériels et de systèmes d’exploitation.
1.2.1. Augmentation des besoin et des ressources de calcul
Ressources de calcul pour les simulations numériques
Comme nous l’avons vu en section 1.1.2, l’obtention de nouveaux résultats physiques
permettant une meilleure compréhension des phénomènes se fait par une amélioration de
la précision et du niveau de détail des résultats numériques. Pour la plupart des méthodes
cela implique une complexité plus grande aussi bien en terme de calcul qu’en terme de
quantité de données. Le temps de calcul est directement lié à cette complexité et augmente
rapidement avec la résolution. C’est pourquoi il est nécessaire, pour rendre réalisable cette
augmentation, que le temps de calcul soit le plus faible possible.
Par exemple, lorsque l’on souhaite simplement doubler la résolution dans toutes les
directions spatiales d’un problème tridimensionnel, on obtient un facteur 8 sur le nombre
total d’éléments. Ce qui implique un facteur au moins égal à 8 sur l’empreinte mémoire du
code. De même, la complexité algorithmique du code est multipliée par un facteur 8, 16 ou
64 selon que la complexité s’exprime en O(N), O(N ln(N)) ou O(N2
). Cela implique que
le coût total de calcul devient rapidement assez élevé et justifie le recours à des techniques
de parallélisation mises en places dans le cadre du calcul intensif.
Deux points de vue sont envisageables. D’une part, pour un problème donné, l’augmentation
des ressources allouées à sa résolution permettent de réduire le temps nécessaire à
l’obtention de la solution. D’autre part, à temps de calcul constant, une solution plus précise
est obtenue en augmentant conjointement les ressources et la taille du problème.
Augmentation de la puissance de calcul des machines
Loi de Moore Une caractéristique marquante de l’évolution de l’informatique est la loi
de Moore, énoncée en 1965 par un des cofondateur d’Intel, G. Moore. En considérant la
complexité de fabrication des circuits intégrés ainsi que leur coût en fonction du nombre de
transistors, Moore postule que le nombre de transistors par puce double chaque année. Il
observe par la suite, en 2005, que cette croissance est légèrement plus faible mais tout de
181.2. Calcul intensif
même exponentielle. Nous illustrons cette loi en figure 1.2 où le nombre de transistors par
processeur en fonction des dates de mise sur le marché suit une tendance exponentielle. Il
103
104
105
106
107
108
109
1010
1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
Nombre de transistors par puce
Année de mise sur le marché
CPU
GPU
Tendance : 1.4
x
Tendance : 1.6
x
Figure 1.2. – Évolution du nombre de transistors par processeurs.
est à noter que les processeurs graphiques suivent également une tendance similaire.
Top500 Depuis 1993, le projet Top500 établit un classement mondial des 500 machines
les plus performantes. La figure 1.3 montre l’évolution de la puissance de calcul théorique
développée par ces machines. Sur cette figure sont représentés les machines de rang 1 et
500 ainsi que quelques composants introduits sur le marché en 2012 et 2013. Ces courbes
conduisent à deux remarques : en 8 ans, une machine donnée passe de la première à la
dernière place du classement ; sur la même durée, la puissance totale de la dernière machine
du classement est disponible en un seul composant sur le marché grand public. Ainsi, une
machine de bureau standard récente dispose de la puissance de calcul de la première machine
du classement il y a 20 ans.
La tendance de ces courbes laisse suggérer que le régime de l’exascale sera vraisemblablement
atteint d’ici 2020 (Shalf et al., 2010 ; Dongarra et al., 2011 et 2014). Il correspond
à la construction et à l’exploitation de systèmes capables d’exécuter 109 GFLOPS. C’est un
défi majeur dans la communauté du calcul haute performance. Dans les années 90, l’augmentation
de la puissance des machines était principalement due à l’augmentation de la
fréquence des processeurs et à la diminution de leurs taille. Ce mécanisme a atteint ses
limites principalement à cause d’une trop forte densité d’énergie dans les composants. Par
la suite, seule l’augmentation du nombre de processeurs par machine a permis de poursuivre
cette évolution. Désormais, la tendance serait plutôt à l’augmentation du nombre de cœurs
par processeurs comme c’est le cas, entre autres, avec les cartes graphiques et la dernière
génération de processeurs Intel Xeon Phi.
191. Calcul intensif pour la mécanique des fluides
10−1
100
101
102
103
104
105
106
107
108
109
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
Petascale
Exascale
8 ans 8 ans
8 ans 12 ans
8 ans
Puissance théorique (GFLOPS)
Année de publication
Top500 #1
Top500 #500
GPU
Coprocesseur
CPU
Machine standard
Figure 1.3. – Évolution du classement du TOP500
Difficulté d’adaptation des codes de calcul
Le détail des caractéristiques des machines du Top500 montre une hétérogénéité de composants
depuis ces dernières années. En effet, bon nombre de machines de ce classement
ne contiennent pas seulement des processeurs mais aussi des accélérateurs, que ce soit des
cartes graphiques ou des coprocesseur. La difficulté majeure de l’exploitation de ces élé-
ments est que le développement et l’optimisation des codes de calculs ne fait pas appel aux
mêmes techniques que sur une machine homogène. De plus, les techniques de programmation
sont parfois différentes entre les processeurs et les accélérateurs. Ce qui implique une
réécriture du code. D’autre part, la réutilisation d’un code sur une architecture plus récente
conduit parfois à des temps de calculs plus grands dans les cas où aucune adaptation n’est
réalisée. Ce travail est assez lourd et ne peut pas être réalisé pour chaque nouvelle architecture.
Toutefois, cette difficulté est atténuée par l’utilisation de langages portables pour
le développement de codes multiarchitectures.
1.2.2. Mesure de performances
Dans le cadre du calcul intensif, il est important de pouvoir comparer les différentes implémentations
et codes de calculs et d’en mesurer les performances. Pour cela des métriques
spécifiques sont utilisées.
La première métrique utilisée est la puissance brute développée par un algorithme. Cette
grandeur est exprimée par le nombre d’opérations sur des nombres réels à virgules flottante
réalisées par secondes d’exécution. On utilisera la notation FLOPS pour désigner cette unité,
également notée FLOP s−1 dans la littérature. Cette mesure est notamment utilisée pour
établir le classement du Top500, En pratique, le nombre d’opérations effectuées lors d’une
201.2. Calcul intensif
exécution peut être obtenu par un outil de profilage et dépend fortement du compilateur,
des options de compilations employées ainsi que de l’architecture utilisée.
Scalabilité
Scalabilité forte Lors de la parallélisation d’un code, la performance maximale atteignable
est bornée par la loi d’Amdahl donnée par Rodgers (1985). L’accélération maximale
dépend de la proportion de code parallélisable, notée p ∈ [0; 1]. Le temps de calcul total,
pour un problème de taille fixe, sur n processeurs Tn est donné en fonction du temps de
calcul séquentiel T1 par : Tn = T1(1−p+p/n). Le facteur d’accélération, Sn, égal au rapport
entre le temps de calcul sur n processeurs et le temps de calcul sur un seul processeur est
alors donné par l’expression :
Sn =
T1
Tn
=
1
1 − p + p/n < n. (1.33)
On remarque que lorsque le nombre de processeurs devient grand, le rapport tend vers
(1 − p)
−1
. Cela signifie que l’accélération maximale, lorsque la partie parallélisable devient
négligeable, est bornée par la partie non parallélisable du code. De manière optimale, pour
p = 1, on attend que le facteur d’accélération du code soit égal au nombre de processeurs.
La performance d’un code peut être mesurée en réalisant une étude de scalabilité forte. Il
s’agit d’étudier l’évolution du facteur d’accélération du code pour un problème de taille fixe
en faisant augmenter les ressources employées à la résolution. Généralement, ces résultats
sont présentés sur un graphe donnant le rapport T1/Tn en fonction de n. Une scalabilité
idéale conduit à l’obtention d’une droite de pente égale à 1.
Scalabilité faible On peut également considérer l’évolution du facteur d’accélération
lorsque l’augmentation des ressources est réalisée simultanément avec une augmentation de
la taille des données du problème. Dans ce cas, la loi de Gustafson-Barsis (Gustafson, 1988)
conduit à une décomposition du temps de calcul sur n processeurs en une partie séquentielle
ts et une partie parallèle tp, Tn = ts + tp. Ainsi, le temps de calcul de ce problème sur un
seul processeur est égal à T
(n)
1 = ts + ntp et le facteur d’accélération est donné par :
Sn =
T
(n)
1
Tn
= n −
ts
ts + tp
(n − 1) (1.34)
De même que précédemment, on représente Sn en fonction de n dans un graphe. Dans
le cadre d’une étude de scalabilité faible, à chaque Sn correspond une taille de problème
contrairement à la scalabilité forte où l’étude complète est réalisée pour une même taille de
problème. Dans le cas idéal, le temps de calcul est entièrement dédié à la partie parallèle,
ts = 0, on obtient une droite de pente 1.
Le temps de calcul séquentiel du problème associé à n processeur, T
(n)
1
, peut parfois
devenir prohibitif et même impossible à obtenir lorsque n est grand. Pour cela, on pose
l’hypothèse que ce temps est proportionnel au temps de calcul séquentiel du problème
unitaire T
(n)
1 = nT(1)
1
. On représente alors le facteur d’accélération par :
S˜
n =
T
(1)
1
Tn
=
T
(n)
1
nTn
= 1 −
ts(n − 1)
n(ts + tp)
. (1.35)
211. Calcul intensif pour la mécanique des fluides
Modèle roofline
Les architectures multicœurs se caractérisent par le partage d’une mémoire entre les
différents cœurs dans lesquelles la bande passante est parfois un facteur limitant les performances.
Le modèle roofline, introduit par Williams et al. en 2009, est un modèle de visualisation
de performances basé sur l’intensité opérationnelle d’une implémentation. Cette
grandeur est définie comme le nombre d’opérations en virgule flottante par Byte de donnée
transférée entre les unités de calcul et la mémoire globale. La quantité de données échangées
entre les unités de calculs et la mémoire du système est constituée des accès en lecture
et écriture. Ce modèle permet de représenter graphiquement les performances de calcul
en fonction de l’intensité opérationnelle. Le graphe, en échelle logarithmique, présente la
performance atteignable en fonction de l’intensité opérationnelle selon la formule :
P
A = min(P, B × I), (1.36)
avec P
A la puissance atteignable en GFLOPS, P la puissance crête théorique de la machine,
également en GFLOPS, B la bande passante théorique en GByte/s et I l’intensité
opérationnelle du code en FLOP/Byte. L’intensité opérationnelle dépend de la machine et
du code et peut être calculée à partir des compteurs présents dans le matériel et éventuellement
accessibles via un outil de profilage. Dans certains cas, il est possible d’approcher cette
intensité par un comptage des opérations du code. Le modèle conduit à la représentation
donnée en exemple en figure 1.4.
On détermine si une implémentation est bornée par la bande passante, comme pour
l’intensité IA, ou par la puissance de calcul théorique, comme pour IB. Cela donne une
borne de performance maximale atteignable pour une implémentation donnée. Une première
stratégie d’optimisation pour un algorithme donné consiste à se déplacer vers une
intensité opérationnelle plus grande, flèches horizontales sur la figure 1.4. Elle consiste en
une optimisation de l’implémentation pour limiter les accès à la mémoire globale afin de
maximiser la puissance atteignable. La seconde stratégie consiste à optimiser le code pour
diminuer le temps de calcul. En effet, la performance atteinte lors d’une exécution correspond
à un point sur le graphe. Visuellement, les optimisations visent à déplacer ce point
vers la borne théorique le long d’une demi-droite correspondant à l’intensité opérationnelle
de l’implémentation évaluée. Cette seconde stratégie est représentée par les flèches verticales
sur la figure 1.4.
Efficacité énergétique
Dans le cadre de l’étude de l’impact environnemental des machines, la puissance de
calcul est mise en regard de la consommation électrique. En particulier, depuis fin 2007, le
classement du Green500 ordonne les éléments du Top500 en fonction de leur performance
énergétique qui est exprimée en MFLOPS par watt consommé au cours d’un calcul. La
figure 1.5 donne l’évolution des machines de rang 1 et 500 du classement Green500 ainsi
que, à titre de comparaison, du Top500.
La figure 1.6 représente les 150 premières machines des classements du Top500 et
Green500 par groupes de couleurs selon le type d’accélérateurs ou selon l’architecture.
Comme le montre Subramaniam et al. (2013), dans leur analyse de la consommation énergétique
des super-calculateurs l’utilisation d’accélérateurs graphiques, GPU, ou de coprocesseurs
semble contribuer fortement à l’amélioration de l’efficacité énergétique. À titre de
221.2. Calcul intensif
0.1
1
10
100
1000
0.1 IA 1 IA0 10 IB 100
Borne calcul
Borne bande passante
Puissance atteignable (GFLOPS)
Intensité opérationnelle (FLOP/Byte)
Roofline
Figure 1.4. – Exemple de modèle roofline.
100
101
102
103
104
2007 2008 2009 2010 2011 2012 2013 2014 2015
Efficacité énergétique (MFLOPS/W)
Date de publication des classements
Green500 - #1
Green500 - #500
Top500 - #1
Top500 - #500
Figure 1.5. – Évolution de l’efficacité énergétique des machines.
231. Calcul intensif pour la mécanique des fluides
comparaison, les ordres de grandeurs de puissance consommée sont illustrés par des maté-
riels usuels.
Le code de couleurs utilisé sur la figure 1.6 permet de distinguer quatre types d’architecture.
L’architecture classique correspond à une machine constituée de processeurs
multicœurs traditionnels et ne contenant aucun accélérateur. L’architecture BlueGene se
distingue de la précédente par un nombre bien plus grand de processeurs, par une faible
fréquence des processeurs et une faible quantité de mémoire des nœuds. Ces deux dernières
caractéristiques permettent à ce type de machine d’être extrêmement efficace en termes de
performance énergétique. Les machines dotées de coprocesseurs représentées sur la figure 1.6
sont constituées de processeurs multicœurs Xéon Phi comportant jusqu’à 61 cœurs de calcul
et qui ont été introduits récemment par Intel. La machine à coprocesseurs la plus efficace
est constituée de processeur PEZY-SC contenant 1 024 cœurs qui sont développés par la
société japonaise PEZY Computing. Enfin, le second type d’accélérateur est représenté par
les GPU dont les caractéristiques seront détaillées dans le chapitre 4.
105
106
107
108
10−1
100
101
20 MW
1 MW
0.1 MW
éolienne
motrice de TGV
voiture
Puissance de calcul (GFLOPS)
Efficacité énergétique (GFLOPS/W)
Top500
Green500
GPU
Coprocesseur
BlueGene
Classique
Figure 1.6. – Comparaison des performances énergétiques des 150 premières machines du
Top500 et Green500 selon le matériel (classements de novembre 2014).
1.2.3. Défi de l’exascale
Pourquoi l’exascale ?
Comme nous l’avons vu précédemment, l’amélioration de la qualité des simulations numériques
nécessite des résolutions plus importantes, afin d’obtenir de nouveaux résultats
pour améliorer la compréhension et la prise en compte de phénomènes physiques. Cela
permet ensuite d’envisager une complexification des modèles physiques puis des modèles
241.2. Calcul intensif
mathématiques et numériques dans le processus itératif schématisé en figure 1. De ce point
de vue, ces simulations ont besoin de ressources de calcul toujours plus importantes. D’autre
part, les classements du Top500 et Green500 nous montrent que la puissance des supercalculateurs
est en augmentation, apportant ainsi une réponse à ces besoins en ressources de
calcul. Cette réponse permet d’envisager la simulation de problèmes physiques encore plus
complexes.
Toutefois, les applications sont encore loin d’exploiter toute la puissance offerte par ces
calculateurs. La littérature ne fait état que de très peu d’applications capables d’atteindre le
PFLOP. Des simulations d’interactions gravitationnelles en astrophysique entre 1012 corps
atteignant 4.45 PFLOPS ont été obtenues par Ishiyama et al. (2012), soit 42% de la puissance
maximale de la machine pour leurs configuration. Plus récemment, une performance
de 11 PFLOPS a été atteinte par Rossinelli et al. (2013) pour la simulation de la coalescence
de 15 000 bulles de vapeur sur 13.1012 points de calcul en utilisant 1.6 millions de cœurs
CPU. Cette performance correspond à 55% de la puissance de la machine. Enfin, 4096 cartes
graphiques ont permis à Yokota et al. (2013) d’atteindre 1.08 PFLOPS en simple précision,
soit 25% de la puissance maximale théorique.
Principales difficultés
Le développement d’applications capables d’exploiter une telle puissance se confronte
à de nouvelles problématiques dont nous reprenons quelques éléments, d’après Dongarra
et al. (2011).
Concurrence L’architecture des machines de l’exascale, basée sur des composants multicœurs
ayant un très grand nombre de cœurs, soulève de nombreuses difficultés quant à
l’utilisation des mécanismes et des algorithmes actuels notamment en terme de synchronisation
des différents processus ou encore d’accès aux données. En effet, les architectures
multicœurs ont la particularité de partager une même mémoire entre l’ensemble des cœurs
ce qui rend complexe l’accès aux données, à travers une hiérarchie de caches, qui ont éventuellement
été modifiées dans le même temps. Leur originalité est qu’elles disposent d’une
quantité de mémoire disponible par cœur de calcul plus faible que dans les architectures
classiques. L’augmentation du nombre de cœurs par processeurs conduit à une diminution
de la mémoire disponible par cœurs.
Les accès à des données distantes, non présentes sur la mémoire associée à un processus,
deviennent rapidement très coûteux pour un très grand nombre de cœurs. Ce qui pose la
question de l’élaboration d’algorithmes de communications et de synchronisations distants
adaptés à ces architectures.
Énergie La consommation énergétique de ces supercalculateurs devient un problème
non seulement au niveau de l’alimentation électrique globale des machines mais aussi du
refroidissement des composants. Une limite de faisabilité d’une consommation de 20 MW
a été proposée dès 2008 par Bergman et al. et détaillée plus récemment par Subramaniam
et al. (2013). Les performances énergétiques des algorithmes commencent à être considérées,
en complément des mesures traditionnelles, notamment à travers le classement Green500
et contribuent à une amélioration des performances énergétiques des machines.
251. Calcul intensif pour la mécanique des fluides
Robustesse Les applications déployées sur des machines exascale devront être robustes
aux pannes. En effet, statistiquement, la probabilité qu’un cœur tombe en panne au cours
de l’exécution d’un programme est non négligeable. Des solutions doivent être développées
afin de s’affranchir de la technique traditionnelle de la sauvegarde de l’état complet d’un
programme à un instant donné en vue d’un redémarrage qui devient impossible à mettre en
place dans un tel environnement. De nombreuses techniques sont développées (Dongarra et
al., 2014) afin de pouvoir, d’une part, détecter les pannes et les erreurs introduites dans les
résultats et, d’autre part, effectuer un redémarrage local des processus en échec en utilisant
les données locales pour reconstruire une solution au moment de la panne. Dans ce contexte
l’exécution devient non reproductible.
Quelques stratégies
Les contraintes de ce passage à l’échelle permettent, par nécessité, de dégager quelques
stratégies au niveaux des algorithmes et des méthodes numériques employées. Ces straté-
gies sont détaillées de manière exhaustive par Dongarra et al. (2014). Les auteurs soulignent
notamment que l’utilisation de modèles couplés, de méthodes d’ordre élevé ou de parallé-
lisation en temps permettent d’aboutir à des implémentations susceptibles de s’adapter à
l’architecture des machines. L’intérêt est de pouvoir introduire des considérations maté-
rielles dès la spécification des méthodes numériques et même au niveau de la modélisation
mathématique du problème. D’autre part, au niveau des algorithmes, l’accent est mis sur
la scalabilité des solveurs, l’utilisation d’algorithmes multiniveaux et de librairies de calcul
existantes pour lesquelles les optimisations par rapport aux architectures auront été
réalisées de manière très pointue.
Le cadre applicatif de la mécanique des fluides s’adapte assez bien aux caractéristiques du
calcul intensif. En effet, à travers une application, nous allons pouvoir employer une méthode
de résolution ayant de bonnes propriétés de parallélisation dans l’optique de l’exploitation
de serveurs de calculs hétérogènes. Le développement et l’implémentation de cette méthode
numérique est réalisé dans le cadre défini par l’application que nous détaillons ci-après.
1.3. Transport de scalaire passif dans un écoulement
turbulent
1.3.1. Domaines d’application
De très nombreux phénomènes physiques sont basés, au moins en partie, sur le transport
d’un ou plusieurs scalaires par un écoulement turbulent. Les scalaires correspondent à des
quantités de diverses natures (Shraiman et al., 2000). Dans le domaine de l’environnement,
le scalaire peut représenter un polluant transporté par l’air ou l’eau (Michioka et al., 2008).
En biologie il peut s’agir de l’évolution des concentrations de certaines molécules chimiques,
comme les phéromones, que de nombreuses espèces utilisent pour communiquer ou se repérer
(Murtis et al., 1992) ou encore la concentration de bactéries et de leur nourriture
(Taylor et al., 2012). Le domaine de l’ingénierie est concerné par de nombreux problèmes
261.3. Transport de scalaire passif dans un écoulement turbulent
de ce type, notamment en combustion. Dans ces problèmes, plusieurs scalaires peuvent
être transportés simultanément comme les différentes concentrations en réactifs chimiques
ou encore la fraction de mélange entre le combustible et l’oxydant (Pitsch et al., 2008). La
température est un autre exemple de quantité scalaire, importante dans l’étude de systèmes
de refroidissements (Kuczaj et al., 2010).
Un transport de scalaire peut également être utilisé comme outil de modélisation. Par
exemple, le transport d’une fonction levelset permet de modéliser les interfaces dans un
fluide multiphasique (Tryggvason et al., 2011) ou un objet en mouvement (Sethian et al.,
2003).
1.3.2. Physique du problème
Généralement, le scalaire a une influence sur l’écoulement dans lequel il est transporté.
Par exemple dans les cas où on considère la densité d’un fluide multiphasique, ou encore
lors du transport de concentrations en réactifs chimiques dans une réaction de combustion.
Dans certaines applications, les effets du scalaire sur l’écoulement deviennent négligeables,
ce qui est le cas dans le transport de petits éléments comme des polluants, molécules ou
colorants. Le scalaire est alors passif dans l’écoulement et n’a pas d’effet rétroactif sur le
fluide.
Dans un écoulement turbulent et indépendemment du transport de scalaire, des structures
de différentes tailles se forment. Des structures de grandes tailles sont créées et entretenues
par l’écoulement. Les fluctuations de ces structures génèrent des structures plus
petites qui elles-mêmes génèrent, en cascade, d’autre structures encore plus fines. Un tel
écoulement se caractérise par une large palette de taille de structures s’étalant sur plusieurs
ordres de grandeur. Cependant, à partir d’une certaine échelle, dite de Kolmogorov, les effets
visqueux du fluide deviennent prédominants et engendrent une dissipation de l’énergie
cinétique de l’écoulement (Lesieur, 2008). La longueur de cette échelle ne dépend que des
caractéristiques du fluide dont notamment la viscosité ν. Ainsi, un écoulement turbulent ne
présente pas de structures de tailles inférieures à la longueur de l’échelle de Kolmogorov,
notée ην. Lors d’une simulation directe, DNS en anglais pour Direct Numerical Simulation,
l’écoulement est résolu à toutes les échelles jusqu’à l’échelle de Kolmogorov. Le maillage doit
avoir une longueur de maille suffisamment petite pour capter les plus petites structures de
l’écoulement. Dans les cas où le maillage ne résout pas toutes les échelles, il est nécessaire
de faire appel à un modèle de turbulence permettant de simuler cette dissipation d’énergie
par les petites échelles non résolues (Lesieur et al., 2005 ; Sagaut, 2006).
La dynamique du scalaire se caractérise par deux phénomènes : une dispersion par
convection du scalaire puis sa diffusion. Le premier effet, induit par le fluide turbulent, a pour
conséquence d’étirer les structures du scalaire, de générer des fluctuations à des échelles de
plus en plus petites et d’amplifier ses concentrations locales. De manière similaire au fluide,
l’échelle de Batchelor, notée ηκ, décrit l’échelle de concentration d’un scalaire à partir de
laquelle la diffusion moléculaire devient prédominante (Batchelor, 1958). Là encore, cette
échelle ne dépend que des caractéristiques du fluide, dont la viscosité et du coefficient de
diffusion, noté κ. Cette diffusion permet une dissipation des variations, localement fortes,
du scalaire.
271. Calcul intensif pour la mécanique des fluides
Le nombre de Schmidt, sans dimension, est défini par le rapport entre la viscosité du
fluide et le coefficient de diffusion du scalaire, Sc = ν/κ. Dans la plupart des fluides, le
nombre de Schmidt est grand, au moins égal à 1. Ce nombre permet de relier les échelles
de dissipation du fluide et du scalaire à travers la relation :
ηκ
√
Sc = ην.
En pratique, l’échelle de Batchelor est donc (beaucoup) plus petite que l’échelle de Kolmogorov.
Cela implique que le transport du scalaire développe des structures plus petites que
les plus petites structures développées par le fluide. Pour de grands nombre de Schmidt,
la dynamique du scalaire est essentiellement donnée par l’advection du scalaire sous l’effet
du fluide. Un cadre théorique décrit l’influence du nombre de Schmidt sur des quantités
statistiques du scalaire. En particulier, la décroissance du spectre de variance du scalaire,
en fonction du nombre d’onde k, est modélisé par une loi de puissance en k
−5/3 qui est associée
au transfert d’énergie en cascade vers les petites échelles. Cette décroissance est suivie
d’une loi en k
−1 puis de la dissipation par les plus petites échelles. Cette lente décroissance
renforce la nécessité d’une résolution des petites échelles de l’écoulement.
1.3.3. Formulation mathématique
Un problème de transport d’un scalaire dans un fluide incompressible turbulent est
modélisé par les équations de Navier-Stokes (1.10) pour la partie fluide et une équation
de convection et diffusion pour le transport du scalaire. Ces deux parties sont liées par le
champ de vitesse. Le problème consiste en le système d’équations suivant, en considérant
une densité ρ = 1 et en l’absence de forces extérieures fe = 0 :
div u = 0,
Du
Dt
=
∂u
∂t + (u · ∇)u
= −∇P + ν∆u,
Dθ
Dt
=
∂θ
∂t + (u · ∇)θ = κ∆θ
(1.37)
Les trois inconnues du problème sont le champ de vitesse u, la pression P et le scalaire
passif θ.
Dans le cadre d’un scalaire actif, l’effet sur l’écoulement est généralement pris en compte
à travers une force fθ présente au second membre de la seconde équation du système. Ici,
à travers le couplage faible entre les deux parties, nous obtenons une décomposition du
problème global en deux sous-problèmes quasi indépendants. En effet, le champ de vitesse
peut être vu simplement comme une donnée d’entrée du problème de transport de scalaire.
Conclusion
À partir d’un même problème mathématique, différentes méthodes numériques peuvent
être envisagées. Le choix de l’une ou l’autre dépend des objectifs visés, des applications
considérées et des architectures de calcul disponibles. Dans ce chapitre, nous avons exposé
281.3. Transport de scalaire passif dans un écoulement turbulent
les grandes lignes des méthodes classiques relativement à la résolution d’un problème de
mécanique des fluides. L’utilisation d’une méthode numérique permet de discrétiser un
problème continu pour en approcher une solution. Leur point commun est que la précision de
la solution dépend de la finesse de la discrétisation et de l’ordre d’approximation du schéma
numérique. Ces deux paramètres ont une forte incidence sur le temps de calcul. Ce dernier
peut rapidement devenir prohibitif en l’absence d’utilisation de techniques de parallélisation
et d’optimisation du code. L’exploitation des machines de calcul, dont l’architecture peut
être fortement hétérogène, dans le cadre du calcul intensif, implique une prise en compte
du matériel et des technologies employées dès la conception des algorithmes. L’importance
de cette prise en compte est encore plus grande lors de l’utilisation d’une grande quantité
de ressources, notamment dans la perspective de l’évolution des machines vers l’exascale.
Le transport d’un scalaire passif par un écoulement turbulent nous conduit à résoudre un
problème, composé de deux parties assez indépendantes, présentant plusieurs échelles. Dans
la suite, nous mettons en place une résolution basée sur différentes méthodes ainsi que des
algorithmes multiéchelles.
292. Méthode particulaire pour
l’équation de transport
Comme nous l’avons exposé dans le chapitre 1, la modélisation du transport d’un scalaire
passif dans un écoulement turbulent s’effectue à l’aide un système d’équations continues
constitué des équations de Navier-Stokes et d’une équation d’advection-diffusion du scalaire.
Ces deux équations présentent une équation de transport, une pour la vorticité et l’autre
pour le scalaire. Parmi les différentes techniques de résolution possibles, ce travail se base
sur le développement d’une méthode semi-Lagrangienne. En effet, elle permet de combiner
les avantages des méthodes Lagrangiennes tout en se basant sur une structure de donnée
régulière. Ainsi, cette méthode nous permet de choisir de grands pas de temps pour la
réalisation de simulations numériques tout en bénéficiant de la régularité des données liée
à la présence de la grille sous-jacente.
Dans une première partie de ce chapitre, nous présenterons un état de l’art des méthodes
particulaires semi-Lagrangiennes. Elles consistent en une méthode Lagrangienne avec une
étape de remaillage systématique à chaque itération permettant de remédier aux éventuels
problèmes de distorsions du champ de particules. Elles se distinguent des méthodes semiLagrangiennes
classiques (backward) par une descente des caractéristiques. Cette méthode
particulaire semi-Lagrangienne (forward) explicite peut être formalisée comme un schéma
aux différences finies à travers le remaillage. Une analyse des schémas ainsi obtenus est possible
en utilisant une approche propre à la méthode des différences finies. Nous présenterons
également les différentes techniques de construction des formules de remaillage ainsi qu’un
exemple d’implémentation.
Dans une seconde partie, nous proposerons une méthode systématique pour obtenir des
méthodes particulaires semi-Lagrangiennes d’ordres élevés. L’augmentation de l’ordre est
obtenu par l’utilisation de formules de remaillage ayant une forte régularité et conservant un
grand nombre de moments. Une nouvelle méthode de construction de ces formules permet
de produire des formules d’ordre arbitraire. Des analyses de stabilité et consistance seront
réalisées pour la méthode semi-Lagrangienne utilisant cette classe de formules de remaillage.
312. Méthode particulaire pour l’équation de transport
2.1. Méthode particulaire avec remaillage
2.1.1. Deux classes de méthodes semi-Lagrangiennes
À l’origine, les méthodes semi-Lagrangiennes ont été développées pour la résolution
d’écoulements dominés par l’advection, essentiellement dans le domaine de la météorologie
(Staniforth et al., 1991). Leur principe général est basé sur l’exploitation des caractéristiques
en chaque point d’une grille et de combiner les avantages des méthodes Eulériennes et Lagrangiennes.
En effet, elles reposent sur le fait que la quantité transportée est invariante le
long des caractéristiques. Dans une méthode semi-Lagrangienne rétrograde classique (backward
semi-Lagrangian method en anglais) la résolution consiste à remonter la trajectoire
depuis un point de grille et interpoler la quantité transportée au point de départ. Le résultat
de l’interpolation donne directement la valeur de la quantité au point de grille considéré.
Une seconde classe dont principe est similaire repose sur une descente des caracté-
ristiques est appelée forward semi-Lagrangian method. Après intégration de l’équation de
mouvement, l’étape de distribution de la quantité transportée sur les points de grille est
réalisée de manière implicite et nécessite la résolution d’un système dont la complexité dé-
pend de la nature de l’interpolation employée. La seule différence se situe dans le traitement
des contributions sur les points de grille. Une comparaison avec la méthode classique a été
proposée par Crouseilles et al. (2009) sur différents modèles d’équations de Vlasov pour la
simulation de plasmas. Nous illustrons les deux classes de méthodes par les figures 2.1.
(a) Backward (b) Forward
Figure 2.1. – Méthodes semi-Lagrangiennes
La méthode particulaire avec remaillage que nous détaillons dans la suite de ce chapitre
est très similaire à la méthode forward mais en utilisant un schéma explicite. Notre méthode
permet facilement de monter en ordre et est conservative.
322.1. Méthode particulaire avec remaillage
2.1.2. Principe général de la méthode particulaire avec
remaillage
Une méthode particulaire permet de résoudre une équation de transport :
∂u
∂t + div(au) = 0, (2.1)
où la quantité u est transportée à vitesse a. Comme nous l’avons évoqué en section 1.1.2,
la quantité u est discrétisée sur un ensemble de particules et est approchée en tout point
de l’espace par l’expression :
u(x) = X
p
upWε(x − xp),
avec up la quantité portée par la particule p, Wε une fonction de régularisation et xp la
position d’une particule. L’évolution des particules est soumise au champ de vitesse de
l’écoulement et leurs trajectoires sont données par les équations :
dxp
dt
= a(xp, t).
La présence d’un éventuel second membre dans l’équation de transport (2.1) se traduit
par une équation d’évolution de la quantité transportée par les particules. Par exemple, pour
une équation de transport de vorticité ω à vitesse u, issue des équations de Navier-Stokes :
∂ω
∂t + u · ∇ω = ω · ∇u + ν∆ω,
le second membre conduit aux équations suivantes :
dωp
dt
= ωp∇u(xp) + ν∆ω(xp).
Un inconvénient bien connu des méthodes particulaires est qu’au cours de l’évolution
de la simulation, les particules ont des trajectoires qui suivent le champ de vitesse. Par
conséquent, il peut arriver que ces particules se retrouvent trop éloignées les unes des autres
ou inversement regroupées dans une petite région du domaine. Ainsi, selon les zones de
l’écoulement, on assiste à une dégradation de la représentation des champs par manque ou
excès de particules. Un contrôle du recouvrement des particules est alors nécessaire pour
assurer de la convergence de la méthode. Dans de nombreuses implémentations de cette
méthode, une redistribution des particules sur une grille est appliquée régulièrement au cours
de la simulation afin de garantir un recouvrement suffisant et les propriétés de consistance
de la méthode (Koumoutsakos et al., 1995). Une méthode semi-Lagrangienne est obtenue
lorsque le remaillage est effectué systématiquement après chaque étape d’advection. Cela
permet également une représentation des variables sur la grille et d’exploiter des méthodes
de décomposition de domaine (Cottet, 1991 ; Ould Salihi et al., 2000 ; Cottet et al., 2000 ;
Cocle et al., 2008), d’adaptation automatique de maillage (Bergdorf et al., 2005) ou de
multirésolution basée sur des ondelettes (Bergdorf et al., 2006). Ainsi, les termes au second
membre des équations de transport peuvent être résolus sur la grille et non sur les particules.
332. Méthode particulaire pour l’équation de transport
Par conséquent, la quantité transportée par les particules est conservée lors de l’advection
car la trajectoire des particules suit les caractéristiques et on a :
dup
dt
= 0.
Ainsi, dans ce type de méthode, les particules sont créées au début de chaque étape d’advection
et sont détruites par le remaillage. En pratique, on ne crée des particules qu’aux
points de grille où la quantité transportée par les particules est supérieure à une certaine valeur
seuil fixée à l’avance. Cela permet d’éviter le traitement, par advection puis remaillage,
de particules dont la quantité transportée est nulle ou négligeable.
Le remaillage consiste en une interpolation des particules sur la grille à l’aide d’un
noyau de remaillage, également appelé formule de remaillage. Le cas multidimensionnel
est généralement traité par produit tensoriel de noyaux monodimensionnels. Cependant,
comme nous le verrons par la suite, ces formules ont généralement un coût arithmétique
élevé en 3D si des noyaux avec un large support sont utilisés. La figure 2.2 illustre une étape
de résolution pour un cas 2D où la taille des disques représente les valeurs portées par les
particules. Après un déplacement des particules selon le champ de vitesse représenté par
les flèches en trait épais sur la figure 2.2b, les particules sont remaillées sur les S points de
grille voisins. Les contributions d’une particule sur les points de grille sont représentées par
des flèches en trait fin. La particule colorée sur la figure 2.2a est répartie dans les valeurs
des points de grille colorés selon la contribution sur la figure 2.2c.
(a) Instant t
n (b) Advection et remaillage (c) Instant t
n+1
Figure 2.2. – Remaillage par produit tensoriel
Magni et al. (2012) proposent une alternative à la résolution multidimensionnelle basée
sur un splitting dimensionnel. Cette méthode permet de découpler les directions spatiales à
travers la résolution de problèmes monodirectionnels en alternant les directions. Le splitting
de Strang, d’ordre deux en temps, conduit à résoudre, pour un problème 2D, une première
direction sur l’intervalle [t
n
;t
n+1/2
[, la seconde direction sur un pas de temps complet et revenir
à la première direction pour terminer l’itération sur [t
n+1/2
;t
n+1[. En trois dimensions,
l’algorithme est identique, toutes les étapes sont réalisées sur des demi pas de temps excepté
la troisième direction. Nous illustrons ce splitting dimensionnel en figure 2.3 en utilisant les
342.1. Méthode particulaire avec remaillage
mêmes conventions que pour l’illustration précédente. Dans un souci de clarté, l’exemple
ne concerne qu’un splitting du premier ordre qui, selon le même principe, consiste en une
alternance des directions pour des pas de temps complets. À chaque étape, une particule est
remaillée seulement sur les S points voisins dans la direction concernée, soit respectivement
3S et 5S contributions par particule pour une itération complète de la formule de Strang
en 2D et en 3D, au lieu de S
2
et S
3 pour un remaillage tensoriel.
(a) Instant t
n (b) Advection et remaillage, direction
X
(c) État intermédiaire
(d) Advection et remaillage, direction
Y
(e) Instant t
n+1
Figure 2.3. – Remaillage par splitting dimensionnel du premier ordre
À travers l’utilisation d’un splitting dimensionnel de Strang, la résolution d’une équation
de transport multidimensionnelle se réduit à une succession de problèmes 1D. Cela permet
d’obtenir un coût de calcul proportionnel au nombre de particules dont la constante multiplicative
dépend uniquement de la formule de remaillage. Dans un remaillage tensoriel,
chaque particule contribue une fois par itération à S
3
(S
2
) points de grilles voisins en 3D
(2D). En revanche, dans notre cas, une itération est constituée de plusieurs étapes dans
lesquelles une particule contribue simplement aux S points de grille. D’autres avantages en
termes de complexité algorithmique seront donnés ultérieurement.
352. Méthode particulaire pour l’équation de transport
2.1.3. Cas monodimensionnel
La méthode semi-Lagrangienne d’advection avec remaillage est donnée ici pour une
équation de transport monodimensionnelle :
∂u
∂t +
∂
∂x(au) = 0. (2.2)
On note la vitesse, a et la quantité transportée par les particules, u. À chaque instant, ces
deux variables sont connues en chaque point de la grille.
À chaque itération temporelle de la méthode, les particules sont initialisées à un instant
t
n
, en chaque point de grille x˜
n
i = xi avec u˜
n
i = u
n
i
pour la quantité transportée. Puis l’équation
de mouvement est résolue pour chaque particule à l’aide d’un schéma d’intégration en
temps. La nouvelle position de la particule i, x˜
n+1
i
est la solution du problème suivant :
d˜xi
dt
= a(˜xi) t ∈ [t
n
, tn+1[,
x˜
n
i = xi
.
(2.3)
En pratique, pour chaque particule, le problème (2.3) est résolu par un schéma d’inté-
gration explicite. La vitesse de la particule i, a(˜xi), est supposée constante tout au long de
l’intervalle de temps [t
n
;t
n+1[ et son approximation est notée a˜
n
(˜xi). Dans un cadre multié-
chelle, la vitesse est connue sur une grille plus grossière que celle du scalaire, on utilise alors
une interpolation linéaire du champ de vitesse pour obtenir l’approximation a˜
n
en un point
de la grille fine. Dans le cas d’une même résolution pour les deux grilles, l’approximation
du champ de vitesse sur un point de grille est directement donnée par la valeur de la vitesse
en ce point, sans interpolation, a˜
n
(xi) = a
n
i
. Pour une intégration du premier ordre, avec
un schéma d’Euler, la position de la particule après advection s’exprime par :
x˜
n+1
i = xi + a
n
i ∆t. (2.4)
Comme nous l’avons exposé précédemment, un splitting de Strang du second ordre est
utilisé pour les cas multidimensionnels. Cela implique l’utilisation d’un schéma d’intégration
d’ordre plus élevé afin de conserver le second ordre en temps. En utilisant un schéma de
Runge-Kutta, du second ordre, la position de la particule est donnée par l’expression :
x˜
n+1
i = xi + ˜a
n
xi + a
n
i
∆t
2
∆t. (2.5)
Ici encore, la valeur du champ de vitesse a
n
i
n’est utilisée directement que dans les cas d’une
même résolution pour la vitesse et le scalaire, sinon une interpolation linéaire supplémentaire
est nécessaire.
Après déplacement des particules, l’étape de remaillage permet de redistribuer les quantités
portées par les particules sur la grille. Cette étape est réalisée à l’aide du noyau de
remaillage W :
u
n+1
i =
X
p
u
n
pW
x˜
n+1
p − xi
∆x
!
(2.6)
362.1. Méthode particulaire avec remaillage
2.1.4. Lien avec la méthode des différences finies
Comme nous l’avons vu précédemment, une particule initialement au point de grille
xp se retrouve après advection, par la résolution de (2.3), en position x˜p, transportant la
quantité up. Ensuite la particule est remaillée sur les 2S points de grille voisins de x˜p par
un noyau de remaillage Λp,r. Si on note xi
le point de la grille le plus proche à gauche de
x˜p, la quantité up est distribuée sur les points de grille d’indices [i − S + 1;i + S], comme
l’illustre la figure 2.4.
Particules
Grille
i − 2 i − 1 i i + 1 i + 2 i + 3
x˜p
Figure 2.4. – Remaillage d’une particule pour un noyau de support [−2; 2]
De même, un point de la grille se voit collecter toutes les contributions de particules
situées à sa proximité indépendemment du nombre de particules. En effet, le nombre de
particules par cellules peut changer (c.-à-d. être différent de un) selon les variations locales
du champ de vitesse. Toutefois, les particules ne peuvent se croiser au cours de l’advection
lorsque le pas de temps est contraint par une condition CFL Lagrangienne :
∆t||a
0
||∞ 6 C (2.7)
Particules
Grille
i
Figure 2.5. – Remaillage sur un point de grille pour un noyau de support [−2; 2]
La méthode d’advection suivie d’un remaillage montre une similarité avec la méthode
des différences finies. Nous l’illustrons sur un exemple linéaire simple, lorsque le nombre CFL
des particules, λi = ai∆t/∆x, est inférieur à 1 et que la vitesse est positive. En utilisant la
formule de remaillage à deux points (2.10), les poids sont donnés par :
αi = 1 − λi
, βi = λi
.
Cette configuration est schématisée sur la figure 2.6.
αi−1 βi−1 αi βi
λi−1 λi λi+1
i − 1 i i + 1
i − 1 i i + 1
Instant t
n
Instant t
n+1
Advection
Remaillage
Figure 2.6. – Analogie entre le remaillage et les différences finies
372. Méthode particulaire pour l’équation de transport
À l’issue du remaillage, le point de grille d’indice i collecte des contributions des particules
i − 1 et i :
u
n+1
i = βi−1u
n
i−1 + αiu
n
i
= λi−1u
n
i−1 + (1 − λi)u
n
i
=
a
n
i−1u
n
i−1∆t
∆x
+ u
n
i −
a
n
i u
n
i ∆t
∆x
On reconnaît ici aisément un schéma aux différences finies du premier ordre consistant avec
l’équation de transport :
u
n+1
i − u
n
i
∆t
=
(au)
n
i−1 − (au)
n
i
∆x
Cette approche permet à Cottet et al. (2006) de démontrer le parallèle entre cette
méthode semi-Lagrangienne et le schéma de Lax-Wendroff pour l’équation de Burgers. Les
auteurs distinguent les cas linéaires et non linéaires. Pour une équation à vitesse constante,
l’utilisation d’une formule de remaillage de support [−1.5; 1.5] conservant les trois premiers
moments conduit, lorsque la CFL est inférieure à 1/2, à un schéma aux différences fines de
Lax-Wendroff. Pour une CFL dans [1/2; 1], le schéma obtenu est décentré. Une formule de
remaillage de support [−2; 2] conservant quatre moments est également analysée et conduit
à un schéma d’ordre 3. Le cas non linéaire est bien plus complexe et n’est étudié que pour la
formule Λ2 et une CFL inférieure à 1/2. Le schéma aux différences finies obtenu est d’ordre
deux si les particules sont advectées avec un schéma également d’ordre deux. Un point
intéressant de cette étude est que l’ordre des schémas obtenus ne dépend pas explicitement
de la formule de remaillage mais simplement du nombre de moments qu’elle conserve.
L’exploitation des outils de la méthodologie des différences finies permet à Cottet et
al. (2009b) de développer des limiteurs pour les formules de remaillage Λ2. Les auteurs se
restreignent à des CFL inférieures à 1 dans les cas linéaires et non linéaires pour l’équation
de Burgers. En pratique des CFL plus grandes sont traitées en deux étapes. Les particules
sont d’abord advectées sans remaillage sur la partie entière de la CFL puis advectées et
remaillées avec une CFL inférieure à 1.
Plus récemment, Magni et al. (2012) étendent la construction de formules de remaillage
avec limiteurs d’ordre 2 et 4 corrigées pour pouvoir traiter le cas de grands pas de temps.
En effet, lors d’une advection avec une CFL supérieure à 1, les nombres CFL peuvent
varier d’une particule à l’autre ce qui entraîne une perte de consistance avec l’équation de
transport. L’idée développée consiste en un regroupement des particules en blocs selon leur
nombre CFL local. Les particules d’un même blocs sont remaillées soit avec une formule
de remaillage centrée soit décentrée à gauche. Ainsi, au sein des blocs, la consistance est
assurée directement. Par contre, entre deux blocs de types différents, la consistance de la
méthode nécessite une correction des formules de remaillage selon les nombres CFL locaux
des particules à l’interface entre les blocs. Les corrections consistent en une modification du
nombre de points de grille sur lesquels ces particules sont remaillées. La consistance pour
les grands pas de temps conduit à des formules de remaillage de plus grande complexité
algorithmique du fait de l’étape de construction des blocs et de choix de la correction à
appliquer.
Enfin, Weynans et al. (2013) proposent une extension des formules de remaillage avec
limiteurs dans le cas non linéaire pour une vitesse de signe quelconque. Les auteurs proposent
également une preuve de convergence de la méthode en utilisant leurs schémas. Cette
382.1. Méthode particulaire avec remaillage
démonstration est réalisée dans le cadre de la résolution d’une équation de Burgers. Il s’agit,
à notre connaissance, de la seule preuve de convergence des méthodes particulaires pour
l’équation de Burgers.
2.1.5. Construction des formules de remaillage
Du fait de leur nature, les méthodes particulaires sont adaptées à la résolution d’équations
de conservation. Il est donc impératif que le remaillage, par l’équation (2.6), possède
également ces propriétés de conservation des moments des quantités transportées. Mathé-
matiquement le moment discret d’ordre p d’une quantité u est défini par :
X
i
x
p
i
ui
. (2.8)
Par conséquent, un noyau de remaillage doit satisfaire les égalités de conservation des moments
discrets d’ordre α suivantes :
X
i
x
α
i u
n+1
i =
X
i
x
α
i u
n
i
, 0 6 α 6 p,
ou encore, en utilisant la relation (2.6) :
X
k∈Z
k
αW(x − k) = x
α
, 0 6 α 6 p, x ∈ R. (2.9)
Construction à partir des moments discrets
La première catégorie de noyaux est obtenue directement à partir des relations (2.9) et
les noyaux sont notés Λp, pour un noyau conservant les moments d’ordre 0 à p. Le support
est fixé à une largeur égale à p + 1 et le noyau est défini par une fonction polynomiale par
morceaux de p + 1 polynômes de degrés p. Les p
2 + p coefficients sont alors obtenus de
manière à vérifier les relations (2.9). Cette méthode permet notamment d’obtenir le noyau
d’interpolation linéaire :
Λ1(x) = (
1 − |x| si |x| 6 1
0 sinon
(2.10)
Les quatre premiers noyaux de cette classe sont représentés en figure 2.7. Comme le montre
la figure 2.7, certains de ces noyaux ne sont pas continus. Les pertes de précisions numérique
dues au manque de régularité de ces noyaux ont été étudiées par Cottet et al. (2009b).
L’ordre du remaillage peut être conservé à l’aide de corrections locales.
Construction à partir de B-splines
Une seconde classe de noyaux est obtenue à partir de B-splines régulières (Schoenberg,
1946) :
Mp(x) = 1
2π
Z ∞
−∞
sin ξ/2
ξ/2
p
e
iξxdξ. (2.11)
392. Méthode particulaire pour l’équation de transport
−0.2
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2 2.5 3 3.5 4
Λ1(x)
Λ2(x)
Λ3(x)
Λ4(x)
Figure 2.7. – Noyaux de remaillage de type Λp
Ainsi un noyau Mp sera de classe C
p−2 avec un support de largeur 2p − 3. La figure 2.8
représente quelques noyaux de type Mp. On remarque que M1 est la fonction chapeau
de support [−1/2; 1/2] et que M2 = Λ1. Cependant, ces noyaux ne permettent qu’une
conservation des deux premiers moments uniquement.
−0.2
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2 2.5 3 3.5 4
M1(x)
M2(x)
M4(x)
M8(x)
Figure 2.8. – Noyaux de remaillage de type Mp
Extrapolation à partir de noyaux réguliers
En utilisant l’extrapolation de Richarson, Monaghan (1985) produit des noyaux basés
sur les fonctions Mp et leurs dérivées afin d’obtenir des ordres plus élevés en conservant leur
régularité. On construit alors un noyau de la forme W(x) = Pp/2
c=0 ckx
kM
(k)
p (x). Les coeffi-
402.1. Méthode particulaire avec remaillage
cients ck sont obtenus de telle sorte que le nouveau noyau vérifie les conditions suivantes :
Z
W(x)dx = 1,
Z
x
αW(x)dx = 0, 1 6 α 6 p,
ce qui conduit à la résolution d’un système linéaire. Seules les contraintes pour α pair sont
à considérer, car les moments impairs sont nuls par symétrie des noyaux. Par exemple, pour
le noyau M4, on est ramené à la résolution du système :
R
M4(x)dx
R
xM0
4
(x)dx
R
x
2M4(x)dx
R
x
3M0
4
(x)dx
c0
c1
=
1 −1
1/3 −1
c0
c1
=
1
0
,
dont la solution est c0 = 3/2 et c1 = 1/2. On obtient donc le noyau noté M0
4
. Par construction,
ce noyau est de classe C
1
, comme M4 est C
2
, mais il conserve les moments jusqu’à
l’ordre 3. Il est utilisé dans la plupart des implémentations depuis la fin des années 90
(Koumoutsakos, 1997 ; Ould Salihi, 1998).
M0
4
(x) = 1
2
3M4(x) + x
dM4
dx
(x)
M0
4
(x) =
1 −
5
2
|x|
2 +
3
2
|x|
3
si |x| 6 1
1
2
(1 − |x|)(2 − |x|)
2
si 1 < |x| 6 2
0 sinon
(2.12)
−0.2
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2 2.5 3 3.5 4
M0
4(x)
M0
5(x)
M0
8(x)
Figure 2.9. – Noyaux de remaillage type M0
p
Un comparatif de ces différents noyaux est donné dans le tableau 2.1 en termes de
moments conservés, de régularité, de largeur de support et de degré polynomial.
412. Méthode particulaire pour l’équation de transport
Nom Moment maximal conservé Régularité Support Degré
Λ1 1 C
0
[−1; 1] 1
Λ2 2 - [−1, 5; 1, 5] 2
Λ3 3 C
0
[−2; 2] 3
Λ4 4 - [−2, 5; 2, 5] 4
M1 1 - [−0, 5; 0, 5] 0
M2 1 C
0
[−1; 1] 1
M4 1 C
2
[−2; 2] 3
M8 1 C
6
[−4; 4] 7
M0
4
2 C
1
[−2; 2] 3
M0
5
3 C
2
[−2, 5; 2, 5] 4
M0
8
4 C
4
[−4; 4] 7
Tableau 2.1. – Comparatif des différents noyaux de remaillage de la littérature.
2.1.6. Exemple d’implémentation
La principale implémentation de méthodes semi-Lagrangiennes (également appelées mé-
thodes particules-grille) a été proposée par Sbalzarini et al. (2006). La librairie PPM (Parallel
Particle-Mesh) repose sur une unification de méthodes de grilles et de méthodes particulaires
à travers des interpolations entre les particules et la grille. Cette librairie propose
une interface pour l’exploitation de machines à mémoire distribuée de manière transparente
pour l’utilisateur. Le parallélisme est géré par des méthodes de décomposition de domaine
et d’adaptation de charge. Des algorithmes efficaces pour l’évaluation des interactions entre
particules, des méthodes de grilles globales utilisant des FFT et des solveurs multigrille ainsi
que des interpolations entre les particules et la grille conduisent à de bonnes performances
numériques.
Dans la suite de ce chapitre nous exposons une méthode de construction de formules
de remaillage dont les propriétés de régularité et du nombre de moments conservés sont
choisis arbitrairement. Nous considérons ensuite ces formules dans des études de consistance
et de stabilité des schémas ainsi obtenus. Nous observons que l’ordre de la méthode
semi-Lagrangienne dépend directement du nombre de moments conservés par la formule
de remaillage ainsi que de sa régularité. Les détails techniques des étapes d’advection et
remaillage propres à l’implémentation seront donnés dans les chapitres 5 et 6.
2.2. Advection semi-Lagrangienne d’ordre élevé
2.2.1. Construction de formules de remaillage d’ordre élevé
Une caractéristique intéressante des noyaux de type Λp est la propriété d’interpolation
suivante :
Λp(x) = (
1, si x = 0
0, si x ∈ Z
∗
.
(2.13)
422.2. Advection semi-Lagrangienne d’ordre élevé
Cette propriété permet une conservation exacte de la quantité remaillée pour les particules
dont la position coïncide avec un point de grille, en particulier si la vitesse est nulle. En
pratique, l’utilisation de noyaux possédant cette propriété donne des résultats plus précis.
Cependant, les noyaux réguliers de type Mp et M0
p perdent cette propriété. Dans cette
section, nous donnons une méthode de construction de noyaux de remaillage d’ordre élevé,
réguliers et vérifiant la propriété (2.13). Le principe est similaire à celui employé pour la
construction des noyaux de type Λp, donnée en Section 2.1.5. Il s’agit de trouver une fonction
vérifiant les propriétés suivantes :
P1 : parité ;
P2 : support compact [−S, S] ;
P3 : polynomiale par morceaux de degré q sur les intervalles entiers ;
P4 : régularité C
r
;
P5 : conservation les moments jusqu’à l’ordre p, selon l’égalité (2.9) ;
P6 : vérification de la propriété d’interpolation (2.13).
Ces propriétés conduisent à l’expression d’une régularité des noyaux Λp,r en terme d’espaces
fonctionnels :
Λp,r ∈ C
∞ (]l, l + 1[), l ∈ Z,
Λp,r ∈ Wr+1,∞(R) = n
f ∈ L
∞(R), ∀l ∈ N
∗
, l 6 r + 1, D
l
f ∈ L
∞
o
,
(2.14)
où Dlf est la dérivée d’ordre l de f au sens des distributions.
Les propriété P1, P2 et P3 permettent de restreindre la recherche à seulement S polynômes
de degré q, soit S(q + 1) coefficients inconnus. Le noyau s’écrit donc de manière
générale :
Λp,r(x) = (
Qi(x), si i 6 |x| < i + 1, i = 0 . . . S − 1
0 sinon,
avec
Qi(x) = X
q
k=0
c
i
k
|x|
k
.
Avec ces notations, la propriété P4 implique que q > r ainsi que les (r + 1)(S + 1)
contraintes de raccords entre les polynômes aux points de coordonnées entières du support :
Q
(j)
i
(i + 1) = Q
(j)
i+1(i + 1), 0 6 j 6 r, 1 6 i 6 S − 1,
Q
(j)
0
(0) = (
1 si j = 0
0 sinon
, 0 6 j 6 r,
Q
(j)
S−1
(S) = 0, 0 6 j 6 r.
Les p+ 1 égalités polynomiales imposées par la propriété P5 se traduisent par (1+p)(q + 1)
contraintes sur les coefficients polynomiaux. Cependant, par parité des noyaux, les moments
432. Méthode particulaire pour l’équation de transport
Nom Moment maximal conservé Régularité Support Degré
Λ2,1 2 C
1
[−2; 2] 3
Λ2,2 2 C
2
[−2; 2] 5
Λ4,2 4 C
2
[−3; 3] 5
Λ4,4 4 C
4
[−3; 3] 9
Λ6,4 6 C
4
[−4; 4] 9
Λ6,6 6 C
6
[−4; 4] 13
Λ8,4 8 C
4
[−5; 5] 9
Tableau 2.2. – Comparatif de quelques noyaux de remaillage de type Λp,r.
d’ordre impair ne conduisent pas à des contraintes supplémentaires car elles sont vraies
quelque soient les coefficients c
i
k
. On ne retient donc que (1 + [p/2])(q + 1) contraintes.
Enfin, la propriété d’interpolation conduit à S − 1 contraintes supplémentaires, les valeurs
aux points de coordonnées 0 et S étant redondantes avec les contraintes issues de P4. Nous
avons donc au total S(r + 2) + (1 + [p/2])(q + 1) + r contraintes. Des solutions uniques sont
envisageables si :
S(q + 1) 6 S(r + 2) + (1 + [p/2])(q + 1) + r. (2.15)
Pour un couple de (S, q) donné et en considérant l’ordre p et la régularité r comme fixés,
l’ensemble de ces contraintes conduit à un système linéaire dont les inconnues sont les
coefficients polynomiaux c
k
i
. Comme les contraintes de conservation des moments d’ordre
impair sont vérifiées par parité, un choix naturel est de prendre p pair. Dans ce cas, en
prenant S = 1 + p/2, l’inégalité 2.15 est vérifiée car S(r + 2) + r > 0. Expérimentalement,
nous obtenons des solutions uniques en prenant, en plus des deux hypothèses précédentes,
q = 2r + 1. Les noyaux obtenus par cette méthode sont notés Λp,r. Nous retrouvons le
noyau M0
4 = Λ2,1 ainsi que le noyau Λ4,2 qui a été introduit par Bergdorf et al. (2006) sous
la notation M000
6
. Les caractéristiques des noyaux utilisés dans la suite sont résumées dans
le tableau 2.2 et leurs expressions sont données en annexe A. Une représentation de ces
noyaux est donnée en figure 2.10.
Cette méthode de construction de formules de remaillage permet de contrôler explicitement
le nombre de moments conservés p ainsi que la régularité du noyau r. Ces deux
paramètres, nous le verrons au cours de l’analyse de consistance qui suit, sont en lien direct
avec la précision du schéma et l’ordre numérique de la méthode. Ainsi, une méthode d’ordre
élevé sera obtenue en utilisant des formules avec p et r grands. Cependant, l’augmentation
du nombre de moments conservés par les formules de remaillage conduit à un élargissement
du support des noyaux. Cela a pour conséquence qu’un plus grand nombre de points de
grille seront contenus dans le support de la formule impliquant une plus grande complexité
en terme d’accès aux données lors de l’implémentation. D’autre part, l’augmentation de la
régularité de la formule implique une augmentation du degré des polynômes constituant
les noyaux. L’incidence de cette augmentation se traduit par une plus grande complexité
numérique lors de l’évaluation de ces fonctions pour le calcul des poids de remaillage.
442.2. Advection semi-Lagrangienne d’ordre élevé
−0.2
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2 2.5 3 3.5 4
Λ2,1
Λ2,2
Λ4,2
Λ4,4
Λ6,4
Λ6,6
Λ8,4
Figure 2.10. – Noyaux de remaillage de type Λp,r
Utilisation des poids de remaillage
En pratique, on exprime les poids de remaillage en fonction de la distance entre la
particule et le point de grille le plus proche. Le support est découpé en intervalles de
longueur égale à la distance entre deux points de grille sur lesquels la formule s’identifie à
un polynôme. Ainsi, on a exactement un point de grille dans chaque morceau d’intervalle,
ce qui conduit à l’expression de 2S poids de remaillage. La figure 2.11 illustre l’obtention
des poids de remaillage pour une formule Λ2,1, de support de longueur 4.
Λ2,1(x) =
1 −
5
2
|x|
2 +
3
2
|x|
3 = p0(|x|) 0 6 |x| < 1
2 − 4|x| +
5
2
|x|
2 −
1
2
|x|
3 = p1(|x|) 1 6 |x| < 2
0 |x| > 2
Particules
Grille
xi
y
x˜p
Λ2,1(x)
x
x
x
x
p1(−x) p0(−x) p0(x) p1(x)
-2 -1 0 1 2 x
y
α(y) β(y) γ(y)
δ(y)
Figure 2.11. – Obtention des poids de remaillage pour une formule de support [−2; 2]
452. Méthode particulaire pour l’équation de transport
Lorsque xi est le point de grille le plus proche de coordonnée inférieure à x˜p, y est défini
comme la distance normalisée entre ces deux points : y = (˜xp − xi)/∆x, y ∈ [0; 1]. De ce
fait, on obtient les poids en fonction de y :
α(y) = Λ2,1(−1 − y) = p1(y) = y + y
2 −
1
2
y
3
,
β(y) = Λ2,1(−y) = p0(y) = 1 −
5
2
y
2 +
3
2
y
3
,
γ(y) = Λ2,1(1 − y) = p0(1 − y) = 1
2
y + 2y
2 −
3
2
y
3
,
δ(y) = Λ2,1(2 − y) = p1(1 − y) = −
1
2
y
2 +
1
2
y
3
.
Les poids sont donnés pour les formules de type Λp,r en annexe A. Pour les formules
d’ordre élevé, les poids de remaillage sont de degré assez grand. Une implémentation efficace
de l’évaluation de ces polynômes est réalisée par la méthode de Horner :
α(y) = y(y(−y + 2) − 1)/2,
β(y) = (y
2
(3y − 5) + 2)/2,
γ(y) = y(y(−3y + 4) + 1)/2,
δ(y) = y
2
(y − 1)/2.
Ainsi ce schéma permet de minimiser le nombre d’opérations arithmétiques pour l’évaluation
de ces polynômes en évitant notamment le calcul des termes en y
n
. L’évaluation d’un
polynôme de degré q ne nécessite que 2q additions et multiplications au lieu des q(q + 1)/2
pour un algorithme naïf.
Précision numérique du schéma d’Horner
Lors de l’évaluation d’un polynôme par le schéma d’Horner, la précision numérique
atteinte, en tenant compte des erreurs d’arrondi, dépend du degré et du conditionnement
du polynôme. L’erreur relative pour l’évaluation d’un polynôme p(x) = Pq
i=0 aix
i par un
schéma de Horner est bornée par (Higham, 2002) :
|p(x) − Horner(p, x)|
|p(x)|
6 Kq cond(p, x) = Kq
Pq
i=0 |ai
||x
i
|
|
Pq
i=0 aix
i
|
.
La constante Kq dépend du degré q du polynôme et de l’erreur relative lors de l’arrondi des
nombres en virgule flottante, u = 2−53 en double précision selon la norme IEEE-754. De
manière générale, on a :
Kq = γ2q =
2qu
1 − 2qu
,
et lorsque des opérations FMA (Fused Multiply and Add) sont disponibles, comme c’est le cas
sur la plupart des GPU, l’erreur est plus faible. En effet dans une FMA, la multiplication et
l’addition sont effectuées en une seule opération arithmétique conduisant à une seule erreur
d’arrondi au lieu de deux, la constante s’écrit alors :
Kq = γq =
qu
1 − qu
.
462.2. Advection semi-Lagrangienne d’ordre élevé
Les polynômes permettant de calculer les poids de remaillage pour les formules Λp,r ont
un conditionnement qui augmente fortement au voisinage de 1. Cela conduit à des erreurs
pouvant être assez grandes lorsque les particules s’approchent d’un point de grille par position
inférieure (y → 1). Ce phénomène est d’autant plus marqué que l’ordre des formules
est élevé. Nous représentons sur la figure 2.12 la borne d’erreur relative pour les poids de
remaillage pour trois des formules couramment utilisées.
0 0.2 0.4 0.6 0.8 1
y
Λ6,4
p3(y)
p2(y)
p1(y)
p0(y)
p0(1 − y)
p1(1 − y)
p2(1 − y)
p3(1 − y)
0 0.2 0.4 0.6 0.8 1
y
Λ4,2
p2(y)
p1(y)
p0(y)
p0(1 − y)
p1(1 − y)
p2(1 − y)
10−16
10−14
10−12
10−10
10−8
10−6
10−4
10−2
100
0 0.2 0.4 0.6 0.8 1
Précision relative
y
Λ2,1
p1(y)
p0(y)
p0(1 − y)
p1(1 − y)
Figure 2.12. – Erreur numérique maximale du schéma de Horner pour l’évaluation des
poids de remaillages pour les formules Λ2,1, Λ4,2 et Λ6,4 en double précision
(sans FMA)
Dans le cadre de ce travail, nous avons conservé le schéma de Horner pour l’implémentation
de ces formules.
2.2.2. Consistance de la méthode semi-Lagrangienne
Dans ce paragraphe nous démontrons la consistance du schéma d’advection et remaillage (2.4)
ou (2.5) et (2.6) lorsque la formule de remaillage est de type Λp,r, définie en section 2.2.1.
Cette démonstration est présentée dans un article paru en 2014 dans ESAIM : Mathematical
Modelling and Numerical Analysis pour un schéma d’Euler, inclus en annexe B. Nous
détaillons ici le cas d’une approximation d’ordre deux de la vitesse lors de l’advection. La
démonstration suit une démarche similaire à celle de l’article, la seule différence est que les
développements sont conservés à un ordre quelconque.
472. Méthode particulaire pour l’équation de transport
Proposition 2.1
Soit un noyau de remaillage Λp,r de support [−S; S], vérifiant les contraintes de régularité
(2.14), la propriété d’interpolation (2.13) ainsi que l’égalité de conservation des
moments (2.9) jusqu’à un ordre p. Soient un champ de vitesse a et un scalaire u suffisamment
réguliers tels que u soit solution de l’équation de transport (2.2). Lorsque la condition
(2.7) est vérifiée, α est l’ordre d’approximation du champ de vitesse et β = inf(p, r),
nous avons :
u(xi
, tn+1) = u
n+1
i + O(∆t
α+1) + O(∆t∆x
β + ∆x
β+1). (2.16)
De plus, dans le cas où chaque cellule contient une seule particule, β = p.
Démonstration de la proposition 2.1 : L’indice p d’une particule peut être réfé-
rencé à partir de l’indice i et d’un décalage k de telle sorte que xp = xi + k∆x
et ainsi :
u(xp, tn
) = X
β
j=0
k
j∆x
j
j!
∂
ju
∂xj
(xi
, tn
) + O(∆x
β+1). (2.17)
Ici, nous nous plaçons dans le cadre d’une grille cartésienne uniforme où xi+k =
xi + k∆x. De même, la position des particules devient :
x˜
n+1
p = xi + k∆x + ˜a
n
i+k∆t,
qui se réécrit en posant λi = ˜a
n
i ∆t/∆x, le nombre CFL local :
x˜
n+1
p − xi
∆x
= k + λi+k.
La règle de dérivation des fonctions composées, se généralise par :
(f ◦ g)
(m)
(x) = X
|q|=m
m!cq
f
(q1+···+qm)
◦ g
(x)
Ym
s=1
g
(s)
(x)
qs
,
cq =
1
q1!1!q1 q2!2!q2 · · · qm!m!
qm
,
où q est le multi-indice q = (q1, q2, . . . , qm) tel que |q| = q1 + 2q2 + · · · + mqm.
En utilisant cette formule, en posant ν = ∆t/∆x et en prenant g(xi) = k + λi =
k + νa˜
n
(xi), on obtient que :
Λp,r(k + λi)
(m) =
X
|q|=m
m!cqΛ
(q1+···+qm)
p,r (k + λi)ν
q1+···+qm Ym
s=1
a˜
n (s)
qs
. (2.18)
Le développement de Λp,r(k + λi+k) au voisinage de k + λi à l’ordre r est obtenu
en utilisant la relation (2.18). Cependant, comme Λp,r ∈ Wr+1,∞(R), cela implique
que ||Λ
(β+1)
p,r ||∞ < ∞ pour 0 6 β 6 r. Par conséquent, le développement est donc
482.2. Advection semi-Lagrangienne d’ordre élevé
effectué à l’ordre β = inf(p, r) :
Λp,r(k + λi+k) = X
β
m=0
k
m∆x
m
m!
X
|q|=m
m!cqΛ
(q1+···+qm)
p,r (k + λi)ν
q1+···+qm Ym
s=1
a˜
n (s)
qs
+ O
∆x
β+1||Λ
(β+1)
p,r ||∞||a˜
(β+1)||∞
X
|q|=β+1
ν
q1+q2+···+qβ+1
.
(2.19)
D’autre part, comme q1+q2+· · ·+qβ+1 6 |q|, alors ν
q1+q2+···+qβ+1 6 ν
β+1 6 ν
β+1+ν,
le résidu précédent se réécrit en :
O
∆t
β+1 + ∆x∆t
β
.
Finalement, l’approximation du schéma (2.6) est obtenue à partir du produit des
relations (2.17) et (2.19), noté Ek :
u
n+1
i =
X
k
u(xk, tn
)Λp,r(k + λi+k)
=
X
k
X
β
m=0
k
m∆x
m X
|q|=m
cqΛ
(q1+···+qm)
p,r (k + λi)ν
q1+q2+···+qm Ym
s=1
a˜
n (s)
qs
X
β
j=0
k
j∆x
j
j!
∂
ju
∂xj
(xi
, tn
)
+ O
∆t
β+1 + ∆x∆t
β + ∆x
β+1
=
X
k
Ek + O
∆t
β+1 + ∆x∆t
β + ∆x
β+1
.
Le produit des deux sommes d’indices m et j des termes Ek se regroupent :
X
k
Ek =
X
β
m=0
j=0
∆x
m+j
j!
∂
ju
∂xj
(xi
, tn
)
X
|q|=m
cq
X
k
k
m+jΛ
(q1+···+qm)
p,r (k + λi)ν
q1+q2+···+qm Ym
s=1
a˜
n (s)
qs
.
Par dérivation de la relation (2.9), on a :
X
k
k
αΛ
(δ)
p,r(k + x) = α!
(α − δ)!(−1)δ
(−x)
α−δ
si 0 6 δ 6 α 6 β.
Par conséquent, on a également :
X
k
k
m+jΛ
(q1+···+qm)
p,r (k + λi)ν
q1+q2+···+qm = di,m+j,qν
m+j
,
avec :
di,s,q =
s!(−1)q1+···+qm
(s − (q1 + · · · + qm))!(−a˜
n
i
)
s−(q1+···+qm)
, si 0 6 q1 + · · · + qm 6 s 6 β.
492. Méthode particulaire pour l’équation de transport
Ce qui permet d’aboutir à :
X
k
Ek =
X
β
m=0
j=0
∆x
m+j
j!
∂
ju
∂xj
(xi
, tn
)
X
|q|=m
cqdi,m+j,qν
m+j Ym
s=1
a˜
n (s)
qs
=
X
β
m=0
j=0
∆t
m+j
j!
∂
ju
∂xj
(xi
, tn
)
X
|q|=m
cqdi,m+j,q Ym
s=1
a˜
n (s)
qs
.
Finalement, la troncature du schéma à l’ordre α en temps donne :
u
n+1
i =
Xα
m=0
j=0
∆t
m+j
j!
∂
ju
∂xj
(xi
, tn
)
X
|q|=m
cqdi,m+j,q Ym
s=1
a˜
n (s)
qs
+ O
∆t
α+1 + ∆x∆t
β + ∆x
β+1
.
(2.20)
Advection par un schéma d’Euler
Les couples (m, j) possibles pour la première somme tels que m + j 6 α + 1 sont
(0, 0), (0, 1) et (1, 0). Pour m = 0, le multi-indice q se réduit à un simple indice égal
à 0. L’expression (2.20) devient :
u
n+1
i = u(xi
, tn
)− ∆ta˜
n
i
∂u
∂x(xi
, tn
)− ∆t(˜a
n
i
)
0u(xi
, tn
) +O
∆t
2 + ∆x∆t
β + ∆x
β+1
.
D’autre part, si le champ de vitesse est approché à l’ordre 1, on a a˜
n
i = a(xi
, tn
), ce
qui donne :
u
n+1
i = u(xi
, tn
) − ∆t
∂an
i u
∂x (xi
, tn
) + O
∆t
2 + ∆x∆t
β + ∆x
β+1
. (2.21)
Puis, en utilisant l’équation de transport (2.2) on aboutit au résultat :
u
n+1
i = u(xi
, tn+1) + O
∆t
2 + ∆x∆t
β + ∆x
β+1
. (2.22)
Advection par un schéma de Runge-Kutta du second ordre
Dans ce cas, en plus des termes présents pour le cas du schéma d’Euler, on ajoute
les termes correspondants aux couples (m, j) = (0, 2), (1, 1) et (2, 0).
u
n+1
i = u(xi
, tn
) − ∆ta˜
n
i
∂u
∂x(xi
, tn
) − ∆t(˜a
n
i
)
0u(xi
, tn
)
+
∆t
2
2
(˜a
n
i
)
2 ∂
2u
∂x2
(xi
, tn
) + 4˜a
n
i
(˜a
n
i
)
0 ∂u
∂x(xi
, tn
)
+ 2((˜a
n
i
)
02 + ˜a
n
i
(˜a
n
i
)
00)u(xi
, tn
)
+ O
∆t
3 + ∆x∆t
β + ∆x
β+1
.
502.2. Advection semi-Lagrangienne d’ordre élevé
Pour une approximation du second ordre, on a a˜
n
i = a(xi + a(xi)∆t/2). Les
développements de a˜
n
i
sont réalisés à l’ordre maximal puis injectés dans l’expression
précédente :
∆ta˜
n
i = ∆tan
i +
∆t
2
2
a(xi)a
0
(xi) + O(∆t
3
),
∆t(˜a
n
i
)
0 = ∆ta0
(xi) + ∆t
2
2
a(xi)a
00(xi) + ∆t
2
2
a
02
(xi) + O(∆t
3
),
∆t
2
(˜a
n
i
)
00 = ∆t
2
a
00(xi) + O(∆t
3
),
u
n+1
i = u(xi
, tn
) − ∆t
a
n
i
∂u
∂x(xi
, tn
) + (a
n
i
)
0u(xi
, tn
)
+
∆t
2
2
(a
n
i
)
2 ∂
2u
∂x2
(xi
, tn
) + 3˜a
n
i
(˜a
n
i
)
0 ∂u
∂x(xi
, tn
)
+ ((˜a
n
i
)
02 + ˜a
n
i
(˜a
n
i
)
00)u(xi
, tn
)
+ O
∆t
3 + ∆x∆t
β + ∆x
β+1
.
Par simplifications on obtient :
u
n+1
i = u(xi
, tn
) − ∆t
∂an
i u
∂x (xi
, tn
) + ∆t
2
2
∂
∂x
∂an
i u
∂x
(xi
, tn
)
+ O
∆t
3 + ∆x∆t
β + ∆x
β+1
.
(2.23)
Puis en utilisant l’équation de transport (2.2) on obtient finalement :
u
n+1
i = u(xi
, tn+1) + O
∆t
3 + ∆x∆t
β + ∆x
β+1
. (2.24)
Cas d’une seule particule par cellule
Dans ce cas, le développement (2.19) peut être effectué à n’importe quel ordre,
en particulier à l’ordre β = r. La suite des calculs reste identique.
2.2.3. Stabilité de la méthode semi-Lagrangienne
Les démonstrations de la stabilité de la méthode sont données dans l’article Cottet et al.
(2014) inclus en annexe B. Les preuves sont basées sur les propriétés de décroissance des
noyaux qui sont vérifiées pour les méthodes d’ordre 2 et 4. Nous proposons ici une approche
permettant de démontrer la propriété de stabilité linéaire de la méthode pour les noyaux
de type Λp,r jusqu’à p = 8.
512. Méthode particulaire pour l’équation de transport
Advection à vitesse constante
Dans un premier temps, la stabilité du schéma est analysée pour un champ de vitesse
constant en espace. La démonstration se base sur le nombre CFL local : λ = a∆t/∆x,
constant. Nous définissons les suites de fonctions suivantes, pour k ∈ Z :
αk(λ) = Λp,r(k + λ), (2.25)
Ak(λ) = X
i
αi(λ)αi+k(λ). (2.26)
Les noyaux de remaillage étant à support compact, seuls quelques éléments de ces suites
sont non nuls.
Proposition 2.2
Les suites αk(λ) et Ak(λ) vérifient :
X
k,l
(k − l)
qαk(λ)αl(λ) = 0, et X
k
k
qAk(λ) = 0, q 6 p. (2.27)
Démonstration de la proposition 2.2 : Le membre de gauche de la première équation
se développe en :
X
k,l
(k − l)
qαk(λ)αl(λ) = X
k,l
X
q
m=0
C
m
q k
ml
q−mαk(λ)αl(λ).
La propriété (2.9) étant vérifiée pour les formules de type Λp,r, on a :
X
k,l
k
ml
q−mαk(λ)αl(λ) = (−λ)
m(λ)
q−m,
et donc
X
k,l
(k − l)
qαk(λ)αl(λ) = X
q
m=0
C
m
q
(−λ)
m(λ)
q−m = (λ − λ)
q = 0.
La seconde équation vient du fait que Ak(λ) = A−k(λ).
Proposition 2.3
Pour un champ de vitesse a constant en espace et pour un noyau de remaillage Λp,r
de support [−S; S] vérifiant les contraintes de régularité (2.14), la propriété d’interpolation
(2.13) ainsi que l’égalité de conservation des moments (2.9) jusqu’à un ordre p, le
schéma de remaillage est inconditionnellement stable.
Démonstration de la proposition 2.3 : Soient I un entier tel que λ ∈ [I; I + 1[ et
µ = λ − I ∈ [0; 1[. En posant vi = u
n
i−I
, le schéma (2.6) se réécrit :
u
n+1
i =
X
k
vi+kαk(µ).
522.2. Advection semi-Lagrangienne d’ordre élevé
Montrons que
X
i
u
n+1
i
2
6
X
i
|u
n
i
|
2
.
En utilisant (2.27), il vient :
X
i
u
n+1
i
2
=
X
i
X
k,l
vi+kvi+lαk(µ)αl(µ). (2.28)
La formule de remaillage possède un support [−S; S], par conséquent, seuls quelques
αk(µ) sont non nuls, pour k ∈ [−S; S−1]. Pour alléger les notations, comme µ ∈ [0, 1[
ne joue aucun rôle, il sera omis dans la suite.
X
i
|u
n+1
i
|
2 =
X
i
X
k,l
vi+kvi+lαkαl
=
X
i
X
k
v
2
i+kα
2
k + 2X
k 0
=
X
i
X
k
2
X
S−1
j=1
αkαk+j
|vi+k − vi+k+j
|
2
=
X
k
2
X
S−1
j=1
αkαk+j
X
i
|vi − vi+j |
2
=
2
X
S−1
j=1
Aj
X
i
|vi − vi+j |
2
.
532. Méthode particulaire pour l’équation de transport
La suite consiste à démontrer que R > 0. On définit alors les suites {δJ,i}J=1,...,2S−1
de différences successives telles que :
δ1,i = vi − vi+1,
δ2,i = δ1,i − δ1,i+1,
δJ,i = δJ−1,i − δJ−1,i+1,
(2.29)
ainsi que des sommes de termes de ces suites :
sJ,j =
X
i
X
j−1
k=0
δJ,i+k
2
.
Pour J = 1, on a simplement s1,j =
P
i
|vi − vi+j |
2
, donc R se réécrit :
R =
2
X
S−1
j=1
Ajs1,j . (2.30)
Par définition de sJ,j , on a :
sJ,j =
X
i
X
j−1
k=0
δJ,i+k
2
=
X
i
X
j−1
k=0
δ
2
J,i+k +
X
j−2
k=0
j−X
1−k
l=1
2δJ,i+kδJ,i+k+l
!
= j
X
i
δ
2
J,i +
X
j−1
l=1
(j − l)
X
i
2δJ,iδJ,i+l
.
En utilisant la relation 2δJ,iδJ,i+l = δ
2
J,i + δ
2
J,i+l − |δJ,i − δJ,i+l
|
2
, on obtient que :
sJ,j = j
X
i
δ
2
J,i +
X
j−1
l=1
(j − l)
2
X
i
δ
2
J,i −
X
i
|δJ,i − δJ,i+l
|
2
!
=
j + 2X
j−1
l=1
(j − l)
!X
i
δ
2
J,i −
X
j−1
l=1
(j − l)
X
i
|δJ,i − δJ,i+l
|
2
= j
2X
i
δ
2
J,i −
X
j−1
l=1
(j − l)
X
i
|δJ,i − δJ,i+l
|
2
= j
2X
i
δ
2
J,i −
X
j−1
l=1
(j − l)sJ+1,l.
Ainsi, le second terme de l’expression précédente contient j − 1 termes en sJ+1,l
dont les seconds membres contiennent au maximum j − 2 termes, pour sJ+1,j−1. Le
développement complet de sJ,j fait intervenir j − 1 niveaux de récurrence jusqu’au
542.2. Advection semi-Lagrangienne d’ordre élevé
niveau J + j − 1. On obtient, en posant DJ =
P
i
δ
2
J,i pour alléger les notations, le
développement suivant :
sJ,j = j
2DJ −
X
j−1
l=1
(j − l)sJ+1,l
= j
2DJ −
X
j−1
l=1
(j − l)l
2DJ+1 +
X
j−1
l=1
(j − l)
X
l−1
m=1
(l − m)sJ+2,m
=
X
j
k=1
(−1)k+1Ck,jDJ+k−1.
Avec les coefficients Ck,j définis par :
C1,j = j
2
;
C2,j =
X
j−1
l=1
(j − l)l
2
, si j > 2,
0, sinon ;
C3,j =
X
j−1
l=1
(j − l)
X
l−1
m=1
(l − m)m2
, si j > 3,
0, sinon ;
C4,j =
X
j−1
l=1
(j − l)
X
l−1
m=1
(l − m)
mX−1
n=1
(m − n)n
2
, si j > 4,
0, sinon ;
.
.
.
L’expression (2.30) se réécrit donc :
R =
2
X
S−1
j=1
Aj
X
j
k=1
(−1)k+1Ck,jDk
!
,
puis en permutant les sommes, on obtient :
R =
2
X
S−1
k=1
Dk
2
X
S−1
j=k
(−1)k+1Ck,jAj
. (2.31)
Deux remarques permettent de simplifier la recherche du signe de R. Premièrement,
les Dk étant positifs comme sommes de carrés, le dernier terme de la somme,
pour k = 2S−1, est toujours positif. En effet, ce terme se simplifie en D2S−1A2S−1 =
D2S−1α−SαS−1 et les α−S et αS−1 sont de même signe car on observe que les formules
de type Λp,r présentent une alternance de signe sur chaque intervalle entier.
Les noyaux sont positifs sur l’intervalle [−1; 1], négatifs sur [−2; −1] ∪ [1; 2] et ainsi
sur l’ensemble des intervalles entiers du support. En particulier, il est positif sur l’intervalle
[−S; −S + 1] ∪ [S − 1; S] si S est impair et négatif sinon. Deuxièmement, en
552. Méthode particulaire pour l’équation de transport
remarquant que les coefficients Ck,j se réécrivent comme des combinaisons linéaires
de puissances paires de j :
C2,j =
−j
2
12
+
j
4
12
, C3,j =
j
2
90
−
j
4
72
+
j
6
360
, C4,j =
−j
2
560
+
7j
4
2880
−
j
6
1440
+
j
8
20160
,
les termes de la forme PCk,jAj s’annulent lorsque k 6 [p/2] en utilisant la propriété
de conservation des moments pairs (2.9). Ainsi, si la formule de remaillage conserve
p moments alors les [p/2] premiers termes de la somme d’indice k sont nuls. Ainsi
on obtient la majoration suivante :
R >
2
X
S−2
k=[p/2]+1
Dk
2
X
S−1
j=k
(−1)k+1Ck,jAj
.
Pour toutes les formules de remaillage de type Λp,r, il a été vérifié numériquement
que :
2
X
S−1
j=k
(−1)k+1Ck,jAj > 0 pour k = [p/2] + 1, . . . , 2S − 2
Ainsi nous obtenons que toutes les formules de type Λp,r données en annexe A
conduisent à une méthode stable car R > 0.
Advection à vitesse non constante
Nous donnons ici les grandes lignes de la démonstration de stabilité dans le cas général
qui est détaillée dans l’article Cottet et al. (2014) inclus en annexe B.
Proposition 2.4
Pour un champ de vitesse a suffisamment régulier et pour un noyau de remaillage Λp,r
de support [−S; S] vérifiant les contraintes de régularité (2.14), la propriété d’interpolation
(2.13) ainsi que l’égalité de conservation des moments (2.9) jusqu’à un ordre p et
lorsque le pas de temps est suffisamment petit vérifiant la condition (2.7), il existe une
constance C indépendante de ∆t et ∆x telle que :
X
i
u
n+1
i
2
6 (1 + C∆t)
X
i
|u
n
i
|
2
. (2.32)
Démonstration de la proposition 2.4 : Nous ne donnons ici que l’idée générale de
la démonstration qui est détaillée dans l’article en annexe. Lorsque la vitesse est
non constante et le pas de temps suffisamment petit (2.7), le nombre CFL local est
différent pour chaque particule :
λp =
ap∆t
∆x
.
Les particules peuvent alors être partitionnées selon l’intervalle entier auquel appartient
λp :
JI =
p ∈ Z, λp ∈ [I; I + 1[
. (2.33)
562.2. Advection semi-Lagrangienne d’ordre élevé
Le schéma de remaillage (2.6) se réécrit :
u
n+1
i =
X
I
X
k∈JI
u
n
kΛp,r(λk + k − i).
En posant
RI (i) = X
k∈JI
u
n
kΛp,r(λk + k − i),
le membre de gauche de l’équation (2.32) devient :
X
i
u
n+1
i
2
=
X
i
X
I
RI (i)
2
=
X
i
X
I
R
2
I
(i) +X
i
X
I6=I
0
RI (i)RI
0(i).
L’étude du premier terme est similaire à l’analyse dans le cas à vitesse constante
et se base sur le fait que dans chaque élément de la double somme, les particules
ont un nombre CFL local dans le même intervalle entier. Dans ce cas, on aboutit au
résultat :
X
i
R
2
I
(i) 6
X
i∈JI
|u
n
i
|
2 + C∆t (2.34)
Dans le second terme, il apparaît des produits de la forme :
Λp,r(λk + k − i)Λp,r(λk
0 + k
0 − i), k ∈ JI , k0 ∈ JI
0, I 6= I
0
.
Ces produits sont non nuls seulement dans le cas où les particules son suffisamment
proches après advection. De plus, chaque particule ne contribue que dans, au plus,
2S sommes RI (i). Ainsi on aboutit au résultat :
X
i
X
I6=I
0
RI (i)RI
0(i) 6 C∆t
X
i
|u
n
i
|
2
(2.35)
Finalement, en combinant les résultats (2.34) et (2.35), on aboutit au résultat (2.32).
Conclusion
Dans ce chapitre, nous avons détaillé la méthode de résolution que nous employons pour
résoudre une équation de transport. Nous avons vu comment l’étude des propriétés numé-
riques de la méthode semi-Lagrangienne est réalisée en exploitant la similarité de la méthode
avec celle des différences finies. En particulier, cela nous permet de produire des schémas
numériques à un ordre arbitraire en utilisant des formules de remaillage appropriées. Ces
formules possèdent, par construction, des propriétés de régularité et de conservation de
moments des quantités transportées qui sont directement liées à l’ordre de la méthode.
Cette méthode semi-Lagrangienne permet de résoudre les équations de transport pré-
sentées au chapitre 1. Les autres éléments constituant le problème de transport de scalaire
dans un fluide turbulent tels que les termes d’étirement et de diffusion ainsi que l’équation
de Poisson sont traités par d’autres méthodes. Cela conduit à l’obtention d’une méthode
hybride comme nous le verrons dans le chapitre 3.
573. Méthode hybride pour le
transport turbulent
Dans ce chapitre nous proposons de construire une méthode hybride, utilisant la méthode
semi-Lagrangienne détaillée dans le chapitre 2, pour résoudre un problème de transport
d’un scalaire dans un fluide turbulent, exposé dans le chapitre 1. Comme nous l’avons
mentionné précédemment, ce système présente à la fois un caractère multiéchelle et un
faible couplage entre les sous-problèmes que sont la résolution du fluide et le transport du
scalaire. Ces caractéristiques nous conduisent à l’élaboration d’une méthode hybride qui est
d’une part adaptée à la résolution de ce type de problème et d’autre part capable de traiter
des résolutions importantes sur des machines massivement parallèles.
Dans un premier temps, nous décrirons l’idée générale d’une méthode hybride puis nous
donnerons quelques approches hybrides présentées dans la littérature avant de proposer la
stratégie que nous emploierons par la suite.
3.1. Idée générale d’une méthode hybride
Le principe d’une méthode hybride est d’utiliser différentes méthodes conjointement
afin de résoudre un problème complexe en exploitant les forces de chacune des méthodes.
Ainsi, le problème initial est décomposé selon ses aspects physiques en différentes parties
qui sont résolues avec des méthodes différentes. Même si chacune des méthodes est bien
connue individuellement, comme pour les méthodes exposées en section 1.1.2, le couplage
doit être étudié en détail.
La décomposition du problème global selon ses aspects physiques permet, par exemple
dans le cadre de l’étude d’interactions entre un fluide et une structure, de séparer la ré-
solution du fluide et du solide. De même pour le cas d’un transport de scalaire passif, il
est possible de séparer la résolution du fluide de celle du transport du scalaire. Enfin, nous
avons vu dans les chapitres précédents, que l’emploi d’une méthode semi-Lagrangienne pour
la résolution d’un écoulement fait intervenir une équation de transport de la vorticité ainsi
qu’une équation de Poisson permettant de calculer le champ de vitesse associé. Là encore
une décomposition peut avoir lieu pour séparer la résolution de l’équation de Poisson de
celle de l’équation de transport.
593. Méthode hybride pour le transport turbulent
Ainsi dans une méthode hybride, les différentes parties du problème, issues de la décomposition
selon les aspects physiques et numériques, sont résolues par différentes méthodes.
Trois niveaux d’hybridation peuvent être distingués et sont détaillés dans la suite.
3.1.1. Méthode hybride en méthode numérique
Le premier niveau consiste en l’utilisation de différentes méthodes numériques. Par
exemple, pour la résolution d’un écoulement turbulent, une méthode hybride est utilisée
par Cottet et al. (2002), Cottet et al. (2009b) et Rees et al. (2011). Cette méthode consiste
en une résolution semi-Lagrangienne du transport de la vorticité combinée à une méthode
spectrale pour le calcul du champ de vitesse en fonction du champ de vorticité à partir de
l’équation de Poisson. La résolution de l’équation de Poisson par une méthode spectrale est
une alternative à celle basée sur la loi de Biot-Savart employée dans les méthodes Vortex.
Cette dernière conduit à une résolution directe sur le champ de particules, ce qui constitue
un problème à N corps à travers le calcul des interactions entre les paires de particules. Les
implémentations efficaces nécessitent la gestion d’une structure de données complexe basée
sur des arbres afin de regrouper les particules en fonction de leurs distances pour exploiter
les approximations multipoles rapides (méthodes FMM). Ainsi, la méthode spectrale est
bien plus simple à mettre en œuvre. Ce type de couplage entre méthodes semi-Lagrangienne
et spectrale est utilisé également pour des simulations d’écoulements en présence de solides
rigides, pris en compte par pénalisation (Coquerelle et al., 2008 ; Rossinelli et al., 2010).
D’autre part, dans le cas du transport turbulent d’un scalaire passif, des méthodes hybrides
consistent en une résolution par méthode spectrale de l’écoulement puis un transport
du scalaire par différences finies (Gotoh et al., 2012) ou par une méthode semi-Lagrangienne
(Lagaert et al., 2012 ; Lagaert et al., 2014).
3.1.2. Méthode hybride en résolution
Un second aspect des méthodes hybrides est d’employer des grilles de résolutions diffé-
rentes pour discrétiser les équations présentes dans le modèle. Par exemple, Cottet et al.
(2009a) proposent l’utilisation d’une méthode particulaire hybride en résolution pour le
transport de scalaire. Les auteurs utilisent la même méthode semi-Lagrangienne pour ré-
soudre l’écoulement et le scalaire. Le couplage est réalisé par interpolation du champ de
vitesse pour le transport du scalaire. Dans cette méthode, le scalaire est discrétisé à une
résolution plus fine que les champs de vitesse et de vorticité. Généralement, des modèles
sous-maille sont utilisés dans le cadre de simulations des grandes échelles (LES) pour prendre
en compte la dissipation d’énergie par son transfert vers les petites échelles. Cependant, ce
modèle n’est pas suffisant pour prendre en compte les effets des plus petites échelles de
fluctuations du scalaire qui ne sont pas résolues car de taille inférieure au maillage. Cottet
et al. (2009a) montrent que l’emploi d’une méthode multiéchelle remédie naturellement à
ce problème par une simulation directe des petites échelles du scalaire tout en conduisant
à un coût de calcul similaire.
Les études menées par Gotoh et al. (2012), Lagaert et al. (2012) et Lagaert et al. (2014)
dans le cadre de l’analyse du comportement d’un scalaire transporté par un écoulement de
603.2. Application au transport turbulent
turbulence homogène montrent que cette approche hybride en résolution permet d’obtenir
des résultats cohérents avec le cas d’une méthode spectrale classique, en simple résolution.
En effet, comme nous l’avons souligné dans la partie 1.3, ce problème se caractérise par la
présence de différentes échelles et la résolution du fluide à l’échelle du scalaire n’apporte pas
d’amélioration de la prise en compte de la physique de l’écoulement. Les méthodes utilisées
dans ces travaux seront détaillées plus loin, en section 3.2.
3.1.3. Méthode hybride en matériel
Comme nous l’avons vu dans la partie 1.2, les machines de calcul présentent de nombreuses
architectures différentes. Un dernier niveau de construction d’une méthode hybride
consiste en l’exploitation des différentes architectures d’une même machine. L’idée est de
distribuer les différentes parties du problème sur différents matériels. Par exemple, dans le
cas du transport de scalaire, la résolution du fluide est effectuée sur les processeurs CPU
et le transport du scalaire est résolu sur les cartes graphiques d’une machine hétérogène.
Cette approche sera complétée plus loin dans ce chapitre et sa mise en œuvre détaillée dans
le chapitre 6.
Une combinaison de ces différents niveaux est évidemment possible. En effet, une mé-
thode hybride peut être définie par des résolutions et des méthodes différentes pour les
parties du problème. Les approches semblables de Gotoh et al. (2012) et Lagaert et al.
(2014) illustrent parfaitement ce cas de figure. Dans leurs études, le fluide est résolu par une
méthode spectrale à une résolution grossière et le scalaire par différences finies ou méthode
semi-Lagrangienne à une résolution plus fine. Les nombreuses possibilités de construction
de méthodes hybrides nécessitent quelques précisions quant à l’application au transport
de scalaire passif dans un écoulement turbulent. En effet, les caractéristiques du problème
permettent d’aiguiller les choix pour la mise en place d’une méthode hybride.
3.2. Application au transport turbulent
3.2.1. Méthodes spectrale et différences finies
Dans le cas du transport de scalaire passif, Gotoh et al. (2012) proposent une comparaison
de leur méthode hybride avec une méthode entièrement spectrale. La méthode
hybride consiste en la résolution de l’écoulement à l’aide d’une méthode spectrale alors que
le transport du scalaire est résolu par différences finies d’ordre élevé. L’intérêt majeur de
cette approche est que les opérations non locales sur le scalaire, issues des transformées de
Fourier de la méthode spectrale, sont remplacées par des schémas locaux. Cela permet de
limiter les communications lors de l’exploitation d’un grand nombre de cœurs de calcul. Les
différentes échelles physiques présentes dans les cas à nombre de Schmidt élevé permettent
à Gotoh et al. de réaliser des simulations en multirésolution. Le fluide est calculé sur 2563
points de grille alors que 1 0243 points sont utilisés pour discrétiser le scalaire.
613. Méthode hybride pour le transport turbulent
Une réduction du temps de calcul est obtenue à travers ces différentes simulations. En
particulier, les auteurs obtiennent un facteur d’accélération de 1,4 grâce à l’utilisation de
leur méthode hybride au lieu d’une méthode entièrement spectrale. D’autre part, le fait de
réduire le nombre de points de 1 0243 à 2563 pour la résolution du fluide, pour Sc = 50,
leur permet d’obtenir un facteur d’accélération supplémentaire de 3. L’ensemble des calculs
ont été réalisés en utilisant 4 096 cœurs de calcul.
Une limite de cette approche est que le pas de temps reste limité par la résolution
du maillage du scalaire à travers l’expression d’une condition de CFL. Ainsi, lorsque le
problème est résolu en utilisant des grilles résolutions différentes, les auteurs sont limités à
l’utilisation d’un pas de temps dépendant de celle du scalaire.
3.2.2. Méthodes spectrale et semi-Lagrangienne
Une approche similaire a été proposée par Lagaert et al. (2012) et Lagaert et al. (2014).
Les auteurs utilisent une méthode hybride où le fluide est résolu de façon spectrale couplée
à une méthode semi-Lagrangienne pour le transport du scalaire. L’intérêt majeur est de
pouvoir bénéficier de l’avantage des méthodes particulaires dont le pas de temps n’est pas
contraint par une condition aussi restrictive que la condition CFL des méthodes Eulériennes,
dans certains cas. Cela permet à Lagaert et al. de choisir un pas de temps pour le transport
du scalaire dix fois plus grand que celui du fluide. Ainsi, dans le cas d’un grand nombre
de Schmidt, non seulement les résolutions spatiales sont différentes mais les pas de temps
aussi. Cela permet d’atteindre un facteur d’accélération approchant 40 par rapport à une
méthode entièrement spectrale avec une seule résolution, dans le cas Sc = 50 avec 2563
points pour le fluide et 1 0243 points pour le scalaire.
Toutefois, la méthode semi-Lagrangienne utilisée par Lagaert et al. reste d’un ordre
spatial plus faible (ordre 4) que le schéma aux différences finies d’ordre 8 employé par Gotoh
et al.
3.2.3. Méthodes semi-Lagrangiennes et architecture hybride
Dans ce travail, nous reprenons l’idée de Cottet et al. (2009a) pour l’utilisation d’une
méthode hybride. La méthode que nous utilisons exploite les trois niveaux d’hybridation
exposés plus haut : maillages de résolutions différentes pour le scalaire et l’écoulement, couplage
de méthodes de natures différentes et utilisation d’architectures matérielles différentes
pour la résolution de l’écoulement et du transport du scalaire. Nous exploitons le caractère
multiéchelle du problème avec une méthode hybride en résolution dans laquelle le scalaire
transporté est résolu de manière plus fine que la vorticité. L’écoulement est résolu par une
méthode semi-Lagrangienne pour le transport de la vorticité, avec des différences finies pour
le terme d’étirement et une diffusion spectrale. Nous calculons le champ de vitesse à partir
de la vorticité à l’aide d’un solveur spectral pour l’équation de Poisson. Le scalaire est
également transporté par une méthode semi-Lagrangienne avec une diffusion en différences
finies. Enfin au niveau matériel, le fluide sera résolu sur une architecture multicœurs CPU
classique et nous tirons parti de la puissance de calcul disponible dans les cartes graphiques
pour résoudre le transport du scalaire.
623.2. Application au transport turbulent
Comme toutes les résolutions en temps sont effectuées par méthode semi-Lagrangienne,
cela nous permet de choisir de grands pas de temps contraints uniquement par la condition
de CFL Lagrangienne qui fait intervenir le gradient du champ de vitesse et non la taille de la
grille. D’autre part, comme nous l’avons vu en section 2.2, la méthode d’ordre élevé conduit
à l’utilisation de formules de remaillage d’une forte complexité arithmétique. En effet, le
remaillage d’une particule nécessite l’évaluation de polynômes de degré relativement élevés
en chacun des nombreux point du support. Cette complexité est maîtrisée par l’utilisation
de cartes graphiques. L’intérêt de cette approche est de pouvoir accélérer, à l’aide des GPU,
la partie la plus intensive du code dont la résolution pourra être réalisée en même temps
que l’écoulement par l’utilisation de matériels différents pour chaque partie. D’un point
de vue pratique, lors de l’exploitation de machines de calcul, il est d’usage de réserver les
cartes graphiques par nœuds complets ce qui, sur la plupart des machines, donne accès à un
nombre de cœurs CPU bien plus grand que le nombre de GPU. L’objectif d’une exploitation
efficace des ressources est envisageable à travers une utilisation simultanée des GPU et des
cœurs CPU pour résoudre respectivement le transport du scalaire et le fluide.
Conclusion
Dans ce chapitre, nous avons vu comment une méthode hybride permet d’exploiter les
forces des différentes méthodes en fonction des caractéristiques du problème à résoudre.
Ainsi, la méthode que nous utiliserons par la suite combine la méthode semi-Lagrangienne
exposée dans le chapitre 2 avec des méthodes de grille classiques, différences fines et spectrales.
L’idée principale de cette méthode est de profiter à la fois de la puissance de calcul
développée par les cartes graphiques et de l’algorithme de splitting dimensionnel pour réaliser
des simulations d’ordre élevé pour le transport du scalaire. Les résultats de cette méthode
seront présentés dans le chapitre 6.
634. Développement d’un code
multiarchitectures
L’un des objectifs de cette thèse consiste en l’implémentation sur cartes graphiques de
la méthode particulaire avec remaillage introduite dans le chapitre 2. Cette étape s’inscrit
dans un cadre plus global de construction d’une méthode hybride, dont les principes ont été
donnés dans le chapitre 3, afin d’explorer les possibilités d’une exploitation les ressources de
machines de calcul hétérogènes telles que décrites dans le chapitre 1. Comme nous l’avons
souligné dans le chapitre 2, la méthode semi-Lagrangienne semble être bien adaptée à une
implémentation sur cartes graphiques du fait de la régularité des structures de données et
des algorithmes qui en découlent. De plus, l’utilisation de formules de remaillage d’ordre
élevé conduit à l’exécution de nombreuses opérations arithmétiques simples notamment
pour le calcul des poids de remaillage. Actuellement, de nombreuses machines de calcul
sont équipées de cartes graphiques. Cependant, comme nous l’avons vu dans le chapitre 1,
cette tendance n’est pas immuable et peut éventuellement changer dans les prochaines années
du fait des évolutions technologiques des composants. Par conséquent, dans un souci
de pérennité du code, la librairie que nous développons doit pouvoir être facilement adaptée
à une nouvelle architecture tout en conservant la possibilité d’une exploitation de machines
classiques. D’autre part, la volonté d’une forte portabilité permettant de réaliser des simulations
à la fois sur une machine de bureau, un portable ou une machine de calcul offre
également une grande souplesse pour les différentes étapes de développement, de parallélisation
et de production.
Dans ce chapitre, nous présentons la librairie de calcul que nous utiliserons dans la suite
pour les simulations numériques. Dans un premier temps, nous exposerons la conception
de cette librairie qui est basée sur une stratégie de découpage sémantique en concepts
mathématiques puis en différents niveaux d’abstraction, comme suggéré par Labbé et al.
(2004). Dans un second temps, l’architecture et les moyens de programmation des cartes
graphiques sont détaillés puis nous introduirons les principes du standard de programmation
OpenCL. Enfin, l’intégration des modèles de programmation des GPU à la librairie de
calcul sera rapidement décrite. Cette étape du développement est largement facilitée par la
conception globale de la librairie.
654. Développement d’un code multiarchitectures
4.1. Développement d’une librairie de calcul
scientifique
4.1.1. Conception préliminaire
Bien que de nombreux codes numériques soient encore implémentés dans un paradigme
de programmation impérative, une tendance récente consiste à employer un paradigme de
programmation orientée objet pour le développement de codes de calcul scientifique. L’intérêt
majeur de cette technique est de pouvoir atteindre une forte flexibilité à la fois pour
le développement mais aussi pour l’utilisation. La programmation orientée objet repose
sur une représentation des concepts et des entités du domaine d’application sous la forme
d’objets dont les interactions constituent l’exécution du programme. Le code regroupe un
ensemble de classes permettant de décrire les attributs et les méthodes des objets. L’ensemble
des valeurs des attributs constituent l’état d’un objet et les méthodes expriment les
interactions possibles avec cet objet.
La programmation orientée objet se base sur les quatre concepts fondamentaux que sont
l’encapsulation, l’héritage, l’abstraction et le polymorphisme. Leur mise en œuvre permet,
lors de la conception, de décrire les relations entre les différentes classes. Selon le principe de
l’encapsulation, les interactions avec les objets se font uniquement en utilisant ses méthodes
et non directement ses données. Cela permet de garantir l’intégrité des propriétés de l’objet
en cachant ses données. Par le principe d’héritage, il est possible de créer une classe à partir
de classes existantes pour éventuellement leur ajouter de nouvelles propriétés ou fonctionnalités.
De manière similaire, l’abstraction permet d’exposer uniquement les informations
utiles et de laisser les détails pour des niveaux d’abstractions inférieurs. Cela permet d’accroître
l’efficacité des objets ainsi que de réduire leur complexité. Enfin le polymorphisme
consiste en la redéfinition de méthodes à travers les classes. L’exécution d’une méthode est
réalisée par son plus proche parent dans la hiérarchie de classes si elle n’est pas définie par
la classe de l’objet. L’intérêt de l’utilisation de ce type de paradigme de programmation est
que cela permet aux utilisateurs et développeurs de manipuler des objets aussi proches que
possibles des concepts physiques ou mathématique qu’ils représentent.
La conception d’un programme orienté objet consiste en la description de l’ensemble des
classes avec leurs attributs et leurs méthodes ainsi que leurs relations. En plus de l’héritage,
des relations de composition et d’agrégation figurent parmi les plus couramment utilisées.
Elles permettent de décrire la combinaison de plusieurs éléments pour en former un plus
complexe. La composition se distingue de l’agrégation par une notion de propriété forte. Les
objets qui composent un autre plus complexe n’ont pas d’existence en dehors de ce dernier.
Découpage sémantique des concepts mathématiques
Pour le développement de codes de calculs scientifiques, il est nécessaire d’employer une
méthodologie de conception plus spécifique, comme celle décrite par Labbé et al. (2004).
Dans leur approche, les auteurs se focalisent sur la résolution de systèmes d’équations
différentielles par des méthodes d’algèbre linéaire. Ils aboutissent à une décomposition d’un
problème de résolution d’équations aux dérivées partielles générique en différents concepts :
664.1. Développement d’une librairie de calcul scientifique
Problème : Il correspond au problème mathématique global que l’on cherche à résoudre ;
Opérateur : Généralisation de la notion mathématique d’opérateur, il définit un opérateur
mathématique élémentaire comme le gradient ou le laplacien et, plus généralement,
un terme d’une équation du problème. Il peut être vu comme un sous-problème
élémentaire.
Variable : Ce sont les entités mathématiques mises en relation par les opérateurs au sein
du problème, qu’elles soient données ou inconnues.
Domaine : Il décrit le contexte formel sur lequel sont définies les variables. Il comprend
la spécification d’une géométrie et des conditions aux limites.
Différents niveaux d’abstraction
Toujours en suivant la méthodologie de Labbé et al. (2004), nous introduisons différents
niveaux d’abstractions pour les concepts définis ci-dessus. Le point clé de cette conception
est un découplage des concepts abstraits, des méthodes de résolution et des algorithmes.
Ainsi, l’utilisateur manipule les éléments du niveau d’abstraction le plus élevé, qui correspondent
aux concepts mathématiques des problèmes, opérateurs, variables et domaines.
Un second niveau est constitué des algorithmes de résolution et de la discrétisation des
variables. Enfin, un dernier niveau regroupe les implémentations des méthodes spécifiques
au stockage des données des variables ainsi qu’à l’architecture permettant de réaliser les
calculs. L’intérêt majeur est que les opérations réalisées à un niveau ne dépendent pas de
la manière dont fonctionnent les autres niveaux. En particulier, il est aisé de changer de
méthode de résolution ou d’architecture sans que l’utilisateur n’ait à modifier son code.
Couplage faible et cohésion forte
La structure basée sur un découpage sémantique et en niveaux d’abstraction permet
d’obtenir une forte cohésion des différents composants. Les fonctionnalités de haut niveau
(employées par l’utilisateur) font appel à des fonctions de niveau inférieur jusqu’à arriver
au niveau le plus bas où les calculs sont effectués dans des fonctions élémentaires réalisant
une tâche précise.
Parallèlement, cela permet un couplage faible des différentes parties. A un niveau donné,
les fonctionnalités ne sont pas interdépendantes. Ainsi, les effets de bords sont limités lors du
développement et de la maintenance du code. Du point de vue de l’utilisation, les éléments
sont autosuffisants à travers leurs niveaux d’abstraction.
En suivant ces principes, il est possible de changer d’algorithme pour une méthode donnée
sans avoir à modifier le reste des éléments. De même, plusieurs versions d’un même
algorithme peuvent cohabiter, du moment qu’ils implémentent la même interface. Comme
remarqué dans le chapitre 1, les architectures évoluent rapidement et une implémentation
peut devenir inutilisable en changeant d’architecture. D’où l’importance d’une grande flexibilité
car il sera aisé d’introduire une nouvelle version pour une architecture donnée ou, au
contraire, d’écarter une version incompatible avec l’architecture courante au moment du
déploiement. D’autre part, les choix de conception et de langages doivent garantir une por-
674. Développement d’un code multiarchitectures
tabilité du code suffisante. Ainsi, face à une nouvelle architecture, le code existant devrait
pouvoir être simplement reconfiguré et non réécrit.
Schéma d’utilisation
Du point de vue de l’utilisation, le code se décompose selon les étapes suivantes :
1. Description d’un problème à partir d’un domaine sur lequel sont définies des variables
utilisées par des opérateurs.
2. Initialisation du problème à travers la discrétisation et l’initialisation des variables.
Cette étape consiste essentiellement en l’allocation des zones mémoires ainsi qu’au
branchement des différentes méthodes numériques parmi l’ensemble des versions disponibles.
3. Résolution du problème en appliquant ses opérateurs sur leurs variables.
Ces étapes s’organisent dans le diagramme d’utilisation de la figure 4.1.
Résout
Problème
Applique
Opérateur
Initialise
Problème
Discrétise
Opérateur
Discrétise
Variable
Définit
Problème
Définit
Opérateur
Définit
Variable
Définit
Domaine
Utilisateur
1. Description
2. Initialisation
3. Résolution
Figure 4.1. – Diagramme de cas d’utilisation.
4.1.2. Conception détaillée
Les entités issues du découpage en concepts et en différents niveaux d’abstraction sont
décrites dans le diagramme de classe présenté en figure 4.2.
684.1. Développement d’une librairie de calcul scientifique
Problems
Domains
Operators Variables
Parallelism
Tools
Simulation
current time
current iteration
time step
end time
advance time
Problem
domain
list of variables
list of operators
simulation manager
setUp
solve
<>
Domain
dimension
list of Topologies
Mesh
position
grid
ghosts
Variable
nb components
domain
dict of (Topology, DVariable)
init function
discretize
DVariable
topology
data
<>
Operator
input variables
output variables
discretize
setUp
finalize
<>
DOperator
input discrete variables
output discrete variables
apply
finalize
Topology
domain
mesh
MPI process layout
<< neighbors interface>>
NumMethod
compute
scales fftw h5py numpy mpi4py
External Libraries
n
n n
1
1
n
n
1
1
1
1
n
1
n
1
1
uses
uses
uses uses
uses
Abstract level
Algorithm level
Method level
Figure 4.2. – Diagramme de classe.
694. Développement d’un code multiarchitectures
Domaine
Le domaine correspond à la définition mathématique sur lequel sont définies les variables
et équations du problème. Cette entité nous permet de gérer la distribution des données et
des calcul dans les simulations parallèles. En effet, dans ce cadre, le domaine est distribué
à travers l’ensemble des processeurs et chaque sous-domaine est affecté à un processus.
Variables
Une variable est définie sur un domaine spatial. Les vecteurs et les scalaires ne sont pas
distingués et diffèrent uniquement par leur nombre de composantes. Il est possible d’avoir
différentes discrétisations d’une même variable selon leurs résolutions et leurs découpages
à travers les différents processus. Les données discrètes des variables sont référencées indé-
pendemment de leur stockage par un pointeur.
Opérateurs
Un opérateur est défini à partir de ses variables d’entrée et de sortie. Un opérateur
discret est créé en fonction d’une paramétrisation de la méthode numérique, et fait appel à
un ou plusieurs algorithmes de calcul et méthodes numériques en utilisant les données des
variables discrètes.
Méthodes numériques
Ces entités de bas niveau permettent de réaliser des calculs sur les données numériques
indépendemment de leur emploi et de leur provenance. Les schémas numériques issus des
méthodes de résolution, comme les intégrateurs en temps, les schémas de différences finies
ou les formules de remaillage sont implémentés de manière à traiter des données numériques
à partir d’un espace mémoire générique. En pratique, diverses versions d’une même méthode
selon le stockage des données employé peuvent cohabiter, la version appropriée étant choisie
à l’initialisation des opérateurs.
Problèmes
Comme son équivalent mathématique, un problème est construit à partir d’une liste
d’opérateurs, de variables et de domaines. Il constitue une partie de l’interface utilisateur
de notre librairie et permet de discrétiser l’ensemble des entités ainsi que de piloter la
simulation numérique tout au long de la boucle en temps par l’application successive des
différents opérateurs.
4.1.3. Fonctionnement de la librairie
Langages de programmation
La conception de la librairie de calcul, donnée en sections 4.1.1 et 4.1.2, est indépendante
de tout langage de programmation. Étant données les caractéristiques requises par
704.1. Développement d’une librairie de calcul scientifique
notre code, le choix s’est rapidement tourné vers le langage Python. C’est un langage qui
permet l’utilisation des paradigmes de programmation impératifs, objets et fonctionnels, ce
qui contribue à la flexibilité du code. Python est un langage interprété, ce qui facilite le
développement par l’absence d’étape de compilation. Python est présent par défaut sur de
nombreux systèmes et grâce à un mécanisme de gestionnaire de modules, il est aisé d’installer
les dépendances du code sur n’importe quelle machine et sans les droits d’administrateur
du système. Ce langage est caractérisé par une large base de bibliothèques relatives à de
nombreux domaines, en particulier pour le calcul scientifique. Il tend à être de plus en plus
utilisé pour le développement de codes de calcul parallèles. Toutefois, il présente l’inconvé-
nient, dû à l’aspect interprété, de conduire à des performances numériques de base assez
médiocres dans le cadre d’une utilisation naïve. Il existe de nombreux moyens d’améliorer
ces performances comme les modules NumPy et Cython. Le premier fournit un grand nombre
d’outils et d’algorithmes pour le calcul scientifique. Le second propose des optimisations
plus poussées permettent de retrouver des performances équivalentes à celles obtenues avec
des langages compilés. D’autre part, Python est généralement utilisé comme interface pour
l’utilisation de différentes librairies compilées et optimisées. Le surcoût de la couche Python
est négligeable et on obtient directement les performances de ces librairies. De nombreux
exemples de code de calcul scientifique sont écrits en Python (Pérez et al., 2011 ; Rashed
et al., 2012 ; Logg et al., 2012).
Dépendances externes
Fort de toutes ces caractéristiques, ce langage est en plein essor dans la communauté
scientifique. Cela se traduit par une très forte activité des développeurs qui fournissent
de très nombreux modules sans cesse améliorés. La plupart des librairies traditionnelles
possèdent une interface Python qui sont bien souvent augmentées de fonctionnalités ou
de simplifications inhérentes au langage. En particulier, nous utilisons le module MPI4Py
qui permet d’utiliser la librairie d’envoi de message MPI pour le parallélisme à mémoire
distribuée. De même, la librairie H5py permet l’écriture et la lecture de données numériques
au format HDF5.
Dans le but de l’exploitation de machines de calcul parallèles, nous intégrons différents
niveaux de parallélisme. Nous verrons par la suite que l’utilisation d’une carte graphique
revient à l’expression d’un parallélisme à mémoire partagée. Nous détaillerons également
les mécanismes mis en place pour l’utilisation de machines à mémoire distribuée, à travers
la librairie MPI.
D’autre part, Python permet de réaliser simplement des interfaces avec des langages
compilés comme le C ou Fortran. Cela nous permet d’utiliser les librairies fftw pour les
transformées de Fourier des méthodes spectrales ainsi que l’implémentation en Fortran de
la méthode semi-Lagrangienne développée par Lagaert et al. (2014).
714. Développement d’un code multiarchitectures
Fonctionnement global
Nous achevons cette partie par une illustration de son utilisation à travers un exemple
simple permettant la résolution d’un problème de transport. Un exemple de script minimal
dont la majorité du code concerne l’étape de description du problème est donné en
figure 4.3. Les deux fonctions permettent d’initialiser les variables. Le problème est créé
avec un seul opérateur dont les calculs s’effectuent à une résolution de 1283
lors de chacune
des 10 itérations. Dans cet exemple simple, l’opérateur d’advection se construit sur
ses paramètres de résolution par défaut. En pratique, il convient de donner les détails de
la méthode numérique comme l’ordre d’intégration en temps ou la formule de remaillage et
éventuellement des spécifications en rapport avec l’architecture employée.
Comme le montre l’exemple, l’interface utilisateur ainsi développée permet d’exprimer,
à travers les classes Python, une sémantique proche du langage mathématique. Cela rend
l’utilisation proche de celle proposée par un langage dédié. Un tel langage constitue l’expression
idéale d’une interface utilisateur car il consiste en la définition d’un nouveau langage
de programmation dont la sémantique est issue du domaine d’application du programme.
Ainsi, l’utilisateur exprime ses besoins dans un langage ayant un sens pour l’application,
ce qui conduit à une grande simplicité d’utilisation. Cependant, le développement de ce
langage est assez difficile. Une approche plus simple consiste à embarquer seulement de
nouveaux éléments de syntaxe dans le langage du programme (Mernik et al., 2005).
La librairie décrite précédemment nous permet, de par sa conception, d’intégrer un
module pour l’exploitation de cartes graphiques sans perte de portabilité sur les machines
dépourvues de ce matériel. Les GPU diffèrent sensiblement des processeurs classiques tant
par leurs architectures que par leurs modèles de programmation. Dans cette seconde partie,
nous détaillons le fonctionnement de ces cartes.
4.2. Calcul générique sur carte graphique
4.2.1. Description du matériel
Fonctionnement des cartes graphiques
Les cartes graphiques que nous utilisons aujourd’hui ont été introduites à la fin des
années 90. La fonction principale de ces cartes est de générer des images bidimensionnelles
destinées être affichées sur un écran. Dès le milieu des années 90, les cartes sont capables
de gérer un contenu tridimensionnel et sont principalement pour l’usage des jeux vidéo et
à l’infographie. Dans les années 2000, l’augmentation des performances des cartes grand
public rend ce matériel très compétitif en termes de capacité de calcul, relativement à leur
coût d’achat. Cela conduit à l’émergence du GPGPU, acronyme anglais signifiant calcul
générique sur processeur graphique.
Dans le cadre du rendu 3D, une carte graphique effectue un traitement en chaîne, représenté
en figure 4.4. Premièrement, le Vertex processor, calcule un ensemble de points
724.2. Calcul générique sur carte graphique
Script Python :
im p o r t parmepy a s pp
d e f s 0 ( r e s , x , y , z , t = 0. ):
r e s = . . .
r e t u r n r e s
d e f u0 ( r e s , x , y , z , t = 0. ):
r e s = . . .
r e t u r n r e s
# Domaine
O = pp . Box ( o r i g i n =[0 , 0 , 0 ] ,
l e n g t h =[1 , 1 , 1 ] )
T = pp . Simu ( t i n i t =0. , t e n d =1. ,
n b I t e r =10))
# V a r i a b l e s
u = pp . F i e l d ( domain=O,
v e c t o r=True ,
f o rm u l a=v _ i n i t )
s = pp . F i e l d ( domain=O,
v e c t o r=F a l s e ,
f o rm u l a=s _ i n i t )
# O p e r a t e u r s
a dvec = pp . A d v e c t i o n (
s , v e l o c i t y=u ,
r e s o l u t i o n =[128 , ] ∗ 3 )
# P r o b l ème
pb = pp . P roblem (
o p e r a t o r s =[ advec , ] ,
simu=T)
# I n i t i a l i s a t i o n
pb . s e t u p ( )
# Ré s o l u t i o n
pb . s o l v e ( )
Formalisme mathématique équivalent :
s0(x) = . . .
u0(x) = . . .
Ω = [0; 1]3
T = [0; 1]
u : Ω × T 7→ R
3
u(x, t = 0) = u0(x)
s : Ω × T 7→ R
s(x, t = 0) = s0(x)
∂s
∂t + (u · ∇)s = 0
Figure 4.3. – Exemple de script utilisateur
734. Développement d’un code multiarchitectures
à partir de la géométrie à afficher. Ensuite, les objets tridimensionnels sont projetés sur
un ensemble de pixels afin d’éliminer les parties cachées par la perspective. Les pixels sont
ensuite transformés par le Fragment processor, notamment par l’application de textures.
Enfin, les pixels sont assemblés dans la grille de pixels qui constituent l’image à afficher sur
l’écran. Aux débuts du calcul générique sur GPU, la programmation des cartes s’effectuait
en détournant cet enchaînement d’étapes par le développement de fonctions spécifiques
destinées à être exécutées par le Vertex processor et le Fragment processor.
Vertex
Processor Rasterizer
Fragment
Processor
Output
Assembler Écran
Données brutes
Objets
3D
Pixels
Pixels
Image calculés
Figure 4.4. – Transformations en chaîne pour le rendu graphique
Architecture des cartes graphiques
Ce matériel spécifique est composé de nombreux éléments dont l’architecture diffère des
processeurs classiques. Les composants principaux d’une carte graphique sont le processeur
graphique et la mémoire vidéo. Les processeurs graphiques se caractérisent par un très
grand nombre d’unités de calcul permettant de réaliser les opérations sur les sommets de
la géométrie ainsi que des transformations des pixels. Ces unités sont spécialisées dans le
traitement de données vectorielles jusqu’à quatre composantes (coordonnées spatiales ou
canaux de couleurs d’un pixel). D’autre part, les unités de calculs réalisent de manière
efficace des opérations simples sur ces données comme les additions, multiplications et
produits scalaires. La mémoire vidéo est généralement divisée en deux zones distinctes.
Une première partie permet des accès classiques en lecture et écriture et une seconde est
spécialisée en lecture ou en écriture pour le stockage de données de textures 2D ou 3D.
Comparativement à un processeur classique, un GPU permet un très haut débit de tâches
élémentaires et indépendantes effectuées en parallèle par les unités de calcul (UC dans la
figure 4.5). Ces dernières se partagent différents niveaux de cache. La figure 4.5 compare
les représentations d’un processeur multicœur, 4.5a et d’un GPU, 4.5b. Dans les deux cas,
seul le niveau de cache le plus haut est représenté. Alors que sur CPU, le nombre de cœurs
dépasse rarement la dizaine, il atteint plusieurs milliers sur un GPU. D’autre part, les CPU
peuvent accéder à la mémoire globale du système alors que la mémoire disponible sur un
GPU est généralement inférieure à 8 GByte.
744.2. Calcul générique sur carte graphique
Mémoire
Cache
Contrôleur
UC
UC
UC
UC
(a) CPU
Mémoire
UC
Contrôleur
Cache
(b) GPU
Figure 4.5. – Comparaison haut niveau de l’architecture d’un CPU et d’un GPU
L’intégration de la carte graphique au système principal se fait par une connexion à
la carte mère par PCI Express dont le débit varie de 1 à 16 GByte/s selon la version.
Cela constitue bien souvent un goulet d’étranglement pour les applications car le temps de
transfert des données est bien plus long que le temps de leur traitement sur la carte.
4.2.2. Différentes méthodes de programmation
Le calcul générique sur GPU a été grandement simplifié par les interfaces de programmations.
Elles permettent de s’affranchir de la chaîne de traitement graphique, représentée
en figure 4.4, au profit d’une exploitation directe des ressources des cartes. Le principe gé-
néral d’un calcul sur GPU est de traiter des données régulières (proches d’une image) dont
les algorithmes se décomposent selon un modèle hiérarchique en sous-blocs qui sont euxmêmes
constitués d’un ensemble de tâches élémentaires par unité de donnée. Il existe deux
grandes familles de modèles de programmation des GPU dont les principaux représentants
sont évoqués ci-après.
Programmation par directives
La programmation par directive sur GPU est très similaire à l’utilisation de l’interface
de programmation parallèle OpenMP pour les architectures à mémoire partagée. Les
standards de programmation les plus répandus sont HMPP, introduit par Dolbeau et al.
(2007), et OpenACC, qui est désormais inclus dans OpenMP depuis sa version 4.0 (2013).
Ils permettent d’exécuter des parties du code, le plus souvent des boucles, sur des accéléra-
754. Développement d’un code multiarchitectures
teurs par l’insertion de directives de compilation spécifiques. L’intérêt majeur de ce modèle
est de pouvoir utiliser ces accélérateurs sans avoir à réécrire le code concerné. Cependant
cela empêche une gestion fine de la transcription vers les instructions GPU, cette partie
du travail étant effectuée par le compilateur. Le support est généralement assuré par des
compilateurs commerciaux fournis notamment par CAPS Entreprise pour HMPP ou PGI
pour OpenACC. Toutefois, ce dernier est en cours l’intégration au compilateur libre GCC.
Programmation directe
À l’opposé de la famille précédente, se trouve la programmation utilisant un langage
spécifique. Il en existe plusieurs pour les GPU dont les plus utilisés sont CUDA (Nvidia,
2014) et OpenCL (Khronos, 2014). Le premier est développé par la société Nvidia pour
l’utilisation exclusive de ses cartes. Le second est un standard de programmation ouvert
permettant l’exploitation de processeurs multicœurs, que ce soit des processeurs traditionnels,
des cartes graphiques ou des coprocesseur. Les deux langages sont assez proches et se
basent sur un modèle de programmation qui reflète l’architecture du matériel. Cependant,
OpenCL bénéficie d’une portabilité bien plus grande car il permet d’exploiter non seulement
les cartes graphiques mais aussi les processeurs multicœurs. CUDA comme OpenCL
bénéficient d’interfaces performantes en Python (Klöckner et al., 2012).
4.2.3. Les modèles de programmation OpenCL
Le standard de programmation OpenCL permet de développer des modèles de parallé-
lisme par tâches et de données sur processeurs multicœurs. La librairie fournit une interface
de programmation de haut niveau permettant la gestion des calculs et des ressources ainsi
que le profilage des applications. Les calculs de bas niveau sont implémentés en un langage
basé sur le C99. Une application OpenCL se doit de définir les quatre modèles hiérarchiques
suivants. Les termes techniques sont systématiquement traduits dans cette partie
mais pourront être utilisés en anglais dans la suite.
Le modèle de plateforme
Du point de vue OpenCL, une plateforme est constituée d’un hôte (host) et de un ou
plusieurs appareils (devices). Ces derniers regroupent, de manière générique, bon nombre
de matériel multicœur comme les cartes graphiques mais aussi les processeurs classiques ou
les processeurs spécifiques. L’implémentation consiste en une partie de code exécutée par
la machine hôte (host) et capable d’envoyer et d’exécuter des noyaux de calcul (kernels)
aux appareils (devices). Le code des noyaux est compilé de manière spécifique aux appareils
sur lequel il sera exécuté. Les noyaux sont exécutés par les cœurs (processing elements) de
chaque unité de calcul (compute unit), ce qui reflète l’organisation matérielle des unités de
calculs d’un GPU, comme illustré par la figure 4.6.
764.2. Calcul générique sur carte graphique
Host
Device
Processing element
Compute unit
Figure 4.6. – Modèle de plateforme OpenCL
Le modèle d’exécution
On distingue deux catégories d’unités d’exécution : le programme exécuté par la machine
hôte et les noyaux. À chaque appareil (device) est associé une ou plusieurs files d’attente de
commandes dans lesquelles sont insérées les transferts de données et les appels aux noyaux.
Ces derniers sont définis par un état d’exécution (soumis, en attente, démarré, terminé,
. . .) dont les durées entre transitions sont mesurables par l’outil de profilage intégré. Des
dépendances entre les éléments peuvent être données explicitement, ce qui conduit à l’expression
d’un parallélisme par tâche à travers une exécution asynchrone. La caractéristique
principale est que chaque noyau est exécuté, par un cœur de calcul, comme une fonction
en un point d’un espace d’indice représenté sur la figure 4.7. Cet espace est décomposé en
un ensemble de groupes de travail (work-groups) contenant plusieurs éléments de travail
(work-items). À chaque élément de travail (work-item) est associé un cœur de calcul.
Espace global
Work-group
GX
GY
0 1 2 3· · ·
0 1 · · · NX
0
1
2
3
.
.
.
0
1
.
.
.
NY
· · ·
· · ·
· · ·
.
.
.
.
.
. .
.
.
0 1 2 · · ·
0
1
2
.
.
.
WX
WY
Figure 4.7. – Espace d’indices OpenCL. Espace 2D de taille GX ×GY impliquant NX ×NY
work-groups composés de WX × WY work-items, avec G• = N•W•
774. Développement d’un code multiarchitectures
L’espace d’indices est un espace cartésien mono-, bi- ou tridimensionnel. Chaque élément
de travail (work-item) est identifié de manière unique par ses coordonnées dans l’espace
global ou par le couple des coordonnées du groupe (work-group) et d’une coordonnée locale
au groupe (work-groups), comme illustré par la figure 4.7. Les tailles de l’espace global
et des groupes de travail sont données en paramètres à chaque exécution d’un noyau. Le
parallélisme de données est obtenu en reliant l’espace d’indices et l’indexation des données.
Différents niveaux de synchronisation sont possibles. L’exécution des éléments de travail
(work-items) est concurrente au sein d’un groupe (work-group). Il est possible de synchroniser
les éléments au sein d’un même groupe à l’aide de barrières. Par contre il est impossible
de synchroniser les groupes entre eux, de même qu’il n’est pas possible de spécifier l’ordre
dans lequel ils seront exécutes ni de savoir lesquels seront exécutés simultanément. Du côté
de l’hôte, la synchronisation globale se fait par l’intermédiaire de la file d’attente et de l’état
de chaque noyau de calcul.
Le modèle de mémoire
Dans ce modèle, la mémoire de l’hôte est dissociée de celle des appareils. Cette dernière
est décomposée en quatre région distinctes :
Globale : niveau le plus haut, il est partagé en lecture et écriture par tous les éléments
de travail de tous les groupes (∼ 1 GByte).
Constante : mémoire accessible en lecture seule par les éléments de travail au cours de
l’exécution. De taille assez faible, elle permet de stocker des constantes numériques
(∼ 10 kByte).
Locale : niveau intermédiaire partagé au sein d’un groupe de travail. Ce niveau peut être
utilisé explicitement comme un cache (∼ 10 kByte).
Privée : niveau le plus bas, il est dédié à un élément de travail et inaccessible aux autres
(< 1 kByte).
La mémoire globale ne peut contenir que des Buffers ou des Images. Les premiers sont
des zones mémoires contiguës destinées à un usage générique comme un tableau d’éléments.
Les seconds sont stockés dans la mémoire dédiée aux textures sous la forme d’une structure
de données complexe et dont les accès, en lecture seule ou écriture seule, sont gérés par des
fonctions OpenCL prédéfinies. Ce modèle hiérarchique est schématisé en figure 4.8. Comme
nous le verrons par la suite, une gestion précise des transferts de données entre ces différents
niveaux de mémoire est fondamentale pour l’amélioration les performances.
Le modèle de programmation
Afin d’exploiter tous les modèles définis précédemment, une application OpenCL se
décompose selon trois couches dont il est nécessaire de décrire tous les niveaux. Au niveau de
la plateforme, le programme hôte explore l’architecture disponible et un contexte OpenCL
doit être créé afin de lier le ou les appareils utilisés avec l’hôte et pour créer les files de tâches
associées à chaque appareil. Le compilateur OpenCL permet de compiler les sources des
noyaux de calcul spécifiquement pour un appareil ciblé. Au niveau des modèles de mémoire
et d’exécution, le programme est constitué de la gestion des files d’évènements ainsi que de
784.2. Calcul générique sur carte graphique
Mémoire globale du système
host
Mémoire globale Constante
device
work-group
Mémoire locale
P.
w.i.
P.
w.i.
P.
w.i.
P.
w.i.
Figure 4.8. – Modèle hiérarchique OpenCL pour la mémoire
transferts de données entre les mémoires de l’hôte et des appareils. Un schéma d’exécution
est représenté en figure 4.9. Dans l’idéal, la conception des algorithmes doit permettre une
gestion asynchrone des évènements afin de maximiser l’utilisation des composants. Cette
dernière est maximale lorsque des calculs sont effectués simultanément sur les appareils et
sur l’hôte ainsi que pendant des transferts de données.
. . .
Initialisation OpenCL
Compilation
Transferts
Exécution des kernels
Calculs
Host
Device
Création de la
file d’exécution
Figure 4.9. – Schéma d’exécution OpenCL
La figure 4.9 représente les durées d’exécution à titre d’illustration car les proportions
entre les différentes étapes ne reflètent pas nécessairement les temps observés dans une
application.
794. Développement d’un code multiarchitectures
4.2.4. Analyse de performances par le modèle roofline
En préambule à l’étude des performances de l’implémentation, il est nécessaire d’explorer
les performances atteignables par le matériel. Le code est développé et exploité sur
différents types de machines depuis un portable jusqu’à un serveur de calcul. Une partie des
caractéristiques techniques des cartes graphiques sur lesquelles le code a été exploité sont
présentées dans le tableau 4.1. Les deux premières cartes sont comparables et ont permis
essentiellement les développements du début de ce travail. La carte K20m est bien plus
récente que les deux autres et bénéficie de technologies bien plus avancées.
Carte AMD Radeon AMD Radeon Nvidia
HD 6770M HD 6900 Series K20m
Type de machine portable bureau serveur
Date de mise sur le marché 01/2011 12/2010 01/2013
Taille mémoire (GByte) 1 1 5
Bande passante max. (GByte/s) 57.6 160 208
Puissance (SP) (GFLOPS) 696 2 253 3 519
Puissance (DP) (GFLOPS) Non supporté 563 1 173
Tableau 4.1. – Comparaison de différentes cartes graphiques
Les études de performances des noyaux de calcul présentées dans la suite sont réalisées
à travers le modèle roofline introduit en section 1.2.2. Nous donnons ici le modèle pour
les cartes Radeon 6770M et K20m sur les figures 4.10 en utilisant les données théoriques
mais aussi des mesures de performances par des programmes de test. Les deux données
nécessaires à l’élaboration du roofline sont la bande passante maximale et la puissance de
calcul maximale. La première est obtenue à l’aide d’un kernel réalisant une copie d’un buffer
à un autre. La puissance maximale, quand à elle, est obtenue à partir d’un kernel ayant
une grande intensité opérationnelle. Le kernel que nous utilisons réalise 50 instructions
d’additions et multiplications sur 4 variables de type vecteur à 4 composantes en simple
ou en double précision, le tout dans une boucle de 20 itérations, soit 32 000 opérations par
work-item. Les performances mesurées sont résumées dans le tableau 4.2.
La capacité de certaines cartes graphiques à effectuer des calculs en double précision
est assez récente. La raison principale est que la précision numérique n’est pas une priorité
dans le cadre de l’affichage d’un contenu graphique. La principale contrainte est d’afficher
des images sur l’écran en un temps le plus court possible. Cela est poussé à l’extrême dans
certains modèles qui ne sont pas conformes à la norme IEEE 754 pour le calcul en virgule
flottante. Sur la majorité des cartes, des options de compilations spécifiques permettent
d’autoriser le compilateur à ne pas respecter cette norme. Toutefois, les cartes qui la supportent
possèdent généralement moins de cœurs capables de traiter la double précision que
de cœurs pour la simple précision ce qui conduit à des performances en double précision
bien inférieures à la simple précision.
Le mécanisme ECC, de l’anglais Error Correction Code, activé par défaut sur les cartes
Nvidia permet de vérifier et corriger, à l’exécution, les accès aux données en mémoire et ainsi
remédier à d’éventuelles erreurs dues à des facteurs extérieurs. Ce mécanisme consomme
804.2. Calcul générique sur carte graphique
Théorique
Mesuré
Mesuré (sans ECC)
Simple précision
Double précision 101
102
103
104
1 10 100
Puissance maximale (GFLOPS)
Intensité opérationnelle (FLOP/Byte)
(a) ATI Radeon 6770M
101
102
103
104
1 10 100
Puissance maximale (GFLOPS)
Intensité opérationnelle (FLOP/Byte)
(b) Nvidia K20m
Figure 4.10. – Modèle roofline
Bande passante (GByte/s) ATI Radeon 6770M Nvidia K20m
Théorique 57.6 208
Mesurée 36.9 (64%) 152 (73%)
ECC désactivé – 172 (83%)
Puissance, simple précision (GFLOPS)
Théorique 696 3 519
Mesurée 632 (91%) 3 350 (95%)
Puissance, double précision (GFLOPS)
Théorique – 1 173
Mesurée – 1 173 (100%)
Tableau 4.2. – Performances mesurées.
814. Développement d’un code multiarchitectures
12.5% de la mémoire de la carte et réduit d’environ 12% la bande passante, comme le montre
les résultats du tableau 4.2.
Dans cette dernière partie, nous détaillons la mise en pratique de l’utilisation des cartes
graphiques dans la librairie de calcul ainsi que la principale mesure de performances.
4.3. Utilisation de cartes graphiques dans la librairie
L’implémentation de ces modèles de programmation est réalisée à travers le module
Python PyOpenCL et s’insère dans le diagramme de classe présenté en figure 4.2, page 69.
La figure 4.11 donne les nouvelles classes ainsi que leurs relations avec le modèle existant. Le
modèle de mémoire est implémenté dans la classe GPUDVariable et encapsule un pointeur
vers un objet mémoire GPU ainsi qu’une interface pour les transferts de données avec
l’hôte. Le modèle de plateforme est intégré dans la classe outil ClEnvironment et permet
de créer et de gérer les objets du le contexte et de la file d’attente des appareils ainsi que la
compilation du code OpenCL. Enfin, le modèle d’exécution est décrit par les interactions
entre les GPUDOperators. Les évènements créés par les appels aux kernels sont associés aux
variables et permettent d’exprimer un parallélisme par tâches. L’intérêt majeur de séparer
l’implémentation GPU dans un module distinct est de pouvoir s’affranchir de cette partie
du code sur les machines dépourvues d’accélérateurs et d’implémentation OpenCL et ainsi,
garantir une portabilité suffisante à la librairie. D’autre part, grâce à cette séparation, un
module GPU basé sur le langage CUDA, par exemple, pourrait être intégré à la librairie
sans aucun impact sur le reste du code.
Nous démontrons ici la simplicité d’ajout de la prise en compte d’une nouvelle architecture
particulière à la librairie de calcul. En effet, seuls les éléments dépendants de cette
architecture sont à implémenter.
Conclusion
Dans ce chapitre nous avons obtenu une librairie de calcul présentant une grande souplesse
d’utilisation ainsi qu’une forte capacité d’adaptation à des architectures hétérogènes,
comme les GPU. L’obtention de ces caractéristiques est possible à travers l’utilisation d’un
paradigme de programmation orientée objet ainsi qu’une conception basée sur une stratégie
de découpage sémantique des concepts mathématiques exprimés à travers différents niveaux
d’abstraction. La librairie ainsi conçue permet une grande flexibilité pour le développement
grâce à un faible couplage des différentes parties et à une forte cohésion à travers les niveaux
d’abstraction. Le choix du langage de programmation a été fait en fonction des caractéristiques
de la librairie, qui s’expriment à travers la conception, et les objectifs d’utilisation
du code. Ainsi, le choix s’est porté sur le langage Python dont un des avantages est de
proposer de nombreux modules pour le calcul scientifique comme le module NumPy ainsi que
des interfaces vers des librairies externes comme les modules PyOpenCL pour OpenCL et
MPI4Py pour MPI
824.3. Utilisation de cartes graphiques dans la librairie
Operators Variables
Tools
<>
DOperator <>
NumMethod
DVariable
<>
GPUDOperator
opencl environment
GPUDVariable
gpu data
to host
to device
ClEnvironment
opencl platform
opencl device
opencl context
opencl queue
build sources
GPUKernel
sources
opencl program
compute
CL sources
n
1
n
build
GPU
Figure 4.11. – Diagramme de classe pour le module GPU
L’exploitation des cartes graphiques semble pertinent au regard des reports de puissance
de calcul développée dans la littérature que ce soit de manière théorique par le matériel
en lui-même ou à travers des applications concrètes. Comme nous le verrons dans le chapitre
5, la structure de donnée nécessaire à la mise en œuvre de la méthode particulaire
avec remaillage s’adapte bien à un traitement par cartes graphiques. D’autre part, les sché-
mas numériques associés à la méthode sont compacts et locaux du fait de l’utilisation du
splitting dimensionnel. Le traitement d’un point ne requiert seulement que quelques points
voisins dans une seule direction de l’espace. Enfin, la majeure partie des opérations du remaillage
consistent en des additions et multiplications en nombre réels qui sont effectuées
de manière très efficace par les cartes graphiques.
835. Mise en œuvre sur cartes
graphiques
La méthode numérique, exposée au chapitre 2, semble bien adaptée à l’utilisation de
cartes graphiques dont les principales caractéristiques ainsi que les techniques d’exploitation
ont été détaillés au cours du chapitre 4. L’objectif de ce chapitre est, dans un premier
temps, de présenter les différentes implémentations existantes de méthodes particulaires
avec remaillage sur cartes graphiques afin d’identifier leurs avantages et inconvénients. À
travers l’exploration des travaux existants, l’accent est mis sur les interpolations entre les
particules et le maillage. Une progression se dégage de l’évolution de l’exploitation des
matériels depuis 2008. En effet, les travaux les plus anciens se basent essentiellement sur
les primitives propres au traitement d’images à travers la chaîne de rendu graphique alors
que la tendance actuelle est plutôt à utiliser des structures de données génériques, moins
dépendantes du matériel.
Dans un second temps, nous détaillerons les choix effectués dans le cadre spécifique de la
méthode semi-Lagrangienne d’ordre élevé avec splitting dimensionnel. Ces différents choix
ne dépendent pas du matériel utilisé mais s’appliquent à n’importe quelle carte graphique.
Ainsi, nous conservons le caractère portable de notre code. Une grande partie de ce chapitre
est dédiée à l’étude des performances des principales fonctions des algorithmes issus de la
méthode et de l’impact des optimisations réalisées. Ces dernières sont présentées dans le
cadre concret de la carte graphique K20m mais, dans un souci de portabilité, elles ne sont
généralement appliquées que lors de l’exécution, pendant la phase d’initialisation. En effet,
nous exploitons un des aspects de la programmation sur GPU qui consiste à compiler le
code à l’exécution. Ainsi, le code est développé de manière générique puis, après une prise
de connaissance de la carte employée et de ses caractéristiques, certaines optimisations sont
activées pour la compilation. Sans implémenter une auto-optimisation du code, cette étape
nous permet d’adapter, entre autres, les tailles de l’espace d’indices OpenCL, la charge par
work-item ou encore le schéma d’accès aux données aux spécifications de la carte utilisée.
Enfin, nous illustrerons l’utilisation de la méthode de résolution sur quelques exemples
simples de transport de scalaire en 2D et 3D. Ces exemples permettent une validation de
la méthode de manière qualitative ainsi qu’une description de la répartition des temps de
calcul en vue d’éventuelles optimisations plus poussées.
855. Mise en œuvre sur cartes graphiques
5.1. Implémentations GPU de méthodes
semi-Lagrangiennes
5.1.1. Méthodes semi-Lagrangiennes
Une première implémentation sur GPU d’une méthode semi-Lagrangienne a été proposée
par Rossinelli et al. (2008) pour la simulation de fluides incompressibles en 2D. La diffusion
et l’équation de Poisson sont résolues par différences finies sur la grille et les particules
sont transportées de manière Lagrangienne puis remaillées à l’aide d’une formule du second
ordre M0
4
. Cette implémentation se base sur l’utilisation de la mémoire de textures. Cette
mémoire spécifique aux GPU permet un stockage de pixels de telle sorte que les données
voisines correspondent aux pixels voisins en 2D. Les particules sont représentées par des
pixels où les composantes RGB sont associées respectivement aux positions et la vorticité
des particules. Les auteurs montrent une performance globale de 10 itérations par seconde
pour un problème de taille 1 0242
en simple précision en utilisant une méthode de RungeKutta
du second ordre.
Plus récemment, Rossinelli et al. (2010) présentent des résultats pour des simulations
2D d’écoulements en présence d’obstacles solides. La méthode employée est similaire à celle
utilisée précédemment avec l’ajout de la prise en compte des obstacles par une méthode
de pénalisation. Là encore, le remaillage est effectué par la formule M0
4
en utilisant les
fonctions intrinsèques OpenGL pour le rendu graphique et des textures sont utilisées pour
le stockage des données. L’équation de Poisson est résolue par un solveur spectral utilisant
l’implémentation de la FFT fournie par Nvidia en CUDA dont la résolution occupe 96%
du temps de calcul total. Les simulations considérées pour ces études de performances
impliquent jusqu’à 2 0482 particules en simple précision.
L’inconvénient majeur de l’utilisation des textures est que les données sont arrangées
en tableaux de structures. Ce stockage n’est pas le plus approprié pour des opérations
n’impliquant pas toutes les composantes des éléments. D’autre part, les équivalents 3D de
cette mémoire sont uniquement proposés par les dernières générations de cartes graphiques.
Ainsi, le passage à une méthode de résolution de problèmes 3D nécessite une attention
particulière pour l’exploitation de structures de données essentiellement 2D.
5.1.2. Deux types d’interpolations
Les méthodes semi-Lagrangiennes utilisent deux algorithmes majeurs pour les interactions
entre les particules et le maillage basés sur des interpolations. Une interpolation
maillage-particule permet d’évaluer sur les particules une quantité connue sur le maillage et
inversement pour une interpolation particule-maillage. Le premier type d’interpolation est
utilisé lors de l’advection des particules pour connaître leur vitesse alors que le remaillage
exploite le second type. Stantchev et al. (2008) introduisent les stratégies particle-push
et particle-pull pour réaliser l’étape d’interpolation particule-maillage. Ces deux stratégies
diffèrent au niveau de l’organisation de la charge de travail. La première consiste en un traitement
centré sur les particules dont le principe est de les remailler sur les points de grille
de leur voisinage. Elle permet un calcul simple des points de grille contenus dans le support
865.1. Implémentations GPU de méthodes semi-Lagrangiennes
de la particule à partir de ses coordonnées et permet également, dans un cas tensoriel, une
réutilisation des poids de remaillage. Cependant, des accès conflictuels en mémoire peuvent
survenir lors du traitement en parallèle de plusieurs particules situées dans la même cellule.
La seconde est centrée sur le maillage de telle sorte qu’en chaque point de grille on agrège
les contributions des particules voisines. Le seul avantage de la seconde stratégie est de ne
pas conduire à des accès concurrents en mémoire. Dans cette stratégie, une recherche des
particules les plus proches est nécessaire.
Les méthodes de type particle-in-cell sont basées sur ces interpolations. Pour les interpolations
particule-maillage, la majeure partie des implémentations exploitent des stratégies
particle-pull et relaxent les éventuels problèmes d’accès concurrents par un regroupement
des particules voisines en blocs qui sont traités de manière séquentielle par un même processus.
Ainsi, un tri des particules à deux niveaux est nécessaire, d’abord par blocs puis au
sein d’un bloc. Différentes techniques sont employées comme par exemple le maintien d’une
structure de données triée (Rossi et al., 2012) ou un tri à chaque itération (Kong et al.,
2011). Quelque soit la méthode employée pour le tri, cela implique des réarrangements de
données au gré des déplacements des particules afin d’assurer un haut niveau de localité des
données. Les interpolations de type maillage-particule sont plus simples à mettre en œuvre
puisque l’interpolation se fait sur la grille dont la structure est régulière.
Pour ce qui est des méthodes particulaires avec remaillage, les premières implémentations
GPU exploitaient les primitives OpenGL du rendu graphique. En particulier, Rossinelli et
al. (2008) montrent que le remaillage des particules est bien plus efficace, avec une facteur
d’accélération de 1.5, lorsque qu’il est effectué par le moteur de rendu OpenGL plutôt que
par une implémentation CUDA. Cette implémentation se base sur des objets point-sprites
permettant la génération d’une texture contenant, après exécution du rendu en chaîne, les
sommes des contributions de l’ensemble des point-sprites. Ainsi, l’étape exécutée par le
fragment processor consiste à calculer les pixels de la texture par la formule de remaillage
en fonction de la distance aux point-sprites et de leur valeur. Les auteurs soulignent ici un
inconvénient de l’utilisation du langage CUDA qui est de ne pas permettre une exploitation
des fonctionnalités natives du matériel, en particulier les opérations du rendu graphique.
L’étape du vertex processeur permet, en amont du remaillage, de traiter les conditions aux
bords périodiques par une réplication des particules situées à proximité des bords ainsi que
d’écarter les particules transportant une quantité nulle ou inférieure à un certain seuil.
Cette approche est ensuite complétée (Rossinelli et al., 2010) pour le cas de domaines
ouverts. Les auteurs traitent les particules quittant le domaine local en les écartant au
moment de l’étape du vertex processor qui précède le remaillage. D’autre part, dans leur
implémentation, un remaillage systématique est effectué à chaque itération ce qui fait que
les particules sont toujours situées sur un point de grille au début de l’étape d’advection
et permet ainsi d’éviter une interpolation maillage-particule du champ de vitesse. Une
interpolation reste nécessaire pour la seconde étape du schéma d’intégration Runge-Kutta
du second ordre.
Une étude spécifique de l’interpolation maillage-particule est menée par Rossinelli et al.
(2011) sur des architectures multicœurs CPU et GPU. Comme précédemment, l’implémentation
GPU se base sur un stockage des particules en mémoire de textures. Les données
d’une même particule ne sont plus stockées dans un pixel mais par composantes dans plusieurs
textures. Chaque pixel contient les données de quatre points de grille dans la direction
875. Mise en œuvre sur cartes graphiques
des pixels. Dans leur étude, les auteurs utilisent la formule M0
4 pour une interpolation tensorielle
en 2D. Ainsi dans un traitement ligne par ligne, deux pixels consécutifs contiennent
nécessairement toute l’information pour traiter une particule. Parmi les 8 données lues,
seules 4 sont nécessaires, les auteurs utilisent des poids booléens afin de s’affranchir de
branchements conditionnels. L’inconvénient de cette approche est qu’il est nécessaire de
charger en mémoire 8 éléments (2 pixels) dans la direction des pixels pour n’utiliser que les
quatre éléments du support de la particule. Les auteurs atteignent 72% de la performance
maximale atteignable en simple précision et les performances chutent fortement en double
précision.
Plus récemment, Büyükkeçeci et al. (2012) réalisent une étude des deux types d’interpolations
maillage-particule et particule-maillage basées sur des stratégies respectivement
mesh-pull et particle-push ce qui conduit à des algorithmes centrés sur les particules dans
les deux cas. Les auteurs proposent une implémentation générique dans laquelle les particules
sont réarrangées dans une structure de donnée hiérarchique permettant un stockage
contigu des particules de la même région de l’espace. Cette structure se base sur un traitement
séquentiel des particules dans une même cellule en utilisant autant de copies du
domaine que du nombre maximal de particules par cellule. Cela conduit à n’avoir qu’une
seule particule par cellule et par copie ainsi que des cellules vides. Les cellules vides sont
peuplées de particules factices, écartées à la fin de l’interpolation, ce qui permet d’éviter des
branchements conditionnels. Des études systématiques de performances sont réalisées sur
plusieurs cartes graphiques pour chaque interpolation avec des formules linéaire ou M0
4
et
pour des problèmes 2D et 3D. Les auteurs soulignent que les meilleures performances sont
obtenues pour les cas 3D utilisant la formule M0
4
. Ils montrent des accélérations significatives
du temps de calcul entre leur implémentation GPU et une référence multicœur CPU.
Même si cette implémentation est efficace, les performances globales restent limitées par
l’intégration à la librairie PPM. En effet, l’utilisation de ce remaillage nécessite un transfert
des données en entrée ainsi que de retourner les résultats sur la mémoire de la machine hôte
avant de réaliser les autres parties de la résolution. Le facteur d’accélération obtenu est
généralement inférieur à 10, et même inférieur à 1 dans certains cas, en prenant en compte
ce temps de transfert.
À partir des différentes implémentations existantes de méthodes semi-Lagrangiennes et
en particulier des interpolations entre le maillage et les particules, nous proposons une implémentation
qui exploite les différents aspects inhérents à la méthode considérée. En effet,
l’utilisation d’un splitting dimensionnel est à l’origine de bon nombre de choix présentés
dans ce qui suit. Les données sont stockées dans des tableaux classiques, sans aucune utilisation
de structures de données spécifiques aux cartes graphiques comme les textures ou
les pixels. Après une description de ces choix, nous présentons les performances de chaque
fonction de la méthode pour la carte Nvidia K20m. La restriction à une seule carte permet
de simplifier la présentation des résultats et l’extension à d’autres cartes se fait par
adaptation des configurations aux caractéristiques techniques de ce nouveau matériel. Les
performances sont données dans les métriques adaptées à chaque cas.
885.2. Implémentation et performances
5.2. Implémentation et performances
5.2.1. Adéquation de la méthode au matériel
Les implémentations réalisées dans le cadre de ce travail sont basées, à l’instar de
Büyükkeçeci et al. (2012), sur des stratégies mesh-pull pour les interpolations de type
maillage-particule ainsi que particle-push pour le type particule-maillage. Toutefois, l’utilisation
d’un splitting dimensionnel nous permet d’envisager l’emploi de formules de remaillage
d’ordre élevé ayant un large support. Du point de vue de l’implémentation, cela conduit à un
algorithme avec une localité des données plus forte que dans le cadre de méthodes classiques.
En effet, le traitement d’une donnée (particule ou point de grille) ne nécessite que quelques
données voisines uniquement dans la direction courante. La méthode revient à la résolution
de nombreux sous-problèmes monodimensionnels ce qui pousse naturellement à l’emploi
d’une structure de donnée également 1D. Ainsi, nous utilisons des objets mémoire linéaires
comme les buffers qui correspondent à des tableaux classiques. Le découpage par splitting
dimensionnel permet également de considérer séparément les composantes des vecteurs, en
particulier de la vitesse, lors de l’étape d’advection. Nous employons donc une structure de
donnée en tableaux par composantes et non pas en tableau de structures. En pratique les
composantes d’un vecteur sont stockées sous la forme de plusieurs tableaux de scalaires.
Dans la suite de cette thèse, nous prenons comme convention, sans que cela n’implique
aucune restriction, que les données sont stockées dans un ordre en colonne, à l’instar
du langage Fortran. Le stockage monodimensionnel des données d’un tableau de taille
(NX, NY , NZ) dans un espace de taille NX × NY × NZ est illustré en figure 5.1.
. . .
. . . . . .
. . .
.
.
.
.
.
.
NX
NZ
NY
Tableau 3D : (NX, NY , NZ ) ←→ Tableau 1D : NX × NY × NZ
Figure 5.1. – Convention de stockage des données multidimensionnelles
Ainsi, lors des différentes étapes de splitting, le traitement de la première direction de
stockage des données conduit à des accès contigus en mémoire. Ce qui n’est plus le cas lors
du traitement des autres directions. Afin d’éviter une dégradation des performances due
à ces accès, nous mettons en place des transpositions des données pour le traitement des
différentes directions de l’espace. En effet, les performances des accès en mémoire globale
sont généralement plus faibles lors d’accès avec un saut, même constant, comme représenté
par les flèches vertes et bleues sur la figure 5.1. Ainsi, l’accès aux données est toujours
contigu en mémoire pour toutes les directions. Ce choix conduit à trois remarques à propos
de la mise en œuvre de ces transpositions. Premièrement, le champ de vitesse u n’est
895. Mise en œuvre sur cartes graphiques
utilisé que composantes par composantes dans les étapes de splitting. Lors de l’advection
dans la direction X, seule la composante uX est utilisée. Par conséquent, les composantes
des vecteurs, en particulier de la vitesse, sont toujours stockées de manière a avoir un
accès contigu dans la direction concernée. Deuxièmement, les positions des particules à
l’issue de l’étape d’advection ne changent que dans leur composante correspondant à la
direction courante, les autres composantes restent inchangées car le déplacement est 1D.
Cela nous permet de réduire le vecteur position des particules à un scalaire correspondant
à la composante de la direction courante et ainsi de réduire l’emprunte mémoire de la
méthode. Enfin, en dehors des transpositions, toutes les directions sont traitées de manière
identique. En pratique, le même code s’applique dans toutes les directions moyennant une
paramétrisation des dimensions des tableaux dans les cas de grilles non cubiques.
Comme nous l’avons détaillé au chapitre 2, les trois étapes de résolution consistent en
une initialisation en chaque point de grille, un déplacement puis un remaillage des particules.
Lors de l’étape d’initialisation, la position des particules est directement donnée par
la coordonnée du point de grille associé et la quantité transportée par la particule est simplement
une copie de la valeur au point de grille. Ainsi dans notre implémentation, cette
initialisation est remplacée par une transposition lorsque la direction courante change. En
effet, une simple copie suffit dans le cas contraire car les données sont déjà dans le bon
ordre de stockage.
Les algorithmes 1 à 4 détaillent les étapes d’une itération complète de la méthode. Les
données manipulées sont limitées aux composantes du champ de vitesse, aux valeurs sur la
grille des quantités transportées, à un scalaire pour la position des particules et aux valeurs
transportées par les particules. La figure 5.2 illustre l’algorithme 2 dans le cas d’un splitting
du second ordre en 2D et pour un domaine rectangulaire. Les données manipulées par les
opérations d’advection et de remaillage pour un sous-problème 1D sont représentées par
une bande rouge verticale dans les tableaux.
Algorithme 1 : 2D, splitting d’ordre 1
Direction X :
1. u˜ ← Copie (u)
2. x˜ ← Advection (dt, aX)
3. u ← Remaillage (x˜, u˜)
Direction Y :
4. u˜ ← TranspositionXY (u)
5. x˜ ← Advection (dt, aY )
6. u ← Remaillage (x˜, u˜)
Réarrangement des données :
7. u˜ ← TranspositionXY (u)
8. u ← Copie (u˜)
Algorithme 2 : 2D, splitting d’ordre 2
Direction X :
1. u˜ ← Copie (u)
2. x˜ ← Advection (dt/2, aX)
3. u ← Remaillage (x˜, u˜)
Direction Y :
4. u˜ ← TranspositionXY (u)
5. x˜ ← Advection (dt, aY )
6. u ← Remaillage (x˜, u˜)
Direction X :
7. u˜ ← TranspositionXY (u)
8. x˜ ← Advection (dt/2, aX)
9. u ← Remaillage (x˜, u˜)
Dans tous les algorithmes (1 à 4), les deux premières étapes de chaque direction sont
indépendantes. Ainsi, lors de l’exécution, un parallélisme par tâches pourra être exprimé
et conduira à une exécution simultanée des étapes d’advection et des étapes de copie et
de transposition. Une étape de réarrangement des données apparaît en fin d’algorithme
905.2. Implémentation et performances
Algorithme 3 : 3D, splitting d’ordre 1
Direction X :
1. u˜ ← Copie (u)
2. x˜ ← Advection (dt, aX)
3. u ← Remaillage (x˜, u˜)
Direction Y :
4. u˜ ← TranspositionXY (u)
5. x˜ ← Advection (dt, aY )
6. u ← Remaillage (x˜, u˜)
Direction Z :
7. u˜ ← TranspositionXZ (u)
8. x˜ ← Advection (dt, aZ)
9. u ← Remaillage (x˜, u˜)
Réarrangement des données :
10. u˜ ← TranspositionXZ (u)
11. u ← TranspositionXY (u˜)
Algorithme 4 : 3D, splitting d’ordre 2
Direction X :
1. u˜ ← Copie (u)
2. x˜ ← Advection (dt/2, aX)
3. u ← Remaillage (x˜, u˜)
Direction Y :
4. u˜ ← TranspositionXY (u)
5. x˜ ← Advection (dt/2, aY )
6. u ← Remaillage (x˜, u˜)
Direction Z :
7. u˜ ← TranspositionXZ (u)
8. x˜ ← Advection (dt, aZ)
9. u ← Remaillage (x˜, u˜)
Direction Y :
10. u˜ ← TranspositionXZ (u)
11. x˜ ← Advection (dt/2, aY )
12. u ← Remaillage (x˜, u˜)
Direction X :
13. u˜ ← TranspositionXY (u)
14. x˜ ← Advection (dt/2, aX)
15. u ← Remaillage (x˜, u˜)
dans les cas d’un splitting du premier ordre. Cette étape est nécessaire pour retrouver le
scalaire dans l’ordre de stockage initial de l’algorithme, afin de rendre ces transformations
transparentes. En effet, dans tous les cas, les données du scalaire sur la grille sont stockée
en fin d’algorithme dans le même ordre qu’au début.
Les kernels sont donc développés indépendemment de la direction de résolution. Nous
séparons les développements de kernels de l’étape d’initialisation de ceux du calcul. Les
premiers regroupent les opérations de copie et les transpositions qui ne nécessitent aucun
calcul. Leurs performances sont analysées en terme de bande passante. Les performances
des seconds sont données dans le modèle roofline.
5.2.2. Préambule à l’étude des performances
Sauf mention contraire, dans la suite de ce chapitre, nous présenterons des résultats en
double précision pour la carte Nvidia K20m.
En l’absence d’outils d’optimisation automatique, nous exploitons les caractéristiques du
matériel pour paramétrer les exécutions des kernels. En particulier, le lien entre la taille des
données et l’espace d’indice OpenCL ne suffit pas à déterminer complètement le nombre et
la taille des work-groups. Dans l’état actuel de la librairie, cette paramétrisation des noyaux
est réalisée de manière explicite pour les différents cas d’utilisation tels que le nombre de
dimensions du problème, la précision utilisée et le matériel employé. Les paramètres donnant
les meilleures performances ont été obtenus par petites variations autour de valeurs en
915. Mise en œuvre sur cartes graphiques
1. copie
2. advection
3. remaillage
4. Transposition XY
5. advection
6. remaillage
7. Transposition XY
8. advection
9. remaillage
Direction X, dt/2
Direction Y , dt
Direction X, dt/2
X
Y
Y
X
X
Y
Grille : Particules :
Vitesse
Scalaire Scalaire
Positions
Figure 5.2. – Algorithme pour une itération en 2D, splitting de Strang
925.2. Implémentation et performances
adéquation avec le matériel. Le tableau 5.1 rappelle et détaille les principales caractéristiques
pour la carte K20m. Le vocabulaire employé dans ce tableau est celui du langage CUDA pour
les cartes Nvidia. Pour les cartes ATI, l’architecture est similaire et les warps sont appelés
wavefronts. D’autre part les termes thread et thread block sont les équivalents CUDA de ce
que sont les work-items et work-groups pour OpenCL.
Puissance double (simple) précision 1 173 (3 519) GFLOPS
Cœurs double (simple) précision 832 (2496)
Bande passante 208 GByte/s
Multiprocesseurs (MP) 13
Cœurs double (simple) précision par MP 64 (192)
Mémoire partagée par MP 48 kByte
Registres 32-bit par MP 65536
Nb. Threads par warp 32
Nb. max. de warps par MP 64
Nb. max. de threads par MP 2048
Nb. max. de thread blocks par MP 16
Nb. max. de registres par thread 255
Nb. max. de threads par thread blocks 1024
Tableau 5.1. – Caractéristiques techniques de la carte Nvidia K20m (Nvidia, 2012b ;
Nvidia, 2012a)
De manière générale l’obtention de bonnes performances sur GPU se fait en considérant
finement les caractéristiques du matériel. Comme nous l’avons souligné précédemment, la
mesure des performances se fait par diverses métriques souvent complémentaires comme
la puissance de calcul ou la bande passante. L’occupation est une métrique spécifique aux
cartes graphiques qui permet de mesurer l’utilisation des multiprocesseurs. Lors de l’exécution
d’un kernel, les work-item sont associés aux cœurs physiques de la carte par groupes
constituant un warp. Les multiprocesseurs possèdent un planificateur permettant une exé-
cution simultanée de plusieurs warps. L’occupation est donc simplement le rapport entre le
nombre de warps exécutés simultanément par multiprocesseur et le nombre maximal supporté.
Ainsi, lors d’une exécution d’un kernel, la spécification de l’espace d’index ainsi que la
quantité de mémoire partagée et le nombre de registres utilisés peuvent limiter l’occupation.
Des outils de calcul d’occupation sont proposés à la fois par Nvidia 1
et AMD 2
. Le calcul de
l’occupation nécessite la connaissance du nombre de registres utilisés par work-item. Cette
information peut être obtenue par l’analyse des binaires produits par les compilateurs pour
une carte spécifique. L’option de compilation -cl-nv-verbose permet d’obtenir ce nombre
lors de la compilation avec OpenCL sur une carte Nvidia.
Toutefois, comme le montre Volkov (2010) sur des exemples simples, la maximisation de
l’occupation ne permet pas toujours de maximiser les performances. En effet, le temps que
les unités de calculs mettent à effectuer les opérations arithmétiques ou à réaliser un accès en
mémoire peut être exploité afin d’augmenter les performances. La latence arithmétique peut
1. http://developer.download.nvidia.com/compute/cuda/CUDA_Occupancy_calculator.xls
2. http://developer.amd.com/tools-and-sdks/archive/amd-app-profiler/user-guide/
app-profiler-kernel-occupancy/
935. Mise en œuvre sur cartes graphiques
être cachée en augmentant la charge de travail par work-item afin de bénéficier d’opérations
non interdépendantes pouvant être exécutées simultanément. De même, il est possible de
cacher la latence mémoire en utilisant d’avantage de registres et en réduisant le nombre
de work-item. Ces optimisations au niveau des instructions (Instruction Level Parallelism)
impliquent généralement une augmentation du nombre de registres et une diminution du
nombre de work-item ce qui peut conduire à une diminution de l’occupation. De manière
générale, il n’est pas possible de connaître a priori quelles optimisations sont préférables
entre les instructions et l’occupation. C’est pourquoi dans les résultats qui vont suivre,
les noyaux n’ont pas été optimisés systématiquement à différents niveaux. De plus, dans
un souci de portabilité et de non spécialisation à une carte en particulier, les optimisations
restent générales et basées uniquement sur les connaissances des caractéristiques techniques.
5.2.3. Initialisation des particules
Les étapes d’initialisation des particules se caractérisent par une absence totale de calculs.
Les opérations consistent uniquement en des transferts de données. Ainsi, les performances
sont mesurées en terme de bande passante.
Copie
Cette opération consiste en une simple copie des données entre deux zones mémoire. Une
fonction de copie directe est proposée par l’interface OpenCL. Dans cette comparaison, nous
utilisons la fonction clEnqueueCopyBuffer pour la copie d’un buffer complet vers un autre.
La figure 5.3 illustre le fonctionnement simple de ce kernel. La copie est réalisée directement
par blocs successifs, en pointillés sur la figure. Chaque bloc est traité par un work-group
dont les work-items, en pointillés, traitent un seul élément du tableau. La taille du workgroup
est fixée à 256 work-item ce qui permet d’atteindre une occupation maximale avec 8
warps par multiprocesseur.
Entrée Sortie
Figure 5.3. – Fonctionnement du kernel de copie
La figure 5.4 présente les performances atteintes par le kernel et la fonction OpenCL
pour différentes tailles de tableaux en 2D (5.4a) et 3D (5.4b). Les résultats obtenus sont
comparables et atteignent la bande passante maximale mesurée dès lors que la taille des
tableaux est suffisamment grande. En effet, l’exécution sur des données trop petites ne
permettent pas une occupation maximale de la carte et donc conduit à de mauvaises performances.
Ainsi, nous donnons les performances pour les petites tailles, inférieures à 10242
ou à 1283
, seulement à titre indicatif.
945.2. Implémentation et performances
OpenCL clEnqueueCopyBuffer kernel
0
10
20
30
40
50
60
70
80
322
1282
5122
20482
81922
Max.
0
20
40
60
80
100
120
140
160
10−2
10−1
1 101
102
103
% bande passante théorique
Bande passante (GByte/s)
Taille des tableaux
(MByte)
(a) 2D
0
10
20
30
40
50
60
70
80
323
643
1283
2563
5123
Max.
0
20
40
60
80
100
120
140
160
1 101
102
103
% bande passante théorique
Bande passante (GByte/s)
Taille des tableaux
(MByte)
(b) 3D
Figure 5.4. – Performances des copies
Transposition XY
Nous appelons transposition XY une transposition 2D dans le plan XY . Dans le cas de
données 2D, cela revient à une transposition classique. Cette opération est bien connue et
l’implémentation proposée ici se base sur l’exemple donné par Ruetsch et al. (2009) pour
la transposition d’une matrice de taille 2 0482
en simple précision. Les auteurs présentent
différentes optimisations permettant d’obtenir une bande passante pour la transposition
égale à 70% de celle obtenue pour une copie. Nous étendons cette approche à différentes
tailles de tableaux 2D et 3D en double précision. Pour les données 3D, une telle transposition
est effectuée pour chaque plan dans la direction Z.
La transposition optimale est schématisée en figure 5.5 et fait apparaître les trois niveaux
d’optimisation que nous détaillons ci-après. Les données représentées en rouge et en vert
sont traitées par les work-items d’un même work-group et une boucle permet de compléter
les sous-tableaux en pointillés.
Une transposition naïve, similaire au kernel de copie, réalisant une écriture directe dans
le tableau de sortie conduit à de très mauvaises performances. En effet, une telle implémentation
implique des accès en mémoire globale non contigus. Une solution consiste à utiliser
un tableau intermédiaire en mémoire partagée permettant de réaliser des accès contigus à
la fois en lecture et en écriture pour les tableaux en mémoire globale. Dans ce cas, l’écriture
des données en colonnes dans le tableau de sortie revient à lire des lignes en mémoire locale.
Cependant, cette approche provoque des conflits de banc lors de la lecture des données
en ligne dans la mémoire partagée. Ce phénomène vient du fait que la mémoire partagée
est organisée en différents bancs, dont le nombre est en général égal à 32. Ces bancs ne
permettent qu’un accès séquentiel aux données et on assiste à un conflit lorsque plusieurs
955. Mise en œuvre sur cartes graphiques
processus accèdent simultanément à des données situées dans le même banc, les accès sont
alors effectués de manière séquentielle. Du fait du choix de la taille de cette zone mémoire,
162 ou 322
, les données d’une même ligne sont situées dans le même banc. En suivant
l’exemple de Ruetsch et al. (2009), on alloue une zone de taille 17×16 ou 33×32 pour décaler
les données dans les bancs et ainsi avoir des accès sans conflits. Une autre approche consiste
à accéder aux données du tableau en mémoire partagée dans un système de coordonnées
diagonale (Baqais et al., 2013). Si x et y sont respectivement les indices de ligne et de colonne
du sous-tableau traité par un work-group, les données correspondantes sont stockées aux
indices x
0
et y
0 avec :
x
0 = (x + y)%T avec T la taille du sous-tableau,
y
0 = x.
Ainsi, les accès ne provoquent pas de conflits et la mémoire allouée est entièrement utilisée.
Cependant, cette approche n’a pas été envisagée pour l’instant car la version avec extension
du tableau conduit à des performances satisfaisantes. D’autre part, la réduction d’utilisation
de mémoire partagée n’est pas suffisamment importante pour influencer l’occupation de
manière significative.
Enfin, comme la mémoire partagée, la mémoire globale est organisée en partitions si
bien que le traitement simultanée d’une colonne de sous-tableaux conduit à la lecture de
données dans différentes partitions et à une écriture dans les même partitions. Une structuration
des sous-tableaux en coordonnées diagonales permet des accès non restreints à un
petit nombre de partitions (flèches pointillées sur la figure). Cependant, nos expérimentations
sur des cartes plus récentes que celles utilisées par Ruetsch et al. (2009) montrent
que ce réarrangement en diagonale ne conduit pas à une augmentation significative des
performances.
Mémoire
partagée
Entrée Sortie
Figure 5.5. – Fonctionnement du kernel de transposition XY
La figure 5.6 présente les performances obtenues pour les trois niveaux d’optimisation
de la transposition XY en 2D et 3D pour différentes tailles de tableaux ainsi qu’une implémentation
naïve. La mise en place de ces niveaux d’optimisation conduit à une bande
passante pour la transposition supérieure à 80% de la bande passante maximale mesurée
pour la copie.
965.2. Implémentation et performances
Naif
Mémoire partagée
Mémoire partagée élargie
Mémoire partagée élargie, coord. diagonales
0
10
20
30
40
50
60
70
80
322
1282
5122
20482
81922
Max.
0
20
40
60
80
100
120
140
160
10−2
10−1
1 101
102
103
% bande passante théorique
Bande passante (GBytes/s)
Taille des tableaux
(MByte)
(a) 2D
0
10
20
30
40
50
60
70
80
323
643
1283
2563
5123
Max.
0
20
40
60
80
100
120
140
160
1 101
102
103
% bande passante théorique
Bande passante (GBytes/s)
Taille des tableaux
(MByte)
(b) 3D
Figure 5.6. – Performances des transpositions XY
Lorsque la taille du sous-tableau alloué en mémoire partagée est fixé à 33 × 32, soit
8448Byte, et que les work-groups contiennent 512 work-items, 12 registres sont utilisés ce
qui conduit à une occupation maximale avec l’exécution simultanée de 4 work-groups par
multiprocesseurs.
Transposition XZ
Cette transposition est réalisée de manière similaire à la transposition XY comme illustré
en figure 5.7a. L’opération se réalise par le traitement de sous-tableaux 2D formés dans
les plans XZ successifs. Chacun de ces plans est traité séparément par plusieurs soustableaux
avec l’utilisation d’une mémoire partagée élargie et avec des coordonnées diagonales
pour les différents blocs. Cependant, bien que les accès soient contigus dans une même
colonne des sous-tableaux, le passage d’une colonne à une autre dans les tableaux 3D se fait
avec un saut bien plus important que pour la transposition XY . Ce phénomène pénalise
grandement les performances sur des cartes plus anciennes et une seconde transposition a
été implémentée par sous-tableau 3D, illustré par la figure 5.7b. Le principe reste le même
mais les données sont lues également dans la direction Y , avec un saut bien plus faible.
Comparativement à la version 2D, cela revient à réaliser les transpositions simultanées de
plusieurs plans XZ. Cependant, les dimensions de la zone en mémoire partagée imposent
une taille plus faible pour les work-groups.
Les performances de cette transposition sont représentées sur la figure 5.8. Il apparaît
clairement que l’utilisation d’une transposition par bloc 3D n’est pas optimale du fait d’une
trop faible occupation (16%) induite par une très grande taille de mémoire partagée par
975. Mise en œuvre sur cartes graphiques
Mémoire
partagée
Entrée Sortie
(a) Par tranches 2D
Mémoire
partagée
Entrée Sortie
(b) Par blocs 3D
Figure 5.7. – Fonctionnement du kernel de transposition XZ
work-groups, (163
éléments). La meilleure configuration pour cette transposition est obtenue
pour une occupation de 63%.
5.2.4. Advection et remaillage
Advection
Cette fonction permet de résoudre l’équation de mouvement des particules à partir du
champ de vitesse connu sur la grille. Les particules sont initialisées en chaque point de grille,
leur vitesse en ce point est donc directement lue sur la grille. Les schémas de Runge-Kutta
d’ordre deux et quatre, notés respectivement RK2 et RK4, nécessitent des évaluations du
champ de vitesse à plusieurs positions intermédiaires qui sont réalisées par des interpolations
linéaires de type maillage-particule. Une stratégie centrée sur les particules permet de
réaliser ces interpolations à la volée au cours de l’advection. Ainsi, une particule est traitée
en une seule fois mais nécessite plusieurs accès aux données du champ de vitesse. De plus
le schéma d’accès est inconnu car il dépend du champ de vitesse. Toutefois, du fait de la
condition de non croisement des particules, ces accès restent ordonnés de la même manière
que les particules.
La stratégie de distribution des calculs sur l’espace d’indices des GPU est choisie de
telle sorte qu’un sous-problème 1D est traité par les work-items d’un seul work-group.
Ces sous-problèmes étant indépendants, plusieurs pourront être traités simultanément en
985.2. Implémentation et performances
0
10
20
30
40
50
60
70
80
323
643
1283
2563
5123
Max.
0
20
40
60
80
100
120
140
160
10−2
10−1
1 101
102
103
% bande passante théorique
Bande passante (GBytes/s)
Taille des tableaux
(MByte)
2D Naïf
2D Mémoire partagée
2D Optimisé
3D Naïf
3D Optimisé
Figure 5.8. – Performances des transpositions XZ
fonction de l’occupation des multiprocesseurs de la carte. Les multiples accès aux données
du champ de vitesse peuvent être évités en utilisant une zone en mémoire partagée, comme
illustré sur la figure 5.9. Cela permet, après un remplissage par accès contigus en mémoire
globale, à des accès plus rapides et dont le schéma inconnu est moins pénalisant. Les workitems
réalisent, dans une premier temps, un chargement en mémoire partagée des données
du champ de vitesse nécessaires au traitement d’un problème 1D. Cette opération, qui
s’apparente à une mise en cache, est réalisée de manière collaborative par les work-items et
est nécessairement suivie d’une barrière de synchronisation des processus du work-group.
Dans un second temps, l’intégration du champ de vitesse est réalisée à l’aide d’interpolations.
Intégration
Interpolations
Vitesse
(grille)
Mémoire
partagée
Position
(particules)
Figure 5.9. – Algorithme pour le noyau d’advection
Dans le cas où la grille est identique pour le champ de vitesse et pour les particules, les 3
ou 7 accès aux données de vitesse respectivement pour les schémas RK2 et RK4 nécessaires
au calcul des positions des particules sont effectués en mémoire partagée et bénéficient ainsi
de son temps de latence plus faible. La quantité de données lues et écrites en mémoire
globale pour une étape d’advection est donc indépendante du schéma et est donnée par :
MA,s = 2N
uP, (5.1)
995. Mise en œuvre sur cartes graphiques
où Nu
est le nombre de points de grille du scalaire et P la taille d’un nombre en virgule
flottante (P = 8 en double précision).
On note Na le nombre de points de grille du champ de vitesse. Pour ce qui est du cas
multiéchelle, deux interpolations supplémentaires sont nécessaires. Le cache pour le champ
de vitesse, de Na
X éléments, est complété par une première interpolation linéaire tensorielle
des points de grille dans les directions Y et Z en la coordonnée du sous-problème 1D. Ainsi,
les données du champ de vitesse sont lues plusieurs fois, et conduisent à une quantité totale
exprimée par :
MA,m =
(
(2N
a + N
u
)P pour un problème 2D,
(4N
a + N
u
)P pour un problème 3D.
(5.2)
La seconde interpolation se fait dans la mémoire partagée pour l’évaluation de la vitesse
initiale des particules dont la position est un point de la grille fine.
Le calcul d’un problème 1D étant effectué par un work-group, plusieurs particules
peuvent être traitées par le même work-item. Ainsi les opérations effectuées en dehors de la
boucle interne sont mutualisées pour ces particules. On note nwi le nombre de work-item par
work-group. Les nombres d’opérations nécessaires à la réalisation d’une étape d’advection
simple échelle sont données par :
FA,s =
4N
u pour un schéma d’Euler
12N
u pour un schéma de Runge-Kutta d’ordre 2
32N
u pour un schéma de Runge-Kutta d’ordre 4
(5.3)
Pour les cas multiéchelle, le nombre d’opérations est :
FA,m = FA,s +
(
(4nwi + 3N
a
X)N
u
/Nu
X en 2D
(8nwi + 11N
a
X)N
u
/Nu
X en 3D
(5.4)
Le choix de l’espace d’index se fait en fixant le nombre de particules traitées par un workitem.
Les figures 5.10 représentent les performances pour 1, 2 ou 4 particules respectivement
notées v1, v2 et v4 dans la légende. Dans un souci de clarté, nous ne présentons pas ici
les autres choix qui ont été envisagés d’autant qu’ils ont conduit à des performances plus
faibles. L’augmentation de la complexité arithmétique due à l’augmentation de l’ordre des
schémas se traduit directement par une hausse de la puissance obtenue. Cela sera analysé
par la suite à l’aide du modèle roofline. Une différence structurelle entre les problèmes 2D
et 3D est que la résolution est constituée de sous-problèmes 1D bien plus petits en 3D.
Ainsi, l’usage de la mémoire partagée est plus faible en 3D qu’en 2D et implique donc une
plus grande occupation de la carte pour les grands problèmes. Un traitement de plusieurs
particules par work-item permet de diminuer la taille des work-groups ce qui, là encore
permet une augmentation de l’occupation. Cependant la limite des 1 024 work-items est
rapidement atteinte en 2D. Ce qui explique la chute de performances à partir de 1 0242
.
L’effet inverse se produit en 3D où trop peu de work-items sont assignés ce qui conduit à une
faible occupation en raison de la limite du nombre de work-group exécutables simultanément
par multiprocesseur.
Pour ce qui est de l’advection multiéchelle, nous donnons les performances atteintes pour
différentes tailles de problèmes sur les figures 5.11. Seules les performances de la version
1005.2. Implémentation et performances
Euler v4
Euler v2
Euler v1
RK2 v4
RK2 v2
RK2 v1
RK4 v4
RK4 v2
RK4 v1
0
50
100
150
200
250
300
322
1282
5122
20482
Puissance (GFLOPS)
Taille de problème
(a) 2D
0
50
100
150
200
250
300
323
643
1283
2563
5123
Puissance (GFLOPS)
Taille de problème
(b) 3D
Figure 5.10. – Performances des noyaux d’advection
1015. Mise en œuvre sur cartes graphiques
pour laquelle chaque work-item traite 4 particules sont présentées. Les rapports d’échelle
entre les grilles des particules et celle du champ de vitesse sont fixés à 2, 4 et 8 et conduisent
aux courbes dans l’ordre indiqué par les flèches. Ces résultats montrent que les performances
suivent l’évolution du rapport d’échelle, à taille de grille fine fixée. Cette évolution est, en
partie, due au fait que l’augmentation du rapport d’échelle implique une diminution à la
fois du nombre de données nécessaires pour le calcul, d’après l’équation (5.2), et du nombre
d’opérations arithmétique à réaliser, équation (5.4).
0
50
100
150
200
250
300
1282
5122
20482
Puissance (GFLOPS)
Taille de problème (grille fine)
RK2
RK4
Euler
(a) 2D
0
50
100
150
200
250
300
643
1283
2563
5123
Puissance (GFLOPS)
Taille de problème (grille fine)
RK2
RK4
Euler
(b) 3D
Figure 5.11. – Performances des noyaux d’advection multiéchelle
Le modèle roofline nous permet de réaliser une analyse de performances relativement à
la puissance maximale atteignable. Nous représentons sur les figures 5.12 les résultats pour
quelques tailles de problèmes. En simple échelle, l’intensité opérationnelle FA,s/MA,s est
constante lorsque la taille du problème change. Ces intensités sont représentées par un trait
vertical sur les figures 5.12. Dans le cas multiéchelle, les intensités ne sont plus constantes
et donc les points qui leur correspondent ne sont pas sur les segments verticaux. Afin de
remédier aux effets visuels des échelles logarithmiques du modèle roofline, nous représentons
également les niveaux 0,5 et 0,1 de la puissance maximale atteignable.
Remaillage
Cette étape permet de réaliser l’interpolation particule-maillage en employant une stratégie
centrée sur les particules. À partir de la coordonnée d’une particule, les points de la
grille sur lesquels se remaille la particule sont calculés en fonction de la largeur du support
de la formule utilisée. Les positions sont dépendantes du champ de vitesse donc le schéma
de remaillage en termes d’accès aux données de la grille ne peut pas être connu à priori.
1025.2. Implémentation et performances
Euler RK2 RK4
10
100
1000
0.1 1 10 100 Euler RK2 RK4
50%
10%
Puissance (GFLOPS)
Intensité opérationnelle (FLOP/Byte)
10242
20482
40962
(a) 2D
10
100
1000
0.1 1 10 100 Euler RK2 RK4
50%
10%
Puissance (GFLOPS)
Intensité opérationnelle (FLOP/Byte)
1283
2563
5123
(b) 3D
Figure 5.12. – Modèle roofline pour les noyaux d’advection
Par conséquent, deux particules consécutives peuvent avoir exactement les mêmes points de
remaillage. Cependant, du fait de la régularité des champs de vitesse traités, nous pouvons
poser l’hypothèse que le nombre maximal de particules par cellule reste petit. On supposera
que ce nombre ne dépasse pas deux.
La distribution de l’espace d’index est similaire à celle de l’advection et chaque sousproblème
1D est traité par un work-group. La charge par work-item est modifiée pour
remédier aux éventuels accès concurrents lorsque plusieurs particules sont situées dans la
même cellule. Ainsi, chaque work-item traite au moins deux particules consécutives. En
conservant les mêmes notations que dans le chapitre 2, le support des formules de remaillage
est de largeur 2S. Par conséquent, le remaillage d’une particule nécessite 2S accès en lecture
et autant en écriture pour les points de grille contenus dans son support. Ces nombreux
accès sont effectués dans un tableau temporaire correspondant au sous-problème 1D en
mémoire partagée, comme illustré sur la figure 5.13. Une fois toutes les particules traitées
et après une barrière de synchronisation, les données sont copiées en mémoire globale.
Scalaire
(particules)
Position
(particules)
Scalaire
(grille)
Mémoire
partagée
Λp,r
Figure 5.13. – Algorithme pour le noyau de remaillage
1035. Mise en œuvre sur cartes graphiques
Le nombre d’accès en mémoire globale est donné par l’expression suivante, en fonction
du nombre de composantes remaillées c :
MR = (2c + 1)N
uP. (5.5)
Pour ce qui est du nombre d’opérations en virgule flottante, il dépend de la largeur du
support 2S, de la formule de remaillage et du degré q des polynômes dont l’évaluation est
effectuée par la méthode de Horner en utilisant les opérations FMA de la carte.
FR = (2S(2c + 2q + 1) + 5) N
u
(5.6)
Nous donnons les performances des noyaux pour quelques formules de remaillage. Les
meilleurs résultats ont été obtenus lorsque chaque work-item traite exactement deux particules.
Une augmentation du nombre de particules par work-item implique une occupation
plus faible car la quantité de mémoire employée ne change pas et la taille des work-groups
diminue. Un nombre plus grand implique une utilisation d’un grand nombre de registres et
donc une diminution de l’occupation des multiprocesseurs. Comme pour les noyaux d’advection
on assiste à une chute des performances en 2D à partir d’une taille de 4 0962 à cause
d’une trop grande consommation de mémoire partagée.
0
50
100
150
200
250
300
350
322
1282
5122
20482
Puissance (GFLOPS)
Taille de problème
Λ2,1
Λ2,2
Λ4,2
Λ4,4
Λ6,4
Λ6,6
Λ8,4
(a) 2D
0
50
100
150
200
250
300
350
323
643
1283
2563
5123
Puissance (GFLOPS)
Taille de problème
Λ2,1
Λ2,2
Λ4,2
Λ4,4
Λ6,4
Λ6,6
Λ8,4
(b) 3D
Figure 5.14. – Performances des noyaux de remaillage
Les performances relatives à la puissance maximale atteignable sont représentées dans un
modèle roofline sur les figures 5.15. À l’instar de Büyükkeçeci et al. (2012), nous observons
de plus hautes performances en 3D qu’en 2D essentiellement à cause d’une utilisation du
tableau en mémoire partagée plus efficace du fait de la différence des tailles des sousproblèmes
1D.
1045.2. Implémentation et performances
Λ2,1
Λ2,2
Λ4,2
Λ4,4
Λ6,4
Λ6,6
Λ8,4
10
100
1000
0.1 1 10 100
50%
10%
Puissance (GFLOPS)
Intensité opérationnelle (FLOP/Byte)
10242
20482
40962
(a) 2D
10
100
1000
0.1 1 10 100
50%
10%
Puissance (GFLOPS)
Intensité opérationnelle (FLOP/Byte)
1283
2563
5123
(b) 3D
Figure 5.15. – Modèle roofline pour les noyaux de remaillage
Noyau complet
Une approche regroupant les opérations d’advection et de remaillage en un seul noyau
est également envisagée. Le principal intérêt est de supprimer le tableau en mémoire globale
pour la position des particules. En effet, cette variable intermédiaire est simplement locale
au processus. Cependant, cette approche nécessite deux tableaux temporaires en mémoire
partagée, comme illustré sur la figure 5.16. En pratique, cette implémentation n’est pas
Intégration
Interpolation
Vitesse
(grille)
Scalaire
(particules)
Scalaire
(grille)
Mémoire
partagée
Mémoire
partagée
Λp,r
Figure 5.16. – Algorithme pour le noyau d’advection et remaillage
pertinente pour les grandes tailles de problèmes 2D. Cependant, comme la mémoire partagée
n’est pas un facteur limitant en 3D, son utilisation semble intéressante. Dans ce noyau, nous
réutilisons les fonctions employées précédemment, ce qui conduit à une quantité d’accès
1055. Mise en œuvre sur cartes graphiques
mémoire en simple et multiéchelle :
MAR,s = MR,s = (1 + 2c)N
uP, (5.7)
MAR,m =
(
(2N
a + 2cNu
)P en 2D
(4N
a + 2cNu
)P en 3D.
(5.8)
Pour ce qui est du nombre d’opérations, il est simplement donné par la somme des opérations
des noyaux d’advection et de remaillage. Les performances obtenues sont représentées en
figures 5.17 et dans un modèle roofline en figures 5.18. Nous considérons le cas d’une advection
par un schéma Runge-Kutta d’ordre 2 ainsi que l’utilisation des formules de remaillage
Λ2,1, Λ4,2 et Λ8,4. L’évolution des performances selon la formule de remaillage utilisée est
identique à celle observée pour le noyau de remaillage seul. De même, les performances
pour une advection avec un schéma d’Euler et Runge-Kutta d’ordre 4 sont respectivement
inférieures et supérieures à celles représentées lorsque la formule de remaillage est fixée.
Les courbes notées MS dans la légende correspondent à une advection multiéchelle pour un
facteur d’échelle égal à 4. Comparativement au cas simple échelle, cela induit une petite
augmentation de performances ainsi qu’une augmentation de l’intensité opérationnelle du
noyau qui est renforcée par l’effet de la complexité de la formule de remaillage. Cependant,
une comparaison des performances relatives des modèles roofline avec les noyaux simples
montrent que cette approche n’apporte pas une meilleure efficacité. Toutefois, comme nous
le verrons par la suite, l’utilisation de ce noyau conduit à un temps de calcul légèrement
inférieur à la somme des deux noyaux simples ce qui permet de bénéficier de la réduction
de l’empreinte en mémoire globale.
0
50
100
150
200
250
300
350
322
1282
5122
20482
Puissance (GFLOPS)
Taille de problème
Λ2,1
Λ4,2
Λ8,4
MS Λ2,1
MS Λ4,2
MS Λ8,4
(a) 2D
0
50
100
150
200
250
300
350
323
643
1283
2563
5123
Puissance (GFLOPS)
Taille de problème
Λ2,1
Λ4,2
Λ8,4
MS Λ2,1
MS Λ4,2
MS Λ8,4
(b) 3D
Figure 5.17. – Performances des noyaux d’advection et remaillage pour un schéma RK2
1065.3. Application simple GPU
Λ2,1
Λ4,2
Λ8,4
MS Λ2,1
MS Λ4,2
MS Λ8,4
10
100
1000
0.1 1 10 100
50%
10%
Puissance (GFLOPS)
Intensité opérationnelle (FLOP/Byte)
10242
20482
40962
(a) 2D
10
100
1000
0.1 1 10 100
50%
10%
Puissance (GFLOPS)
Intensité opérationnelle (FLOP/Byte)
1283
2563
5123
(b) 3D
Figure 5.18. – Modèle roofline pour les noyaux d’advection et remaillage pour un schéma
RK2
Les performances individuelles des différents noyaux se retrouvent directement dans les
exécutions du code complet. Ainsi, nous exposons la validité de la méthode et de l’implé-
mentation à travers quelques exemples simples de transport de scalaire. Dans un premier
exemple, la vitesse est donnée par une fonction analytique dépendant de l’espace et du
temps alors qu’elle ne dépend pas du temps dans le second exemple. Le cas multiéchelle est
illustré sur l’exemple 3D. Les résultats des exemples sont analysés de manière qualitative
permettant une validation de la méthode. Les résultats en terme de temps de calcul sont
présentés et comparés entre les différentes fonctions. Dans tous les cas, la vitesse est donnée
en entrée sous la forme des valeurs aux points de grille, permettant ainsi de se placer dans
un cadre général indépendant de la manière dont est calculé le champ de vitesse.
5.3. Application simple GPU
5.3.1. Transport de scalaire 2D
Un premier exemple d’utilisation de la méthode compète sur GPU est réalisé pour le
transport d’une fonction levelset dans un champ de vitesse analytique 2D. Ce champ correspond
à un mouvement de rotation incompressible périodique en temps. Ainsi, la fonction
levelset est déformée au cours du temps puis retrouve sa valeur initiale après un nombre
entier de périodes. Le champ de vitesse est défini par l’expression suivante :
a(x, y, t) =
− sin2
(πx) sin(2πy)
sin(2πx) sin2
(πy)
cos
πt
12
(5.9)
1075. Mise en œuvre sur cartes graphiques
Le scalaire est initialisé par une fonction indicatrice d’un disque de rayon 0,15 centré au point
de coordonnée (0, 5; 0, 75). À chaque itération de la méthode, le champ de vitesse analytique
est évalué sur les points de grille puis la méthode décrite précédemment s’applique avec
une étape d’advection suivie d’un remaillage des particules. Le contour de niveau 0,5 de
la fonction transportée est représenté à différents instants sur la figure 5.19. À l’instant
t = 12, soit après une période, le contour a retrouvé sa forme initiale. La difficulté de
cet exemple réside en la représentation du contour à l’extrémité de la spirale. En effet,
selon la qualité de la méthode employée, la séparation du contour ainsi que l’apparition
d’éventuelles oscillations numériques ne permettent plus de retrouver la condition initiale.
Nous rappelons que le pas de temps est contraint par la condition de CFL Lagrangienne
suivante :
∆t 6
M
|∇a|∞
.
La simulation suivante a été réalisée en utilisant 1 0242 points de grille. La constante M
est prise égale à 0,35, ce qui pour cette résolution, conduit à une CFL équivalente de
|a|∞∆t/∆x = 57. Ainsi, une première validation de l’implémentation est effectuée car
à l’instant t = 12, on retrouve bien la condition initiale en utilisant de grands pas de
temps, comme le montre la figure 5.19. La simulation est réalisée en utilisant un schéma
d’intégration RK2 et une formule de remaillage Λ6,4.
Les temps de calcul par particule, hors initialisation et hors calcul du champ de vitesse,
sont donnés en figure 5.20 pour différentes formules de remaillage et schémas d’advection.
Comme prévu par les performances individuelles des noyaux, les petites résolutions
conduisent à des temps de calcul assez grands. Nous les considérons comme non signifi-
catives car elles ne sont jamais utilisées en pratique dans les applications. Un temps de
traitement compris entre 1,5 et 3 ns est obtenu pour un remaillage avec la formule Λ2,1
et augmente avec l’ordre et la complexité de la formule pour atteindre des valeurs entre 2
et 4 ns pour Λ8,4. Les autres formules conduisent à des temps intermédiaires. Cette figure
propose également une comparaison de la version à un seul noyau de calcul avec celle à
deux noyaux séparés. Cette dernière conduit à des temps de calculs plus élevés mais permet
de traiter des problèmes de plus grande taille. Cela est dû, à l’utilisation d’une plus grande
zone de mémoire partagée pour la version à un noyau. Enfin, la hausse des temps de calcul
lorsque les problèmes traités sont de taille supérieure à 2 0482
est conforme avec la chute
de puissance observée dans la section précédente. Là encore, l’utilisation de la mémoire
partagée est à l’origine de cette évolution notamment à travers une baisse de l’occupation
des multiprocesseurs dans les étapes de calcul.
La figure 5.21 donne la répartition du temps de calcul dans les différentes fonctions
présentées dans la section précédente. Les couleurs claires correspondent à l’étape de splitting
dans la direction X et occupent 2/3 du temps de calcul alors que les teintes foncées
représentent la direction Y et occupent le 1/3 restant. Ces simulations ont été réalisées avec
un splitting de Strang où deux étapes sont nécessaires dans la direction X. Les portions du
temps de calcul attribuées à l’hôte deviennent négligeables lorsque la taille dépasse 4 0962
.
Elles correspondent à des opérations réalisées par le CPU pour la gestion des étapes de
splitting et des lancements de kernels OpenCL. Les opérations d’initialisation à l’aide de
copies et de transpositions n’occupent que 10 à 20% du temps de calcul.
1085.3. Application simple GPU
t = 0
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
t = 3
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
t = 6
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
t = 12
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
Figure 5.19. – Exemple de transport de fonction levelset 2D
1095. Mise en œuvre sur cartes graphiques
2
4
8
1
10
1282
10242
20482
40962
61442
Temps de calcul par particule (ns)
Taille des tableaux
1k : RK2, Λ2,1
2k : RK2, Λ2,1
1k : RK4, Λ2,1
2k : RK4, Λ2,1
1k : RK2, Λ8,4
2k : RK2, Λ8,4
1k : RK4, Λ8,4
2k : RK4, Λ8,4
Figure 5.20. – Performances globales de la méthode pour un transport de scalaire 2D
Copie
Transposition XY
Hôte
Advection
Remaillage
Advection et remaillage
0
10
20
30
40
50
60
70
80
90
100
1024
2
2048
2
4096
2
6144
2
1024
2
2048
2
1024
2
2048
2
4096
2
6144
2
1024
2
2048
2
1024
2
2048
2
4096
2
6144
2
1024
2
2048
2
1024
2
2048
2
4096
2
6144
2
1024
2
2048
2
RK2, Λ2,1 RK4, Λ2,1 RK2, Λ8,4 RK4, Λ8,4
X
Y
% du temps de calcul
Taille des problèmes
Figure 5.21. – Répartition du temps de calcul des différentes fonctions pour un transport
de scalaire 2D
1105.3. Application simple GPU
5.3.2. Transport de scalaire 3D
Une application similaire est réalisée en 3D. Le scalaire est initialisé comme la fonction
caractéristique d’une sphère de centre (0, 35; 0, 35; 0, 35) et de rayon 0,15. Le champ de
vitesse, correspondant à une rotation incompressible, est défini par :
a(x, y, z, t) =
2 sin2
(πx) sin(2πy) sin(2πz)
− sin(2πx) sin2
(πy) sin(2πz)
− sin(2πx) sin(2πy) sin2
(πz)
(5.10)
Nous nous intéressons ici à l’évolution de la surface de niveau 0,5 au cours du temps qui
est soumise à une déformation de plus en plus forte. Nous comparons les effets des différentes
formules de remaillage à travers l’évolution du volume représenté par cette surface. La
figure 5.22 représente la surface de niveau 0,5 à l’instant t = 4, pour deux formules de
remaillage différentes. L’utilisation d’une formule d’ordre plus élevé, sur la figure 5.22b,
retarde l’apparition de « trous » ainsi que leur disparition comparativement à l’utilisation
de la formule Λ2,1, sur la figure 5.22a.
(a) Remaillage par Λ2,1 (b) Remaillage par Λ8,4
Figure 5.22. – Exemple de transport de fonction levelset en 3D
L’évolution du volume délimité par la surface de niveau 0,5 est donnée en fonction du
temps pour quelques noyaux de remaillage sur la figure 5.23. Ainsi, les formules d’ordre
élevé préservent mieux le volume ce qui est conforme à l’observation des figures 5.22. Ces
simulations ont été réalisées pour une constante LCFL égale à 0,35 et pour une résolution
de 3203
. Cela équivaut à une CFL de 17,8.
Les temps de calcul pour cette simulation sont donnés sur les figures 5.24 en fonction
de la taille du problème pour différentes formules de remaillage dans les cas simple échelle
et multiéchelle. Les temps de calculs sont indépendants de la taille du problème et sont de
l’ordre de 1 à 2 ns, excepté pour les petites tailles non significatives. Comme pour le cas 2D,
seules les formules de remaillage Λ2,1 et Λ8,4 sont représentées, les autres se répartissent
sur des temps de calculs intermédiaires. Là encore, la version avec un seul noyau de calcul
pour l’advection et le remaillage donne de meilleurs temps de calcul. Contrairement au
1115. Mise en œuvre sur cartes graphiques
0.0105
0.011
0.0115
0.012
0.0125
0.013
0.0135
0.014
0.0145
0 0.5 1 1.5 2 2.5 3 3.5 4
75
80
85
90
95
100
Volume
% du volume initial
Temps
Volume initial
Λ2,1
Λ4,2
Λ6,4
Λ8,4
Figure 5.23. – Évolution du volume défini par le niveau 0,5 d’une fonction levelset
cas 2D, cette version permet de traiter des résolutions plus grandes car l’empreinte en
mémoire globale est plus faible et la mémoire partagée n’est pas limitante. Ainsi la résolution
maximale en simple échelle est de 4483 mais il est possible de traiter une résolution de 5123
pour le scalaire lorsque la résolution de la vitesse est inférieure à 3843
.
Copie
Transposition XY
Transposition XZ
Hôte
Advection
Remaillage
Advection et remaillage
0
10
20
30
40
50
60
70
80
90
100
128
3
256
3
128
3
256
3
128
3
256
3
128
3
256
3
Λ2,1 Λ8,4
% du temps de calcul
Taille des problèmes
(a) Simple échelle
0
10
20
30
40
50
60
70
80
90
100
128
3
256
3
512
3
128
3
256
3
512
3
128
3
256
3
512
3
128
3
256
3
512
3
Λ2,1 Λ8,4
% du temps de calcul
Taille des problèmes
(b) Multiéchelle (Nu = 43Na)
Figure 5.25. – Temps de calcul des différentes fonctions pour un transport de scalaire 3D
1125.3. Application simple GPU
1k : RK2, Λ2,1
2k : RK2, Λ2,1
1k : RK4, Λ2,1
2k : RK4, Λ2,1
1k : RK2, Λ8,4
2k : RK2, Λ8,4
1k : RK4, Λ8,4
2k : RK4, Λ8,4
2
4
8
1
10
643
1283
2563
3843
5123
Temps de calcul par particule (ns)
Taille des tableaux
(a) Simple échelle
2
4
8
1
10
643
1283
2563
3843
5123
Temps de calcul par particule (ns)
Taille des tableaux
(b) Multiéchelle (Nu = 43Na)
Figure 5.24. – Performances globales de la méthode pour un transport de scalaire 3D
Comme pour le cas 2D, nous donnons, sur la figure 5.25, les répartitions du temps
de calcul à travers les différentes fonctions de la méthode. Les contributions issues des
différentes directions de splitting sont différenciées par les nuances de couleurs. Comme
pour le cas 2D, les directions X, Y et Z se partagent le temps de calcul total et en occupent
respectivement les 2/5, 2/5 et 1/5. Les deux premières sont traitées deux fois sur des demi
pas de temps. Les opérations d’initialisation occupent entre 15 et 30% du temps de calcul.
Conclusion
Dans ce chapitre, nous avons présenté une implémentation spécifique aux architectures
multicœurs telle que les cartes graphiques de la méthode semi-Lagrangienne. La straté-
gie d’implémentation a été élaborée en se basant sur les études similaires existantes. Les
différentes fonctions de la méthode ont été étudiées à travers leurs performances respectivement
à des optimisations génériques basées sur les caractéristiques techniques des cartes
graphiques. Ces optimisation peuvent également conduire à de bonnes performances sur
d’autres cartes que celle présentée ici.
Les performances individuelles des noyaux d’initialisation, comme fonctions de manipulation
de données, atteignent jusqu’à 73% de la bande passante maximale pour la copie. Les
transpositions permettent d’obtenir une bande passante respectivement de 64%, 71% et 63%
pour la transposition XY en 2D et 3D et pour la transposition XZ. Ces performances sont
assez satisfaisantes en comparaison avec celles obtenues pour la copie. En effet, les bandes
passantes atteintes pour les transpositions sont supérieures à 86% de celle de la meilleure
1135. Mise en œuvre sur cartes graphiques
copie. Comme pour les noyaux d’initialisation, les performances des noyaux de calcul sont
fortement dépendantes des tailles de tableaux traitées. Pour les tailles les plus adaptées, les
puissances de calcul développées par les noyaux d’advection dans le modèle roofline sont
supérieures 50% de la puissance maximale atteignable et légèrement inférieures dans les cas
multiéchelle. L’augmentation de l’ordre des formules de remaillage implique une augmentation
de puissance de calcul des kernels de remaillage pour obtenir des performances proches
de 50% de la puissance maximale. Pour ce qui est des noyaux réalisant les opérations d’advection
et de remaillage en une seule passe, les performances se situent au voisinage de 20%
de la puissance maximale. Toutefois, ces noyaux montrent un temps de calcul global géné-
ralement meilleur que lorsque deux noyaux séparés sont employés. La quantité de mémoire
partagée requise par ce noyau interdit son usage pour les grandes tailles en 2D. Au contraire,
en 3D, ce noyau permet de traiter de plus grandes résolutions du fait de l’utilisation d’une
plus faible quantité de mémoire globale. Par conséquent, il est préférable d’utiliser la version
en deux noyaux pour les simulations 2D du fait de la limitation en mémoire partagée.
De même, le noyau complet est mieux adapté aux problèmes 3D car il permet de diminuer
l’empreinte en mémoire globale. Enfin, les deux exemples de transport de fonction levelset
proposent une validation qualitative de la méthode.
Bien que ces résultats soient obtenus sur une machine de calcul, des expériences conduisant
à l’obtention de performances similaires sont menées sur des machines de bureau ou
portables, montrant ainsi la portabilité de notre implémentation. Toutefois, nous ne présentons
pas ces résultats dans ce manuscrit par souci de simplification car ces machines sont
dotées de cartes d’anciennes générations n’offrant pas les même facilités de développement.
De plus les cartes sont utilisées par les systèmes d’exploitation pour l’affichage à l’écran.
Sur ces configurations, le calcul est en concurrence avec l’affichage pour l’utilisation des ressources,
ce qui donne lieu à des variations de performances non reproductibles et pouvant
être importantes.
1146. Implémentation sur
architectures hétérogènes
Nous avons vu dans le chapitre 5 que la méthode semi-Lagrangienne, telle que présentée
au chapitre 2 avec splitting dimensionnel et formules de remaillage d’ordre élevé, est
bien adaptée pour tirer profit de l’architecture des cartes graphiques. En effet, l’analyse
des performances dans un modèle roofline montre des puissances de calcul généralement
supérieures à 50% de la puissance maximale atteignable. Les temps de calculs ainsi obtenus
sont assez faibles et incitent à passer à l’échelle avec une exécution parallèle sur plusieurs
cartes graphiques.
L’objectif de ce chapitre est de réaliser des simulations de transport de scalaire passif
dans un écoulement turbulent tel que décrit dans le chapitre 1. La stratégie de résolution,
exposée dans le chapitre 3, vise à exploiter les différentes ressources des machines de calcul
hétérogène en réalisant le calcul du fluide sur des architectures multi-CPU et le transport
du scalaire sur plusieurs GPU. La conception de la librairie, détaillée au chapitre 4, facilite
l’intégration des méthodes de résolution des autres éléments des équations du problème
complet de transport de scalaire passif dans un écoulement turbulent tels que les termes de
d’étirement, de diffusion et l’équation de poisson.
Dans un premier temps, nous détaillerons l’architecture hétérogène considérée ainsi que
les différentes stratégies de parallélisme usuelles. Notre approche se base sur l’exploitation de
toutes les ressources de calcul disponibles en maximisant leur occupation. Cela se traduit par
l’emploi combiné de parallélismes à mémoire distribuée et partagée. Dans un second temps,
nous détaillerons l’adaptation de la méthode à la résolution d’un problème de transport de
scalaire sur une architecture multi-GPU. L’accent sera mis sur l’analyse des performances
des communications entre les cartes à travers l’illustration sur l’exemple de transport de
fonction levelset 3D du chapitre 5. Enfin, nous présenterons la méthode de résolution pour
l’application au transport turbulent de scalaire passif à travers un exemple d’application à
la simulation d’un jet plan turbulent.
1156. Implémentation sur architectures hétérogènes
6.1. Lien entre la méthode et l’architecture hybride
6.1.1. Description d’une machine hybride
Comme nous l’avons évoqué dans le chapitre 1, les machines de calcul parallèles actuelles
sont caractérisées par des architectures hétérogènes regroupant de nombreux processeurs
multicœurs et accélérateurs. Généralement, elles présentent une organisation hiérarchique
de leurs composants. Une machine de calcul est constituée d’un ensemble de nœuds connectés
par un réseau local à très haut débit permettant des vitesses de transfert de plusieurs
dizaines de GByte/s. Un nœud de calcul possède les mêmes caractéristiques qu’un ordinateur
personnel utilisé comme serveur. Ainsi, il est constitué, au minimum, d’un processeur,
de mémoire vive et d’un espace disque. Ces ressources sont gérées par un système d’exploitation
qui lui est propre. Les composants présents sur un nœud varient d’une machine à
l’autre et éventuellement d’un type de nœud à l’autre sur une même machine. De manière
générale, ils contiennent plusieurs processeurs multicœurs et éventuellement des accélérateurs
tels que les cartes graphiques ou des coprocesseurs. Un exemple d’une telle architecture
est donnée en figure 6.1 où les nœuds sont connectés à travers le même réseau et certains
contiennent des accélérateurs.
Cœur CPU
CPU multicœur
Mémoire vive
Accélérateur
Réseau local Nœud
Figure 6.1. – Exemple d’architecture hybride
Dans la suite de ce chapitre, nous utilisons la machine de calcul Froggy du mésocentre
CIMENT 1 qui possède notamment sept nœuds contenant chacun deux processeurs octocœurs
Intel Sandy Bridge EP E5-2670 partageant 32 GByte de mémoire vive et deux
cartes graphiques Nvidia K20m.
1. http://ciment.ujf-grenoble.fr
1166.1. Lien entre la méthode et l’architecture hybride
6.1.2. Différents niveaux de parallélisme
Parmi les paradigmes de programmation parallèle usuels, le parallélisme de données et le
parallélisme par tâches se distinguent par l’organisation des calculs par rapport aux données
à traiter (Dongarra et al., 2003). Dans le premier, on réalise l’exécution simultanée de
tâches identiques sur des données différentes. En revanche, le second consiste en l’exécution
simultanée de tâches différentes sur des données identiques ou non. Ces deux approches sont
couramment employées pour l’exploitation de machines de calcul parallèles hétérogènes, à
travers l’utilisation des librairies telles que MPI et OpenMP. Différentes techniques sont
à considérer pour la mise en œuvre de ces paradigmes selon la nature de la mémoire,
partagée ou distribuée. La littérature étant abondante sur le sujet, dans cette section nous
ne donnerons que quelques éléments concernant l’implémentation de ces paradigmes.
Au sein d’un nœud, la mémoire est partagée par l’ensemble des cœurs des processeurs.
Dans ce contexte, les taches sont distribuées sur l’ensemble des cœurs physiques à l’aide
d’une librairie telle que OpenMP. Ce paradigme permet l’exploitation, au maximum, de
l’ensemble des cœurs CPU d’un seul nœud car les données manipulées doivent être référencées
dans le même espace d’adressage
En complément de cette stratégie se trouve le parallélisme par envoi de message tel que
proposé par le standard MPI. Il permet de réaliser des communications d’un processus à un
autre dans un contexte de mémoire distribuée. Dans le cas général, il n’est pas possible à
un processus de lire ou d’écrire dans une zone mémoire attribuée à un autre processus. Le
principe de ce paradigme est que les données à transmettre sont empaquetées dans un message
qui est envoyé au processus destinataire à travers le réseau de la machine. Une gestion
fine de l’envoi et de la réception de ces messages est nécessaire afin que les données soient
correctement traitées, éventuellement par l’utilisation de zones mémoires temporaires. Une
très grande précision des communications est possible à travers l’utilisation des nombreuses
variantes proposées par la librairie telles que, entre autres, les communications point à
point ou globales ainsi que leurs versions bloquantes ou non. Ce paradigme s’utilise dans un
environnement à mémoire distribuée mais fonctionne également avec une mémoire partagée.
Une implémentation hybride associe plusieurs stratégies de parallélisme pour exploiter
au mieux une architecture donnée. Ainsi, sans tenir compte des accélérateurs dans un
premier temps, les utilisations courantes suivent deux stratégies distinctes pour l’exploitation
de l’ensemble des cœurs CPU d’une machine. L’intégration d’une librairie d’envoi
de message permet une utilisation d’un ensemble de processeurs multicœurs de plusieurs
nœuds d’une machine. Ce fonctionnement se base sur fait que les librairies d’envoi de message,
comme MPI, sont utilisables dans un contexte mixte de mémoire partagée et distante.
Cependant, l’intégration d’un tel parallélisme implique généralement d’importants changements
dans le code. Une réécriture de certaines parties est nécessaire lorsque l’utilisation
de ce paradigme n’a pas été prévue à la conception. La seconde stratégie consiste combiner
des paradigmes spécifiques à un environnement à mémoire partagée et à mémoire distribuée.
Une approche basée sur les librairies MPI et OpenMP est couramment utilisée. Ces
deux stratégies que l’on notera respectivement MPI et MPI+OpenMP permettent d’utiliser
l’ensemble des cœurs CPU d’une machine de calcul. La principale différence est que la mé-
moire partagée par les processus d’un même nœud est gérée par un parallélisme spécifique
dans le cas MPI+OpenMP, ce qui permet une plus grande finesse d’optimisation et donc
1176. Implémentation sur architectures hétérogènes
potentiellement l’obtention de meilleures performances. En revanche, le développement et
le débogage sont généralement plus complexes.
L’ensemble des processus déployés sur les cœurs physiques des nœuds peuvent ne pas
réaliser des opérations similaires sur des données différentes. Un paradigme de parallélisme
par tâches permet d’affecter des ensembles de processus à différentes tâches. Dans ce cas,
au sein d’un même groupe, une tâche est traitée de manière collaborative. En revanche,
deux processus associés à deux tâches distinctes sont amenés à exécuter des instructions
totalement différentes. Toutefois, des communications sont généralement nécessaires pour
échanger des données entre les processus des différentes tâches lorsqu’elles ne sont pas
totalement indépendantes.
L’exploitation des cartes graphiques comme accélérateurs se réalise de manière identique
au cas d’une utilisation exclusive de l’accélérateur, comme présentée au chapitre 5. Un
processus peut exploiter un accélérateur à l’aide des différentes techniques telles que CUDA
ou OpenCL. Les cartes graphiques récentes sont capables de gérer l’exécution d’un ensemble
de tâches provenant de plusieurs processus. Par conséquent, tous les processus placés sur
un même nœud peuvent exploiter une même carte graphique. De même, dans le cas où
plusieurs cartes sont présentes, un même processus peut utiliser simultanément l’ensemble
des cartes graphiques.
Ainsi, les machines hybrides doivent être exploitées en utilisant à la fois un parallélisme
à mémoire distribuée, à mémoire partagée ainsi que des accélérateurs. On complète les
notations précédentes par MPI+OpenCL ou MPI+OpenMP+OpenCL si OpenCL est utilisé
sur les accélérateurs.
6.1.3. Stratégie d’utilisation
La stratégie que nous employons dans ce travail se limite à une exploitation des processeurs
multicœurs à l’aide du seul niveau de parallélisme par envoi de message. Cette
approche, complétée par l’utilisation de la librairie OpenCL, nous permet de traiter à la
fois les cas multi-GPU et hétérogènes. En effet, pour une exploitation de plusieurs cartes
graphiques, il est nécessaire de placer un processus par nœud pour exploiter l’ensemble des
cartes du nœud. Ces différents processus, se situent nécessairement dans un environnement
à mémoire distribuée, d’où le choix de l’utilisation de MPI pour la gestion du parallélisme
des processus hôtes.
En pratique, dans notre implémentation, chaque GPU n’est géré que par un et un
seul processus hôte. En effet, des études préliminaires ont montré une dégradation des
performances lorsque plusieurs processus exploitent la même carte graphique de manière
concurrente comparativement au cas où une carte est associée à un processus. Ce phénomène
est en partie dû au fait que notre implémentation est plus efficace pour traiter de grandes
tâches comparativement au traitement de plusieurs tâches plus petites. D’autre part, il nous
semble plus avantageux de ne pas exploiter plusieurs cartes à partir du même processus
hôte car le découpage des tâches est déjà réalisé au niveau des différents processus hôtes. Il
apparaît donc inutile d’ajouter un second niveau de découpage interne au processus. Ainsi,
l’exploitation de n cartes graphiques est obtenue par le placement de n processus MPI
répartis sur l’ensemble des nœuds contenant les cartes.
1186.2. Application multi-GPU
L’inconvénient majeur de cette stratégie est qu’un nœud de calcul dispose généralement
d’un plus grand nombre de cœurs CPU que de cartes graphiques. Dans l’exemple de la
machine Froggy, le rapport est de 8. Lors d’une utilisation multi-GPU, de nombreux cœurs
CPU sont inutilisés. L’approche que nous proposons dans la section 6.3 à travers la mise
en œuvre de la méthode hybride nous permettra d’explorer une solution à ce problème
d’occupation.
La suite de ce chapitre est consacrée à la mise en œuvre de cette stratégie dans un cadre
multi-GPU puis hybride multi-CPU et multi-GPU.
6.2. Application multi-GPU
6.2.1. Mécanisme de communication
La résolution de l’équation de transport sur plusieurs cartes graphiques nécessite des
communications entre ces GPU. À chaque carte est associée une partie du domaine de
calcul. Ainsi, le domaine de calcul est séparé le long de plans orthogonaux à une direction
de découpe. Nous appelons direction de découpe une direction dont le traitement nécessite
des communications. Le principal avantage de ce découpage est de conserver une méthode de
résolution identique au cas simple GPU lors du traitement des directions de l’espace autres
que celles de découpe. Dans ces dernières, les données correspondant aux sous-problèmes 1D
sont distribuées sur plusieurs cartes ce qui implique des communications entre ces cartes.
Nous distinguons alors les données locales calculées par une carte et les données non locales
qui sont calculées par une autre carte et qui doivent être transférées.
Deux communications sont nécessaires : une pour l’étape d’advection et l’autre pour
le remaillage. Pour l’advection, les interpolations du champ de vitesse nécessaires au calcul
des positions des particules sont faites sur des données non locales pour les particules
ayant quitté le domaine. Ces données devront être transférées au préalable depuis les cartes
voisines. La quantité de ces données dépend directement du champ de vitesse lui-même.
Toutefois, une majoration de leur taille est possible à partir du nombre CFL maximal. En
effet, ce dernier correspond au nombre maximal de cellules traversées par les particules en
une itération. Une particule au bord du domaine n’aura pas besoin de plus de données distantes
qu’elle ne peut traverser de cellules. Cet algorithme est schématisé sur la figure 6.2a.
De la même manière, lors du remaillage, la taille des zones de communications dépend du
nombre CFL maximal ainsi que de la largeur du support de la formule de remaillage employée.
Lors du calcul, le domaine local est bordé par des zones mémoire qui représentent les
points de grille voisins distants et récupèrent les contributions des particules sur ces points.
Ces derniers sont parfois appelés points fantômes ou ghosts. Les données de ces zones sont
ensuite envoyées aux processus voisins puis ajoutées aux données locales. L’adaptation de
cet algorithme est schématisé sur la figure 6.2b. Les communications se font exclusivement
avec les processus voisins dans la direction de calcul. Dans les deux algorithmes, une utilisation
de la mémoire partagée comme un cache similaire au cas simple GPU est employée
pour les données du champ de vitesse non local ainsi que pour les points de grille exté-
rieurs. Les échanges de données à l’issue du remaillage se caractérisent par un ajout des
1196. Implémentation sur architectures hétérogènes
valeurs distantes du scalaire aux valeurs locales, alors que pour le champ de vitesse, il s’agit
simplement d’une copie des données qui sont utilisées en lecture uniquement.
GPUn
GP Un−1
GPUn+1
Intégration
Interpolations
Vitesse
(grille)
Mémoire
partagée
Position
(particules)
Copies de données
Utilisation des données
Communication inter-GPU
Données non locales
(a) Advection
GPUn
GPUn−1
GPUn+1
Scalaire
(particules)
Position
(particules)
Scalaire
(grille)
Mémoire
partagée
+=
+=
+=
+=
Λp,r
Copies de données
Utilisation des données
Communication inter-GPU
Données non locales
(b) Remaillage
Figure 6.2. – Adaptation des algorithmes d’advection et remaillage au cas multi-GPU
Ces communications inter-GPU consistent en des échanges de données entre les mé-
moires globales des cartes graphiques. Généralement, les implémentations MPI ne sont pas
capables de lire et écrire des données directement dans la mémoire des cartes sans faire
intervenir l’hôte. Toutefois, certaines implémentations spécifiques telles que MPI-ACC (Aji
et al., 2012) ou MVAPICH (Wang et al., 2011) permettent de réaliser des envois de messages
directement de la mémoire d’une carte à l’autre. Dans cette dernière, les transferts utilisent
les technologies telles que proposées par les versions récentes de CUDA sur les cartes Nvidia
(GPUDirect). La librairie MVAPICH est disponible au téléchargement 2 mais ne permet
qu’une exploitation des seules cartes NVIDIA et, à notre connaissance, la librairie générique
MPI-ACC n’a pas été encore distribuée. Ces travaux font état de gains en termes de per-
2. http ://mvapich.cse.ohio-state.edu/downloads/
1206.2. Application multi-GPU
formances des communications pouvant atteindre 30% par rapport à des transferts naïfs.
En l’absence de telles librairies, la méthode naïve consiste en une succession de transferts
depuis la mémoire globale de la carte vers le CPU, entre les CPU hôtes et enfin du CPU
vers la mémoire de la carte de destination. Ce mécanisme est illustré sur la figure 6.3 par
l’enchaînement des flèches vertes et bleues.
Réseau local
host - device
MPI
GPU-aware MPI
Figure 6.3. – Schémas de communications inter-GPU
Les résultats de cette thèse sont obtenus à l’aide de transferts naïfs combinant explicitement
un usage des fonctions OpenCL pour les transferts entre les cartes et les CPU
hôtes ainsi que des envois de message MPI entre CPU. Nous précisons que l’utilisation
technologies spécifiques aux cartes Nvidia n’a pas encore été intégré au standard OpenCL.
De manière générale, ces transferts peuvent être optimisés par un découpage des données
en blocs dont les envois sont traités en chaîne (Aji et al., 2013), comme illustré par la fi-
gure 6.4. Ainsi, le message original est traité par un ensemble d’envois de plus petite taille
permettant un recouvrement des opérations. La taille des blocs est un des paramètres qui
doit être ajusté en fonction du matériel utilisé (PCIe et réseau).
Transfert manuel GPU vers CPU MPI CPU vers GPU
Transfert par blocs
en chaîne temps
Figure 6.4. – Optimisation des communications inter-GPU
6.2.2. Performances
Les performances de cette implémentation dans un contexte multi-GPU sont étudiées à
travers l’exemple de transport de fonction levelset 3D présenté en section 5.3.2.
Des études de scalabilité, dont le principe a été introduit en section 1.2.2, permettent
d’observer l’évolution du temps de calcul face à l’augmentation du volume total de communication
induite par l’augmentation du nombre de ressources utilisées. La scalabilité forte
d’un code démontre sa capacité à traiter un problème plus rapidement lorsque le nombre de
1216. Implémentation sur architectures hétérogènes
ressources augmente. Idéalement, on attend que le temps de calcul soit réduit d’un facteur
n lorsque les ressources sont augmentées d’un facteur n. Cette étude n’est pas adaptée à
notre implémentation multi-GPU car elle conduit à la résolution de problèmes de tailles
de plus en plus petite à mesure que le nombre de cartes utilisées augmente. Dans ce type
d’étude, la taille du problème total est fixée et doit pouvoir être traitée par un seul GPU.
De plus, comme nous avons vu dans le chapitre précédent, les meilleures performances sont
obtenues lorsque le problème traité sur un GPU est suffisamment grand.
Une étude de scalabilité faible est préférable dans ce contexte. Elle conduit à l’étude de
l’évolution du temps de calcul lorsque le nombre de ressources augmente en conservant une
charge de travail par GPU constante. Ainsi, en partant d’une taille de problème compatible
avec les caractéristiques d’une carte graphique, l’influence des communications est directement
mesurée. Les résultats de scalabilité, présentés sur la figure 6.5, sont obtenus en en
utilisant un schéma RK2 et une formule de remaillage Λ6,4 pour résoudre des problèmes de
taille (NX, NY , nNZ) où n est le nombre de GPU employés. Ainsi, chaque GPU est chargé
d’un problème de taille (NX, NY , NZ). Nous ne considérons ici qu’une seule direction de
découpe, dans la direction Z. La figure 6.5 représente l’évolution de la scalabilité en fonction
du nombre de cartes graphiques utilisées. Deux cas sont considérés : le premier est
une résolution identique de 2563 points de grille par GPU pour la vitesse et le scalaire. Le
second est un cas multiéchelle où la vitesse est connue sur une grille de taille 1283 alors que
le scalaire est résolu sur 5123 points.
Les oscillations qui apparaissent pour les cas à 2563 par GPU sont dues à la distance
variable entre deux cartes voisines. En effet, les communications au sein d’un même nœud
sont plus rapides que d’un nœud à l’autre. En pratique, lorsqu’un GPU est ajouté à un
nombre impair, on ajoute la seconde carte du dernier nœud à l’ensemble des cartes utilisées.
Dans ce cas, les communications supplémentaires sont réalisées entre les deux cartes du
même nœud, ce qui conduit à une amélioration de la scalabilité. La perte importante de
scalabilité entre 1 et 2 GPU provient de l’absence totale de communications dans le cas 1
GPU ainsi que du manque d’optimisation des cas multi-GPU. Comme nous l’avons évoqué
précédemment, leur taille dépend du nombre CFL de la simulation. Pour les cas Na =
Nu = 2563
, le nombre CFL maximal est égal à 8 et implique des communications de taille
8×2562
éléments par voisins pour le champ de vitesse et le scalaire. Dans le cas multiéchelle
Na = 1283
et Nu = 5123
, le pas de temps est identique et les tailles de communications par
voisins sont de 4 × 1283
et 15 × 5123
respectivement pour la vitesse et le scalaire. D’autre
part, dans l’état actuel du code, nous n’avons pas encore mis en place de stratégies de
recouvrement des communications par des calculs, ce qui implique que les temps de calculs
sont augmentés de la totalité des temps de communications. Ainsi la scalabilité du cas 2
GPU par rapport au cas 1 GPU est assez faible car elle revient à comparer les temps de
communications à un cas sans aucune communication. Toutefois, la scalabilité par rapport
au cas utilisant 2 GPU est satisfaisante car supérieure à 0.85 jusqu’à 12 GPU. La version
avec un seul kernel donne des résultats similaires à celle avec deux kernels séparés avec des
temps de calcul inférieurs de 3%. D’autre part, la chute de scalabilité entre 1 et 2 GPU
peut être atténuée en diminuant le volume de communications par une réduction du pas de
temps.
La répartition du temps de calcul pour quelques cas tirés de l’étude précédente est
représentée sur la figure 6.6. Elle donne la répartition du temps de calcul global d’une
1226.2. Application multi-GPU
0.4
0.5
0.6
0.7
0.8
0.9
1
2
2(N
a
, N
u
)
4
4(N
a
, N
u
)
6
6(N
a
, Nu
)
8
8(N
a
, N
u
)
10
10(N
a
, Nu
)
12
12(N
a
, Nu
)
Scalabilité : ˜S
=
T(1)
1 /Tn
Nombre de GPU / Taille du problème
2 kernels, N
a = N
u = 2563
2 kernels, N
a = 1283
, Nu = 5123
1 kernel, N
a = N
u = 2563
1 kernel, N
a = 1283
, Nu = 5123
Figure 6.5. – Performances du transport de scalaire 3D multi-GPU
itération entre les différentes directions. Comme annoncé précédemment, les temps de calcul
issus des communications dans la direction Z apparaissent comme ajoutés au temps de
calcul obtenu sans communications et sont inclus dans la partie associée à l’hôte pour cette
direction. Ainsi, seul le temps de communication varie avec le nombre de GPU et les temps
d’exécutions des kernels restent constants.
Nous détaillons sur la figure 6.7a les éléments constituant la direction Z en distinguant
les kernels OpenCL pour l’initialisation, les kernels d’advection et de remaillage ainsi que les
étapes de transferts de données. Les communications entre CPU sont notées MPI et celles
entre les cartes et les hôtes sont notées D→H ou H→D selon le sens de transfert. Enfin,
l’étape d’ajout des contributions provenant des processus voisins est notée += et est effectuée
par l’hôte de chaque carte. Les dépendances entre toutes ces étapes sont représentées
sur la figure 6.8.
Cette représentation de l’enchaînement des différentes étapes lors du traitement d’une
direction de découpe montre que certaines peuvent être réalisées simultanément. En effet,
l’initialisation des particules est indépendante du transfert des données du champ de vitesse.
De même, la copie des données du scalaire correspondant à une partie du domaine
local est indépendante des communications des contributions pour les domaines voisins.
Le parallélisme par tâches OpenCL permet de démarrer ces opérations sans en attendre la
complétion. Les détails du profilage des temps de calculs pour la figure 6.7a sont réalisés en
forçant une synchronisation explicite des tâches permettant leur comparaison.
Comme le montre la figure 6.7a, les étapes de calculs ne suffisent pas à couvrir les
communications. La figure 6.7b illustre cette remarque en reprenant la figure 6.7a avec un
code de couleur indiquant les étapes de calcul et celles de communication. Ces résultats
suggèrent la nécessité d’une réduction des temps de communications. Une optimisation
1236. Implémentation sur architectures hétérogènes
8
4
2
1
0 0.02 0.04 0.06 0.08 0.1 0.12
Nombre de GPU
Simple échelle : N
a = N
u = 2563
Initialisation X
Calcul X
Host X
Initialisation Y
Calcul Y
Host Y
Initialisation Z
Calcul Z
Host Z
8
4
2
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
Nombre de GPU
Temps de calcul par itération (s)
Multiéchelle : N
a = 1283
, Nu = 5123
Figure 6.6. – Temps de calcul par itération
envisageable consiste à améliorer les temps de transfert entre GPU en utilisant, par exemple,
un traitement par blocs en chaîne. Après cette première optimisation, une stratégie de
recouvrement des communications par les calculs pourra être envisagée. En particulier,
les étapes de calculs peuvent être séparées en deux parties à l’issue d’un redécoupage du
domaine local. Une première partie entièrement locale, ne nécessitant pas l’usage de données
distantes, peut s’exécuter pendant les communications. La seconde partie consiste à traiter
le reste du domaine à l’aide des données transférées. L’optimisation des communications
ainsi que leur recouvrement constituent une des perspectives immédiates de ce travail.
Les résultats présentés ici sont réalisés uniquement dans le cas d’une seule direction de
découpe, par plans XY . L’implémentation que nous proposons ne se restreint pas à cette approche
et permet notamment de considérer une découpe dans autre direction ainsi que dans
plusieurs directions. Cette dernière est utile essentiellement dans les cas où un grand nombre
de cartes graphiques est employé afin de réduire les disparités de nombre de points des domaines
locaux. Par exemple, pour la résolution d’un problème global de taille (NX, NY , NZ)
sur n cartes graphiques la résolution des domaines locaux est égale à (NX, NY , NZ/n) dans
le cas d’une découpe dans la direction Z. Elle passe à (NX, NY /n1, NZ/n2), avec n = n1n2
pour une découpe dans les directions Y et Z. L’avantage est de conduire à des résolutions
plus grandes dans les directions de découpes que dans le premier cas. En revanche un
plus grand nombre de communication est nécessaire. Les configurations considérées dans
ce manuscrit ne nécessitent pas l’utilisation d’un découpage dans plusieurs directions car le
nombre de cartes graphiques reste relativement faible.
Cette implémentation multi-GPU pour le transport de scalaire peut être employée en
parallèle d’une résolution CPU de l’écoulement pour la simulation du problème complet.
1246.2. Application multi-GPU
8
4
2
1
Nombre de GPU
N
a = 1283
, Nu = 5123
Transposition XZ (kernel)
Advection (kernel)
Remaillage (kernel)
Advec. et Remail. (kernel)
Advection D→H
Advection MPI
Advection H→D
Remaillage D→H
Remaillage D→H local
Remaillage MPI
Remaillage += (hôte)
Remaillage H→D local
8
4
2
1
0 10 20 30 40 50 60 70 80 90 100
Nombre de GPU
Proportion de la direction Z (% du temps de calcul)
N
a = N
u = 2563
(a) Étapes de l’algorithme
8
4
2
1
Nombre de GPU
N
a = 1283
, Nu = 5123
Communications H↔D
Communications MPI
Calcul
8
4
2
1
0 10 20 30 40 50 60 70 80 90 100
Nombre de GPU
Proportion de la direction Z (% du temps de calcul)
N
a = N
u = 2563
(b) Calculs et communications
Figure 6.7. – Profilage de la direction de découpe
1256. Implémentation sur architectures hétérogènes
Initialisation
Vitesse
D→H
Vitesse
MPI
Vitesse
H→D
Advection
Remaillage
Scalaire local
D→H
Scalaire
D→H
Scalaire
MPI
Scalaire
+=
Scalaire local
H→D
Figure 6.8. – Dépendances des étapes de communication multi-GPU
6.3. Transport turbulent d’un scalaire passif
6.3.1. Application hybride
Le problème que nous considérons dans cette partie est le transport de scalaire passif
dans un jet plan turbulent tridimensionnel, tel que présenté par Magni et al. (2012). Le
domaine de calcul est une boite unitaire périodique [0; 1]3
. Le problème est modélisé par
le couplage entre les équations de Navier-Stokes, en formulation vitesse vorticité, et d’une
équation de transport du scalaire θ, rappelé ci-après :
div u = 0, ω = rotu,
Dω
Dt
=
∂ω
∂t + (u · ∇) ω
= (ω · ∇)u + ν∆u,
Dθ
Dt
=
∂θ
∂t + (u · ∇)θ = κ∆θ.
(6.1)
L’écoulement est constitué d’un jet plan, modélisé par un champ de vitesse initialement
nul dans tout le domaine excepté dans une région d’épaisseur w le long d’un plan XZ.
Le champ de vitesse initial est perturbé par un champ aléatoire P de magnitude 0,05. Le
scalaire passif est initialisé de la même manière que le champ de vitesse. Les valeurs initiales
du champ de vitesse et du scalaire sont données par les expressions :
θ(x, y, z) = (1 + 0.3 sin(8πx))
1 + tanh
0.1 − 2|y − 0.5|
4w
/2 (6.2)
u
X(x, y, z) = θ(x, y, z)P
X,
u
Y
(x, y, z) = P
Y
u
Z
(x, y, z) = P
Z
(6.3)
La condition initiale du champ de vitesse est représentée en figure 6.9 pour la composante
u
X. L’écoulement se développe dans le plan du jet, dans la direction X. Les perturbations
provoquent l’établissement d’un régime turbulent qui se traduit par l’évolution tridimensionnelle
de l’écoulement. Le scalaire est ainsi transporté dans tout le domaine.
L’écoulement est caractérisé par la largeur du jet w = 0.1, ce qui donne un nombre de
Reynolds égal à 103 pour une viscosité ν = 10−4
. Différentes valeurs de nombre de Schmidt
1266.3. Transport turbulent d’un scalaire passif
Figure 6.9. – Champ de vitesse initial, composante u
X
1276. Implémentation sur architectures hétérogènes
seront considérées en fonction du rapport d’échelle entre les grilles de résolutions du fluide
et du scalaire. En effet, comme nous l’avons décrit au chapitre 1, le rapport des échelles de
dissipation d’énergie est lié au nombre de Schmidt : ηκ
√
Sc = ην, avec Sc = ν/κ où ν est
la viscosité du fluide et κ la diffusivité du scalaire. Ces différentes échelles sont prises en
compte par la résolution des discrétisations des variables. Le champ de vitesse est résolu
sur une grille plus grossière que celle du scalaire.
Nous rappelons que la méthode numérique hybride employée pour résoudre ces problèmes
consiste en l’utilisation d’une méthode semi-Lagrangienne pour le transport du
scalaire et de différences finies pour sa diffusion. L’écoulement est résolu en employant
une méthode semi-Lagrangienne pour le transport de vorticité, des différences finies pour
le terme d’étirement et une méthode spectrale pour la diffusion de vorticité. L’équation de
Poisson pour le calcul du champ de vitesse est également résolue par une méthode spectrale.
6.3.2. Exploitation d’une machine hétérogène
Comme nous l’avons évoqué précédemment, le transport du scalaire et le fluide sont
suffisamment indépendants pour être résolus simultanément sur différents matériels. En
effet, le couplage de ces sous-problèmes consiste simplement en une communication du
champ de vitesse en début d’itération de la partie fluide vers le transport. Pour l’exemple
de l’utilisation de la machine Froggy présentée en section 6.1, nous utilisons n GPU et les
n cœurs CPU hôtes associés pour résoudre le transport du scalaire ainsi que les 7n cœurs
CPU disponibles sur les nœuds pour calculer le champ de vitesse de l’écoulement. Cette
distribution des tâches est représentée sur la figure 6.10.
Réseau local
Transport
Navier-Stokes
Figure 6.10. – Distribution des tâches pour l’application hybride
En pratique, nous introduisons une notion de parallélisme par tâche. Les différents processus
MPI sont associés à une tâche à travers un découpage du communicateur global.
Une synchronisation globale est effectuée à l’occasion de la communication du champ de
vitesse. Dans cette exemple, deux tâches sont définies : une pour l’écoulement et l’autre
pour le transport. Pour simplifier la distribution des tâches sur l’ensemble des processus,
la résolution globale du scalaire doit être un multiple de n. De même, les résolutions de
la vitesse et de la vorticité doivent être égales et multiples du nombre de cœurs CPU associés
à leur calcul. D’autre part, les opérations de FFT du solveur spectral donnent de
meilleures performances pour des résolutions multiples d’une puissance de 2. Ainsi, sauf
1286.3. Transport turbulent d’un scalaire passif
mention contraire, la résolution du fluide sera égale à un multiple de 4n et seulement 4 des
7 cœurs seront utilisés.
6.3.3. Résultats et performances
L’évolution du jet est caractérisée par une phase de diffusion suivie d’une phase de création
d’enstrophie qui correspond à l’apparition d’instabilités tridimensionnelles s’accompagnant
de la production de petites échelles. L’enstrophie E décrit l’évolution des pertes
d’énergie cinétique de l’écoulement E par la relation :
dE
dt
= −νE, (6.4)
avec
E =
1
2
Z
Ω
||u||2
dx et E =
Z
Ω
||ω||2
dx
La figure 6.11a donne la variation de l’enstrophie de l’écoulement dont l’augmentation rapide,
vers t = 2, indique l’apparition du régime turbulent. Les effets de dissipation d’énergie
par diffusion deviennent ensuite prépondérants et se traduisent par une diminution de l’enstrophie
et des valeurs extrêmes du champ de vitesse.
Ces simulations sont réalisées en employant des formules de remaillage Λ6,4 et une intégration
en temps par un schéma Runge-Kutta d’ordre deux pour les transports de la
vorticité et du scalaire. Des schémas aux différences finies sont utilisés à l’ordre 4 pour le
terme d’étirement et au premier ordre pour la diffusion du scalaire. Enfin, le pas de temps
est calculé à chaque itération de manière à être maximal, tout en vérifiant la condition de
CFL Lagrangienne :
∆t 6
M
|∇u|∞
.
Le choix de la constante M < 1 est laissé à l’utilisateur. Pour de grandes valeurs il
peut conduire, selon les problèmes traités, à l’apparition d’instabilités numériques pouvant
perturber l’écoulement de manière non physique. En pratique, une calibration de cette
constante par rapport au problème et à ses conditions initiales est nécessaire. Dans cet
exemple, nous constatons expérimentalement que des valeurs M > 0.2 ne permettent plus
de capter la physique de l’écoulement surtout lorsque le régime turbulent est établi, pour
t > 3. D’autre part, la perturbation aléatoire appliquée à la condition initiale conduit à des
valeurs du gradient du champ de vitesse peu représentatives de l’écoulement, en début de
simulation, et entraîne l’utilisation de pas de temps trop grands. Dans ce cas, il est nécessaire
d’employer une stratégie de calcul différente en début de simulation. En particulier,
une technique simple consiste à fixer le pas de temps à une valeur arbitraire. Une autre
idée est d’ajouter une contrainte supplémentaire sous la forme d’une condition de CFL par
rapport au champ de vitesse.
L’évolution du pas de temps et du nombre CFL maximal de l’écoulement sont présentés
sur la figure 6.11b pour deux modifications du calcul du pas de temps. Lorsque l’écoulement
n’a pas encore atteint un régime turbulent, nous appliquons une condition de type CFL (cas
1) tel que : ∆t 6 1.5∆x
u/|u|∞ ou bien (cas 2) une restriction à un pas de temps inférieur à
0.011. Dans tous les cas, le pas de temps utilisé vérifie la condition de CFL Lagrangienne.
1296. Implémentation sur architectures hétérogènes
Cette dernière devient la contrainte la plus restrictive à partir de l’instant t = 1.5 et
conduit à une diminution du pas de temps. Enfin, il augmente à nouveau sur la fin de la
simulation, à mesure que l’énergie est dissipée par les petites échelles. Toutefois, les pas de
temps obtenus sont assez grands et le nombre CFL varie entre 2 et 13, par rapport à la
grille fine de résolution 1 0243
. L’avantage de l’approche couplant une condition de CFL
et la condition Lagrangienne est qu’elle permet de conserver l’intérêt d’un pas de temps
adaptatif en suivant la dynamique de l’écoulement.
20
40
60
80
100
120
140
0 1 2 3 4 5
Enstrophie : E
=
R ||ω||
2d
x
Temps
Cas 1 : M = 0.15, CF L 6 1.5
Cas 2 : M = 0.15, ∆t 6 0.011
(a) Enstrophie
0.002
0.004
0.006
0.008
0.01
0.012
∆t
0
2
4
6
8
10
12
14
0 1 2 3 4 5
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
Nombre CFL maximal
|u|∞
∆t/
∆
x
θ
|u|∞
∆t/
∆
x
u
Temps
(b) Pas de temps et CFL max.
Figure 6.11. – Configuration du jet turbulent
Le nombre CFL obtenu pour le transport du scalaire peut paraître relativement faible
pour une méthode particulaire. En effet, dans cet exemple, nous employons le même pas de
temps à la fois pour la résolution du fluide et celle du scalaire. Théoriquement, une condition
moins restrictive que celle employée ici pour le transport du scalaire est envisageable
et permettrait d’utiliser de plus grands pas de temps. Cela est illustré par les exemples
de transports de fonctions levelset donnés dans le chapitre 5 où le nombre CFL atteint
des valeurs de plusieurs dizaines. Une solution, exploitée notamment par Lagaert et al.
(2014), consiste à réaliser des sous-itérations pour la partie fluide. Elle permet d’ajuster les
contraintes sur le pas de temps indépendemment pour chaque sous-problème. En pratique,
une condition LCFL est imposée pour la résolution du transport du scalaire, avec M grand,
et un nombre de sous-itérations est calculé afin d’obtenir un pas de temps suffisamment petit
pour la résolution du fluide. Dans cet exemple, il serait envisageable d’employer des pas
de temps 6 fois plus grands pour le transport du scalaire, en prenant M = 0.9. Toutefois,
l’intérêt de cette approche est limité ici car une itération du transport du scalaire est, dans
la majorité des cas, totalement recouverte par le calcul de l’écoulement. Par conséquent,
relativement au temps total de simulation, des sous-itérations pour la partie fluide condui-
1306.3. Transport turbulent d’un scalaire passif
raient à un renforcement du déséquilibre de charge entre les CPU et les GPU, comme nous
le verrons plus loin.
Les figures 6.12 donnent les valeurs de la norme de la vorticité et du scalaire dans un
plan XZ au centre du jet à l’instant t = 4.5. L’écoulement est complètement turbulent et on
observe de nombreuses structures de tailles variables. Une comparaison de ces deux images
permet d’illustrer les différentes échelles qui caractérisent ce problème pour un nombre de
Schmidt élevé. En effet, les plus petites structures de la figure de gauche, correspondant au
fluide, sont bien plus grandes que celles de la figure de droite, pour le scalaire. Le rapport
entre les tailles des structures est égal à √
Sc et est égal à 8 dans cet exemple.
||ω||
0 40
(a) Norme de la vorticité
θ
0 1
(b) Scalaire
Figure 6.12. – Champs instantanés dans le plan XZ, au centre du jet, à t = 4.5. Nu =
1283, Nθ = 1 0243, Sc = 64
Cette simulation a été réalisée en employant 32 cœurs CPU pour la résolution de l’écoulement
et 8 GPU pour le transport du scalaire à raison de 1,4 secondes par itérations, soit
23 minutes de calcul pour atteindre t = 5. La répartition des temps de calcul pour les
différentes parties de la résolution sont présentées en figure 6.13 pour différentes résolutions
et configurations. Par notre stratégie de programmation hybride, les résolutions des deux
parties du problème sont exécutées simultanément sur différentes ressources. Ainsi, le temps
de calcul total est donné par la plus longue des parties. Les trois premières lignes de la figure
correspondent à une étude de scalabilité forte car les résolutions restent identiques. La troisième
ligne fait apparaître une large part de communication pour l’advection multi-GPU
dans la direction Z. Le temps de calcul associé à cette étape est encore augmenté lorsque
la résolution du scalaire passe à 1 0243 points.
La nécessité d’une optimisation des communications entre GPU telle que suggérée par
les résultats de la section 6.2 est ici moins prononcée. En effet, dans la plupart des confi-
gurations employées pour cette application, la résolution du fluide est la partie limitante
du temps de calcul global. Ainsi, les communications, même non optimisées, générées par
1316. Implémentation sur architectures hétérogènes
le transport multi-GPU sont recouvertes par les calculs de l’écoulement sur CPU. Comme
nous l’avons détaillé précedemment, notre implémentation se base sur une majoration de
la quantité de données à échanger pour les communications inter-GPU. Dans ces exemples,
cela conduit à un volume de communications par GPU pour les cas Nu = 1283
et Nu = 2563
respectivement de 2 × 1282
et 4 × 2562 points pour les données du champ de vitesse. Pour
le scalaire, le nombre de points est de 10 × 5122
et 17 × 1 0242 pour les cas Nθ = 5123
et
Nθ = 1 0243
.
Cette estimation des tailles de communications est réalisée à priori par l’utilisateur
à partir d’une majoration du pas de temps et du champ de vitesse. Une limite à cette
approche est que les données échangées ne sont pas toujours entièrement utilisées. En effet,
au gré de l’évolution du pas de temps, la taille des données nécessaires peut diminuer par
rapport à l’estimation. De même, le maximum de vitesse n’est pas nécessairement atteint
au voisinage des bords du domaine local. La mise en place d’un calcul de la taille des
données à échanger à chaque itération a été envisagé mais n’a pas été retenu. En effet,
la complexité algorithmique supplémentaire ne permet pas nécessairement de conduire à
une réduction des temps de calcul liés à la diminution du volume des communications. Le
code GPU que nous développons exploite des tableaux en mémoire partagée dans laquelle
l’allocation dynamique n’est pas possible. Par conséquent, un changement dans la taille de
ces tableaux nécessite une recompilation des noyaux OpenCL au cours de l’exécution. Cette
recompilation peut être réalisée seulement dans les cas où la taille des tableaux augmente.
Cependant, les communications et les transferts seraient effectués sur des données non
contiguës, ce qui nuit aux performances.
On notera que le temps de calcul associé aux communications induites par le découpage
par tâches de l’implémentation hybride sont assez faibles car elles ne concernent que
le champ de vitesse. Enfin, les temps de calculs pour l’advection de la vorticité sont assez
longs relativement à la résolution du champ de vitesse. Une des causes de ce comportement
est que l’implémentation multi-CPU développée par Lagaert et al. (2014) que nous
utilisons est plutôt destinée à traiter de larges résolutions sur un très grand nombre de
processeurs, jusqu’à 3 0643 points sur 2 048 cœurs. De plus, traiter un problème de taille
1283
sur 32 cœurs conduit à une charge par cœur de seulement 1282 × 4 points. Le volume
de communications généré dans la direction Z devient relativement important car toutes
les particules nécessitent un envoi, le support de la formule de remaillage étant plus large
que le domaine local. Le cas 4 est le seul où le calcul du transport du scalaire est plus long
que le calcul de l’écoulement sur CPU. Ce déséquilibre sera vraisemblablement atténué par
une optimisation des communications entre GPU.
Comme pour l’étude dans le cas multi-GPU, nous réalisons une étude de scalabilité
faible, sur la figure 6.14a, dont les temps de calculs sont donnés sur la figure 6.14b. Deux cas
d’occupation des nœuds sont considérés. Le premier consiste en la résolution d’un problème
de taille Nu = 1283
et Nθ = 5123 pour un ensemble de ressources composé de 4 cœurs
CPU pour la résolution du fluide et 1 GPU pour le transport du scalaire, ce qui correspond
à une occupation de 5/8 = 62, 5%. Le second cas nous permet d’atteindre une occupation
maximale en utilisant 7 cœurs. La taille du sous-problème de la partie fluide Nu = 1123 =
(7 × 16)3
est ajustée pour être multiple de 7. Comme prévu par les résultats précédents,
la résolution du fluide est effectuée en un temps plus long que le transport du scalaire.
Dans les deux cas, l’évolution du temps de calcul du solveur multi-GPU donne lieu à une
1326.3. Transport turbulent d’un scalaire passif
Cas 5 : N
u = 2563
-32CPU
N
θ = 1 0243
-8GPU
Cas 4 : N
u = 1283
-32CPU
N
θ = 1 0243
-8GPU
Cas 3 : N
u = 1283
-32CPU
N
θ = 5123
-8GPU
Cas 2 : N
u = 1283
-8CPU
N
θ = 5123
-1GPU
Cas 1 : N
u = 1283
-4CPU
N
θ = 5123
-1GPU
0 0.5 1 1.5 2 2.5 3 3.5
Temps de calcul par itération
Temps total
Calcul de ∆t
Advection ω
Étirement
Diffusion ω
Poisson
Advection θ (dir. X)
Advection θ (dir. Y)
Advection θ (dir. Z)
Advection θ (comm. dir. Z)
Diffusion θ
Comm. hybride
Figure 6.13. – Répartition du temps de calcul pour le cas hybride
scalabilité similaire à celle obtenue pour la figure 6.5. Les communications entre GPU sont
pénalisées par la présence des communications induites par la résolution de l’écoulement
sur CPU, en plus des raisons évoquées en section 6.2. En effet, toutes les communications
internœuds passent nécessairement par le même réseau et se partagent sa bande passante,
ce qui limite les performances en comparaison au cas où seuls les GPU sont utilisés. En
revanche, la scalabilité reste supérieure à 85 et 70% respectivement dans les deux cas sur
48 et 84 cœurs pour le calcul de l’écoulement.
Conclusion
Dans ce chapitre nous avons vu comment les mécanismes habituels utilisés pour l’exploitation
des CPU multicœurs des machines à mémoire distribuée s’étendent au cas des
accélérateurs. L’approche étudiée consiste à compléter le parallélisme classique pour la gestion
de la mémoire distribuée par un niveau de parallélisme spécifique à l’utilisation des
accélérateurs. Ainsi, notre implémentation est capable d’exploiter l’ensemble des ressources
d’une machine hétérogène, composée de CPU multicœurs et de cartes graphiques. Dans le
modèle de programmation OpenCL, les cartes graphiques sont associées à un processus hôte
sur le CPU. Dans le cas d’une utilisation seule des GPU, un grand nombre de cœurs sont
donc inutilisés. Nous avons exploré une solution à ce problème d’occupation à l’occasion
de l’exemple de transport de scalaire dans un écoulement turbulent. L’idée est de placer
des processus sur l’ensemble des cœurs des nœuds et de les associer à différentes tâches.
Un ensemble de processus est identifié comme hôtes des cartes graphiques permettent de
1336. Implémentation sur architectures hétérogènes
Cas 1 : 1283
|5123
Ressources unitaires : (4CPU + 1GPU)
Temps total
Fluide
Scalaire
Cas 2 : 1123
|5123
Ressources unitaires : (7CPU + 1GPU)
Temps total
Fluide
Scalaire
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
2 4 6 8 10 12
Scalabilité faible : ˜S
=
T(1)
1 /Tn
Quantité de ressources
(a) Scalabilité faible
0
0.5
1
1.5
2
2.5
3
2 4 6 8 10 12
Temps de calcul par itération (s)
Quantité de ressources
(b) Temps de calcul
Figure 6.14. – Scalabilité faible pour le cas hybride
calculer le transport du scalaire alors que les autres processus sont affectés à la résolution
de l’écoulement.
Ce chapitre nous a permis d’analyser les performances de la méthode dans un cadre
multi-GPU à travers une étude de scalabilité faible. Il apparaît dans les résultats que la
part de temps de calcul induite par les communications entre cartes graphiques nécessite des
optimisations. En effet, diverses stratégies ont été évoquées telles qu’un découpage en blocs
pour un traitement en chaîne ou encore un recouvrement par les calculs ne nécessitant pas
de communications. Toutefois, lors de la résolution hybride du problème complet, le temps
de calcul est généralement limité par la résolution du fluide sur les cœurs CPU.
Le problème de transport de scalaire passif par un jet plan turbulent a été réalisé sur
diverses configurations matérielles jusqu’à l’exploitation de 6 nœuds complets de la machine
Froggy, soit 96 cœurs CPU et 8 GPU et pour des résolution de 2563 points pour le fluide
et 1 0243 pour le scalaire. Une limitation de cette approche est que l’équilibrage de la
charge entre les CPU et les GPU n’est pas possible autrement que par une modification
des résolutions ou des paramètre des méthodes. Ainsi, le meilleur équilibrage de charge
est obtenu dans le cas 4 de la figure 6.13 et pourrait être amélioré par l’optimisation des
communications inter-GPU. Pour ce qui est du cas 5, correspondant aux résolutions les plus
importantes, une solution consisterait à employer des ressources CPU supplémentaires, des
nœuds sans GPU par exemple.
134Conclusion générale
L’objectif principal de cette thèse était d’explorer les possibilités d’une exploitation de
machines de calcul hétérogènes par une méthode hybride pour la résolution de problèmes
multiéchelles de transport de scalaire passif.
La méthode de résolution employée repose sur une méthode particulaire avec remaillage.
Elle s’identifie à une classe de méthodes semi-Lagrangiennes dans laquelle les particules
suivent les trajectoires de l’écoulement mais en traitant l’interpolation particule-grille de
manière explicite par remaillage. L’intérêt majeur est de combiner les avantages des mé-
thodes Lagrangiennes et Eulériennes. En effet, cette méthode permet l’utilisation de pas
de temps plus grands que ceux obtenus sous une contrainte de CFL classique pour les
méthodes de grille. De plus, elle est parfaitement adaptée à la résolution d’équations de
conservation et permet une montée en ordre des schémas numériques lorsque des formules
de remaillages conservant un grand nombre de moments et suffisamment régulières sont
utilisées. Nous avons exposé, dans le chapitre 2, une méthode de construction de telles
formules dont les caractéristiques influent directement sur l’ordre de la méthode. Dans ce
même chapitre, nous avons exploité l’analogie avec la méthode des différences finies pour
démontrer la consistance et la stabilité des schémas numériques ainsi obtenus.
Le principe d’une méthode hybride tel que rappelé dans le chapitre 3 est de coupler différentes
méthodes de résolution adaptées aux différents aspects physiques et numériques du
problème considéré. Dans cette thèse, nous avons repris l’idée d’un couplage de la méthode
semi-Lagrangienne avec des schémas aux différences finies et des méthodes spectrales pour
la résolution de problèmes de transport de scalaire passif dans un écoulement turbulent.
Cette approche consiste à combiner les trois niveaux d’hybridation : grilles de résolutions
différentes pour l’écoulement et le transport du scalaire, méthodes numériques de diverses
natures et calcul sur architectures hétérogènes. Le calcul hybride est un aspect émergent du
calcul à hautes performances et découle directement de la volonté de s’adapter aux architectures
des machines de calcul parallèles. Le constat de leur évolution rapide nous a poussé
à développer un code multiarchitecture dans lequel l’accent a été mis sur la portabilité et
la souplesse d’utilisation (chapitre 4). Ce code est ainsi capable de s’exécuter sur divers
types d’architectures (CPU multicœur et GPU) et de machines (d’un portable jusqu’à un
serveur de calcul parallèle). Le langage Python a été choisi pour sa portabilité, sa simplicité
d’interfaçage avec d’autres langages et ses performances. Il nous permet d’orchestrer les
simulations en utilisant, entre autres, les librairies MPI et OpenCL ainsi que des routines
en Fortran.
135Conclusion générale
L’utilisation de cartes graphiques est particulièrement bien adaptée à la méthode particulaire
avec remaillage d’ordre élevé. En effet, comme nous l’avons montré dans le chapitre 5,
la régularité des structures de données ainsi que l’intensité opérationnelle des schémas numé-
riques nous permettent d’obtenir des performances de calcul intéressantes. En particulier,
dans une analyse par le modèle roofline, elles atteignent des performances généralement
supérieures à 50% de la puissance de calcul maximale atteignable. Les faibles temps de
calculs ainsi obtenus incitent à traiter des résolutions importantes. Cependant, elles sont
rapidement limitées par les tailles des différents niveaux de mémoire des cartes graphiques.
C’est pourquoi, nous avons développé une version multi-GPU de la méthode dont les performances,
en termes de scalabilité, ont été analysées dans le chapitre 6. Les résultats ont
montré un fort potentiel de réduction du temps de calcul induit par les communications
entre GPU sous réserve de leur optimisation et de leur recouvrement par des calculs. Cette
implémentation multi-GPU nous permet d’atteindre l’objectif principal de réalisation de
simulations de transport d’un scalaire passif dans un écoulement turbulent en exploitant
une méthode hybride et une architecture hétérogène multi-CPU et multi-GPU. Nous avons
proposé une approche permettant d’augmenter l’occupation des nœuds de calcul basée sur
un parallélisme par tâches. Elle conduit à la résolution simultanée du transport du scalaire
sur plusieurs cartes graphiques et de l’écoulement sur les cœurs CPU disponibles. Malgré
des temps de communications entre GPU relativement importants, le calcul du transport
du scalaire reste généralement plus rapide que celui de l’écoulement. Une limite à cette
stratégie est que la résolution de deux sous-problèmes sur des architectures différentes peut
conduire à un déséquilibre de charge qu’il est possible d’ajuster par une modification des
paramètres des méthodes et des tailles de grilles.
De nombreuses perspectives se dégagent des aspects mathématiques, numériques et applicatifs
de ce travail. Au niveau de la méthode numérique, il serait intéressant d’étendre
l’étude de montée en ordre aux schémas d’intégration des trajectoires des particules et de
splitting dimensionnel. Pour les premiers, nous avons réalisé l’analyse de consistance pour
des schémas d’advection d’ordre 1 et 2 ainsi que l’analyse de stabilité au premier ordre. Une
poursuite de ces études pour le cas de schémas d’ordres plus élevés serait nécessaire afin
de s’assurer de la validité de l’utilisation de schémas de type Runge-Kutta d’ordre 4, par
exemple. En ce qui concerne le splitting, nous avons essentiellement employé un splitting
de Strang d’ordre 2. La mise en œuvre d’un splitting d’ordre 3 ou 4 serait intéressante du
point de vue numérique et algorithmique.
D’autre part, lors de l’étude de la construction de formules de remaillage d’ordre élevés
Λp,r, nous avons tenté, de produire des formules diffusives, sans obtenir de résultats
satisfaisants. En pratique de telles formules ont été obtenues seulement à partir des noyaux
Λ2,r. L’intérêt de ces formules serait de réaliser une diffusion de la quantité transportée
par les particules directement dans l’étape de remaillage et ainsi d’éviter un second calcul
dédié. En effet, le traitement de la diffusion du scalaire passif, par différences finies dans
nos simulations, nécessite un parcours de l’ensemble des données en lecture et écriture dont
la suppression conduirait à une diminution du temps de calcul. Cette amélioration serait
vraisemblablement significative sur GPU mais devrait également être sensible sur des architectures
CPU plus classiques. La méthode de construction des formules, développée dans le
chapitre 2, consiste à résoudre un système linéaire dont les inconnues sont les coefficients
polynômiaux. Ce système traduit l’expression des différentes contraintes parmi lesquelles la
conservation des p premiers moments. Une étude plus fine que la simple modification de la
136contrainte de conservation du moment d’ordre 2 serait nécessaire pour la prise en compte
de la diffusion.
Du point de vue numérique, une perspective se dégage directement de l’analyse des
performances de la résolution du transport de scalaire dans un cas multi-GPU. Comme
nous l’avons souligné dans le chapitre 6, les communications entre cartes graphiques font
état d’un temps de traitement assez long comparativement au temps de calcul total. Une
réduction de ce temps de traitement est envisageable en deux étapes. Dans une première
étape, il serait intéressant d’optimiser les transferts de données entre GPU en utilisant une
approche similaire à celle employée dans la librairie MPI-ACC (Aji et al., 2012). L’idée est de
traiter les messages en plusieurs envois successifs. Ce traitement par blocs en chaîne devrait
permettre un recouvrement des différentes étapes et ainsi accélérer la communication. En
effet, pendant l’envoi du message correspondant à un bloc, il est possible de réaliser la
copie depuis l’hôte vers la carte de destination du bloc précédent ainsi que celle du bloc
suivant depuis la carte vers l’hôte émetteur. Dans une seconde étape, un recouvrement de
ces transferts par des calculs est possible en réalisant, par exemple, le calcul en deux passes.
Les calculs locaux, indépendants des données distantes, peuvent être réalisés pendant leurs
transferts.
En ce qui concerne l’implémentation multi-GPU, l’occupation des ressources CPU est
un problème délicat pour lequel nous avons proposé une solution dans le chapitre 6. En
effet, les nœuds de calculs présentent généralement plus de cœurs CPU que de GPU et
comme notre implémentation se base sur l’exploitation d’une carte par un seul processus,
cela conduit à une inutilisation des cœurs restants. L’approche basée sur un parallélisme
par tâches consiste, dans notre application, à réaliser le calcul de l’écoulement sur ces cœurs
CPU disponibles. Sur l’exemple d’utilisation de la machine Froggy, le fluide est calculé sur
4 des 7 cœurs disponibles, soit une occupation de 5/8 = 62.5%. Une occupation maximale
a été obtenue artificiellement en distribuant cette tâche sur l’ensemble des 7 cœurs en
ajustant la taille de la grille de résolution. De même, une tentative de placement de 8
processus pour cette même tâche sur les 8 cœurs physiques sur lesquels est ajouté un 9e
processus pour le calcul du scalaire a conduit à des performances largement dégradées. Nous
atteignons ainsi les limites de notre parallélisme par tâche qui, par choix de simplification
des communications, se restreint à la possibilité d’une seule tâche par processus. Cependant,
une autre stratégie pour l’augmentation de l’occupation est envisageable. Dans le cas des
octocœurs utilisés, les meilleurs résultats ont été obtenus en employant 1 cœur CPU associé
à 1 GPU pour le calcul du scalaire et 4 cœurs CPU pour le calcul de l’écoulement. Les trois
cœurs restants peuvent être assignés à d’autres tâches que celles de calcul telles que des
opérations de post-traitement, de sorties sur fichiers ou encore pour la gestion de reprises
des calculs en cours de simulation.
D’autre part, l’implémentation que nous avons proposé est basée exclusivement sur un
parallélisme par envoi de messages pour les tâches n’utilisant pas de GPU. Une perspective
intéressante serait d’envisager l’ajout d’un paradigme à mémoire partagée pour l’exploitation
des cœurs CPU. Ainsi, les cœurs d’un même nœuds seraient utilisés à travers un
parallélisme spécifique tel que OpenMP, ou même OpenCL. Un parallélisme à trois niveaux
serait donc obtenu en combinant l’utilisation de MPI entre les nœuds, OpenMP (ou
OpenCL) pour les cœurs CPU d’un même nœud et OpenCL pour les GPU. La conception
a été réalisée dans le but d’obtenir un code robuste dans lequel ces modifications peuvent
137Conclusion générale
être apportées sans impacter l’ensemble de la librairie et de manière transparente pour
l’utilisateur.
Enfin, une perspective à ce travail, en termes d’application, serait de réaliser des simulations
de transport de scalaire actif ayant un effet sur l’écoulement. Par exemple, lorsque
le scalaire représente une densité dans un écoulement de fluide multiphasique. Ce problème
se modélise par une équation de transport de la densité dont la vitesse est donnée par les
équations de Navier-Stokes. Dans ces dernières un terme barotrope apparaît pour permettre
la prise en compte de la densité comme force extérieure au modèle. En pratique la résolution
du transport de la densité est toujours envisagée sur GPU et celle du terme barotrope sera
mise en œuvre soit directement sur GPU soit sur CPU, selon la nature de la méthode numérique
utilisée. Dans le premier cas, cela implique une modification du champ de vitesse
sur GPU et donc son transfert vers le CPU pour la résolution de l’écoulement. Dans le
second cas, un simple transfert de la densité vers le CPU est nécessaire. L’intérêt de cette
application serait de conserver le caractère multiéchelle du problème en utilisant des grilles
de résolutions différentes pour l’écoulement et la densité. Dans ce cas, il serait nécessaire de
filtrer la densité, après son transport, à l’échelle de l’écoulement. Ce filtre serait réalisé sur
les GPU afin de ne transférer vers les CPU qu’une densité filtrée, donc de taille réduite.
138Bibliographie
Aji, A. M., J. Dinan, D. Buntinas, P. Balaji, W.-c. Feng, K. R. Bisset et R. Thakur (2012).
« MPI-ACC: An Integrated and Extensible Approach to Data Movement in Acceleratorbased
Systems ». IEEE 14th International Conference on High Performance Computing
and Communication & IEEE 9th International Conference on Embedded Software and
Systems.
Aji, A. M., L. S. Panwar, F. Ji, M. Chabbi, K. Murthy, P. Balaji, K. R. Bisset, J. Dinan,
W.-c. Feng, J. Mellor-Crummey, X. Ma et R. Thakur (2013). « On the Efficacy of GPUIntegrated
MPI for Scientific Applications ». Proceedings of the 22nd international symposium
on High-performance parallel and distributed computing.
Baqais, A., M. Assayony, A. Khan et M. Al-Mouhamed (2013). « Bank Conflict-Free Access
for CUDA-Based Matrix Transpose Algorithm on GPUs ». International Conference on
Computer Applications Technology.
Batchelor, G. K. (1958). « Small-scale variation of convected quantities like temperature in
turbulent fluid Part 1. General discussion and the case of small conductivity ». Journal
of Fluid Mechanics 5.1.
Bergdorf, M., G.-H. Cottet et P. Koumoutsakos (2005). « Multilevel Adaptive Particle Methods
for Convection-Diffusion Equations ». Multiscale Modeling & Simulation 4.1.
Bergdorf, M. et P. Koumoutsakos (2006). « A Lagrangian Particle-Wavelet Method ». Multiscale
Modeling & Simulation 5.3.
Bergman, K., S. Borkar, D. Campbell, W. Carlson, W. Dally, M. Denneau, P. Franzon,
W. Harrod, K. Hill, J. Hiller, S. Karp, S. Keckler, D. Klein, R. Lucas, M. Richards, A.
Scarpelli, S. Scott, A. Snavely, T. Sterling, R. S. Williams et K. Yelick (2008). ExaScale
Computing Study : Technology Challenges in Achieving Exascale Systems. Rapport
technique. DARPA IPTO.
Büyükkeçeci, F., O. Awile et I. F. Sbalzarini (2012). « A portable OpenCL implementation
of generic particle–mesh and mesh–particle interpolation in 2D and 3D ». Parallel
Computing 39.2.
Canuto, C., M. Y. Hussaini, A. Quarteroni et T. A. Zang (1987). Spectral Methods in Fluid
Dynamics (Scientific Computation).
Chen, S. et G. D. Doolen (1998). « Lattice boltzmann method for fluid flows ». Annual
Review of Fluid Mechanics 30.0.
Cheng, H., L. Greengard et V. Rokhlin (1999). « A Fast Adaptive Multipole Algorithm in
Three Dimensions ». Journal of Computational Physics 155.2.
Chorin, A. J. (1968). « Numerical Solution of the Navier-Stokes Equations ». Mathematics
of Computation 22.
139Bibliographie
Chorin, A. J. (1973). « Numerical study of slightly viscous flow ». Journal of Fluid Mechanics
57.4.
Cocle, R., G. Winckelmans et G. Daeninck (2008). « Combining the vortex-in-cell and
parallel fast multipole methods for efficient domain decomposition simulations ». Journal
of Computational Physics 227.21.
Coquerelle, M. et G.-H. Cottet (2008). « A vortex level set method for the two-way coupling
of an incompressible fluid with colliding rigid bodies ». Journal of Computational Physics
227.21.
Cottet, G.-H. (1991). « Particle-grid domain decomposition methods for the Navier-Stokes
equations in exterior domains ». Lectures in Applied Mathematics 28.
Cottet, G.-H. et S. Mas-Gallic (1990). « A particle method to solve the Navier-Stokes
system ». Numerische Mathematik 57.1.
Cottet, G.-H., P. Koumoutsakos et M. L. Ould Salihi (2000). « Vortex Methods with Spatially
Varying Cores ». Journal of Computational Physics 162.1.
Cottet, G.-H., B. Michaux, S. Ossia et G. VanderLinden (2002). « A Comparison of Spectral
and Vortex Methods in Three-Dimensional Incompressible Flows ». Journal of Computational
Physics 175.2.
Cottet, G.-H. et L. Weynans (2006). « Particle methods revisited: a class of high order
finite-difference methods ». Comptes Rendus Mathematique 343.1.
Cottet, G.-H., G. Balarac et M. Coquerelle (2009a). « Subgrid particle resolution for the
turbulent transport of a passive scalar ». Advances in Turbulence XII, Proceedings of the
12th EUROMECH European Turbulence Conference, September, 2009 132.1.
Cottet, G.-H. et A. Magni (2009b). « TVD remeshing formulas for particle methods ».
Comptes Rendus de l’Academie des Sciences Paris Serie I 34.23.
Cottet, G.-H., J.-M. Etancelin, F. Perignon et C. Picard (2014). « High order semi-lagrangian
particles for transport equations: numerical analysis and implementations issues. » ESAIM:
Mathematical Modelling and Numerical Analysis 48.4.
Crouseilles, N., T. Respaud et E. Sonnendrücker (2009). « A forward semi-Lagrangian method
for the numerical solution of the Vlasov equation ». Computer Physics Communications
180.10.
Degond, P. et S. Mas-Gallic (1989). « The Weighted Particle Method for ConvectionDiffusion
Equations Part 1 : The Case of an Isotropie Viscosity ». Mathematics of Computation
53.188.
Dolbeau, R., S. Bihan et F. Bodin (2007). « HMPP: A hybrid multi-core parallel programming
environment ». Workshop on General Purpose Processing on Graphics Processing
Units.
Dongarra, J., I. Foster, G. Fox, W. Gropp, K. Kennedy, L. Torczon et A. White (2003).
The Sourcebook of Parallel Computing.
Dongarra, J., P. Beckman, T. Moore, P. Aerts, G. Aloisio, J.-C. Andre, D. Barkai, J.-
Y. Berthou, T. Boku, B. Braunschweig, F. Cappello, B. Chapman, A. Choudhary, S.
Dosanjh, T. Dunning, S. Fiore, A. Geist, B. Gropp, R. Harrison, M. Hereld, M. Heroux,
A. Hoisie, K. Hotta, Y. Ishikawa, F. Johnson, S. Kale, R. Kenway, D. Keyes, B. Kramer,
J. Labarta, A. Lichnewsky, T. Lippert, B. Lucas, B. Maccabe, S. Matsuoka, P. Messina,
P. Michielse, B. Mohr, M. S. Mueller, W. E. Nagel, H. Nakashima, M. E. Papka, D. Reed,
M. Sato, E. Seidel, J. Shalf, D. Skinner, M. Snir, T. Sterling, R. Stevens, F. Streitz, B.
Sugar, S. Sumimoto, W. Tang, J. Taylor, R. Thakur, A. Trefethen, M. Valero, A. van
der Steen, J. Vetter, P. Williams, R. Wisniewski et K. Yelick (2011). « The Internatio-
140Bibliographie
nal Exascale Software Project roadmap ». International Journal of High Performance
Computing Applications 25.1.
Dongarra, J., J. Hittinger, J. Bell, L. Chac\’{o}n, R. Falgout, M. Heroux, P. Hovland, E. Ng,
C. Webster et S. Wild (2014). Applied Mathematics Research for Exascale Computing.
Rapport technique. U.S. Department of Energy, Office of Science, Advanced Scientific
Computing Research Program.
Fermi, E., J. Pasta et S. Ulam (1955). Studies of nonlinear problems. Rapport technique.
Gotoh, T., S. Hatanaka et H. Miura (2012). « Spectral compact difference hybrid computation
of passive scalar in isotropic turbulence ». Journal of Computational Physics
231.21.
Green500 (2014). http://www.green500.org/.
Gustafson, J. L. (1988). « Reevaluating Amdahl’s Law ». Communications of the ACM
31.5.
Higham, N. J. (2002). Accuracy and Stability of Numerical Algorithms. Second edi. SIAM.
Ishiyama, T., K. Nitadori et J. Makino (2012). « 4.45 Pflops astrophysical N-body simulation
on K computer - The gravitational trillion-body problem ». International Conference
for High Performance Computing, Networking, Storage and Analysis, SC.
Jansson, N., J. Hoffman et M. Nazarov (2011). « Adaptive simulation of turbulent flow past
a full car model ». State of the Practice Reports on - SC ’11 0.
Khronos (2014). The OpenCL Specification, version 2.0.
Klöckner, A., N. Pinto, Y. Lee, B. Catanzaro, P. Ivanov et A. Fasih (2012). « PyCUDA and
PyOpenCL: A Scripting-Based Approach to GPU Run-Time Code Generation ». Parallel
Computing 38.3.
Kong, X., M. C. Huang, C. Ren et V. K. Decyk (2011). « Particle-in-cell simulations with
charge-conserving current deposition on graphic processing units ». Journal of Computational
Physics 230.4.
Koumoutsakos, P. (1997). « Inviscid Axisymmetrization of an Elliptical Vortex ». Journal
of Computational Physics 138.2.
Koumoutsakos, P. et A. Leonard (1995). « High-resolution simulations of the flow around
an impulsively started cylinder using vortex methods ». Journal of Fluid Mechanics 296.
Kuczaj, A., E. Komen et M. Loginov (2010). « Large-Eddy Simulation study of turbulent
mixing in a T-junction ». Nuclear Engineering and Design 240.9.
Labbé, S., J. Laminie et V. Louvet (2004). Méthodologie et environment de développement
orientés objets : de l’analyse mathématique à la programmation.
Lagaert, J.-B., G. Balarac, G.-H. Cottet et P. Bégou (2012). « Particle method: an efficient
tool for direct numerical simulations of a high Schmidt number passive scalar in turbulent
flow ». Center for Turbulence Research Proceedings of the Summer Program 2012. 1959.
Lagaert, J.-B., G. Balarac et G.-H. Cottet (2014). « Hybrid spectral-particle method for
the turbulent transport of a passive scalar ». Journal of Computational Physics 260.0.
Leonard, A. (1980). « Vortex methods for flow simulation ». Journal of Computational
Physics 37.3.
Lesieur, M. (2008). Turbulence in fluids.
Lesieur, M., O. Métais et P. Comte (2005). Large-Eddy Simulations of Turbulence.
Liu, M. B. et G. R. Liu (2010). « Smoothed Particle Hydrodynamics (SPH): an Overview
and Recent Developments ». Archives of Computational Methods in Engineering 17.1.
Logg, A., K.-A. Mardal et G. Wells (2012). Automated Solution of Differential Equations
by the Finite Element Method.
141Bibliographie
Magni, A. et G.-H. Cottet (2012). « Accurate, non-oscillatory, remeshing schemes for particle
methods ». Journal of Computational Physics 231.1.
Mernik, M., J. Heering et A. M. Sloane (2005). « When and how to develop domain-specific
languages ». ACM Computing Surveys 37.4.
Michioka, T. et F. K. Chow (2008). « High-Resolution Large-Eddy Simulations of Scalar
Transport in Atmospheric Boundary Layer Flow over Complex Terrain ». Journal of
Applied Meteorology and Climatology 47.12.
Monaghan, J. (1985). « Extrapolating B splines for interpolation ». Journal of Computational
Physics 60.2.
Moore, G. E. (1998). « Cramming More Components onto Integrated Circuits ». Proceedings
of the IEEE. Tome 86. 1.
Moore, G. E. (2005). Excerpts from A Conversation with Gordon Moore : Moore’s Law.
Murtis, J., J. S. Elkinton et R. T. Cardé (1992). « Odor plumes and how insects use them ».
Annual review of entomology 37.1.
Nvidia (2012a). Kepler GK110. Rapport technique.
Nvidia (2012b). Tesla K20 GPU accelerator, board specification. Rapport technique.
Nvidia (2014). Cuda C programming guide.
OpenACC (2013). The OpenACC Application Programming Interface.
Ould Salihi, M. L. (1998). « Couplage de méthodes numériques en simulation directe d’écoulements
incompressibles ». Thèse de doctorat. Université Joseph Fourier.
Ould Salihi, M. L., G.-H. Cottet et M. El Hamraoui (2000). « Blending finite-difference
and vortex methods for incompressible flow computations ». SIAM Journal on Scientific
Computing 22.5.
Pérez, F., B. E. Granger et J. D. Hunter (2011). « Python: An Ecosystem for Scientific
Computing ». Computing in Science & Engineering 13.2.
Pitsch, H., O. Desjardins, G. Balarac et M. Ihme (2008). « Large-eddy simulation of turbulent
reacting flows ». Progress in Aerospace Sciences 44.6.
Rashed, G. et R. Ahsan (2012). « Python in computational science: applications and possibilities
». International Journal of Computer Applications 46.20.
Rees, W. M. van, A. Leonard, D. I. Pullin et P. Koumoutsakos (2011). « A comparison of
vortex and pseudo-spectral methods for the simulation of periodic vortical flows at high
Reynolds numbers ». Journal of Computational Physics 230.8.
Rodgers, D. P. (1985). « Improvements in Multiprocessor System Design ». SIGARCH Computer
Architecture News 13.3.
Rossi, F., P. Londrillo, A. Sgattoni, S. Sinigardi et G. Turchetti (2012). « Towards robust
algorithms for current deposition and dynamic load-balancing in a GPU particle in cell
code ». AIP Conference Proceedings. Tome 184.
Rossinelli, D. et P. Koumoutsakos (2008). « Vortex methods for incompressible flow simulations
on the GPU ». The Visual Computer 24.7-9.
Rossinelli, D., M. Bergdorf, G.-H. Cottet et P. Koumoutsakos (2010). « GPU accelerated
simulations of bluff body flows using vortex particle methods ». Journal of Computational
Physics 229.9.
Rossinelli, D., C. Conti et P. Koumoutsakos (2011). « Mesh-particle interpolations on graphics
processing units and multicore central processing units. » Philosophical transactions.
Series A, Mathematical, physical, and engineering sciences 369.1944.
Rossinelli, D., B. Hejazialhosseini, P. Hadjidoukas, C. Bekas, A. Curioni, A. Bertsch, S.
Futral, S. J. Schmidt, N. A. Adams, P. Koumoutsakos et L. Livermore (2013). « 11
142Bibliographie
PFLOP/s Simulations of Cloud Cavitation Collapse ». Proceedings of the International
Conference on High Performance Computing, Networking, Storage and Analysis (SC ’13).
Ruetsch, G. et P. Micikevicius (2009). Optimizing Matrix Transpose in CUDA. Rapport
technique January. NVIDIA.
Sagaut, P. (2006). Large Eddy Simulation for Incompressible Flows - An introduction.
Sbalzarini, I. F., J. H. Walther, M. Bergdorf, S. E. Hieber, E. M. Kotsalis et P. Koumoutsakos
(2006). « PPM – A highly efficient parallel particle–mesh library for the simulation of
continuum systems ». Journal of Computational Physics 215.2.
Schoenberg, I. J. (1946). « Contributions to the problem of approximation of equidistant
data by analytic functions ». Quarterly of Applied Mathematics 4.2.
Sethian, J. a. et P. Smereka (2003). « Level set methods for fluid interfaces ». Annual Review
of Fluid Mechanics 35.1.
Shalf, J., S. Dosanjh et J. Morrison (2010). « Exascale Computing Technology Challenges ».
High Performance Computing for Computational Science–VECPAR 2010.
Shraiman, B. I. et E. D. Siggia (2000). « Scalar turbulence ». Nature 405.6787.
Staniforth, A. et J. Côté (1991). « Semi-Lagrangian Integration Schemes for Atmospheric
Models - A Review ». Monthly weather review 119.9.
Stantchev, G., W. Dorland et N. Gumerov (2008). « Fast parallel Particle-To-Grid interpolation
for plasma PIC simulations on the GPU ». Journal of Parallel and Distributed
Computing 68.10.
Subramaniam, B., W. Saunders, T. Scogland et W.-c. Feng (2013). « Trends in energyefficient
computing: A perspective from the Green500 ». 4th International Green Computing
Conference.
Taylor, J. R. et R. Stocker (2012). « Trade-offs of chemotactic foraging in turbulent water. »
Science 338.6107.
Temam, R. (1968). « Une méthode d’approximation de la solution des équations de NavierStokes
». Bulletin de la Société Mathématique de France 96.
Top500 (2014). http://www.top500.org/.
Tryggvason, G., R. Scardovelli et S. Zaleski (2011). Direct Numerical Simulations of Gas–Liquid
Multiphase Flows. Cambridge : Cambridge University Press.
Volkov, V. (2010). « Better performance at lower occupancy ». Proceedings of the GPU
Technology Conference,
Wang, H., S. Potluri, M. Luo, A. K. Singh, S. Sur et D. K. Panda (2011). « MVAPICH2-
GPU: optimized GPU to GPU communication for InfiniBand clusters ». Computer Science
- Research and Development 26.3-4.
Weynans, L. et A. Magni (2013). « Consistency, accuracy and entropic behaviour of remeshed
particle methods ». ESAIM: Mathematical Modelling and Numerical Analysis 47.1.
Williams, S., A. Waterman et D. Patterson (2009). « Author : Roofline : An Insightful
Visual Performance Model for Floating-Point Programs and Multicore Architectures ».
Communications of the ACM 52.4.
Yokota, R., L. A. Barba, T. Narumi et K. Yasuoka (2013). « Petascale turbulence simulation
using a highly parallel fast multipole method on GPUs ». Computer Physics Communications
184.3.
143A. Formules de remaillage
de type Λp,r
Cette annexe décrit l’ensemble des formules de remaillage de type Λp,r construites par
la méthode décrite dans la section 2.2. Les caractéristiques des formules sont résumées dans
le tableau A.1. Les formules sont regroupées en fonction de la largeur de leur support et
pour chaque noyau, nous donnons leur expression. Les poids de remaillage sont également
donnés et exprimés en fonction de la distance y de la particule au point de grille le plus
proche à gauche.
A.1. Formules de type Λ2,r
y
w0 w1 w2 w3
Figure A.1. – Poids de remaillage pour les formules de type Λ2,r
Formule Λ2,1
Λ2,1(x) = M0
4
(x) =
1 −
5
2
|x|
2 +
3
2
|x|
3 0 6 |x| < 1
2 − 4|x| +
5
2
|x|
2 −
1
2
|x|
3 1 6 |x| < 2
0 2 6 |x|
(A.1)
w[0] = (y * (y * (-y + 2.) - 1.)) / 2.
w[1] = (y * y * (3. * y - 5.) + 2.) / 2.
w[2] = (y * (y * (-3. * y + 4.) + 1.)) / 2.
w[3] = (y * y * (y - 1.)) / 2.
145A. Formules de remaillage de type Λp,r
Nom Moment maximal conservé Régularité Support Degré
Λ2,1 2 C
1
[−2; 2] 3
Λ2,2 2 C
2
[−2; 2] 5
Λ2,3 2 C
3
[−2; 2] 7
Λ2,4 2 C
4
[−2; 2] 9
Λ4,2 4 C
2
[−3; 3] 5
Λ4,3 4 C
3
[−3; 3] 7
Λ4,4 4 C
4
[−3; 3] 9
Λ6,3 6 C
3
[−4; 4] 7
Λ6,4 6 C
4
[−4; 4] 9
Λ6,5 6 C
5
[−4; 4] 11
Λ6,6 6 C
6
[−4; 4] 13
Λ8,4 8 C
4
[−5; 5] 9
Tableau A.1. – Comparatif des formules de remaillage de type Λp,r.
Formule Λ2,2
Λ2,2(x) =
1 − |x|
2 −
9
2
|x|
3 +
15
2
|x|
4 − 3|x|
5 0 6 |x| < 1
−4 + 18|x| − 29|x|
2 +
43
2
|x|
3 −
15
2
|x|
4 + |x|
5 1 6 |x| < 2
0 2 6 |x|
(A.2)
w[0] = (y * (y * (y * (y * (2. * y - 5.) + 3.) + 1.) - 1.)) / 2.
w[1] = (y * y * (y * (y * (-6. * y + 15.) - 9.) - 2.) + 2.) / 2.
w[2] = (y * (y * (y * (y * (6. * y - 15.) + 9.) + 1.) + 1.)) / 2.
w[3] = (y * y * y * (y * (-2. * y + 5.) - 3.)) / 2.
146A.2. Formules de type
Λ
4,r
Formule Λ2,3
Λ2,3(x) =
1 − |x|2 − 15|x|4 + 752 |x|5 − 632 |x|6 + 9|x|7 0 6 |x| < 1 32 − 168|x| + 376|x|2 − 460|x|3 + 330|x|4 − 2772 |x|5 + 632 |x|6 − 3|x|7 1 6 |x| < 2 0 2 6 |x| (A.3)
w[0] = (y * (y * (y * y * (y * (y * (-6. * y + 21.) - 25.) + 10.) + 1.) - 1.)) / 2.
w[1] = (y * y * (y * y * (y * (y * (18. * y - 63.) + 75.) - 30.) - 2.) + 2.) / 2.
w[2] = (y * (y * (y * y * (y * (y * (-18. * y + 63.) - 75.) + 30.) + 1.) + 1.)) / 2.
w[3] = (y * y * y * y * (y * (y * (6. * y - 21.) + 25.) - 10.)) / 2.
Formule Λ2,4
Λ2,4(x) =
1 − |x|2 − 1052 |x|5 + 3572 |x|6 − 231|x|7 + 135|x|8 − 30|x|9 0 6 |x| < 1 −208 + 1432|x| − 4304|x|2 + 7420|x|3 − 8085|x|4 +11543 2 |x|5 − 5397 2 |x|6 + 797|x|7 − 135|x|8 + 10|x|9 1 6 |x| < 2 0 2 6 |x| (A.4)
w[0] = (y * (y * (y * y * y * (y * (y * (y * (20. * y - 90.) + 154.) - 119.) + 35.) + 1.) - 1.)) / 2.
w[1] = (y * y * (y * y * y * (y * (y * (y * (-60. * y + 270.) - 462.) + 357.) - 105.) - 2.) + 2.) / 2.
w[2] = (y * (y * (y * y * y * (y * (y * (y * (60. * y - 270.) + 462.) - 357.) + 105.) + 1.) + 1.)) / 2.
w[3] = (y * y * y * y * y * (y * (y * (y * (-20. * y + 90.) - 154.) + 119.) - 35.)) / 2.
147A. Formules de remaillage de type
Λp,r
y
w
0
w
1
w
2
w
3
w
4
w
5
Figure A.2. – Poids de remaillage pour les formules de type Λ4,r
A.2. Formules de type Λ4,r
Formule Λ4,2
Λ4,2(x) = M06(x) =
1 − 54 |x|2 − 3512 |x|3 + 214 |x|4 − 2512 |x|5 0 6 |x| < 1 −4 + 754 |x| − 2458 |x|2 + 545 24 |x|3 − 638 |x|4 + 2524 |x|5 1 6 |x| < 2 18 − 1534 |x| + 2558 |x|2 − 313 24 |x|3 + 218 |x|4 − 524 |x|5 2 6 |x| < 3 0 3 6 |x| (A.5)
w[0] = (y * (y * (y * (y * (-5. * y + 13.) - 9.) - 1.) + 2.)) / 24.
w[1] = (y * (y * (y * (y * (25. * y - 64.) + 39.) + 16.) - 16.)) / 24.
w[2] = (y * y * (y * (y * (-50. * y + 126.) - 70.) - 30.) + 24.) / 24.
w[3] = (y * (y * (y * (y * (50. * y - 124.) + 66.) + 16.) + 16.)) / 24.
w[4] = (y * (y * (y * (y * (-25. * y + 61.) - 33.) - 1.) - 2.)) / 24.
w[5] = (y * y * y * (y * (5. * y - 12.) + 7.)) / 24.
148A.2. Formules de type
Λ
4,r
Formule Λ4,3
Λ4,3(x) =
1 − 54 |x|2 − 283 |x|4 + 1456 |x|5 − 245 12 |x|6 + 356 |x|7 0 6 |x| < 1 31 − 1945 12 |x| + 2905 8 |x|2 − 5345 12 |x|3 + 1281 4 |x|4 − 1615 12 |x|5 + 2458 |x|6 − 3512 |x|7 1 6 |x| < 2 −297 + 3501 4 |x| − 8775 8 |x|2 + 3029 4 |x|3 − 3731 12 |x|4 + 911 12 |x|5 − 245 24 |x|6 + 712 |x|7 2 6 |x| < 3 0 3 6 |x| (A.6)
w[0] = (y * (y * (y * (y * (y * (y * (14. * y - 49.) + 58.) - 22.) - 2.) - 1.) + 2.)) / 24.
w[1] = (y * (y * (y * (y * (y * (y * (-70. * y + 245.) - 290.) + 111.) + 4.) + 16.) - 16.)) / 24.
w[2] = (y * y * (y * y * (y * (y * (140. * y - 490.) + 580.) - 224.) - 30.) + 24.) / 24.
w[3] = (y * (y * (y * (y * (y * (y * (-140. * y + 490.) - 580.) + 226.) - 4.) + 16.) + 16.)) / 24.
w[4] = (y * (y * (y * (y * (y * (y * (70. * y - 245.) + 290.) - 114.) + 2.) - 1.) - 2.)) / 24.
w[5] = (y * y * y * y * (y * (y * (-14. * y + 49.) - 58.) + 23.)) / 24.
Formule Λ4,4
Λ4,4(x) =
1 − 54 |x|2 + 14 |x|4 − 1003 |x|5 + 4554 |x|6 − 2952 |x|7 + 3454 |x|8 − 1156 |x|9 0 6 |x| < 1 −199 + 5485 4 |x| − 32975 8 |x|2 + 28425 4 |x|3 − 61953 8 |x|4 + 33175 6 |x|5 −20685 8 |x|6 + 3055 4 |x|7 − 1035 8 |x|8 + 115 12 |x|9 1 6 |x| < 2 5913 − 89235 4 |x| + 297585 8 |x|2 − 143895 4 |x|3 + 177871 8 |x|4 − 54641 6 |x|5 +19775 8 |x|6 − 1715 4 |x|7 + 3458 |x|8 − 2312 |x|9 2 6 |x| < 3 0 3 6 |x| (A.7)
w[0] = (y * (y * (y * (y * (y * (y * (y * (y * (-46. * y + 207.) - 354.) + 273.) - 80.) + 1.) - 2.)
- 1.) + 2.)) / 24.
w[1] = (y * (y * (y * (y * (y * (y * (y * (y * (230. * y - 1035.) + 1770.) - 1365.) + 400.) - 4.) + 4.)
+ 16.) - 16.)) / 24.
w[2] = (y * y * (y * y * (y * (y * (y * (y * (-460. * y + 2070.) - 3540.) + 2730.) - 800.) + 6.) - 30.)
149A. Formules de remaillage de type
Λp,r
+ 24.) / 24.
w[3] = (y * (y * (y * (y * (y * (y * (y * (y * (460. * y - 2070.) + 3540.) - 2730.) + 800.) - 4.) - 4.)
+ 16.) + 16.)) / 24.
w[4] = (y * (y * (y * (y * (y * (y * (y * (y * (-230. * y + 1035.) - 1770.) + 1365.) - 400.) + 1.) + 2.)
- 1.) - 2.)) / 24.
w[5] = (y * y * y * y * y * (y * (y * (y * (46. * y - 207.) + 354.) - 273.) + 80.)) / 24.
A.3. Formules de type Λ6,r
y
w
0
w
1
w
2
w
3
w
4
w
5
w
6
w
7
Figure A.3. – Poids de remaillage pour les formules de type Λ6,r
Formule Λ6,3
Λ6,3(x) =
1 − 4936 |x|2 − 959 144 |x|4 + 2569 144 |x|5 − 727 48 |x|6 + 623 144 |x|7 0 6 |x| < 1 1385 − 8617 60 |x| + 12873 40 |x|2 − 7912 |x|3 + 4557 16 |x|4 − 9583 80 |x|5 + 2181 80 |x|6 − 623 240 |x|7 1 6 |x| < 2 −440 + 25949 20 |x| − 117131 72 |x|2 + 2247 2 |x|3 − 66437 144 |x|4 + 81109 720 |x|5 − 727 48 |x|6 + 623 720 |x|7 2 6 |x| < 3 3632 5 − 7456 5 |x| + 58786 45 |x|2 − 633|x|3 + 26383 144 |x|4 − 22807 720 |x|5 + 727 240 |x|6 − 89 720 |x|7 3 6 |x| < 4 0 4 6 |x| (A.8)
w[0] = (y * (y * (y * (y * (y * (y * (-89. * y + 312.) - 370.) + 140.) + 15.) + 4.) - 12.)) / 720.
w[1] = (y * (y * (y * (y * (y * (y * (623. * y - 2183.) + 2581.) - 955.) - 120.) - 54.) + 108.)) / 720.
w[2] = (y * (y * (y * (y * (y * (y * (-1869. * y + 6546.) - 7722.) + 2850.) + 195.) + 540.) - 540.)) / 720.
w[3] = (y * y * (y * y * (y * (y * (3115. * y - 10905.) + 12845.) - 4795.) - 980.) + 720.) / 720.
150A.3. Formules de type Λ6,r
w[4] = (y * (y * (y * (y * (y * (y * (-3115. * y + 10900.) - 12830.) + 4880.) - 195.) + 540.) + 540.)) / 720.
w[5] = (y * (y * (y * (y * (y * (y * (1869. * y - 6537.) + 7695.) - 2985.) + 120.) - 54.) - 108.)) / 720.
w[6] = (y * (y * (y * (y * (y * (y * (-623. * y + 2178.) - 2566.) + 1010.) - 15.) + 4.) + 12.)) / 720.
w[7] = (y * y * y * y * (y * (y * (89. * y - 311.) + 367.) - 145.)) / 720.
Formule
Λ6,4
Λ6,4(x) =
1 − 4936
|x|
2 +
7
18
|x|
4 − 3521
144
|x|
5 + 12029 144
|x|
6 − 15617
144
|x|
7 + 1015 16
|x|
8 − 1015
72
|x|
9 0
6 |x| < 1
−877
5 + 72583 60
|x| − 145467 40
|x|
2 + 18809
3
|x|
3 − 54663
8
|x|
4 + 390327 80
|x|
5
−182549
80
|x|
6 + 161777 240
|x|
7 − 1827
16
|x|
8 + 203 24
|x|
9 1 6 |x| < 2
8695
− 656131
20
|x| + 3938809 72
|x|
2 − 158725
3
|x|
3 + 2354569 72
|x|
4 − 9644621
720
|x|
5
+523589 144
|x|
6 − 454097
720
|x|
7 + 1015 16
|x|
8 − 203
72
|x|
9 2 6 |x| <
3
−142528
5 + 375344
5
|x| − 3942344 45
|x|
2 + 178394
3
|x|
3 − 931315
36
|x|
4 + 5385983 720
|x|
5
−1035149
720
|x|
6 + 127511 720
|x|
7 − 203
16
|x|
8 + 2972
|x|
9 3
6 |x| <
4
0
4
6 |x|
(A.9)
w[0] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (-1006. * y + 5533.) - 12285.) + 13785.) - 7829.)
+ 1803.) - 3.) - 5.) + 15.) + 4.) - 12.)) / 720.
w[1] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (7042. * y - 38731.) + 85995.) - 96495.) + 54803.)
- 12620.) + 12.) + 60.) - 120.) - 54.) + 108.)) / 720.
w[2] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (-21126. * y + 116193.) - 257985.) + 289485.)
- 164409.) + 37857.) - 15.) - 195.) + 195.) + 540.) - 540.)) / 720.
w[3] = (y * y * (y * y * (y * y * (y * (y * (y * (y * (35210. * y - 193655.) + 429975.) - 482475.) + 274015.)
- 63090.) + 280.) - 980.) + 720.) / 720.
w[4] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (-35210. * y + 193655.) - 429975.) + 482475.)
- 274015.) + 63085.) + 15.) - 195.) - 195.) + 540.) + 540.)) / 720.
w[5] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (21126. * y - 116193.) + 257985.) - 289485.)
+ 164409.) - 37848.) - 12.) + 60.) + 120.) - 54.) - 108.)) / 720.
w[6] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (-7042. * y + 38731.) - 85995.) + 96495.) - 54803.)
151A. Formules de remaillage de type Λp,r
+ 12615.) + 3.) - 5.) - 15.) + 4.) + 12.)) / 720.
w[7] = (y * y * y * y * y * y * (y * (y * (y * (y * (1006. * y - 5533.) + 12285.) - 13785.) + 7829.)
- 1802.)) / 720.
Formule
Λ6,5
Λ6,5(x) =
1 − 4936
|x|
2 +
7
18
|x|
4 − 701
8
|x|
6 + 54803 144
|x|
7 − 32165
48
|x|
8 + 9555 16
|x|
9 − 38731
144
|x|10
+ 3521 72
|x|11
0
6 |x| < 1
1233
− 617533
60
|x| + 1544613 40
|x|
2 − 515179
6
|x|
3 + 502579
4
|x|
4 − 3809911
30
|x|
5
+3618099 40
|x|
6 − 10894163
240
|x|
7 + 251685 16
|x|
8 − 172123
48
|x|
9 + 38731 80
|x|10
− 3521
120
|x|11 1 6 |x| < 2
−181439
+ 16709441 20
|x| − 125352311 72
|x|
2 + 13002493
6
|x|
3 − 64445353
36
|x|
4 + 30912301 30
|x|
5
−3373567
8
|x|
6 + 88345523 720
|x|
7 − 1194095
48
|x|
8 + 160657 48
|x|
9 − 38731
144
|x|10
+ 3521 360
|x|11 2 6 |x| <
3
1188352
− 19108864
5
|x| + 250837216 45
|x|
2 − 14600752
3
|x|
3 + 25437902
9
|x|
4 − 17195278
15
|x|
5
+13253241 40
|x|
6 − 49136309
720
|x|
7 + 471205 48
|x|
8 − 45083
48
|x|
9 + 38731 720
|x|10
− 503
360
|x|11
3
6 |x| <
4
0
4
6 |x|
(A.10)
w[0] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (-1006. * y + 5533.) - 12285.) + 13785.) - 7829.)
+ 1803.) - 3.) - 5.) + 15.) + 4.) - 12.)) / 720.
w[1] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (7042. * y - 38731.) + 85995.) - 96495.) + 54803.)
- 12620.) + 12.) + 60.) - 120.) - 54.) + 108.)) / 720.
w[2] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (-21126. * y + 116193.) - 257985.) + 289485.)
- 164409.) + 37857.) - 15.) - 195.) + 195.) + 540.) - 540.)) / 720.
w[3] = (y * y * (y * y * (y * y * (y * (y * (y * (y * (35210. * y - 193655.) + 429975.) - 482475.) + 274015.)
- 63090.) + 280.) - 980.) + 720.) / 720.
w[4] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (-35210. * y + 193655.) - 429975.) + 482475.)
- 274015.) + 63085.) + 15.) - 195.) - 195.) + 540.) + 540.)) / 720.
w[5] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (21126. * y - 116193.) + 257985.) - 289485.)
+ 164409.) - 37848.) - 12.) + 60.) + 120.) - 54.) - 108.)) / 720.
w[6] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (-7042. * y + 38731.) - 85995.) + 96495.) - 54803.)
152A.3. Formules de type Λ6,r
+ 12615.) + 3.) - 5.) - 15.) + 4.) + 12.)) / 720.
w[7] = (y * y * y * y * y * y * (y * (y * (y * (y * (1006. * y - 5533.) + 12285.) - 13785.) + 7829.)
- 1802.)) / 720.
Formule
Λ6,6
Λ6,6(x) =
1 − 4936
|x|
2 +
7
18
|x|
4 −
1
36
|x|
6 − 46109
144
|x|
7 + 81361 48
|x|
8 − 544705
144
|x|
9 + 655039 144
|x|10
−223531
72
|x|11
+ 81991 72
|x|12
− 6307
36
|x|13
0
6 |x| < 1
−44291
5 + 1745121 20
|x| − 15711339 40
|x|
2 + 32087377 30
|x|
3 − 7860503
4
|x|
4 + 38576524 15
|x|
5
−24659323
10
|x|
6 + 84181657 48
|x|
7 − 74009313
80
|x|
8 + 17159513 48
|x|
9 − 7870247
80
|x|10
+438263 24
|x|11
− 81991
40
|x|12
+ 6307 60
|x|13 1 6 |x| < 2
3905497
− 424679647
20
|x| + 3822627865 72
|x|
2 − 2424839767
30
|x|
3 + 3009271097 36
|x|
4 − 930168127
15
|x|
5
+305535494
9
|x|
6 − 9998313437
720
|x|
7 + 203720335 48
|x|
8 − 137843153
144
|x|
9 + 22300663 144
|x|10
−6126883
360
|x|11
+ 81991 72
|x|12
− 6307
180
|x|13 2 6 |x| <
3
−255622144
5 + 971097344
5
|x| − 15295867328 45
|x|
2 + 5442932656 15
|x|
3 − 2372571796
9
|x|
4 + 2064517469 15
|x|
5
−9563054381
180
|x|
6 + 2210666335 144
|x|
7 − 796980541
240
|x|
8 + 76474979 144
|x|
9 − 43946287
720
|x|10
+343721 72
|x|11
− 81991
360
|x|12
+ 901 180
|x|13
3
6 |x| <
4
0
4
6 |x|
(A.11)
w[0] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (3604. * y - 23426.) + 63866.)
- 93577.) + 77815.) - 34869.) + 6587.) + 1.) - 3.) - 5.) + 15.) + 4.) - 12.)) / 720.
w[1] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (-25228. * y + 163982.) - 447062.)
+ 655039.) - 544705.) + 244083.) - 46109.) - 6.) + 12.) + 60.) - 120.) - 54.) + 108.)) / 720.
w[2] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (75684. * y - 491946.) + 1341186.)
- 1965117.) + 1634115.) - 732249.) + 138327.) + 15.) - 15.) - 195.) + 195.) + 540.) - 540.)) / 720.
w[3] = (y * y * (y * y * (y * y * (y * (y * (y * (y * (y * (y * (-126140. * y + 819910.) - 2235310.)
+ 3275195.) - 2723525.) + 1220415.) - 230545.) - 20.) + 280.) - 980.) + 720.) / 720.
153A. Formules de remaillage de type
Λp,r
w[4] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (126140. * y - 819910.) + 2235310.)
- 3275195.) + 2723525.) - 1220415.) + 230545.) + 15.) + 15.) - 195.) - 195.) + 540.) + 540.)) / 720.
w[5] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (-75684. * y + 491946.) - 1341186.)
+ 1965117.) - 1634115.) + 732249.) - 138327.) - 6.) - 12.) + 60.) + 120.) - 54.) - 108.)) / 720.
w[6] = (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (y * (25228. * y - 163982.) + 447062.)
- 655039.) + 544705.) - 244083.) + 46109.) + 1.) + 3.) - 5.) - 15.) + 4.) + 12.)) / 720.
w[7] = (y * y * y * y * y * y * y * (y * (y * (y * (y * (y * (-3604. * y + 23426.) - 63866.) + 93577.)
- 77815.) + 34869.) - 6587.)) / 720.
A.4. Formules de type Λ8,r
y
w
0
w
1
w
2
w
3
w
4
w
5
w
6
w
7
w
8
w
9
Figure A.4. – Poids de remaillage pour les formules de type Λ8,r
154A.4. Formules de type Λ8,r
Formule
Λ8,4
Λ8,4(x) =
1 − 205 144
|x|
2 + 91 192
|x|
4 − 6181
320
|x|
5 + 6337 96
|x|
6 − 2745
32
|x|
7 + 28909 576
|x|
8 − 3569
320
|x|
9
0
6 |x| < 1
−154
+ 12757 12
|x| − 230123 72
|x|
2 + 264481 48
|x|
3 − 576499
96
|x|
4 + 686147 160
|x|
5
−96277
48
|x|
6 + 14221 24
|x|
7 − 28909
288
|x|
8 + 3569 480
|x|
9
1 6 |x| < 2
68776
7 − 1038011 28
|x| + 31157515 504
|x|
2 − 956669
16
|x|
3 + 3548009 96
|x|
4 − 2422263
160
|x|
5
+197255 48
|x|
6 − 19959
28
|x|
7 + 144545 2016
|x|
8 − 3569
1120
|x|
9
2 6 |x| <
3
−56375
+ 8314091 56
|x| − 49901303 288
|x|
2 + 3763529 32
|x|
3 − 19648027
384
|x|
4 + 9469163 640
|x|
5
−545977
192
|x|
6 + 156927 448
|x|
7 − 28909
1152
|x|
8 + 3569 4480
|x|
9
3
6 |x| <
4
439375
7 − 64188125 504
|x| + 231125375 2016
|x|
2 − 17306975
288
|x|
3 + 7761805 384
|x|
4 − 2895587
640
|x|
5
+129391 192
|x|
6 − 259715
4032
|x|
7 + 28909 8064
|x|
8 − 3569
40320
|x|
9
4
6 |x| < 5
0 5 6 |x|
(A.12)
w0 = (y * (y * (y * (y * (y * (y * (y * (y * (-3569. * y + 16061.) - 27454.) + 21126.) - 6125.)
+ 49.) - 196.) - 36.) + 144.)) / 40320.
w1 = (y * (y * (y * (y * (y * (y * (y * (y * (32121. * y - 144548.) + 247074.) - 190092.)
+ 55125.) - 672.) + 2016.) + 512.) - 1536.)) / 40320.
w2 = (y * (y * (y * (y * (y * (y * (y * (y * (-128484. * y + 578188.) - 988256.) + 760312.)
- 221060.) + 4732.) - 9464.) - 4032.) + 8064.)) / 40320.
w3 = (y * (y * (y * (y * (y * (y * (y * (y * (299796. * y - 1349096.) + 2305856.) - 1774136.)
+ 517580.) - 13664.) + 13664.) + 32256.) - 32256.)) / 40320.
w4 = (y * y * (y * y * (y * (y * (y * (y * (-449694. * y + 2023630.) - 3458700.) + 2661540.)
- 778806.) + 19110.) - 57400.) + 40320.) / 40320.
w5 = (y * (y * (y * (y * (y * (y * (y * (y * (449694. * y - 2023616.) + 3458644.) - 2662016.)
+ 780430.) - 13664.) - 13664.) + 32256.) + 32256.)) / 40320.
w6 = (y * (y * (y * (y * (y * (y * (y * (y * (-299796. * y + 1349068.) - 2305744.) + 1775032.)
- 520660.) + 4732.) + 9464.) - 4032.) - 8064.)) / 40320.
w7 = (y * (y * (y * (y * (y * (y * (y * (y * (128484. * y - 578168.) + 988176.) - 760872.)
+ 223020.) - 672.) - 2016.) + 512.) + 1536.)) / 40320.
155A. Formules de remaillage de type Λp,r w8 = (y * (y * (y * (y * (y * (y * (y * (y * (-32121. * y + 144541.) - 247046.) + 190246.) - 55685.) + 49.) + 196.) - 36.) - 144.)) / 40320. w9 = (y * y * y * y * y * (y * (y * (y * (3569. * y - 16060.) + 27450.) - 21140.) + 6181.)) / 40320.
156B. Publications
157ESAIM: M2AN 48 (2014) 1029–1060 ESAIM: Mathematical Modelling and Numerical Analysis
DOI: 10.1051/m2an/2014009 www.esaim-m2an.org
HIGH ORDER SEMI-LAGRANGIAN PARTICLE METHODS
FOR TRANSPORT EQUATIONS:
NUMERICAL ANALYSIS AND IMPLEMENTATION ISSUES
G.-H. Cottet1, J.-M. Etancelin1, F. Perignon1 and C. Picard1
Abstract. This paper is devoted to the definition, analysis and implementation of semi-Lagrangian
methods as they result from particle methods combined with remeshing. We give a complete consistency
analysis of these methods, based on the regularity and momentum properties of the remeshing
kernels, and a stability analysis of a large class of second and fourth order methods. This analysis
is supplemented by numerical illustrations. We also describe a general approach to implement these
methods in the context of hybrid computing and investigate their performance on GPU processors as
a function of their order of accuracy.
Mathematics Subject Classification. 65M12, 65M75, 65Y05, 65Y20.
Received October 22, 2013. Revised January 28, 2014.
Published online June 30, 2014.
1. Introduction
Particle methods are Lagrangian methods that have been designed for advection dominated problems, with
applications mostly in plasma physics [10], incompressible flows [4,7,16], or gas dynamics [20]. Following [12, 13],
particle methods are often associated with remeshing, in order to maintain the regularity of the particle distribution
and, as a consequence, to control the accuracy of the method in presence of strong strain in the flow
carrying the particles. Remeshing removes the grid free nature of particle methods but maintains some of its
features like conservation, locality, and stability. It not only guarantees accuracy but also allows to combine in
a seamless fashion particle methods with grid-based techniques, like domain decomposition methods and fast
FFT-based Poisson solvers for field evaluations [5, 22], multi-resolution and adaptive mesh refinement [1, 2].
In practice particle remeshing occurs every few time steps. In that case, and as long as the remeshing frequency
does not increase when the discretization parameters tend to zero, Remeshed Particle Methods (RPM in the
sequel) can be viewed as conservative forward semi-lagrangian methods. Classical semi-lagrangian methods for
transport equations combine tracking of trajectories originating at grid points and interpolation from the grid.
Because they operate on local point values, semi-lagrangian methods in general do not conserve mass, unless
some specific treatment is done. By contrast, particle methods transport masses which makes them inherently
conservative.
Keywords and phrases. Advection equations, particle methods, semi-Lagrangian methods, GPU computing.
1 Universit´e Grenoble Alpes and CNRS, Laboratoire Jean Kuntzmann, BP 53 38041, Grenoble Cedex 9, France.
georges-henri.cottet@imag.fr
Article published by EDP Sciences c EDP Sciences, SMAI 2014
Proposition d’une architecture de surveillance ”active” `a
base d’agents intelligents pour l’aide `a la maintenance de
syst`emes mobiles - Application au domaine ferroviaire
Antoine Le Mortellec
To cite this version:
Antoine Le Mortellec. Proposition d’une architecture de surveillance ”active” `a base d’agents
intelligents pour l’aide `a la maintenance de syst`emes mobiles - Application au domaine ferroviaire.
Automatic Control Engineering. Universit´e de Valenciennes et du Hainaut-Cambresis,
2014. French. .
HAL Id: tel-00947981
https://tel.archives-ouvertes.fr/tel-00947981v2
Submitted on 4 Apr 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.Thèse de doctorat
Pour obtenir le grade de Docteur de l’Université de
VALENCIENNES ET DU HAINAUT-CAMBRESIS
Spécialité Automatique et Génie Informatique
Présentée et soutenue par Antoine LE MORTELLEC
Le 30/01/2014 à Valenciennes
Ecole doctorale :
Sciences Pour l’Ingénieur (SPI)
Equipe de recherche, Laboratoire :
Laboratoire : Thermique Ecoulement Mécanique Matériaux Mise en Forme Production (TEMPO)
Equipe : Production, Services, Information (PSI)
Proposition d’une architecture de surveillance “active” à base d’agents
intelligents pour l’aide à la maintenance de systèmes mobiles
Application au domaine ferroviaire
JURY
Président du jury
Pierre Castagna. Professeur à l’Université de Nantes.
Rapporteurs
Zineb Simeu-Abazi. Maître de conférences HDR à l’Université Joseph Fourier de Grenoble.
Benoît Iung. Professeur à l’Université de Lorraine.
Samir Lamouri. Professeur à l’Ecole Nationale Supérieure d’Arts et Métiers Paris Tech.
Examinateur
Audine Subias. Maître de conférences HDR à l’Université de Toulouse.
Directeur de thèse
Damien Trentesaux. Professeur à l’Université de Valenciennes et du Hainaut Cambrésis.
Co-encadrants de thèse
Yves Sallez. Maître de conférences HDR à l’Université de Valenciennes et du Hainaut Cambrésis.
Thierry Berger. Maître de conférences à l’Université de Valenciennes et du Hainaut Cambrésis.
Membre invité
Frédéric Grzesiak. Directeur technique de la société PROSYST de Valenciennes.
N° Ordre : 14/06 Page 2
Page 3
Avant-propos
Cette thèse s’inscrit dans le cadre du projet SURFER (SURveillance active FERroviaire)
conduit par Bombardier-Transport, en collaboration avec la société PROSYST, le groupe
HIOLLE INDUSTRIES, l'Université de Valenciennes et du Hainaut-Cambrésis (UVHC) et
l'Institut Français des Sciences et Technologies des Transports, de l'Aménagement et des
Réseaux (IFSTTAR). Elle a été financée dans le cadre d’un contrat de collaboration de
Recherche entre le laboratoire TEMPO EA4542 et la société PROSYST. Le temps de travail a
été partagé entre ces deux entités.
Le projet SURFER est supporté financièrement par le Fonds Unique Interministériel (FUI) et
la région Nord Pas-de-Calais, et sponsorisé par les Pôles de compétitivité i-Trans et
Advancity.
Les accords de consortium établis entre les différents partenaires du projet SURFER ont
restreint la divulgation de certains développements scientifiques et technologiques réalisés
pendant mes travaux de Recherche. Ces éléments ne sont donc pas publiés dans ce manuscrit. Page 4
Remerciements
Les travaux présentés dans ce manuscrit ont été réalisés au sein de l’équipe PSI du laboratoire
TEMPO de l’Université de Valenciennes et du Hainaut Cambrésis en collaboration avec la
société PROSYST.
Je tiens à remercier en premier lieu le professeur Damien Trentesaux, responsable de l’équipe
PSI, qui a dirigé cette thèse pour la qualité de son encadrement, ses conseils pertinents et son
aide tout au long de ces trois années de doctorat. Je remercie mes co-encadrants de thèse,
M. Yves Sallez, Maître de Conférences HDR, et M. Thierry Berger, Maître de Conférences,
pour leur disponibilité, leurs critiques constructives et leurs encouragements, ainsi que pour le
temps qu’ils ont consacré à relire et à corriger ce manuscrit.
J’exprime toute ma gratitude à Mme Zineb Simeu-Abazi, Maître de Conférences HDR au
laboratoire G-SCOP de Grenoble, à M. Benoît Iung, professeur au CRAN de Nancy et à
M. Samir Lamouri, professeur à l’École Nationale Supérieure d’Arts et Métiers Paris Tech,
qui m’ont fait l’honneur de rapporter cette thèse. J’ai été particulièrement sensible à leur
lecture attentive de ce manuscrit, aux nombreuses discussions et perspectives scientifiques
qu’ils ont apportées à mes travaux. Je remercie vivement Mme Audine Subias, Maître de
Conférences HDR au LAAS de Toulouse pour avoir accepté d’examiner cette thèse et
M. Pierre Castagna, professeur à l’IRCCyN de Nantes, pour avoir accepté de présider ce jury.
Mes remerciements s’adressent également à l’ensemble du personnel de la société PROSYST
et à son dirigeant, M. Abdallah Asse, pour leur accueil et leur sympathie. Je remercie
chaleureusement M. Frédéric Grzesiak, directeur technique et M. Khaled El Sanwar,
ingénieur de Recherche et Développement, pour leur aide, la vision qu’ils m’ont transmise sur
les différents aspects du sujet de thèse et la confiance qu’ils m’ont accordée.
Je tiens à remercier M. Guillaume Branger, ingénieur de Recherche et Développement au sein
de Bombardier-Transport France et pilote du projet SURFER, pour son soutien, l’expérience
qu’il m’a apportée et l’intérêt qu’il a porté à l’égard de mes travaux.
Je remercie évidemment les membres de l’équipe TEMPO-PSI ainsi que tous les “surfeurs”
qui ont contribué à la concrétisation de cette thèse. Je pense en particulier à Joffrey Clarhaut,
Rebiha Bekrar, Jean Gandibleux, Quentin Coutadeur et Vivien Basselot.
Je remercie ma famille pour m’avoir soutenu pendant toutes ces années d’études. Merci à mes
sœurs, Cécile et Aurore, sans qui cette thèse n’existerait probablement pas.
Je n’oublie pas mes amis, notamment mes amis Rennais, qui m’ont toujours encouragé et
motivé pendant ces années passées dans le “ch’Nord”. Merci à vous. REMERCIEMENTS
Page 5
À ma maman..., Page 6
Table des matières
Introduction générale ............................................................................................................................................. 9
Ch. I Problématique de la surveillance pour l’aide à la maintenance ............................................................... 12
Introduction ...................................................................................................................................................... 12
1. Contexte général ........................................................................................................................................... 13
1.1 Approche systémique adoptée ................................................................................................................ 13
1.2 Propriétés des systèmes cibles considérés .............................................................................................. 14
1.3 Terminologie relative à la maintenance .................................................................................................. 16
1.4 Activités de la maintenance .................................................................................................................... 17
2. Fonctions d’un système de surveillance ....................................................................................................... 20
2.1 Détection ................................................................................................................................................ 22
2.2 Diagnostic ............................................................................................................................................... 22
2.3 Pronostic ................................................................................................................................................. 23
2.4 Elaboration de conseils ........................................................................................................................... 23
3. Modèle d’architecture de surveillance .......................................................................................................... 24
3.1 Standards d’architectures de surveillance ............................................................................................... 24
3.2 Problématiques de la surveillance des systèmes cibles considérés ......................................................... 30
4. Conclusion .................................................................................................................................................... 34
Ch. II Surveillance de systèmes mobiles : état de l’art et approches de surveillance active .............................. 35
Introduction ...................................................................................................................................................... 35
1. Etat de l’art des architectures de diagnostic .................................................................................................. 35
1.1 Diagnostic distant ................................................................................................................................... 36
1.2 Diagnostic embarqué .............................................................................................................................. 38
1.3 Typologie des architectures de diagnostic .............................................................................................. 43
2. Approches de surveillance active.................................................................................................................. 45
2.1 Concept de surveillance active ............................................................................................................... 46
2.2 Approche multi-agents ........................................................................................................................... 47
2.3 Approche holonique ............................................................................................................................... 49
2.4 Comparaison des approches ................................................................................................................... 52
3. Conclusion .................................................................................................................................................... 53
Ch. III Proposition d’une architecture holonique pour la surveillance active de systèmes cibles mobiles ...... 54
Introduction ...................................................................................................................................................... 54
1. Système de surveillance holonique ............................................................................................................... 54
1.1 Approche de modélisation du système cible à surveiller ........................................................................ 55
1.2 Spécification d’une architecture holonique de surveillance ................................................................... 58
1.3 Architecture de surveillance proposée .................................................................................................... 61
2. Structure interne d’un holon de surveillance ................................................................................................ 66
2.1 Données exploitées par la fonction de surveillance d’un holon ............................................................. 66
2.2 Hypothèses pour l’élaboration d’un diagnostic ...................................................................................... 67
2.3 Modules internes d’une fonction de surveillance ................................................................................... 67
2.4 Niveaux de diagnostic d’une fonction de surveillance ........................................................................... 69
3. Conclusion .................................................................................................................................................... 71
Ch. IV Mise en œuvre de l’architecture holonique de surveillance active ......................................................... 72
Introduction ...................................................................................................................................................... 72
1. Diagnostic PSC individuel non-contextualisé ............................................................................................... 73
1.1 Nature des systèmes diagnostiqués ......................................................................................................... 73
1.2 Méthode de diagnostic mise en œuvre ................................................................................................... 73
1.3 Limitations de la méthode de diagnostic mise en œuvre ........................................................................ 74
2. Contextualisation du diagnostic .................................................................................................................... 75
2.1 Contextualisation individuelle ................................................................................................................ 76
2.2 Contextualisation collective ................................................................................................................... 78
3. Description comportementale des holons de surveillance ............................................................................ 80
3.1 Comportements des holons élémentaires................................................................................................ 82TABLE DES MATIÈRES
Page 7
3.2 Comportements des holons composés .................................................................................................... 84
4. Mise en œuvre des holons de surveillance .................................................................................................... 87
4.1 Implémentation de la partie informationnelle d’un holon ...................................................................... 87
4.2 Implantation physique des holons de surveillance ................................................................................. 88
5. Conclusion .................................................................................................................................................... 89
Ch. V Application au domaine ferroviaire .......................................................................................................... 90
Introduction ...................................................................................................................................................... 90
1. Contexte industriel du projet SURFER ......................................................................................................... 90
1.1 Objectifs du projet SURFER .................................................................................................................. 90
1.2 Utilisateurs du système SURFER ........................................................................................................... 91
2. Application de notre proposition pour un système train ............................................................................... 92
2.1 Instanciation de l’architecture holonique de surveillance ....................................................................... 93
2.2 Algorithmes des holons de surveillance ................................................................................................. 95
2.3 Exemples de scénarios de diagnostic ...................................................................................................... 99
3. Plateforme expérimentale ........................................................................................................................... 102
3.1 Architecture de la plateforme PEMAS ................................................................................................. 103
3.2 Implémentation des agents dans Jade ................................................................................................... 105
4. Résultats obtenus ........................................................................................................................................ 108
4.1 Implémentation de la couche acquisition embarquée ........................................................................... 108
4.2 Mise en œuvre de la méthode de diagnostic à base de modèle ............................................................. 109
4.3 Contextualisation du diagnostic............................................................................................................ 110
5. Conclusion .................................................................................................................................................. 110
Références .......................................................................................................................................................... 117
Liste des figures .................................................................................................................................................. 129
Annexes .............................................................................................................................................................. 131
Annexe A : Complément sur l’approche systémique ...................................................................................... 132
Annexe B : Etude comparative des méthodes de diagnostic ........................................................................... 133
B.1 Méthodes à base de modèles (MBD) ................................................................................................... 134
B.2 Méthodes basées sur des données historiques...................................................................................... 139
B.3 Comparaison des méthodes de diagnostic ........................................................................................... 141
Annexe C : Méthode de diagnostic mise en œuvre ......................................................................................... 144
Annexe D : Prototype SURFER ..................................................................................................................... 146 TABLE DES MATIÈRES
Page 8 Page 9
Introduction générale
Pour se démarquer et rester compétitif, les industriels misent notamment sur le développement
et l’intégration rapide de nouvelles fonctionnalités offertes par les évolutions technologiques
de l’information et de la communication.
Ces deux dernières décennies, les systèmes embarqués ont été introduits dans de nombreux
domaines d’application (transport, industrie, habitat, médical...). Ces systèmes se sont vu
confier des tâches plus importantes pour délivrer de nouveaux services aux utilisateurs avec
des délais de mise sur le marché toujours plus courts et à moindre coût. Dans certains
domaines, ces systèmes ont également permis de répondre aux exigences accrues en matière
de sécurité et de fiabilité.
Paradoxalement, le développement de ces équipements embarqués a contribué à accroitre le
nombre de pannes des systèmes dans lesquels ils sont enfouis. Ces pannes, aux conséquences
généralement coûteuses, voir catastrophiques, sont devenues inacceptables pour les industriels
qui commercialisent ces produits ainsi que pour leurs clients. L’identification des causes de
certaines pannes représente actuellement un véritable challenge dans les activités de la
maintenance. Elles entrainent une indisponibilité excessive des équipements.
Dans le domaine des transports, ces constats ont conduit un acteur majeur de l’industrie
ferroviaire à améliorer la disponibilité de ses véhicules sur rail à travers une approche
innovante visant à optimiser la maintenance. Ainsi, le projet SURFER, qui est à l’origine des
travaux présentés dans ce manuscrit, a été proposé. Ce projet repose sur la conception et le
déploiement d’une architecture évoluée pour la surveillance de matériels roulants ferroviaires.
Cette thèse se situe à la rencontre de plusieurs communautés de Recherche, dans laquelle la
notion d’intelligence (ou activité) rattachée à un produit a pour objet l’évaluation et la gestion
de la santé des équipements. Elle regroupe notamment des concepts relatifs à la surveillance
dans un contexte de maintenance, au diagnostic et au développement de produits “actifs” tout
au long de son cycle de vie.
Notre contribution principale concerne la proposition d’une architecture générique de
surveillance “active” pour l’aide à la maintenance de systèmes mobiles, basée sur des entités
de surveillance “intelligentes”. Cette architecture a vocation à supporter des méthodologies de
diagnostic développées par différentes communautés de Recherche. L’élaboration d’une
nouvelle méthode de diagnostic n’est donc pas l’objet de notre proposition.
Le projet SURFER étant le cadre applicatif de nos travaux, le domaine des transports est une
référence pour illustrer notre approche, sans pour autant restreindre l’application de notre
contribution à ce domaine.
Nous avons choisi de structurer ce manuscrit en cinq chapitres, dont l’organisation est
illustrée par la figure 1. INTRODUCTION GÉNÉRALE
Page 10
Figure 1. Organisation des chapitres de ce manuscrit.
Le chapitre I introduit le contexte général de nos travaux en présentant tout d’abord les
caractéristiques des systèmes à maintenir. Ce chapitre positionne ensuite notre étude par
rapport à un modèle d’architecture de surveillance de la littérature. Les différents verrous liés
à la surveillance des systèmes considérés sont alors exposés et les exigences à satisfaire dans
le cadre de nos travaux sont définies.
Le chapitre II dresse un état de l’art des approches de la littérature pour la surveillance de
systèmes mobiles, en proposant une typologie des architectures de diagnostic. Une classe
d’architecture est retenue dans le contexte de notre étude. Suivant ce type d’architecture, ce
chapitre s’oriente par la suite vers une approche de surveillance “active” en adoptant une
approche de modélisation à base d’entités autonomes et communicantes.
Le chapitre III est consacré à notre proposition. Une architecture générique pour la
surveillance de systèmes mobiles est proposée. Cette architecture repose sur les choix réalisés
dans le précédent chapitre. Ce chapitre spécifie l’architecture proposée et détaille la structure
interne des entités de surveillance qui composent cette architecture de surveillance.
Le chapitre IV met en œuvre l’architecture de surveillance proposée. Dans ce chapitre, les
processus internes aux entités de surveillance et les comportements attendus de ces entités
sont définis. Par la suite, une approche est adoptée pour implémenter ces entités de
surveillance.
INTRODUCTION GÉNÉRALE
Page 11
Le chapitre V applique les propositions des deux chapitres précédents au domaine ferroviaire
dans le cadre du projet SURFER. Dans un premier temps, ce chapitre instancie l’architecture
proposée pour la surveillance d’un train de passagers. Par la suite, la plateforme
expérimentale conçue pour implémenter cette architecture et valider notre approche est
détaillée. Enfin, les résultats obtenus dans ce cadre applicatif sont présentés.
Suite à ce dernier chapitre, la conclusion de nos travaux et les perspectives de Recherche
envisagées sont exposées. Page 12
Chapitre I
Problématique de la surveillance pour l’aide à la
maintenance
Introduction
Dans un contexte économique hautement concurrentiel, les fabricants et intégrateurs de
produits à haute valeur technologique sont contraints de concevoir des systèmes à des coûts
de plus en plus faibles sur l’ensemble des phases du cycle de vie. L’objectif étant de proposer
des produits compétitifs en terme de coûts d’acquisition, d’exploitation et de maintenance
(coût global de possession ou LCC : Life Cycle Cost). Par conséquent, limiter les coûts de
maintenance et d’exploitation tout en améliorant la disponibilité des systèmes est une
préoccupation majeure des industriels.
La maintenance est l’un des éléments clef dans la réduction de l’indisponibilité. Elle
représente également un point sensible, soumise notamment à des contraintes financières,
sécuritaires et énergétiques (Rabatel et al., 2009). Ainsi, la maintenance est un levier
stratégique de compétitivité et d’innovation pour les industriels (Muller et al., 2008). Elle
permet de préserver les caractéristiques fonctionnelles des systèmes et vise à améliorer leurs
disponibilités dans des conditions économiques acceptables.
L’optimisation de la maintenance se traduit par une réduction des temps d’immobilisation du
système maintenu et repose donc sur la pertinence des actions réalisées sur le système lors des
interventions de maintenance. Un système de maintenance efficace doit permettre d’orienter
au mieux le personnel de maintenance, en délivrant des informations directement exploitables
et précises sur les opérations de maintenance à réaliser.
Dans ce contexte, un système de surveillance observant en permanence un système à
maintenir lors de son fonctionnement et assurant la tâche de diagnostic de manière autonome
offre une aide précieuse aux services de maintenance (Jardine et al., 2006). Les informations
fournies par un tel système contribuent notamment à anticiper les pannes et à accélérer la
remise en service du système maintenu après l’occurrence de la défaillance. Ces informations
de surveillance peuvent apporter des précisions sur l’origine des dysfonctionnements observés
et sur les interventions de maintenance à réaliser.
Ce premier chapitre présente les systèmes à maintenir considérés dans nos travaux et introduit
les principales notions relatives à la surveillance dans un contexte de maintenance. Par la
suite, les différentes fonctions d’un système de surveillance seront présentées et les
problématiques inhérentes à la surveillance des systèmes étudiés seront exposées. CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 13
1. Contexte général
Les avancées technologiques de l’information et de la communication ont favorisé
l’intégration massive de fonctions automatisées au sein de produits industriels (BrahimDjelloul
et al., 2012 ; Kiencke et al., 2006). Ces fonctions permettent de délivrer de nouveaux
services aux utilisateurs et d’atteindre des objectifs de plus en plus élevés en termes de
sécurité et de fiabilité. Ainsi, de nombreuses fonctionnalités sont assurées par des systèmes
embarqués. Un système embarqué est un système complexe intégrant une partie logicielle et
une partie matérielle conçues conjointement pour fournir des fonctionnalités données (Simeu,
2005). Ces équipements embarqués peuvent réaliser des fonctions plus évoluées lorsqu’ils
interagissent entre eux au sein d’un système plus vaste (système de transport, bâtiment
industriel, systèmes de production, par exemple). Ces équipements interconnectés forment
alors un système réparti (Dievart et al., 2010).
La complexité croissante des systèmes dotés de ces équipements embarqués tend à rendre
leurs opérations de maintenance bien plus délicates. Par exemple, une intervention de
maintenance sur un tel système nécessite une connaissance approfondie du fonctionnement de
l’ensemble du système et des différents équipements embarqués qui le composent. Pour faire
face à cette complexité, des approches de maintenance dites “intelligentes” ont été rendues
possibles grâce aux évolutions de l’informatique, de l’électronique et des télécommunications
(Campos, 2009). Ces approches de maintenance innovantes visent à évaluer l’état d’un
système et à déterminer les interventions de maintenance nécessaires en fonction de cet état.
Les objectifs attendus de ces nouvelles approches de maintenance sont d’accroitre la durée de
fonctionnement des équipements, de réduire les coûts de maintenance, d’exploitation et de
possession, et d’améliorer la sécurité (Vachtsevanos et Lewis, 2006).
Cette partie positionne tout d’abord les systèmes considérés dans nos travaux en adoptant une
approche systémique. Par la suite, les propriétés des systèmes à maintenir considérés sont
définies et la terminologie adoptée dans nos travaux est présentée. Enfin, cette partie décrit les
différents types de maintenance et précise le rôle de la surveillance au sein d’un système de
maintenance.
1.1 Approche systémique adoptée
Ce mémoire se focalise sur l’aide à la maintenance de systèmes constitués d’équipements
embarqués répartis, désignés ci-après sous-systèmes, et organisés suivant une structure
hiérarchisée de contrôle. Par la suite, un système constitué de ces sous-systèmes sera nommé
système cible. Un système cible est supposé être maintenu par un système de maintenance.
Un système de maintenance regroupe différentes entités en charge de planifier et de réaliser
les interventions de maintenance (centre de maintenance, personnel de maintenance, par
exemple).
La figure 1.1 ci-dessous présente un exemple de système cible supposé être situé dans son
environnement. Ce système cible se compose de différents sous-systèmes organisés suivant
une structure hiérarchisée de contrôle : un sous-système commande un ou plusieurs soussystèmes
de niveau inférieur. De plus, les sous-systèmes interagissent entre eux dans le
domaine physique et dans le domaine informationnel. Les relations maître-esclave illustrées
dans cet exemple représentent les liens “logiques” de subordination entre sous-systèmes.
Les liens “physiques” entre ces sous-systèmes peuvent être réalisés par différentes
technologies (bus ou réseaux, par exemple). CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 14
Figure 1.1. Exemples de système cible et de système de maintenance considérés.
Le système de maintenance est supposé disposer d’un centre de maintenance, dont l’objectif
est de maintenir le système cible tout au long de son usage. Lorsqu’une approche de
maintenance doit être appliquée à un système cible, des exigences sont alors à allouer au
système de maintenance comme au système cible. La section suivante définit les propriétés
des systèmes cibles considérées dans nos travaux.
1.2 Propriétés des systèmes cibles considérés
Les systèmes cibles considérés dans nos travaux sont caractérisés par les propriétés suivantes :
· Décomposition : le système cible est supposé être décomposable en un ensemble fini
de sous-systèmes.
· Hétérogénéité technologique : chaque sous-système est supposé être constitué d’une
partie contrôle et d’une partie sous-contrôle. Ces sous-systèmes sont supposés
exploiter différentes technologies (électrique, électronique, mécanique, hydraulique ou
pneumatique, par exemple).
· Variabilité : un sous-système est supposé varier d’un même système cible à un autre
(évolution de la technologie, modification de composants, modernisation, par
exemple).
· Interactions : les sous-systèmes sont supposés interagir entre eux dans le domaine
physique (échanges de flux de matière ou d’énergie, par exemple) et/ou dans le
domaine informationnel (relations de type maître-esclave ou échanges d’informations,
par exemple).
· Environnement : le système cible est supposé être situé dans un environnement. Par
conséquent, le système cible comme chaque sous-système est supposé opérer dans un
contexte opérationnel spécifique. Ce contexte peut être de nature physique
(température, vibrations, par exemple) et/ou informationnelle (mode de
fonctionnement, état du système, par exemple).
· Maintenabilité : le système cible est supposé être réparable et être maintenu au sein du
système de maintenance par un centre de maintenance. CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 15
Le tableau 1.1 ci-après présente les domaines d’applications les plus représentatifs des
systèmes cibles considérés dans nos travaux. Les principales caractéristiques associées à ces
systèmes cibles sont également mentionnées.
Tableau 1.1. Exemples de systèmes cibles considérés, inspiré de (Simeu, 2005).
Application Mobilité Sévérité de
l'environnement
Intervention
immédiate
sur le système
Haut niveau
de fiabilité
Transport
Automobile P P - P
Ferroviaire P P - P
Aérien P P - P
Maritime P P - P
Aérospatial
Fusée navette P P - P
Satellites P P - P
Industrie
Systèmes de production - P P P
Centrales nucléaires - P P P
Habitat
Bâtiments (immotique) - - P -
Habitations (domotique) - - P -
- : caractéristique absente ou négligeable P : caractéristique présente
Dans certains domaines d’applications, la mobilité du système cible entraine des contraintes
spécifiques en termes de maintenabilité. En effet, lorsque le système cible est mobile, celui-ci
doit communiquer avec un centre de maintenance distant (Jianjun et al., 2007). Par exemple,
un système de transport (automobile, ferroviaire, aérien ou maritime) est un système cible
mobile évoluant dans un environnement changeant (climat, état de l’infrastructure, profil du
conducteur, par exemple). Les interventions de maintenance ne peuvent être exécutées
immédiatement sur ce système (système en service commercial et éloigné du centre de
maintenance, par exemple) (Umiliacchi et al., 2011). Aussi, un système de transport doit
répondre à des exigences strictes en matière de fiabilité.
La disponibilité d’un système cible repose sur les objectifs de fiabilité fixés lors de sa
conception et sur l’efficacité des interventions de maintenance réalisées au cours de sa phase
LégendeCHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 16
d’utilisation. Les sections suivantes présentent la terminologie et les principaux concepts
associés à la maintenance.
1.3 Terminologie relative à la maintenance
La maintenance est définie comme l’ensemble de toutes les actions techniques,
administratives et de management durant le cycle de vie d’un bien, destinées à le maintenir ou
à le rétablir dans un état dans lequel il peut accomplir la fonction requise (NF-EN-13306,
2010). Un bien désigne un élément, composant, mécanisme, sous-système, unité
fonctionnelle, équipement ou système qui peut être décrit et considéré individuellement.
Différents événements peuvent compromettre le fonctionnement désiré d’un bien ou la
mission pour laquelle un bien a été conçu. Les entraves au bon fonctionnement d’un bien sont
les fautes, les erreurs et les défaillances (Isermann et Ballé, 1997). Une faute est une
déviation non acceptable d’au moins une propriété caractéristique exprimée par le cahier des
charges ou d’un paramètre d’un bien. Une erreur représente un changement d’état d’un bien
pouvant entraîner une défaillance. Elle est produite par une ou plusieurs fautes et peut
engendrer de nouvelles erreurs. Une défaillance est la cessation de l'aptitude d'un bien à
accomplir une fonction requise et peut être causée par une ou plusieurs erreurs. Après la
défaillance, le bien est en état de panne, c’est-à-dire qu’il est inapte à accomplir une fonction
requise. Une panne peut être complète ou partielle et résulte toujours d’une défaillance.
Dans les travaux présentés dans cette thèse, le système cible considéré est supposé être affecté
par des fautes physiques (fautes matérielles) et informationnelles (fautes logicielles) survenant
dans les différentes phases de son cycle de vie (fautes de développement et fautes
opérationnelles, par exemple). Ces fautes induisent une ou plusieurs erreurs lorsqu’elles sont
actives (états non désirés du système). Dès lors que le service délivré aux utilisateurs est
impacté par ces erreurs et ne correspond plus au service attendu, une défaillance survient. La
figure 1.2 ci-dessous illustre la relation entre les concepts de faute, erreur et défaillance
survenant au sein d’un système cible. La présence d’une faute dans un sous-système du
système cible engendre une erreur interne lors de son activation, qui conduit à la défaillance
de ce sous-système. Cette défaillance peut constituer une faute pour un autre sous-système du
système cible en provoquant à son tour une erreur interne et une défaillance de ce soussystème.
Cette seconde défaillance entraine par la suite la défaillance du système cible en
impactant le service délivré aux utilisateurs.
Figure 1.2. Relation causale entre faute, erreur et défaillance.
Il est à noter que les fautes et les défaillances peuvent se manifester de manière progressive
dans le temps (phénomènes d’usures, par exemple), de manière soudaine (rupture d’une CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 17
liaison électrique, par exemple), ou présenter un caractère non permanent (défaillances
temporellement bornées ou furtives, par exemple). Une défaillance produit des effets
perceptibles par les utilisateurs du système et éventuellement décelables par un moyen de
détection. Le terme symptôme sera utilisé par la suite pour désigner les effets observables
d’une défaillance.
La tâche de diagnostic de défaillances consiste alors à analyser ces symptômes dans le but de
rechercher les éléments défectueux du système cible responsables de la défaillance (fautes).
Elle peut être réalisée par un opérateur de maintenance ou être exécutée par un système d’aide
à la maintenance. Les différentes activités de la maintenance sont exposées ci-après.
1.4 Activités de la maintenance
La définition de la maintenance évoquée précédemment englobe différentes activités mises en
œuvre tout au long du cycle de vie d’un produit. Ces activités concernent aussi bien des
aspects opérationnels de la maintenance (expertise métier, diagnostic de défaillances, par
exemple) que des aspects organisationnels (planification des interventions, approvisionnement
des pièces de rechanges, par exemple). Dans ce mémoire, les aspects opérationnels de la
maintenance seront principalement abordés. Cette section présente les différentes approches
de maintenance et précise le rôle de la surveillance au sein des activités de la maintenance.
1.4.1 Typologie de la maintenance
L’étude des différentes approches de maintenance repose sur trois concepts : l’événement
déclencheur d’une opération de maintenance, le type de maintenance correspondante et la
nature des opérations de maintenance réalisées sur le système (Ribot, 2009). Selon la norme
(NF-EN-13306, 2010), les approches de maintenance sont classées en deux catégories : la
maintenance préventive et la maintenance corrective. La première vise à initier des opérations
de maintenance sur un système avant que des défaillances ne se produisent, tandis que la
seconde consiste à intervenir sur un système en état de panne. La figure 1.3 ci-dessous résume
les principaux types de maintenance recensés dans la littérature selon ces deux catégories et
précise les événements déclencheurs des interventions de maintenance.
Figure 1.3. Différents types de maintenance, inspirée de (Alali Alhouaij, 2010). CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 18
La maintenance préventive est exécutée à intervalles prédéterminés ou selon des critères
prescrits. Elle est destinée à réduire l’occurrence de défaillances et à éviter les pannes lors de
la sollicitation du système. La maintenance préventive se décline en trois sous-types
normalisés, détaillés ci-après : la maintenance préventive à caractère systématique,
conditionnelle et prévisionnelle (NF-EN-13306, 2010).
· Systématique (Predetermined Maintenance) : maintenance préventive exécutée
conformément à un échéancier, établi à partir d’un nombre d’unités d’usage
(durée de fonctionnement, par exemple) ou suivant des données statistiques
(recommandations constructeurs, par exemple). Elle vise principalement à rajeunir
le matériel (remplacement périodique, par exemple) ou à limiter les dégradations
(tâches d’entretiens courants), quel que soit l’état réel du bien maintenu (Zille,
2009). Seule la périodicité des interventions peut être ajustée pour optimiser ce
type de maintenance.
· Conditionnelle (Condition Based Maintenance) : maintenance préventive
subordonnée à l’analyse de l’évolution surveillée de paramètres significatifs de la
dégradation ou de la baisse de performance d’un bien (Deloux, 2008). Les
paramètres significatifs de dégradations concernent par exemple des mesures de
caractéristiques physiques d’un système et précurseurs de pannes (bruit, vibration,
vitesse anormale, épaisseur trop faible d’un matériau, par exemple). Ce type de
maintenance nécessite d’établir des seuils à priori pour les différents paramètres
mesurés (seuils prédéterminés). Le dépassement d’un seuil indique alors la
nécessité d’une opération de maintenance (par exemple, le remplacement d’un
pneumatique est nécessaire lorsque son épaisseur atteint la limite fixée par son
témoin d’usure). Bien que la maintenance conditionnelle soit plus dynamique que
la maintenance systématique puisqu’elle considère l’état d’un bien, le temps
restant avant l’occurrence de la défaillance reste indéterminée avec ce type de
maintenance.
· Prévisionnelle (Predictive Maintenance) : maintenance conditionnelle effectuée
suivant les prévisions extrapolées de l’analyse et de l’évaluation de paramètres
significatifs de la dégradation d’un bien (El koujok, 2010). Ce type de
maintenance vise à prédire l’évolution de paramètres significatifs de dégradations
d’un bien dans le futur et à estimer le temps de fonctionnement restant avant la
défaillance (pronostic). Elle peut être qualifiée de maintenance prédictive,
reposant sur les évolutions de paramètres surveillés dans le futur, et de
maintenance proactive, qui consiste à déterminer les causes à l’origine des
dégradations et des défaillances (Deloux, 2008).
La maintenance corrective a pour objectif de remettre un bien en état de panne dans un état
fonctionnel. Elle peut prendre la forme d’une maintenance palliative ou curative (Ribot,
2009) :
· Palliative : maintenance corrective assurant une remise en état provisoire d’un
bien (dépannage temporaire d’un pneumatique, par exemple). Ce type de
maintenance consiste également à intervenir sur les effets néfastes d’une
défaillance. Une action de maintenance palliative doit être suivie
systématiquement d’une action de maintenance curative. CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 19
· Curative : maintenance corrective permettant une remise en état de manière
durable et définitive d’un bien. Contrairement à la maintenance palliative, la
maintenance curative a pour objectif de supprimer les causes des défaillances.
La maintenance préventive et la maintenance corrective sont complémentaires. En pratique,
une politique de maintenance combinant ces deux approches est généralement appliquée aux
systèmes. En effet, une maintenance préventive permet de diminuer la probabilité de
défaillances, mais une part de maintenance corrective incompressible subsiste (défaillances
imprévisibles). Ainsi, différentes politiques de maintenance mixte ont été définis (Ly et al.,
2013). L’élaboration d’une politique de maintenance repose notamment sur un équilibre
économique amenant à un meilleur compromis (coût et disponibilité, par exemple). La soussection
suivante positionne la surveillance suivant ces deux types de maintenance.
1.4.2 Rôle de la surveillance
Dans une approche de maintenance innovante, la surveillance occupe une place fondamentale
(Raccoceanu, 2006). La surveillance est considérée dans nos travaux comme un dispositif
passif, informationnel, qui n’influence pas le comportement du système cible sous
surveillance. Ainsi, un système de surveillance est non-intrusif vis-à-vis d’un système cible.
Ce dispositif délivre des informations pertinentes sur l’état d’un système cible pour
déclencher des interventions de maintenance (maintenance préventive conditionnelle) et
assister au mieux un opérateur de maintenance pour rétablir un système en panne
(maintenance corrective). Par exemple, une défaillance ayant conduit à une panne d’un
système cible peut être décryptée spontanément par un système de surveillance. Le système
de surveillance transmet ainsi des informations sur l’état de ce système au centre de
maintenance (figure 1.4). Ces informations concernent, par exemple, les éléments
potentiellement responsables de la panne ainsi que des actions de maintenance à réaliser sur le
système cible pour le rétablir dans un état fonctionnel. Le centre de maintenance génère alors
une demande d’intervention aux opérateurs de maintenance chargés d’intervenir sur le
système cible (tâche de maintenance corrective, par exemple). Les interventions de
maintenance corrective sont alors mieux préparées et les durées des réparations sont
maîtrisées.
Figure 1.4. Système de surveillance pour l’aide à la maintenance.CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 20
Dans une approche de maintenance préventive conditionnelle (maintenance prédictive ou
CBM : Condition Based Maintenance), l’objectif d’un système de surveillance est d’émettre
des alertes avant la défaillance du système cible pour prévenir les pannes. Cette surveillance
prédictive (ou dynamique) se focalise ainsi sur les tendances de l’évolution de l’état du
système sous surveillance dans le temps. Les informations transmises aux personnels de
maintenance permettent alors de signaler des dégradations ou des baisses de performance des
éléments du système à un stade précoce de leur développement.
La nature des informations fournies par un système de surveillance dépend des profils des
utilisateurs finaux et diffère donc selon leur expertise (opérateurs de maintenance,
concepteurs du système, par exemple) (Alanen et al., 2006). Dans le cadre d’une surveillance
pour l’aide à la maintenance au sens intervention, un système de surveillance doit incriminer
des éléments à remplacer ou à réparer bien connus des opérateurs de maintenance. Par
exemple, certains systèmes cibles comportent des Unités Remplaçables en Ligne (URL ou
LRU : Line Replaceable Unit). Une URL peut être déposée et échangée rapidement pour
optimiser les interventions de maintenance et réduire ainsi les temps d’indisponibilité des
systèmes (Dievart et al., 2010). Par conséquent, une tâche de maintenance associée à une
URL constitue une information pertinente pour un opérateur de maintenance. Néanmoins,
suivant le niveau de complexité de la tâche de maintenance à réaliser, un opérateur de
maintenance peut être habilité ou non à intervenir sur le système cible. Les informations de
surveillance doivent donc être adaptées au niveau de qualification des utilisateurs du système
de surveillance.
La surveillance est généralement réalisée en-ligne, pendant le fonctionnement du système
cible sous surveillance, mais certaines fonctions de la surveillance peuvent être exécutées
hors-ligne. C’est le cas notamment du diagnostic, dont l’exécution a posteriori peut être
possible sur la base des symptômes détectés sur le système (Azarian et al., 2010). La partie
suivante décrit les principales fonctions d’un système de surveillance.
2. Fonctions d’un système de surveillance
Un système de surveillance regroupe deux composantes essentielles : “voir” et “comprendre”
(Basseville et Cordier, 1996). La première permet d’observer et de détecter des déviations du
comportement du système sous surveillance par rapport à un comportement de référence
(perception). La seconde détermine les composants potentiellement responsables des
phénomènes observés et recherche les causes (interprétation). Dans cette partie, les
principales fonctions d’un système de surveillance mises en œuvre pour des approches de
maintenance de type conditionnelle (maintenance prédictive ou CBM) et corrective sont
présentées.
Les fonctions assurées par un système de surveillance s’inscrivent dans différentes
communautés de Recherche, et sont notamment au centre des thématiques SHM (System
Health Management) et PHM (Pronostics and Health Management) (Medina-Oliva et al.,
2012 ; Reed et al., 2011). Dans ce cadre, un système de surveillance comprend généralement
l’acquisition de données, la détection d’anomalies de fonctionnement, le diagnostic, le
pronostic et l’élaboration de recommandations de maintenance (Guillén et al., 2013 ;
Vachtsevanos et Lewis, 2006). Ces différentes fonctions ont pour but de convertir un flux de
données brutes, difficilement exploitable pour un opérateur de maintenance, en informations
pertinentes, relatives à l’état de santé du système sous surveillance et aux opérations de
maintenance à réaliser selon cet état (Abichou, 2013). Ainsi, un système de surveillance CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 21
permet de déterminer l’état d’un système (état normal ou anormal d’un système cible, par
exemple) et lorsque ce système présente des anomalies de fonctionnement, il exécute les
tâches de diagnostic et de pronostic. Selon les symptômes du système et les conclusions du
diagnostic et du pronostic, il prescrit des recommandations de maintenance ou suggère des
changements opérationnels afin que le système puisse accomplir sa mission.
La première tâche d’un système de surveillance consiste à recueillir des données brutes sur le
système sous surveillance. Cette fonction d’acquisition de données est généralement réalisée à
l’aide de méthodes dites non-destructives, n’altérant pas le fonctionnement du système sous
surveillance (IAEA, 2007). Suivant l’état de santé du système sous surveillance, différentes
fonctions sont par la suite sollicitées. L’activité d’un système de surveillance diffère selon la
présence ou non d’une défaillance au sein du système sous surveillance. La figure 1.5 cidessous
présente les principales fonctions d’un système de surveillance avant l’occurrence
d’une défaillance (surveillance dynamique) et après la défaillance du système sous
surveillance (surveillance classique).
Figure 1.5. Fonctions de surveillance dynamique et classique, adaptée de
(Raccoceanu, 2006).
Comme évoqué précédemment, la surveillance dynamique vise à éviter la défaillance du
système sous surveillance. Elle consiste alors à détecter et à diagnostiquer des dégradations ou
des baisses de performance du système sous surveillance (Bengtsson, 2003). Par la suite,
l’objectif est de pouvoir prédire (pronostiquer) des défaillances dans le futur, en projetant
l’état de santé actuel du système sous surveillance dans le temps (Tobon-Mejia et al., 2012).
La surveillance dynamique regroupe ainsi les fonctions de détection prédictive de
dégradations, de diagnostic prédictif et de pronostic. Notons que les résultats du diagnostic et
du pronostic doivent être délivrés dans un temps opportun aux personnels de maintenance afin
que des actions de maintenance puissent être exécutées sur le système avant la panne. De plus,
cette surveillance dynamique doit être suffisamment robuste pour ne pas délivrer des alertes
intempestives aux opérateurs de maintenance. CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 22
La surveillance classique intervient après l’occurrence d’une défaillance. Dans ce cas, cette
surveillance consiste à détecter les défaillances survenues dans le système sous surveillance et
à les diagnostiquer. Lorsque le système sous surveillance est en état de panne, le diagnostic
permet de rechercher les causes et de localiser les éléments défaillants du système. Cette tâche
peut s’avérer laborieuse pour un opérateur de maintenance, notamment lorsqu’il s’agit d’un
système cible constitué de multiples éléments (Azarian et al., 2010 ; Khol et Bauer, 2010). Un
diagnostic difficile peut conduire un opérateur de maintenance à déposer des éléments non
contributeurs de la panne ou à remplacer des éléments non défaillants, engendrant des coûts
excessifs de maintenance. Différentes approches ont ainsi été proposées pour automatiser
cette tâche devenant trop complexe pour un opérateur de maintenance (Feldman, 2010).
Enfin, un système de surveillance s’appuie sur les informations de diagnostic et de pronostic
pour élaborer des recommandations de maintenance et délivrer ces informations aux
personnels de maintenance. Les différentes fonctions de surveillance illustrées sur la figure
1.5 sont détaillées dans les sections suivantes.
2.1 Détection
La détection relève de la composante “voir” d’un système de surveillance. A partir de données
recueillies sur le système sous surveillance, la fonction détection permet de déceler la
présence de dégradations (surveillance dynamique) ou de défaillances (surveillance classique)
dans ce système, et donc de qualifier le comportement observé du système de normal ou
d’anormal. La fonction détection génère des signaux porteurs de symptômes à partir des
observations, également nommés résidus ou discordances par certaines communautés
(Cordier et al., 2000 ; Roth et al., 2011). Par exemple, une approche usuelle permettant de
générer des symptômes consiste à comparer certaines grandeurs observées à des seuils
caractérisant une situation anormale. Le franchissement d’un seuil indique une anomalie de
fonctionnement et provoque le déclenchement d’une alarme (Basseville et Cordier, 1996).
Les inconvénients de ces tests de dépassement de seuils résident dans la génération de fausses
alarmes (seuil trop faible) et dans la non-détection de certains symptômes (seuil trop élevé).
Certains équipements exécutent ce type de test pendant leur fonctionnement pour générer des
alarmes et fournir une aide aux opérateurs de maintenance lors de la phase de diagnostic
(Lefebvre, 2000). Cependant, les alarmes générées par ces tests intégrés (BIT : Built-In Test)
représentent essentiellement des symptômes sans informations relatives à leurs causes. Le
diagnostic établi par un opérateur de maintenance sur la base de ces événements est parfois
erroné (Pecht et al., 2001).
2.2 Diagnostic
Le diagnostic prend en charge l’interprétation des anomalies de fonctionnement du système
sous surveillance et constitue la composante “comprendre” d’un système de surveillance. La
fonction diagnostic doit permettre de lever l’ambiguïté sur le phénomène à l’origine d’une
dégradation ou d’une défaillance particulière à partir des symptômes délivrés par la fonction
détection. Pour ce faire, la fonction diagnostic fait appel à une connaissance du système sous
surveillance. Cette connaissance intègre, par exemple, une référence du fonctionnement
normal (comportement nominal) ou du fonctionnement anormal (comportement en présence
de défaillances) du système sous surveillance (Ribot, 2009). Les principales méthodes de
diagnostic développées par différentes communautés de Recherche sont présentées en
annexes de ce manuscrit.
La fonction diagnostic évalue l’état de santé actuel d’un système en recherchant les causes
(fautes) à l’origine d’une dégradation (diagnostic prédictif) ou d’une défaillance particulière CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 23
(diagnostic de défaillances) et en localisant les éléments du système à remplacer ou à réparer.
Il s’agit d’une fonction commune à la maintenance prédictive et à la maintenance corrective
permettant d’incriminer des éléments défectueux et de déterminer les actions à entreprendre
(IAEA, 2007). Le diagnostic prédictif se focalise avant tout sur l’analyse de défaillances
progressives (dégradations) pour éviter la panne et planifier à l’avance les interventions de
maintenance (commande de pièces de rechanges et gestion du personnel de maintenance, par
exemple). Néanmoins, il existe toujours des défaillances soudaines (imprévisibles) ne pouvant
être anticipées et devant faire l’objet d’un diagnostic (Jardine et al., 2006).
Contrairement aux signaux émis par la fonction détection, la fonction diagnostic est en
mesure de fournir des informations de haut niveau à un opérateur de maintenance, en
précisant les causes probables des dysfonctionnements détectés (Basseville et Cordier, 1996).
Suivant les besoins des utilisateurs du système de surveillance, le résultat d’un diagnostic peut
permettre d’identifier par exemple un composant physique défectueux ou un mode de
défaillance (Mathur et al., 2001).
2.3 Pronostic
La fonction pronostic se concentre sur l’évolution des défaillances progressives et exploite
généralement l’état de santé actuel d’un système (résultats du diagnostic prédictif) pour
évaluer son état de santé futur. Bien qu’il n’existe aucune définition stabilisée et unanime du
concept de pronostic, différentes définitions convergent vers une fonction capable de
déterminer la durée de vie restante avant la défaillance d’un système, nommée RUL
(Remaining Useful Life), ou la probabilité d’un système à fonctionner pendant un certain
temps (El koujok, 2010). Le pronostic est spécifique à la maintenance prédictive et essentielle
dans une approche CBM (Alanen et al., 2006). Il permet d’anticiper au mieux les
interventions de maintenance suivant la prédiction de l'état futur d’un équipement (Gulledge
et al., 2010). Par nature, le pronostic vise à anticiper l’état d’un système dans le futur et amène
des incertitudes (Medina-Oliva et al., 2012). En effet, le pronostic de l’état futur d’un système
doit non seulement considérer l’état actuel du système, mais également des données relatives
à ce système dans le futur (prévisions d’utilisation du système, informations sur
l’environnement futur du système, futures opérations de maintenance exécutées sur le
système, par exemple), qui influent sur son état de dégradation. Ainsi, le pronostic doit
prévoir l’état futur d’un système et fournir une durée de vie résiduelle à partir d’une
connaissance à priori sur ce système (lois de dégradations, par exemple), d’une connaissance
d’informations passées (historique des modes de fonctionnement passés), présentes (état
courant) et futures (Cocheteux et al., 2007). Cette durée de vie résiduelle avant la défaillance
peut être exprimée, par exemple, en unités de temps (heures de fonctionnement), en distances
à parcourir (nombre de kilomètres) ou en nombre de sollicitations (nombre de cycles) (Ribot,
2009).
2.4 Elaboration de conseils
En fonction de l’état de santé actuel et de la prévision de l’état de santé du système, délivrés
respectivement par les fonctions de surveillance classique et dynamique, le système de
surveillance élabore des recommandations sur les opérations de maintenance à réaliser
(actions préventives et correctives), ou privilégie un mode de fonctionnement ou une
configuration à adopter pour que le système puisse achever sa mission en évitant la panne
(Bengtsson, 2003). L’état de santé d’un système est le support principal pour orienter les
services de maintenance sur les interventions à effectuer, et peut être défini par le diagnostic
et le pronostic du système (Dievart, 2010). La fonction d’élaboration de conseils assiste
principalement l’opérateur de maintenance dans le choix des actions de maintenance à CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 24
entreprendre (remplacement d’un élément du système en priorité selon son état de santé ou
son RUL, par exemple). Par ailleurs, le bilan de santé dressé par cette fonction peut également
alerter les services de conception, pour améliorer la qualité du système, revoir sa conception,
ou impacter la conception et la fabrication d’une future génération de produits (Gulledge et
al., 2010 ; Vichare et al., 2007). Cette fonction d’aide à la maintenance s’inscrit également
dans les activités de gestion de la santé des équipements (Equipment Health Management)
dans le cycle de vie des produits.
3. Modèle d’architecture de surveillance
Après avoir décrit précédemment les principales fonctions d’un système de surveillance, cette
partie présente deux architectures considérées comme des références dans la littérature pour le
développement de systèmes de surveillance. Une architecture sera retenue en tant que modèle
dans nos travaux pour la surveillance des systèmes cibles considérés. Un modèle
d’architecture de surveillance doit être suffisamment générique pour supporter de nombreux
algorithmes de traitement et de diagnostic (Park et al., 2006). Parmi les architectures de
surveillance recensées dans la littérature s’insérant dans les thématiques SHM-PHM (System
Health Management - Pronostics and Health Management), une architecture apparaît comme
un standard de référence (Gucik-Derigny, 2011 ; Kunche et al., 2012 ; Sreenuch et al., 2013).
Il s’agit du standard OSA-CBM (Open System Architecture - Condition-Based Maintenance)
diffusé par le consensus MIMOSA (Machinery Information Management Open Systems
Alliance) (OSA-CBM, 2006).
Le standard OSA-CBM résulte initialement des travaux de Recherche de (Lebold et Thurston,
2001) et (Lebold et al., 2003), impliquant différents industriels et visant à définir un modèle
d’architecture de surveillance. Ces travaux ont permis d’établir un modèle d’architecture pour
le développement de systèmes de surveillance dans un cadre de maintenance CBM. Le
modèle d’architecture proposé repose sur différentes couches fonctionnelles implémentées
sous forme de modules. Ce modèle générique a donné lieu à une série de normes enregistrées
sous le numéro ISO 13374 et à une implémentation de référence nommée OSA-CBM.
Dans cette partie, ces deux standards complémentaires d’architectures seront dans un premier
temps présentés. Par la suite, les différentes problématiques liées à la surveillance des
systèmes cibles seront exposées. Enfin, les principales exigences attendues d’un système de
surveillance seront définies.
3.1 Standards d’architectures de surveillance
Les sous-sections suivantes précisent les différentes couches fonctionnelles définies par la
norme ISO 13374, ainsi que les interfaces spécifiées par le standard OSA-CBM. Certains
standards additionnels et spécifiques à la mise en œuvre d’un système de surveillance ne
seront pas abordés dans nos travaux (interfaces physiques, configurations, interopérabilité,
diffusion des informations, par exemple) (Sheppard et al., 2009).
3.1.1 Norme ISO 13374
Depuis 2003, la norme ISO 13374 établit les lignes directrices générales des spécifications
pour la surveillance et le diagnostic d’état des machines. Ces spécifications logicielles portent
sur le traitement, la communication et la présentation de données de surveillance
indépendamment de la technologie utilisée (ISO13374-1, 2003). La première partie de cette
norme (partie 1 : lignes directrices générales) définit un modèle d’architecture de surveillance CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 25
en six couches successives de traitement et deux couches d’interface transversales (figure
1.6). Les couches de traitement #1 à #3 sont liées à la technologie du système sous
surveillance et les couches #4 à #6, de plus haut niveau, assurent les tâches de diagnostic, de
pronostic et d’aide à la maintenance. Cette norme définit également deux couches d’interface
(#7 et #8) permettant de présenter des informations issues des différentes couches de
traitement aux utilisateurs, et d’assurer une liaison avec des systèmes externes (transmission
et stockage des données, paramétrage des différentes couches, par exemple).
Figure 1.6. Modèle d’architecture ISO 13374, adaptée de (ISO 13374-1, 2003).
Les couches fonctionnelles définies par cette norme sont détaillées ci-après. Les termes
associés aux différentes couches sont repris de la version originale de la norme.
· Data Acquisition (#1-DA) : cette couche d’acquisition de données permet de
convertir un signal délivré par un capteur ou un transducteur en un paramètre
numérique représentant une quantité physique, auquel est associé différentes
informations (datation, données de calibration, configuration du capteur utilisé, par
exemple).
· Data Manipulation (#2-DM) : cette couche de manipulation de données analyse des
signaux, effectue un calcul de descripteurs significatifs (caractéristiques), et réalise des
traitements et transformations de signaux à partir de mesures brutes.
· State Detection (#3-SD) : cette couche de détection d’état recherche des anomalies
sur les signaux traités et doit déterminer la zone d’anomalie correspondante (si elle
existe) sur laquelle se situe ces signaux, dans le but de générer des alertes ou des
alarmes.CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 26
· Health Assessment (#4-HA) : cette couche d’évaluation de la santé réalise le
diagnostic des fautes détectées et détermine l’état de santé courant de l’équipement ou
du processus, en considérant l’ensemble des informations d’états.
· Pronostic Assessment (#5-PA) : cette couche d’évaluation pronostic détermine les
états de santé et les modes de défaillances futurs à partir de l’évaluation de l’état de
santé courant et de la projection de l’utilisation de l’équipement ou du processus, et
détermine des prédictions de durées de vie résiduelle (Remaining Useful Life).
· Advisory Generation (#6-AG) : cette couche de génération de conseils fournit des
informations claires et concrètes sur des actions de maintenance nécessaires ou
concernant des modifications opérationnelles à apporter pour optimiser la durée de vie
du processus et/ou de l’équipement.
· Information Presentation (#7) : cette couche est une interface permettant de
présenter des données pertinentes issues des différentes couches à des personnels
qualifiés, telles que des courbes de tendances et des zones d’anomalies associées. Elle
doit fournir aux analystes les données nécessaires pour identifier, confirmer ou
comprendre un état anormal. Par ailleurs, cette couche assure une transformation de
données en une forme présentant clairement les informations nécessaires pour prendre
des décisions sur les actions de maintenance à réaliser.
· External Systems (#8) : cette couche permet une liaison rapide avec des systèmes
externes, et notamment avec un système de maintenance (accès à l’historique des
interventions de maintenance, transmission des recommandations de maintenance ou
de requêtes d’intervention de maintenance, par exemple), et avec un système de
contrôle d’exploitation (accès aux prévisions de l’utilisation de l’équipement,
transmission de requêtes de changements opérationnels ou de mise hors service de
l’équipement, par exemple).
Le concept d’état de santé mentionné dans la norme ISO 13374 (health state) n’est pas
clairement défini. L’état de santé d’un équipement repose généralement sur l’expertise métier
et dépend des traitements réalisés par les couches #4 à #6 du modèle. Néanmoins, la première
partie de cette norme évoque un indice de santé associé à un équipement (health index) allant
de 0 (défaillance complète de l’équipement) à 10 (équipement comme neuf).
La seconde partie de la norme ISO 13374 (partie 2 : traitement des données) caractérise les
différents modules associés aux couches successives de traitement présentées sur la figure 1.6
(ISO 13374-2, 2007). Un module peut implémenter des fonctionnalités relatives à une ou
plusieurs couches de traitement du modèle. De plus, cette norme suggère la manière dont ces
modules peuvent être agencés pour former une architecture opérationnelle de surveillance.
Ces modules peuvent notamment être répartis sur différents supports d’exécution
interconnectés entre eux. La figure 1.7 ci-dessous illustre un exemple d’architecture
opérationnelle, dans laquelle chaque module est supporté par un dispositif matériel et
implémente les fonctionnalités d’une couche du modèle. CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 27
Figure 1.7. Exemple d’architecture opérationnelle, adaptée de (ISO 13374-2, 2007).
Le medium de communication situé au centre de la figure 1.7, représente le support des
différentes communications entre ces modules et peut être réalisé au travers de différentes
technologies. Ainsi, les modules de l’architecture ne résident pas nécessairement sur le même
support et peuvent être distants les uns des autres. Cette approche permet également d’intégrer
des modules développés par différents fournisseurs pour former un système de surveillance
modulaire. Des exemples d’échanges d’informations entre ces modules sont proposés dans la
troisième partie de la norme (partie 3 : échange), diffusée en 2012 (ISO 13374-3, 2012).
3.1.2 OSA-CBM
Le standard OSA-CBM implémente précisément les six couches de traitement définies par la
norme ISO 13374 (figure 1.5). Comme la norme ISO 13374, le standard OSA-CBM ne
spécifie pas les traitements et les algorithmes internes aux différents modules. En revanche, ce
standard définit les types et les structures de données à utiliser pour le traitement et la
communication des résultats, ainsi que la manière dont les informations doivent être
transférées entre les modules et les lieux de stockage (OSA-CBM, 2006). Il s’agit d’un
standard d’interface, imposant des interfaces entre les modules d’un système de surveillance
suivant une approche CBM, et favorisant l’interopérabilité entre ces modules. Ainsi,
différents fournisseurs peuvent proposer des algorithmes propriétaires sous forme de modules
au standard OSA-CBM. Ce standard permet de dissocier les algorithmes de traitements
encapsulés dans les modules (algorithmes propriétaires) des interfaces génériques des
modules (figure 1.8). CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 28
Figure 1.8. Exemple de module OSA-CBM, adaptée de (OSA-CBM, 2006).
Les spécifications du standard OSA-CBM sont diffusées sous forme de diagrammes de
classes UML (Unified Modeling Language) et sont indépendantes de la technologie mise en
œuvre pour le développement des modules de traitement. Le concepteur du système de
surveillance doit alors sélectionner une technologie spécifique pour la mise en œuvre des
modules de traitement et définir les communications nécessaires entre ces modules. Le
standard OSA-CBM définit une typologie des échanges possibles entre modules sur la base
des recommandations de la norme ISO 13374 (partie 3 : communication). La figure 1.9 cidessous
illustre les différents types de communications définis par le standard OSA-CBM.
Figure 1.9. Interfaces entre modules, adaptée de (OSA-CBM, 2006). CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 29
Un module OSA-CBM peut communiquer avec un ou plusieurs modules selon quatre types
d’interface :
· Synchrone (type 1) : ce mécanisme permet un échange direct entre un module
producteur d’informations (serveur) et un module consommateur (client). Un module
consommateur indique à un module producteur les informations qu’il souhaite
recevoir et attend que ces informations soient disponibles et transmises par le module
producteur avant de poursuivre ses traitements.
· Asynchrone (type 2) : ce mécanisme permet à deux modules d’entretenir et de
maintenir une communication bidirectionnelle. Dans ce mode, un module
consommateur souhaitant obtenir des données de la part d’un module producteur
n’attend pas que ces données soient disponibles avant de continuer ses traitements
(dialogue de type requêtes-réponses entre deux modules, par exemple). Par ailleurs, un
module producteur peut transmettre spontanément des informations à un ou plusieurs
modules consommateurs de manière périodique ou événementielle.
· Service (type 3) : ce mécanisme permet une communication unidirectionnelle entre un
ou plusieurs modules producteurs d’informations et un module consommateur. Cette
interface peut être mise en œuvre, par exemple, pour des besoins de stockage
d’informations (archivage des informations par un module consommateur), ou pour la
gestion des requêtes d’intervention de maintenance (transmission des ordres de
maintenance vers un système de maintenance consommateur).
· Souscription (type 4) : ce mécanisme permet à un module consommateur de souscrire
à des informations auprès d’un module producteur. Le module consommateur
souscripteur reçoit alors ces informations de manière asynchrone (régulièrement ou
sur alertes), dès que les informations élaborées par le module producteur sont
disponibles.
Les modules de traitement sont généralement successifs, afin de transformer des données
brutes collectées sur un système sous surveillance en informations pertinentes. Cependant, ces
liens logiques entre modules ne sont pas imposés par le standard OSA-CBM ou la norme ISO
1337. Ainsi, un module peut en principe accéder à n’importe quel autre module lorsque ces
modules partagent un même medium de communication. Le standard OSA-CBM a été
développé sur la base d’un autre standard MIMOSA, décrit selon un même système
d’information relationnel commun (CRIS) : le standard OSA-EAI (Open System Architecture
Enterprise Application Integration). Il s’agit d’un standard visant à faciliter l’échange
d’informations entre différentes applications métiers d’une entreprise, y compris des
informations relatives à la maintenance, au diagnostic et au pronostic (OSA-EAI, 2010).
La norme ISO 13374 étant moins restrictive sur la mise en œuvre des couches fonctionnelles
du modèle que le standard OSA-CBM, elle sera retenue dans la suite de nos travaux. La
section suivante soulève les différentes problématiques liées à la surveillance des systèmes
cibles suivant les spécifications de cette norme. CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 30
3.2 Problématiques de la surveillance des systèmes cibles considérés
La norme ISO 13374 a été initialement développée pour la surveillance de machines ou
d’équipements industriels isolés (machine tournante, processus d’usinage, par exemple). En
l’absence de standards dédiés à la surveillance des systèmes cibles considérés dans nos
travaux, ce modèle offre une décomposition fonctionnelle générique d’un système de
surveillance. De plus, cette norme constitue un modèle de référence pour la surveillance de
certains systèmes cibles, notamment dans les domaines des transports et de l’industrie
(Gorinevsky et al., 2010 ; Naedele et al., 2004).
Cependant, des difficultés se présentent lorsque ce modèle d’architecture doit être instancié
pour la surveillance d’un système cible. La figure 1.10 ci-dessous illustre les principales
difficultés à appréhender pour la surveillance d’un tel système suivant ce modèle
d’architecture. A partir des six couches fonctionnelles de ce modèle, plusieurs alternatives se
présentent aux concepteurs d’un système de surveillance. Ces couches fonctionnelles peuvent
être réparties selon deux axes :
· répartition “verticale” des couches (1) : les traitements associés aux couches
fonctionnelles ISO 13374 peuvent être réalisés au plus près du système cible
(traitements embarqués) ou être pris en charge par le centre de maintenance
(traitements distants).
· répartition “horizontale” des couches (2) : la surveillance d’un système cible passe
par la surveillance de ses sous-systèmes. Par conséquent, les traitements associés aux
couches fonctionnelles ISO 13374 doivent être déployés suivant les sous-systèmes du
système cible, dont la technologie diffère d’un sous-système à un autre.
Figure 1.10. Surveillance d’un système cible suivant les couches fonctionnelles
ISO 13374. CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 31
Les sous-sections suivantes précisent les principales contraintes à considérer pour la
surveillance de systèmes cibles. Notons que ces contraintes dépendent des domaines
d’applications des systèmes cibles introduits au début de ce chapitre. Dans ces travaux, le
domaine des transports ferroviaires a été retenu comme cadre applicatif. Par conséquent, la
suite de ce manuscrit se concentre sur la surveillance de systèmes cibles mobiles.
3.2.1 Contraintes liées à la mobilité du système cible
En considérant la répartition “verticale” des couches du modèle, une séparation des couches
doit être établie suivant les traitements à effectuer à bord du système cible et les traitements à
réaliser au centre de maintenance. La première couche du modèle (#1-Data Acquisition) doit
au minimum être implémentée à bord du système cible, pour permettre la collecte des données
et la transmission de ces données au centre de maintenance. Lorsque la quantité de données à
transmettre est importante, il est préférable d’inclure la couche #2 du modèle à bord (Alanen
et al., 2006). Ainsi, plus les couches du modèle résident à bord du système cible, plus les
traitements embarqués sont évolués et permettent de délivrer des informations pertinentes au
centre de maintenance. Cependant, il est nécessaire de tenir compte des performances requises
pour mettre en œuvre les traitements associés aux couches fonctionnelles du modèle
(puissance de calcul disponible à bord, capacités de stockage et de communication, par
exemple).
Dans le but d’optimiser les interventions de maintenance, les données relatives à la
géolocalisation du système cible peuvent également être transmises au centre de maintenance.
De ce fait, le système cible peut être acheminé vers l’atelier de maintenance le plus proche en
fonction de son état de santé (Umiliacchi et al., 2011). Aussi, certains traitements nécessitent
des données fournies par le centre de maintenance (historique des tâches de maintenance,
prévisions d’utilisation du système cible, par exemple). Lorsque ces traitements sont
embarqués, le centre de maintenance doit transmettre ces données au système cible. Une
communication bidirectionnelle entre le système cible mobile et le centre de maintenance est
alors nécessaire.
3.2.2 Contraintes liées aux sous-systèmes du système cible
Suivant les couches à implémenter à bord du système cible, la répartition “horizontale” des
couches concerne l’affectation des modules de traitement aux différents sous-systèmes.
Comme abordé précédemment, un module de traitement peut implémenter les fonctionnalités
de une ou de plusieurs couches du modèle ISO 13374. De ce fait, un module de traitement
peut être affecté à un sous-système, à un groupe de sous-systèmes, ou à l’ensemble des soussystèmes.
Les contraintes associées à la mise en œuvre de ces modules de traitement sont
précisées ci-après.
· Répartition spatiale des sous-systèmes : les sous-systèmes sont généralement
implantés dans différentes zones du système cible et peuvent interagir entre eux
(interactions physiques et/ou informationnelles). L’affectation des modules de
traitement aux sous-systèmes peut alors être orientée suivant l’implantation de ces
sous-systèmes. Aussi, les interactions entre les sous-systèmes sont à considérer lors de
la mise en œuvre des modules de traitements. Par exemple, une défaillance peut
engendrer des dysfonctionnements au niveau de plusieurs sous-systèmes d’un système
cible (Lefebvre et al., 2000). De multiples alarmes peuvent ainsi être générées CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 32
lorsqu’un module relatif à la couche détection du modèle ISO 13374 (#3-State
Detection) est affecté à chaque sous-système.
· Hétérogénéité technologique des sous-systèmes : les sous-systèmes reposent sur des
technologies différentes. Par conséquent, un sous-système basé sur une certaine
technologie doit être associé à un module de traitement compatible avec cette
technologie. De plus, le modèle ISO 13374 se concentre sur la surveillance de parties
physiques d’un équipement. Cependant, les sous-systèmes considérés sont constitués
de parties physiques et informationnelles. En effet, les défaillances logicielles non
abordées dans la norme ISO 13374 ont un impact direct sur la disponibilité du système
cible. Notons que la surveillance de parties logicielles peut être abordée de la même
manière que la surveillance de parties physiques (Pipatsrisawat et al., 2009).
Néanmoins, les défaillances logicielles se manifestent principalement de manière
soudaine et peuvent difficilement être anticipées.
· Variabilité des sous-systèmes : les sous-systèmes sont conçus par différents
fournisseurs et peuvent varier entre plusieurs systèmes cibles d’une même génération
(changement de fournisseur, obsolescence de composants, ajout de fonctionnalités, par
exemple) (Azarian et al., 2011). La répartition “horizontale” des couches du modèle
doit alors être adaptée aux évolutions des différents sous-systèmes du système cible.
Par exemple, un même sous-système peut présenter des caractéristiques différentes
entre deux systèmes cibles, ou ne pas être implanté sur un autre système cible. Dans ce
cas, une modification doit pouvoir être apportée aux modules de traitement sans
impliquer une refonte de l’architecture de surveillance. Aussi, certains modules de
traitement peuvent être réutilisés pour la surveillance de sous-systèmes ayant les
mêmes caractéristiques.
3.2.4 Contraintes liées à l’environnement du système cible
Lorsque le système cible est immergé dans un environnement, il est soumis à différents
contextes opérationnels (Monnin et al., 2011). L’environnement du système cible peut
potentiellement provoquer des défaillances lors de son fonctionnement. Ces défaillances sont
alors signalées au centre de maintenance par le système de surveillance associé au système
cible. La figure 1.11 ci-après illustre un exemple de système cible mobile situé dans son
environnement. Dans cet exemple, les couches #1 à #3 du modèle ISO 13374 sont
implémentées à bord du système cible et les couches #4 à #6 sont assurées par le centre de
maintenance (répartition “verticale” des couches). La défaillance du système cible est
supposée apparaitre sous l’effet de perturbations provenant de son environnement. Cette
défaillance déclenche alors des alarmes au niveau de la couche #3 du modèle. Ces alarmes
sont par la suite transmises au centre de maintenance et analysées par un opérateur de
maintenance ou traitées par les couches #4 à #6 du modèle lorsqu’elles sont implémentées au
sol. CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 33
Figure 1.11. Exemple de surveillance d’un système cible mobile dans son environnement.
L’analyse de ces alarmes au sol est délicate pour un opérateur de maintenance. Le contexte
opérationnel du système cible n’étant pas connu, l’opérateur n’est pas en mesure de
déterminer si ces alarmes sont liées à l’environnement du système cible ou si le système cible
nécessite réellement une intervention de maintenance. Ainsi, le diagnostic établi au sol par la
quatrième couche du modèle à partir de ces alarmes risque d’être erroné. En effet, les
informations de contextes non exploitées par la couche diagnostic (#4- Health Assesment)
sont essentielles pour interpréter les dysfonctionnements du système cible. De plus, lorsque le
système cible arrive au centre de maintenance, aucun dysfonctionnement ne peut être
constaté. Le système cible n’opérant plus dans le même contexte opérationnel, il est alors
difficile de reproduire les conditions d’exploitation ayant conduit à une anomalie de
fonctionnement. Ce phénomène nommé NFF (No Fault Found) favorise le remplacement à
tort d’éléments du système cible et engendre des coûts importants de maintenance (Lanigan et
al., 2011).
A titre d’exemple, il peut être judicieux d’associer à une défaillance la localisation précise du
système cible, qui peut être fournie aisément par un dispositif de géolocalisation (Bengston,
2003). Ceci permet d’écarter certaines défaillances liées à l’environnement du système cible.
3.2.5 Exigences d’un système de surveillance
Les principales exigences associées à un système de surveillance peuvent être établies à partir
du modèle d’architecture proposé par la norme ISO 13374. Une exigence fondamentale
concerne la surveillance d’un système cible lors de son fonctionnement (surveillance enligne).
Un système de surveillance ne doit pas altérer la performance du système cible sous
surveillance. Par conséquent, les moyens d’acquisition de données associés à la première
couche du modèle ISO 13374 doivent être non-intrusifs vis-à-vis du système cible sous
surveillance. Dans nos travaux, un système de surveillance doit également répondre aux
exigences suivantes :
· Précision : le système de surveillance doit identifier précisément des éléments
défectueux à remplacer ou à réparer du système cible parmi les différents soussystèmes
qui composent ce système cible. CHAPITRE I : PROBLÉMATIQUE DE LA SURVEILLANCE POUR L’AIDE À LA MAINTENANCE
Page 34
· Facilité d’explication : le système de surveillance doit faciliter la compréhension des
informations de surveillance fournies aux opérateurs de maintenance (présentation de
données brutes ayant conduit à un résultat de diagnostic, par exemple).
· Adaptabilité : le système de surveillance doit être suffisamment modulaire pour faire
face aux changements survenant dans le système cible (remplacement de soussystèmes,
ajout ou suppression de composants, par exemple).
· Réactivité : les informations de surveillance doivent être transmises dans un temps
opportun au centre de maintenance afin d’optimiser les interventions de maintenance
(planification d’une opération de maintenance suivant l’état de certains sous-systèmes
du système cible, par exemple).
· Confiance : le système de surveillance doit être suffisamment robuste pour ne pas
générer de fausses alarmes (diagnostic erroné transmis à un opérateur de maintenance,
par exemple).
4. Conclusion
Ce premier chapitre a permis d’introduire les propriétés des systèmes cibles considérés dans
nos travaux ainsi que les différentes notions relatives à la surveillance dans un contexte de
maintenance. Au sein d’un système de maintenance, la surveillance peut permettre
d’optimiser efficacement les interventions de maintenance préventive et corrective et accroître
ainsi la disponibilité d’un système cible. Un système de surveillance assure deux composantes
principales : percevoir les dysfonctionnements survenant dans un système sous surveillance et
interpréter ces dysfonctionnements. Le diagnostic prend en charge l’interprétation des
dysfonctionnements observés sur le système sous surveillance. Cette fonction essentielle doit
permettre de déterminer les éléments défectueux du système à remplacer ou à réparer qui
seront présentés aux opérateurs de maintenance.
Dans ce chapitre, deux standards complémentaires d’architectures de surveillance ont été
présentés : un modèle proposé par la norme ISO 13374 et une implémentation de référence de
ce modèle nommé OSA-CBM. Ces deux standards décomposent un système de surveillance
en six couches fonctionnelles successives. Le modèle prescrit par la norme ISO 13374 s’avère
plus générique que le standard OSA-CBM et a été retenu dans le cadre de nos travaux.
Cependant, la surveillance d’un système cible suivant ce modèle présente certaines difficultés
exposées à la fin de ce chapitre. En effet, un système cible est constitué de sous-systèmes
hétérogènes et soumis à différents contextes opérationnels. De plus, un système cible mobile
est rattaché à un centre de maintenance distant.
La problématique principale est de concevoir une architecture de surveillance reposant sur la
norme ISO 13374 et répondant aux exigences listées en 3.2.5. Cette architecture doit
permettre de surveiller un système cible mobile qui est lui-même composé de systèmes. Cette
problématique constitue le verrou scientifique auquel nos travaux s’adressent.
Le chapitre suivant se focalise sur la surveillance de systèmes cibles mobiles et recense les
différentes approches de la littérature pour établir le diagnostic d’un tel système suivant la
quatrième couche (Health Assesment) définie par la norme ISO 13374. Page 35
Chapitre II
Surveillance de systèmes mobiles : état de l’art et
approches de surveillance active
Introduction
Le précédent chapitre a mis en évidence un ensemble de problématiques et contraintes à
considérer pour concevoir une architecture de surveillance associée à un système cible. Ce
chapitre explore les différentes approches pour la surveillance de systèmes cibles mobiles
(système de transport aérien, maritime ou ferroviaire, par exemple). Comme évoqué dans le
précédent chapitre, ces systèmes cibles évoluent dans différents contextes opérationnels et
communiquent avec un centre de maintenance distant. La première partie de ce chapitre
présente un état de l’art des architectures de diagnostic et propose une typologie des
architectures pour diagnostiquer un système cible mobile. A partir des exigences d’un système
de surveillance établies dans le précédent chapitre, une architecture de diagnostic sera retenue
dans la suite de nos travaux. La seconde partie de ce chapitre s’appuie sur le concept de
surveillance active pour proposer des approches de modélisation de l’architecture de
diagnostic choisie. Une approche de modélisation sera adoptée et reprise dans le chapitre
suivant afin de proposer une architecture générique pour la surveillance de systèmes cibles
mobiles.
1. Etat de l’art des architectures de diagnostic
La norme ISO 13374 détaillée dans le précédent chapitre définit un modèle générique
d’architecture de surveillance en six couches fonctionnelles successives, dont la quatrième
couche (#4-Health Assesment) élabore le diagnostic à partir de données fournies par les
couches de niveaux inférieurs. Le diagnostic joue un rôle décisif dans la performance d’une
architecture de surveillance, et peut également impacter la sécurité du système cible
(Koutsoukos et al., 2010). En effet, le diagnostic incrimine des éléments potentiellement
responsables d’une défaillance ou d’une dégradation particulière et implique des actions de
maintenance bien précises. De notre point de vue, deux alternatives se dégagent pour réaliser
le diagnostic d’un système cible mobile rattaché à un centre de maintenance distant. La
première consiste à collecter des données brutes sur le système cible et à transférer ces
données vers un centre de maintenance, où le diagnostic est exécuté. Dans cette première
approche, le système cible peut être vu comme un dispositif d’acquisition de données,
générant un flux de données brutes envoyé vers le centre de maintenance. Dans la seconde
approche, le système cible est considéré comme un dispositif de calcul, capable de traiter et
d’interpréter ces données brutes. Le diagnostic réside alors à bord du système cible, et seules
des informations pertinentes de diagnostic sont délivrées au centre de maintenance (Alanen et
al., 2006 ; Bengtson, 2003). CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 36
Ces deux approches, nommées respectivement diagnostic distant et diagnostic embarqué sont
illustrées par la figure 2.1. Lorsque le diagnostic est distant (figure 2.1 a), les couches #1 à #3
du modèle ISO 13374 sont implémentées à bord du système cible, tandis que les couches #4 à
#6 sont prises en charge par le centre de maintenance. Dans une approche de diagnostic
embarqué (figure 2.1 b), les couches #1 à #4 du modèle sont implémentées à bord du système
cible et les couches #5 et #6 sont assurées par le centre de maintenance.
Figure 2.1. Partitionnement du diagnostic : diagnostic distant (a) et diagnostic
embarqué (b).
Suivant cette dichotomie, cette partie recense les principales architectures de diagnostic pour
la surveillance de systèmes cibles mobiles, en faisant abstraction des méthodes de diagnostic
mises en œuvre. Ainsi, une typologie des architectures de diagnostic sera établie
indépendamment des traitements internes réalisés par les couches du modèle ISO 13374.
1.1 Diagnostic distant
Cette approche consiste à réaliser le diagnostic à distance dans un centre de maintenance, à
partir de données collectées et prétraitées à bord du système cible par les couches #1 à #3 du
modèle. Les alarmes et autres signaux brutes du système cible sont alors transférés et analysés
au centre de maintenance. Le diagnostic distant est généralement réalisé de manière centralisé
et doit traiter une masse de données brutes pour rechercher les causes des symptômes détectés
à bord du système cible. Cette architecture, nommée Diagnostic Distant Centralisé (DDC),
permet d’exploiter pleinement les capacités de stockage et de traitement disponibles au centre
de maintenance. Cependant, le diagnostic peut difficilement être établi pendant le
fonctionnement du système cible en raison des contraintes de communication. En effet, des
volumes de données importants doivent être transférés du système cible mobile vers le centre
de maintenance, impliquant des délais de transmission et de traitement. Par conséquent, les
données nécessaires à l’élaboration d’un diagnostic sont généralement stockées à bord du
système cible et transmises de manière périodique ou événementielle au centre de
maintenance (Jianjun et al., 2007). Ces données sont alors enregistrées en-ligne pendant le CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 37
fonctionnement du système et le diagnostic est exécuté hors-ligne à posteriori (approche de
type “boîte noire”).
L’architecture DDC permet également d’assurer le diagnostic de plusieurs systèmes cibles
mobiles (flotte de trains ou de navires, par exemple) (Monnin et al., 2011). D’un point de vue
fiabilité, cette architecture présente un inconvénient majeur. Le diagnostic des différents
systèmes cibles repose sur un seul et unique centre de maintenance. L’occurrence d’une
défaillance en ce point sensible de l’architecture entraine une interruption du diagnostic pour
l’ensemble des systèmes cibles (Ferrari, 2009). Par ailleurs, en examinant les exigences d’un
système de surveillance établies dans le précédent chapitre, l’architecture DDC présente les
limitations suivantes :
· Précision : les données traitées au centre de maintenance représentent essentiellement
des symptômes émis sous forme d’alarmes. L’interprétation de ces événements par
une fonction de diagnostic au sol est parfois erronée (Azarian et al., 2011). Dans
certains domaines applicatifs des systèmes cibles, le diagnostic est couramment
achevé manuellement au sol par un expert à partir des alarmes générées à bord du
système cible (De Ambrosi et al., 2008).
· Réactivité : cette approche implique des quantités de données considérables à
transférer au centre de maintenance, par exemple, par le biais de liaisons sans fil
(technologies GPRS, GSMR ou Wifi) (Schwarzenbach et al., 2010). Ces transferts de
données introduisent des retards non négligeables dans l’élaboration d’un diagnostic,
et par conséquent, dans la planification des opérations de maintenance.
· Confiance : les symptômes détectés à bord du système cible ne sont pas contextualisés.
Ainsi, une alarme peut être déclenchée par l’environnement du système cible ou être
provoquée par des interférences entre certains sous-systèmes (défaillances fugitives,
par exemple). Notons également que certaines données peuvent être superflues
(alarmes redondantes, alarmes liées aux actions du conducteur ou émises lors des
interventions de maintenance, par exemple) (Sammouri et al., 2012). Ces données sont
néanmoins transmises et archivées au centre de maintenance, engendrant des coûts
injustifiés de transmission et de stockage. Ainsi, le contexte opérationnel du système
cible n’est pas considéré lors de l’élaboration d’un diagnostic sur la base de ces
alarmes.
Néanmoins, cette architecture est relativement simple à mettre en œuvre et permet à des
systèmes d’informations externes d’exploiter aisément les données collectées.
Plusieurs implémentations de l’architecture DDC ont été réalisées dans le domaine des
transports. Par exemple, la première génération de systèmes HUMS (Health and Usage
Monitoring System), apparue au début des années 90, était limitée à la collecte de données et à
la génération d’alarmes sur certains aéronefs (Wiig, 2006). Les principaux inconvénients de
ce système résident dans la génération de fausses alarmes et dans l’interprétation de ces
masses de données brutes au centre de maintenance. Dans le domaine ferroviaire, le projet
Européen TrainCom a contribué à standardiser les échanges de données entre un matériel
roulant ferroviaire et un centre de maintenance distant (Gatti, 2002). La communication entre
le véhicule ferroviaire et un centre de maintenance au sol (ROGS : Railway Open Ground
Station) est assurée par une interface de communication nommée ROGate (Railway Open
Gateway). Ces spécifications ont permis à différentes applications situées au centre de
maintenance de traiter les données collectées à bord des trains. Cette infrastructure de CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 38
communication a été expérimentée en Europe dans le cadre du projet EuRoMain (European
Railway Open Maintenance System) (Euromain, 2002). Le principal objectif de ce projet était
de définir un système d’aide à la maintenance de véhicules ferroviaires en réalisant le
diagnostic à distance des différents équipements embarqués.
Actuellement, les deux principaux constructeurs mondiaux de matériels ferroviaires ont
adopté une architecture DDC. Les systèmes Orbita (Orbita, 2006) et TrainTracer
(TrainTracer, 2006) développés respectivement par Bombardier-Transport et AlstomTransport
permettent de prélever des données en temps réel sur des véhicules ferroviaires et
de les transférer vers un système central (figure 2.2).
Figure 2.2. Architecture du système TrainTracer, adaptée de (Sammouri et al., 2012).
Les données relatives aux différents équipements implantés à bord des véhicules (accès
voyageurs, climatisations, tractions, par exemple) sont transmises et stockées
systématiquement sur un serveur de données (figure 2.2). Ces données brutes (états et alarmes
des différents équipements embarqués, par exemple) sont exploitées par le personnel de
maintenance ou traitées par différentes applications (extraction de données, analyse de
tendances, diagnostic, par exemple). Ces applications sont développées par les constructeurs
ou les exploitants de matériels ferroviaires.
1.2 Diagnostic embarqué
Lorsque la quatrième couche du modèle ISO 13374 (#4-Health Assesment) est intégrée au
sein du système cible, le diagnostic est embarqué. Cette approche vise à exécuter le diagnostic
pendant le fonctionnement du système cible et offre plus d’autonomie et de réactivité.
Contrairement à une architecture DDC, les données brutes sont converties en informations de CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 39
diagnostic à bord du système cible (figure 2.3). Les délais et coûts de transmission sont alors
réduits car seules des informations pertinentes émanent du système cible. De plus, le
diagnostic embarqué permet d’exploiter des informations contextuelles disponibles à bord du
système cible. Ces informations complémentaires contribuent largement à améliorer la
performance du diagnostic embarqué (Byington et al., 2003).
Figure 2.3. Exemple de diagnostic embarqué, adaptée de (Hunter et al., 2013).
Le diagnostic d’un système cible repose sur le diagnostic des différents sous-systèmes qui le
composent (Kurien et al., 2002). Une première approche permettant de réaliser le diagnostic à
bord d’un tel système consiste à déployer une couche de diagnostic sur l’ensemble des soussystèmes.
Ainsi, une entité centrale de diagnostic interprète les données relatives aux
différents sous-systèmes et délivre un diagnostic global du système cible. Une seconde
approche envisage de fractionner la couche de diagnostic en autant d’entités de diagnostic
qu’il existe de sous-systèmes. Dans cette approche, une entité de diagnostic est affectée à
chaque sous-système du système cible. Le diagnostic global du système cible est alors obtenu
à partir des résultats produits par les entités locales de diagnostic. Inspiré des approches de la
littérature pour diagnostiquer des systèmes répartis, nous proposons de distinguer trois classes
d’architectures pour réaliser le diagnostic embarqué de systèmes cibles (figure 2.4). Le
diagnostic peut être centralisé, décentralisé ou réparti (également nommé distribué :
distributed diagnosis) (Fabre, 2007 ; Ferrari, 2009 ; Roychoudhury et al., 2009 ;
Subias, 2006). Notons que le diagnostic décentralisé ou réparti est généralement associé à une
méthode de diagnostic particulière dans la littérature (Genc et Lafortune, 2003 ; Pencolé et
Cordier, 2005). CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 40
Figure 2.4. Diagnostic centralisé (a), décentralisé (b) et distribué (c), adaptée de
(Ferrari, 2009).
Dans la première classe d’architecture, nommée Diagnostic Embarqué Centralisé (DEC), une
seule entité de diagnostic est implémentée à bord du système cible et réalise le diagnostic des
différents sous-systèmes. Dans une architecture de Diagnostic Embarqué Décentralisé (DED),
une entité de diagnostic est implémentée pour chaque sous-système. Ces entités réalisent le
diagnostic de manière indépendante et ne peuvent communiquer entre elles. Lorsque le
diagnostic est distribué, chaque sous-système est également associé à une entité de diagnostic,
mais ces entités peuvent communiquer entre elles. Le terme distribué fait généralement
référence au medium de communication utilisé pour interconnecter ces entités de diagnostic.
Dans les travaux présentés dans ce manuscrit, cette troisième classe d’architecture est
nommée Diagnostic Embarqué Décentralisé et Coopératif (DEDC), afin de dissocier
l’organisation de ces entités de diagnostic des solutions technologiques utilisées pour mettre
en œuvre ce type d’architecture. Les sous-sections suivantes précisent ces trois catégories
d’architectures.
1.1.1 Diagnostic embarqué centralisé
Le diagnostic embarqué d’un système cible est généralement réalisé par une entité centrale de
diagnostic, en charge de traiter les données brutes des différents sous-systèmes (Dievart et al.,
2010). L’architecture DEC suppose qu’une seule entité de diagnostic puisse intégrer une
connaissance de l’ensemble des sous-systèmes et établir le diagnostic global du système cible
(Kurien et al., 2002). Aussi, cette entité doit être capable d’absorber et de traiter de grandes
quantités de données à bord du système cible. Cette architecture peut s’avérer irréaliste pour
un système cible constitué de multiples sous-systèmes. En effet, les données relatives aux
sous-systèmes doivent être centralisées en un même point à bord du système cible pour être
analysées. Le système cible doit alors disposer de ressources suffisantes pour supporter ces
flux de données et réaliser les traitements nécessaires (volume de données important à traiter
en un temps donné, par exemple). Par ailleurs, cette architecture présente des limitations en
termes de fiabilité et de modularité. Par exemple, l’ajout d’un sous-système entraine
systématiquement une modification des traitements réalisés par cette entité centrale de
diagnostic.
Un exemple d’implémentation d’une architecture DEC dans le domaine des transports aériens
est le système de maintenance centralisé (CMS : Central Maintenance System). Dans cette
architecture, une unité centrale effectue des traitements à partir de symptômes et autres
données brutes pour élaborer un diagnostic (Balin et Stankunas, 2013). Ce système permet
d’identifier les causes des anomalies de fonctionnement et élabore des recommandations pour CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 41
le personnel de bord. Les résultats du diagnostic sont archivés et peuvent également être
consultés par des techniciens de maintenance.
Néanmoins, ce système central doit être suffisamment performant (puissance de calcul et
taille mémoire notamment) pour fournir des informations dans des délais acceptables
(situation d’urgence, par exemple).
1.1.2 Diagnostic embarqué décentralisé
L’architecture DED favorise le traitement des données au plus près des sous-systèmes à
diagnostiquer. Dans cette architecture, chaque sous-système est diagnostiqué localement par
une entité de diagnostic. Les résultats des diagnostics délivrés par ces différentes entités sont
généralement transmis de manière disjointe au centre de maintenance. Le diagnostic global du
système cible peut être envisagé de plusieurs manières. Il peut être considéré, par exemple,
comme une juxtaposition des résultats des diagnostics locaux (Biteus, 2004). De ce fait, le
diagnostic global correspond aux diagnostics des différentes parties du système cible, ce qui
permet de présenter des informations plus compréhensibles aux opérateurs de maintenance.
Aussi, le diagnostic global peut résulter d’une fusion des résultats de diagnostic locaux. Dans
ce cas, une ou plusieurs entités supplémentaires sont chargées de collecter les résultats des
diagnostics locaux et de les fusionner. Cependant, les entités de diagnostic opèrent de manière
indépendante et exploitent uniquement les observations limitées de leurs sous-systèmes. En
d’autres termes, ces entités de diagnostic ne communiquent pas entre elles (Qiu et Kumar,
2004). Par conséquent, une entité de diagnostic n’est pas en mesure de considérer les
interactions entre les sous-systèmes lors de l’élaboration d’un diagnostic (Ferrari, 2009).
Ainsi, une entité peut émettre un diagnostic erroné lorsque le sous-système auquel elle est
associée est influencé par d’autres sous-systèmes.
Cette catégorie d’architecture a notamment été expérimentée pour réaliser le diagnostic à bord
de véhicules routiers. Par exemple, dans (Nasri et al., 2012) les auteurs proposent une
architecture DED limitée au diagnostic d’une fonction sécuritaire d’un véhicule. Cette
architecture met en œuvre différentes entités locales de diagnostic (diagnostiqueurs) qui
intègrent une méthode de diagnostic spécifique, et dont les résultats de diagnostic sont
communiqués à une entité supérieure nommée coordinateur. Ce coordinateur est implémenté
à bord du véhicule et délivre un diagnostic final en fusionnant les résultats des diagnostics
locaux à partir de règles. Les entités de diagnostic mises en œuvre sont intégrées aux
équipements embarqués existants faisant l’objet d’un diagnostic (unités de contrôle des soussystèmes
du véhicule). Les informations contextuelles relatives aux différents sous-systèmes
diagnostiqués ne sont pas considérées par ces entités de diagnostic. Les résultats évoqués par
les auteurs concernent l’influence des entités de diagnostic sur la fiabilité de l’architecture
global du système et ne précisent pas réellement la performance du diagnostic obtenu.
1.1.3 Diagnostic embarqué décentralisé et coopératif
Dans cette catégorie d’architecture, les entités de diagnostic sont agencées de la même
manière que dans une architecture DED, c’est-à-dire, une entité de diagnostic est affectée à
chaque sous-système du système cible. A la différence d’une architecture DED, ces entités
opèrent de manière proactive et peuvent dialoguer entre elles (Zhang et Zhang, 2013). Par
exemple, une entité de diagnostic peut coopérer avec d’autres entités. Elle obtient ainsi des
informations complémentaires pour enrichir ses observations locales et fournir un diagnostic
plus robuste. Ces informations concernent, par exemple, les états et contextes d’autres sous-CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 42
systèmes (symptômes ou modes de fonctionnement de sous-systèmes évoluant dans le même
environnement, par exemple). L’architecture DEDC permet d’établir un diagnostic global du
système cible suivant un schéma de communication défini entre les différentes entités de
diagnostic (Provan, 2002). Les échanges entre ces entités sont généralement calqués sur les
interactions existantes entre les différents sous-systèmes diagnostiqués (interactions physiques
et informationnelles, par exemple) (Fabre, 2007). Les communications entre entités limitent le
nombre de fausses alarmes transmises aux opérateurs de maintenance. Néanmoins, cette
architecture implique des flux d’informations supplémentaires à bord du système cible par
rapport aux architectures DEC et DED. Cette contrainte est compensée par un allégement des
capacités de calcul requises pour réaliser le diagnostic, et par une augmentation de la fiabilité
et de la modularité de l’architecture (Ferrari, 2009). Par ailleurs, cette approche est adaptée à
l’architecture des systèmes cibles, dans laquelle les sous-systèmes interagissent entre eux et
présentent un dispositif de calcul local (unité de contrôle disposant de processeurs et de
mémoires, par exemple) (Roychoudhury et al., 2009).
Les architectures DEDC développées pour la surveillance de systèmes mobiles sont
relativement peu nombreuses. Par exemple, une architecture de type DEDC est proposée dans
(Dievart et al., 2010) pour la surveillance d’un système de transport. Cette architecture est
basée sur des entités de diagnostic reliées à une base de données commune et pouvant
s’échanger des informations par le biais d’une mémoire partagée (tableau noir). Certaines
entités sont autorisées à communiquer directement entre elles. Cependant, une méthode de
diagnostic spécifique est exécutée par les différentes entités qui composent cette architecture.
Par ailleurs, les informations contextuelles des sous-systèmes surveillés ne sont pas
considérées pour améliorer la performance du diagnostic.
Plus récemment, certaines architectures DEDC ont été développées dans le cadre du
programme IVHM (Integrated Vehicle Health Management), introduit à l’origine dans les
secteurs aéronautique et spatial (Benedettini et al., 2009). Ce concept vise à accroitre la
sécurité et la fiabilité de certains systèmes de transports (avions de ligne, véhicules aériens,
par exemple) et à optimiser leurs coûts de maintenance, en implémentant à leur bord des
fonctions avancées de diagnostic et de pronostic (Ferreiro et al., 2012 ; Schoeller et al., 2007).
Avec la création d’un centre de Recherche en collaboration avec différents industriels
(IVHM-Center, 2008), la communauté IVHM contribue activement à l’élaboration de
nouveaux standards (SAE-HM1, 2013). Cette communauté s’appuie notamment sur la norme
ISO 13374 pour concevoir et mettre en œuvre des modules de surveillance embarqués. Par
exemple, le projet VIPR (Vehicle Integrated Prognostic Reasoner) a permis de définir un
modèle d’architecture pour la surveillance de véhicules aérospatiaux (Bharadwaj et al., 2013).
L’architecture VIPR combine différentes entités interagissant entre elles pour établir un
diagnostic global d’un véhicule. Ces entités nommées HM (Health Manager) adhérent à la
structure du véhicule à diagnostiquer et sont réparties suivant trois niveaux hiérarchiques
(niveau équipement, niveau régional et niveau véhicule) (figure 2.5). Au niveau hiérarchique
le plus bas, chaque entité élabore des informations locales de diagnostic et de pronostic (DP)
relatives à un équipement (LRU HM). Ces informations sont ensuite confiées aux entités de
niveau supérieur (Area HM), capables d’analyser ces résultats en considérant les différentes
régions du véhicule (implantation géographique des équipements, interdépendances entre
équipements, par exemple). Enfin, les conclusions établies par ces entités sont exploitées par
une entité située au niveau supérieur (Vehicle HM) chargée de délivrer un diagnostic final du
véhicule. CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 43
Figure 2.5. Architecture VIPR, adaptée de (Cornhill et al., 2013).
Cette architecture permet d’établir un diagnostic performant au niveau véhicule, dont le taux
de fausses alarmes est faible (Cornhill et al., 2013). Néanmoins, ces entités sont généralement
associées à des technologies spécifiques. De plus, le contexte opérationnel associé aux
équipements n’est pas exploité par les entités qui composent cette architecture (informations
relatives aux organes de contrôle des sous-systèmes, par exemple).
1.3 Typologie des architectures de diagnostic
A partir des architectures exposées précédemment, une typologie des architectures de
diagnostic peut être articulée autour de trois axes.
· Le premier axe concerne l’implantation du diagnostic vis-à-vis du système cible à
diagnostiquer. Par exemple, le diagnostic peut être exécuté à bord du système cible, à
proximité du système cible (outil de diagnostic portatif, par exemple), ou être réalisé à
distance dans un centre de maintenance (Alanen et al., 2006).
· Le deuxième axe précise la distribution de la couche diagnostic en fonction des
différents sous-systèmes à diagnostiquer. Ainsi, une entité de diagnostic peut être
affectée à l’ensemble des sous-systèmes (diagnostic centralisé), ou à chaque soussystème
du système cible (diagnostic décentralisé). Il est également possible d’affecter
plusieurs entités de diagnostic à un même sous-système. Certains auteurs mentionnent
alors une distribution spatiale ou sémantique du diagnostic (Fröhlich et al., 1999 ;
Roos et al., 2003). La distribution spatiale fait référence à une répartition
géographique des entités de diagnostic, où chaque entité est affectée à une certaine
partie du système cible et prend en charge le diagnostic de cette partie. Une partie peut
correspondre, par exemple, à un sous-système ou à un regroupement de plusieurs
sous-systèmes. Dans une distribution sémantique du diagnostic, des entités de
diagnostic hétérogènes sont affectées à une même partie du système cible et réalisent CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 44
conjointement le diagnostic de cette partie. Une entité de diagnostic peut être focalisée
sur certains aspects de cette partie ou être spécialisée dans la résolution de certains
types de problèmes (analyse de défaillances particulières, par exemple).
· Le troisième axe de cette typologie détermine l’organisation des entités de diagnostic
au niveau social. Suivant la structure organisationnelle des entités de diagnostic, une
entité peut être autorisée ou non à coopérer avec d’autres entités. Par exemple, une
entité peut interagir avec l’ensemble des entités ou avec un nombre restreint d’entités
(Atlas et al., 2001).
La figure 2.6 ci-dessous illustre la typologie proposée et positionne les différentes classes
d’architectures définies auparavant. Le deuxième et le troisième axe concernent uniquement
les architectures permettant de réaliser le diagnostic à bord de systèmes cibles. En effet, les
architectures implémentant le diagnostic à distance impliquent des délais significatifs dans
l’analyse des données et dans l’exécution des opérations de maintenance (temps de
transmission, de stockage et de traitement des données collectées). Par exemple, l’architecture
RCD souffre d’un manque de robustesse et de précision (taux de fausses alarmes important,
informations de diagnostic erronées, non pertinentes ou non contextualisées). Par conséquent,
les architectures pour lesquelles le diagnostic est exécuté à distance ne seront pas retenues
dans la suite de nos travaux.
Figure 2.6. Positionnement des architectures de diagnostic suivant la typologie proposée.
Parmi les architectures de diagnostic embarqué, l’architecture DEDC s’avère être une
approche pertinente pour élaborer le diagnostic de systèmes cibles mobiles. Cette architecture
permet d’établir un diagnostic global du système cible à partir des informations délivrées par
différentes entités de diagnostic implantées à bord du système cible et pouvant interagir entre CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 45
elles. En considérant les exigences d’un système de surveillance établies dans le précédent
chapitre, cette architecture présente les avantages suivants :
· Précision : les données brutes sont traitées au plus près des équipements surveillés, ce
qui permet de garantir la qualité des observations et par conséquent la précision du
diagnostic.
· Adaptabilité : les changements survenant dans un sous-système du système cible
(modification, ajout ou suppression de composants, par exemple) impactent
uniquement l’entité de diagnostic qui lui est associée.
· Réactivité : les délais d’interventions de maintenance sont réduits car le système cible
est capable de transmettre des informations de diagnostic directement exploitables par
les services de maintenance en ciblant des actions de maintenance précises.
· Confiance : les informations contextuelles disponibles à bord du système cible peuvent
être exploitées par les différentes entités de diagnostic. De plus, ces entités sont
capables de communiquer entre elles pour obtenir davantage d’informations sur leur
environnement et limiter ainsi le nombre de fausses alarmes.
Ces travaux se positionnent dans cette dernière catégorie d’architecture. Dans la suite de ce
manuscrit, une architecture de type DEDC est retenue pour la surveillance de systèmes cibles
mobiles. La partie suivante propose des approches permettant de modéliser les entités qui
composent cette architecture en s’appuyant sur le concept de surveillance active.
2. Approches de surveillance active
L’architecture DEDC retenue précédemment requiert la définition de différentes entités en
interaction dont l’objectif est de réaliser le diagnostic à bord d’un système cible. Ainsi, cette
approche implique une augmentation des capacités informationnelles, décisionnelles et
communicationnelles des sous-systèmes à diagnostiquer. Dans ce cadre, les travaux de
Recherche menés au sein de notre équipe sur le développement de produits “actifs” ont
permis de faire émerger la notion d’activité associée à un produit tout au long de son cycle de
vie (Sallez, 2012). Cette notion d’activité s’oppose au caractère passif d’un produit classique,
contraint de subir les interventions d’un système de soutien externe (système de distribution
ou de maintenance, par exemple) et n’ayant pas la capacité de prendre des initiatives vis-à-vis
de ce système. L’activité associée à un système cible (ou produit) est supportée par un
système d’augmentation. Ce dernier réalise un ensemble de fonctions d’augmentation au plus
près du système cible et lui confère, au minimum, la capacité de déclencher un événement.
Cette faculté permet au système cible devenu “actif” d’exprimer un besoin en émettant un
signal (demande d’une intervention ou d’un service particulier, par exemple). Bien entendu,
cette activité minimale peut être complétée par d’autres activités plus complexes
(mémorisation, apprentissage, coopération entre produits actifs, par exemple). Le concept
d’augmentation consiste à associer un système d’augmentation à un produit passif lui
permettant d’être “actif” pendant une ou plusieurs phases de son cycle de vie (phase de
fabrication, de distribution et d’usage, par exemple) (Sallez et al., 2010).
Cette partie décrit le concept de surveillance active reposant sur le concept d’augmentation et
suggère des approches permettant de modéliser l’activité associée à un système cible.CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 46
2.1 Concept de surveillance active
La surveillance active est une application du concept d’augmentation en phase d’usage qui
consiste à doter un système cible de capacités d’auto-surveillance (Sallez et al., 2011). Ce
concept implique une augmentation des sous-systèmes du système cible par des fonctions de
surveillance. Ces fonctions sont supportées par différents systèmes d’augmentations situés au
plus près des sous-systèmes surveillés. Le système cible constitué de sous-systèmes “actif” est
donc lui-même “actif”. Ce système cible “actif” peut alors délivrer des informations de
surveillance de manière spontanée pendant son exploitation (état de santé, résultats de
diagnostic, par exemple). Dans une perspective d’évolution du système cible (développement
de nouvelles fonctionnalités, par exemple), les fonctions de surveillance supportées par un
système d’augmentation pourront être prises en charge de façon native par le système cible.
Dans l’architecture DEDC retenue dans nos travaux, chaque sous-système réalise les couches
fonctionnelles #1 à #4 du modèle ISO 13374. Un système d’augmentation peut alors être
défini pour supporter les fonctionnalités associées à ces couches et élaborer le diagnostic d’un
sous-système (figure 2.7). Ce système d’augmentation présente des capacités décisionnelles et
interactionnelles lui permettant de dialoguer avec d’autres systèmes d’augmentation et de
transmettre des informations de diagnostic à un centre de maintenance.
Figure 2.7. Exemple de surveillance active basée sur le concept d’augmentation.
Le concept de surveillance active est particulièrement adapté pour aborder la surveillance
d’un système cible mobile suivant une architecture de type DEDC. En effet, chaque sous
système du système cible peut être associé à une entité de surveillance “active” autonome,
capable d’interagir avec d’autres entités. Inspiré des modèles d’architectures de systèmes de
pilotage manufacturiers (Trentesaux, 2009), les sections suivantes présentent les principales
approches permettant de modéliser ces entités de surveillance “actives” : l’approche multiagents
et l’approche holonique.CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 47
2.2 Approche multi-agents
L’intelligence artificielle distribuée (IAD), axe de l’intelligence artificielle (IA), s’intéresse
aux domaines pour lesquels une seule entité est inadaptée ou inefficace pour résoudre certains
types de problèmes. Cette communauté a introduit le concept de systèmes constitués d’entités
autonomes ayant la capacité d’agir sur leur environnement et de communiquer avec d’autres
entités pour atteindre un objectif donné. Un système constitué de ces entités ou agents est
nommé Système Multi-Agents (SMA).
2.2.1 Notion d’agent
De nombreuses définitions du terme agent sont apparues depuis l’émergence des systèmes
multi-agents. En effet, cette notion est utilisée dans de nombreux domaines (Tweedale et al.,
2007). Bien qu’aucune définition précise ne soit acceptée, nous pouvons citer les deux
définitions suivantes couramment rencontrées dans la littérature.
· Un agent est un système informatique, situé dans un environnement, et qui agit d'une
façon autonome et flexible pour atteindre les objectifs (buts) pour lesquels il a été conçu
(Wooldrige et Jennings, 1995).
· Un agent est une entité autonome, réelle ou abstraite, qui est capable d’agir sur ellemême
et sur son environnement, qui, dans un univers multi-agents, peut communiquer
avec d’autres agents, et dont le comportement est la conséquence de ses observations, de
ses connaissances et des interactions avec les autres agents (Ferber, 1995).
Les agents sont décrits dans un système et diffèrent donc d’un système à un autre. La plupart
des typologies d’agents établies dans la littérature sont axées sur le degré de raisonnement des
agents. Un agent peut être vu comme un processus permettant de lier ses perceptions à ses
actions. Une classification usuelle dissocie deux catégories d’agents définies ci-après : les
agents réactifs et les agents cognitifs (Demazeau et Briot, 2001).
· Agents réactifs : ces agents sont des entités très simples, n’ayant quasiment pas de
capacité de raisonnement et ne disposant pas de mémoire. Ils perçoivent leur
environnement mais n’ont pas la capacité de le représenter symboliquement. Leurs
capacités limitées répondent uniquement à des stimuli provenant de l’environnement.
Les actions d’un agent sont directement liées à ses perceptions par une fonction
reflexe (stimulation-exécution). Par conséquent, les agents réactifs adoptent des
mécanismes de communication restreints. L’interaction entre ces agents et
l’environnement fait émerger une organisation cohérente et intelligente au niveau d’un
système d’agents. Ces agents sont qualifiés d’intelligents au niveau d’un groupe
d’agents réactifs (Müller, 2000).
· Agents cognitifs : ces agents, au contraire, plus complexes, possèdent des capacités de
raisonnement individuelles et une base de connaissance. Ces agents ont la capacité de
percevoir et de constituer une représentation explicite de leur environnement (Ferber,
1995). Un agent cognitif peut être amené à raisonner suivant ses perceptions passées,
ses interactions avec d’autres agents, ses actions antérieurement initiées, pour planifier
au mieux ses actions futures. Ils ont potentiellement la capacité d’apprendre et de
reconnaître certaines situations. Un agent cognitif adopte un langage de CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 48
communication plus élaboré (mécanismes d’envois de messages et requêtes, par
exemple). Dans une organisation d’agents cognitifs, les agents accomplissent leur
propre but en cherchant à optimiser leur utilité au sein du collectif d’agents. Jusqu’à
présent, cette approche a donné lieu aux travaux les plus avancés.
Les agents réactifs et cognitifs sont généralement décrits comme deux entités antagonistes.
Cependant, certains agents hybrides peuvent posséder des propriétés réactives et cognitives. A
titre d’exemple, un agent hybride peut mener un raisonnement à l’aide de ses connaissances et
présenter certaines aptitudes à réagir aux évènements.
2.2.2 Architectures à base d’agents
Un agent a généralement pour vocation d’agir au sein d’une organisation d’agents. Un
système multi-agents (SMA) est un ensemble d’agents qui évoluent dans un même
environnement. Un SMA peut être constitué, par exemple, d’agents purement réactifs,
cognitifs ou hybrides. Dans une approche “voyelle” (Demazeau, 2001), on distingue quatre
dimensions permettant d’élaborer un système multi-agents : l’Agent, l’Environnement,
l’Interaction et l’Organisation (AEIO). L’organisation décrit les relations entre les agents du
système suivant un modèle organisationnel (modèles bio-inspirés, par exemple). Dans un
SMA, la communication est primordiale pour assurer les différentes interactions entre agents.
Elle peut être assimilée à une forme d’action locale, par exemple, d’un agent vers un autre
agent, ou d’un agent vers plusieurs agents (diffusion de messages au sein d’un groupe
d’agents, par exemple).
Figure 2.8. Exemple de SMA appliqué à la surveillance de systèmes, adaptée de
(Ferber, 1995).
CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 49
L’architecture interne d’un agent, c’est à dire, la décomposition modulaire utilisée pour relier
les perceptions d’un agent à ses actions permet également de différencier les systèmes multiagents.
Les types d’architectures les plus connues sont les architectures suivantes (Grondin,
2008) :
· l’architecture horizontale monocouche : l’agent est constitué d’un seul module ayant
accès à la perception et à l’action (figure 2.9a),
· l’architecture horizontale avec plusieurs couches : l’agent est constitué de plusieurs
modules où chaque module a accès simultanément à la perception et à l’action
(figure 2.9b),
· l’architecture verticale modulaire : l’agent est constitué de plusieurs modules, dont le
premier accède à la perception et le dernier module accède à l’action (figure 2.9c),
· l’architecture verticale en couches : l’agent est constitué de plusieurs modules dont
un seul module peut accéder à la perception et à l’action (figure 2.9d).
Figure 2.9. Exemples d’architectures internes d’un agent, adaptée de (Müller et al., 1995).
Les architectures horizontales sont majoritairement employées pour le développement
d’agents réactifs, comme l’architecture de subsumption (Brooks, 1986), tandis que des
architectures verticales sont plutôt associées à des agents cognitifs, telle que l’architecture
BDI (Belief Desire Intention) (Rao et Georgeff, 1995). Un agent hybride peut présenter une
architecture verticale ou horizontale. Par exemple, l’architecture InteRRaP est une
architecture verticale modulaire d’agents hybrides qui comporte plusieurs couches
fonctionnelles (Müller et al., 1995). L’approche multi-agents a notamment été exploitée pour
la surveillance de systèmes répartis dans (Albert et al., 2001 ; Mangina et al., 2001 ; Naedele
et al., 2004).
2.3 Approche holonique
Les systèmes holoniques ont été introduits par le philosophe hongrois Arthur Koestler
(Koestler, 1967). Ces systèmes sont basés sur le concept de “holon”, terme formé par le
préfixe grec Holos (le tout) et du suffixe on qui suggère une particule élémentaire ou partie
d’un tout. Une propriété importante de ces systèmes est la récursivité des entités mises en
œuvre nommées holons. L’approche holonique peut s’appliquer à de nombreux systèmes, qui
peuvent être naturels (systèmes biologiques) ou artificiels (systèmes conçus par l’homme). CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 50
2.3.1 Concept de holon
Un holon est décrit comme une entité autonome faisant partie d’un tout qui présente un
caractère individuel et coopératif pour atteindre un objectif donné (Koestler, 1967). Le
concept de holon repose sur la notion de récursivité (Suaréz et al., 2013). Un holon peut être
vu comme une partie constitutive d’un holon de niveau supérieur, et comme un tout, composé
lui-même de holons de niveaux inférieurs. Cette dualité associée au holon est appelée effet
Janus par Koestler, en référence au nom de la divinité romaine regardant dans deux directions
opposées. Ainsi, les deux principales propriétés d’un un holon sont l’autonomie et la
coopération. La première confère au holon une identité propre d’un ensemble autonome et
cohérent. La seconde représente l’aspect social d’un holon, contribuant partiellement au
fonctionnement global du système suivant des mécanismes de coopérations avec d’autres
holons.
2.3.2 Architectures holoniques
Un système de holons qui peuvent coopérer pour atteindre un but ou un objectif donné est
nommé holarchie. Comme l’illustre la figure 2.10, une holarchie est formée par des holons
récursifs organisés de manière hiérarchisée. Naturellement, un holon peut être composé
d’autres holons, être lui-même considéré comme une holarchie et également appartenir à une
holarchie plus vaste. Dans une holarchie, un holon peut interagir avec d’autres holons situés
au niveau inférieur ou supérieur (interactions “verticales”) et avec des holons situés au même
niveau que lui (interactions “horizontales” représentées sur la figure 2.10) dans un espace de
coopération.
Figure 2.10. Exemple de système de holons ou holarchie, adaptée de (Gaud, 2007).
L’holarchie définit les règles de base pour la coopération entre holons et de ce fait limite leur
autonomie (Tanaya et al., 1997). Les conflits résultants d’une coopération entre holons au sein
d’un même espace de coopération peuvent être résolus par un holon de niveau supérieur. Ce
holon émet alors une décision à partir des observations de ses holons subordonnés. CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 51
L’approche holonique a notamment été appliquée au pilotage de systèmes manufacturiers
dans le cadre du projet HMS (Holonic Manufacturing System) entrepris par la communauté
internationale IMS (Intelligent Manufacturing System) (IMS, 2013). Dans ce domaine,
l’approche holonique a permis de concevoir de nouveaux modèles d’architectures, reposant
sur une décentralisation des capacités de traitement et de décision à travers des entités
autonomes et communicantes (Blanc et al., 2008 ; Deen, 2003). Les travaux importants
proposés par cette communauté représentent une rupture avec les architectures centralisées de
pilotage de systèmes manufacturiers et se proposent de répondre aux nouveaux besoins et
contraintes des industriels (flexibilité, personnalisation de masse des produits, traçabilité des
produits, par exemple) (Pujo et al., 2009).
Un HMS est une holarchie dans laquelle les holons sont autonomes, coopératifs et
entretiennent des liens de subordinations avec des holons hiérarchiquement supérieurs
(commandes, instructions, par exemple). Suivant les modèles d’architectures holoniques
proposés (ou holarchies), différents types de holons ont été définis pour désigner des entités
d’un système manufacturier. Les architectures PROSA (Van Brussel et al., 1998) et
ADACOR (Leitão et Restivo, 2006) proposent par exemple d’associer des holons aux
machines de production (holon ressource, holon machine), aux produits manufacturés (holon
produit), aux opérations à effectuer (holon ordre, holon tâche), ou encore aux tâches de
supervision (holon staff, holon supervision). La figure 2.11 présente une architecture
générique de holon adoptée par cette communauté. Dans ce modèle, un holon comporte une
partie “traitement de l’information” et une partie “traitement physique” (optionnelle). La
partie “traitement de l’information” est subdivisée en trois modules : une interface de
communication nécessaire pour interagir avec les autres holons (interface inter-holons), une
intelligence décisionnelle pour élaborer un raisonnement interne et disposer d’une certaine
autonomie (centre de décision), et une interface pour interagir avec des opérateurs humains
(interface homme-holon).
Figure 2.11. Architecture interne d’un holon, adaptée de (Bussman, 1998).
La partie “traitement physique” se compose d’un module de commande (contrôle physique) et
d’un module opérant (traitement physique). Cette partie est décrite comme facultative, dans la
mesure où un holon peut être constitué uniquement d’une partie “traitement de l’information”.CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 52
2.4 Comparaison des approches
Les communautés holoniques et agents convergent vers des spécifications communes, car ces
deux approches reposent sur les mêmes principes fondamentaux d’autonomie et de
coopération en explorant la distribution et la décentralisation des entités et des fonctions
(Leitão, 2004). Un holon possède des propriétés similaires à celles d’un agent, mais se
distingue de par sa récursivité (Giret et Botti, 2004). En effet, dans la plupart des modèles
d’agents, un agent est considéré comme une entité atomique (Gaud, 2007). Néanmoins,
certaines approches considèrent que des agents peuvent se regrouper pour former un agent de
niveau supérieur. Suivant ce concept, un système multi-agents holonique (holomas) est un
SMA ayant une structure récursive. Les agents d’un certain niveau sont regroupés en
organisations qui sont considérées comme des entités individuelles à un niveau supérieur. La
communauté agent s’intéresse aux comportements des entités qui composent un SMA (agent
réactif ou cognitif, par exemple) et au comportement global émergent d’un SMA. Dans une
approche holonique, un holon est récursif et associé à une partie matérielle (tangible), qui
n’est pas abordée dans les modèles d’agents. L’approche holonique est donc complémentaire
à l’approche multi-agents. D’un point de vue conceptuel, le holon est un concept et l’agent est
à la fois un concept et une technologie associée. Un modèle à base d’agents est approprié pour
implémenter la modularité et la décentralisation des structures holoniques (Leitão, 2004 ;
Marík et al., 2002). Ainsi, la technologie agent peut fournir les outils nécessaires pour mettre
en œuvre les traitements informationnels associés aux holons tout comme les mécanismes
d’interactions entre ces entités.
Dans le cadre de nos travaux, une approche à base d’agents peut être exploitée pour modéliser
les entités de surveillance de l’architecture DEDC. Comme l’illustre l’exemple présenté sur la
figure 2.12, une entité de surveillance “active” peut être décrite par un agent. Sur ce même
exemple, en considérant une approche holonique, un holon permet de considérer à la fois la
partie physique surveillée d’un système cible et l’entité de surveillance “active” qui lui est
associée. Cette seconde approche permet également de décrire la récursivité du système cible.
Figure 2.12. Périmètres de modélisation considérés dans le cadre de notre étude.
Une approche holonique est retenue dans la suite de nos travaux pour modéliser les soussystèmes
surveillés d’un système cible mobile suivant une architecture DEDC. Cette approche
qui considère les aspects matériels et immatériels des systèmes a notamment été expérimentée
pour la surveillance de systèmes naturels (Louati et al., 2012 ; Unland, 2003) et artificiels
(Jarvis et Jarvis, 2003 ; McFarlane et al., 1995 ; Silva et al., 2012 ; Stecca et al., 2013). CHAPITRE II : SURVEILLANCE DE SYSTÈMES MOBILES : ÉTAT DE L’ART
ET APPROCHES DE SURVEILLANCE ACTIVE
Page 53
3. Conclusion
Ce chapitre a dressé tout d’abord un état de l’art des architectures de diagnostic pour la
surveillance de systèmes cibles mobiles. La surveillance d’un tel système nécessite une prise
en charge de fonctions de surveillance par le système cible mobile et par un centre de
maintenance distant. La première partie de ce chapitre a défini quatre classes d’architectures
de diagnostic et a proposé une typologie des architectures de diagnostic. Afin de répondre aux
exigences exprimées dans le précédent chapitre, une architecture de diagnostic dans laquelle
le diagnostic est embarqué et réalisé de manière décentralisée et coopérative a été retenue
pour la surveillance de systèmes cibles mobiles (architecture DEDC). Dans la littérature, les
applications relatives à ce type d’architecture sont généralement spécifiques à une méthode de
diagnostic et manquent de généricité. Par ailleurs, les informations contextuelles disponibles à
bord d’un système cible ne sont pas suffisamment valorisées et considérées pour améliorer la
performance du diagnostic embarqué. En s’appuyant sur le concept de surveillance active, la
seconde partie de ce chapitre a présenté deux approches pertinentes pour modéliser les entités
qui composent cette architecture : les systèmes multi-agents et les systèmes holoniques. Une
étude comparative de ces deux approches a favorisée l’adoption d’une approche holonique
pour la surveillance de système cibles mobiles.
Le chapitre suivant propose une architecture générique de surveillance “active” de type
DEDC reposant sur une approche holonique. Cette architecture représente la composante
surveillance d’un système de maintenance associé à un système cible. Page 54
Chapitre III
Proposition d’une architecture holonique pour la
surveillance active de systèmes cibles mobiles
Introduction
Dans le précédent chapitre, une étude comparative des architectures de diagnostic pour la
surveillance de systèmes cibles mobiles a été présentée. Cette analyse a permis de retenir une
catégorie d’architecture dans laquelle le diagnostic est implanté à bord du système cible et
élaboré de manière décentralisée et coopérative (architecture DEDC).
Ce chapitre est consacré à la proposition d’une architecture de type DEDC pour la
surveillance de systèmes cibles mobiles. L’approche proposée s’appuie sur le concept de
surveillance active décrit dans le précédent chapitre en adoptant une approche holonique.
Dans ce chapitre, une architecture de surveillance active basée sur des entités de surveillance
autonomes et coopératives est proposée. La première partie de ce chapitre présente tout
d’abord une approche de modélisation d’un système cible à surveiller. Ce modèle permettra
de caractériser les entités de surveillance qui lui sont associées et de proposer par la suite
notre architecture holonique de surveillance. La deuxième partie se concentre sur la structure
interne des entités qui composent cette architecture holonique de surveillance. Elle détaille
notamment les fonctionnalités supportées par ces entités.
1. Système de surveillance holonique
L’adoption d’une architecture de type DEDC pour la surveillance de systèmes cibles mobiles
nécessite une identification des sous-systèmes à surveiller qui composent un système cible.
Un partitionnement du système cible en sous-systèmes est alors nécessaire avant de définir les
entités de surveillance qui concourent à l’élaboration d’un diagnostic. Cette décomposition
peut être abordée par une approche analytique, qui consiste à décomposer un problème en
différents sous-problèmes indépendants. Cependant, cette approche connait certaines
limitations, notamment en raison du niveau de complexité croissant des systèmes actuels et à
la manière dont ces systèmes sont conçus (Fabre, 2007).
Une approche complémentaire, se focalisant non seulement sur une analyse séparée des soussystèmes
d’un système cible, mais considérant également un système cible dans son ensemble
s’avère nécessaire. L’approche systémique adoptée au début de ce manuscrit (cf. chapitre I,
section 1.1) peut ainsi remédier aux difficultés de compréhension d’un système cible. Elle
permet de conserver une vision globale d’un système cible, constitué de sous-systèmes en
interaction, eux-mêmes considérés comme des systèmes. CHAPITRE III : PROPOSITION D’UNE ARCHITECTURE HOLONIQUE POUR LA SURVEILLANCE ACTIVE
DE SYSTÈMES CIBLES MOBILES
Page 55
Dans cette partie, la décomposition d’un système cibles en sous-systèmes est abordée en
adoptant une approche systémique. Après un rappel des principaux concepts de la systémique,
la section 1.1 présente un modèle de système cible à surveiller basé sur cette approche. La
section 1.2 spécifie les entités de surveillance associées à ce modèle suivant une approche
holonique. La section 1.3 propose notre architecture holonique de surveillance basée sur ces
entités de surveillance.
1.1 Approche de modélisation du système cible à surveiller
La systémique a pour objet l’étude et la compréhension de systèmes dont l’analyse par une
approche analytique s’avère difficile ou impossible, et vise à établir une représentation du
système étudié par le biais de modèles qualitatifs (Donnadieu et al., 2003). Elle s’appuie
notamment sur les interactions entre les éléments constituant un système pour en comprendre
son comportement global. Ces liens portent aussi bien sur de simples relations de causes à
effets que sur des échanges d’informations, de flux de matière ou d’énergie. Ces interactions
s’opèrent à des niveaux hiérarchiques différents, formant plusieurs niveaux organisationnels
structurés de manière hiérarchisée. La systémique met en œuvre trois points de vue
nécessaires à l’analyse et à la représentation d’un système (c.f. annexe A). Cette triangulation
systémique regroupe les visions fonctionnelle, organique et historique du système étudié dans
le but d’approfondir sa compréhension (Le Moigne, 1994). Outre ces différents axes
d’analyse d’un système, la démarche systémique préconise une identification des soussystèmes
(sous-ensembles ou composants) d’un système, afin de mettre en évidence les
relations que ces entités entretiennent entre elles et leurs rôles au sein d’un système.
Contrairement à une approche analytique, ces entités ne coïncident pas nécessairement avec
des composants élémentaires d’un système tangible à analyser. Aussi, cette décomposition
soulève la question du partitionnement d’un système en sous-systèmes défini par le
modélisateur. Bien que subjectif, l’établissement de frontières (ou périmètres) des soussystèmes
peut être dicté par certains critères, notamment à partir des différents points de vue
d’un système abordés précédemment. La dimension fonctionnelle, s’intéressant aux fonctions
assurées par le système, et la dimension organique, basée sur la structure des éléments
constituant le système et leurs répétitivités, sont deux exemples de critères permettant de
décomposer un système cible.
La systémique proposant un cadre méthodologique d’analyse et de conception de systèmes
cibles, conformément à un fonctionnement désiré ou à une finalité du système, elle peut
également être exploitée pour comprendre les dysfonctionnements survenant dans de tels
systèmes (Belhadaoui, 2011). Cette section propose une modélisation d’un système cible
basée sur une approche systémique. Ce modèle de système cible à surveiller servira par la
suite de socle à l’élaboration d’une architecture de surveillance.
Le modèle proposé repose sur les hypothèses établies dans le premier chapitre et plus
précisément :
· décomposition : le système cible à surveiller est supposé être organisé suivant une
structure hiérarchisée de contrôle et décomposable structurellement en un ensemble
fini de sous-systèmes. Le partitionnement du système cible en sous-systèmes est
supposé être établi sans chevauchements entre les frontières des sous-systèmes.
Chaque sous-système est supposé être contrôlé par un système de niveau supérieur,
· hétérogénéité technologique : le système cible et ses sous-systèmes sont supposés être
conçus avec des technologies hétérogènes. Néanmoins, le système cible comme
chaque sous-système présente une structure interne identique. Il se compose d’une
partie contrôle (partie décisionnelle) et d’une partie sous-contrôle (partie opérante), CHAPITRE III : PROPOSITION D’UNE ARCHITECTURE HOLONIQUE POUR LA SURVEILLANCE ACTIVE
DE SYSTÈMES CIBLES MOBILES
Page 56
· environnement : les parties contrôle et sous-contrôle sont supposées interagir dans un
environnement spécifique. Un contexte opérationnel de nature physique (température,
champ électrique, par exemple) ou informationnelle (mode de fonctionnement,
identifiant de l’utilisateur du système, par exemple) est supposé être une propriété
intrinsèque du système cible comme de chaque sous-système constituant ce système.
La figure 3.1 présente un modèle organique du système cible considéré. Ce modèle est inspiré
de l’architecture de systèmes constitués d’une partie contrôle et d’une partie sous-contrôle
(Isermann, 2008). En accord avec nos hypothèses, ce modèle présente les propriétés
suivantes :
· une partie contrôle : entité de traitement de l’information et de commande, en charge
d’assurer un comportement cohérent de la partie sous-contrôle, conformément aux
spécifications fonctionnelles imposées par le concepteur,
· une partie sous-contrôle : ensemble d’éléments soumis aux commandes de la partie
contrôle, comprenant notamment des éléments matériels (capteurs, transducteurs, par
exemple) ou informationnels (estimateurs, observateurs logiciels, par exemple)
rendant compte de l’état de cette partie,
· des signaux de commandes (U) : ensemble d’ordres délivrés par la partie contrôle dans
le but de commander la partie sous-contrôle,
· des signaux de mesures (Y) : ensemble de signaux fournis par des dispositifs de la
partie sous-contrôle et exploités par la partie contrôle pour l’élaboration des signaux
de commandes,
· un contexte opérationnel (C) : ensemble d’informations relatif à l’environnement du
système et/ou au système lui-même caractérisant une situation de fonctionnement.
Figure 3.1. Modèle organique du système cible considéré.
Le système cible à surveiller, représenté suivant une vision systémique et noté Σ sur la figure
3.1, comporte deux parties en interaction opérant dans un contexte opérationnel. Ce modèle
organique correspond à une vue globale du système cible considéré, au plus haut niveau de sa
structure hiérarchique. De par ses propriétés récursives, ce système englobe un ensemble fini
de sous-systèmes de niveaux inférieurs ayant une structure interne identique. Les soussystèmes
sont organisés en niveaux et contrôlés par un système de niveau supérieur. Dans le
modèle proposé, chaque système est caractérisé par la position qu’il occupe dans la
composition d’un système plus vaste. Par la suite, le sous-système ݆ du système Σ
sera noté
ΣȀ, et le ݇
ème sous-système du sous-système ΣȀ sera noté ΣȀȀ. La figure 3.2 ci-dessous
propose un modèle organique arborescent du système cible représenté sur la figure 3.1.
Suivant ce modèle, le système global, noté Σ
sur la figure 3.2, est décomposé en une
succession de sous-systèmes situés à différents niveaux. Chaque sous-système est décomposé
en sous-systèmes de niveau inférieur, eux-mêmes décomposés en sous-systèmes. CHAPITRE III : PROPOSITION D’UNE ARCHITECTURE HOLONIQUE POUR LA SURVEILLANCE ACTIVE
DE SYSTÈMES CIBLES MOBILES
Page 57
Par exemple sur la figure 3.2, le système Σ
de niveau n est décomposé en trois sous-systèmes
(ΣȀ, ΣȀឬ et ΣȀ̶) de niveau n-1, et le sous-système ΣȀ est lui-même décomposé en deux
sous-systèmes de niveau n-2 (ΣȀȀ et ΣȀȀឬ). Le sous-système ΣȀȀឬ est décomposé de
nouveau en sous-systèmes élémentaires de niveau inférieur (ΣȀȀឬȀ et ΣȀȀឬȀឬ).
Figure 3.2. Modèle organique arborescent du système cible considéré.
Comme évoqué précédemment chaque système est immergé dans un contexte opérationnel.
Le contexte du système Σ
et de son sous-système ΣȀ seront par la suite notés
respectivement
et Ȁ . Une propriété importante de l’approche systémique proposée est
l’agrégation des informations de contexte entre les différents sous-systèmes constituant un
système cible. En effet, le contexte opérationnel d’un sous-système caractérise la situation de
fonctionnement de ce sous-système et également de ses sous-systèmes de niveaux inférieurs.
Par ailleurs, les sous-systèmes sont soumis à un même contexte relatif au niveau hiérarchique
le plus élevé. Par exemple, sur le modèle de la figure 3.2, les sous-systèmes ΣȀȀឬȀ et
ΣȀȀឬȀឬ opèrent tous deux dans le contexte ȀȀឬ , relatif au sous-système ΣȀȀឬ , et
également dans Ȁ , contexte commun aux sous-systèmes ΣȀȀ et ΣȀȀឬ . Les différents
sous-systèmes du système Σsont soumis au même contexte
.
La structure hiérarchisée de contrôle du système cible considéré implique nécessairement des
interactions “verticales” de nature informationnelle entre les différents niveaux de
décomposition du système cible (relations d’autorités entre un sous-système et son soussystème
de niveau inférieur, par exemple). De plus, des interactions “horizontales” de nature
informationnelle et physique sont envisageables au sein d’un même niveau (échanges
d’informations ou influences physiques entre sous-systèmes, par exemple).
Simulations num´eriques m´eso- et micro-´echelles des
circulations locales g´en´er´ees par des ˆıles tropicales : cas
de l’archipel de la Guadeloupe avec une application `a la
dispersion de polluants (WRF-LES-FLEXPART)
Rapha¨el C´ec´e
To cite this version:
Rapha¨el C´ec´e. Simulations num´eriques m´eso- et micro-´echelles des circulations locales g´en´er´ees
par des ˆıles tropicales : cas de l’archipel de la Guadeloupe avec une application `a la dispersion
de polluants (WRF-LES-FLEXPART). Meteorology. Universit´e des Antilles et de la Guyane,
2014. French.
HAL Id: tel-01074600
https://hal.archives-ouvertes.fr/tel-01074600
Submitted on 14 Oct 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.Universite des Antilles et de la Guyane ´
THESE `
En vue de l’obtention du grade de
DOCTEUR DE L’UNIVERSITE DES ANTILLES ´
ET DE LA GUYANE
Ecole doctorale pluridisciplinaire ´
Sp´ecialit´e : Physique de l’atmosph`ere
Pr´esent´ee et soutenue par
Rapha¨el C´ec´e
le 10 juillet 2014
Simulations num´eriques m´eso- et
micro-´echelles des circulations locales
g´en´er´ees par des ˆıles tropicales : cas de
l’archipel de la Guadeloupe avec une
application `a la dispersion de polluants
(WRF-LES-FLEXPART)
Composition du jury :
Herv´e Delbarre (Pr, LPCA, Universit´e du Littoral) Pr´esident
Evelyne Richard (Directeur de recherche, LA, CNRS Toulouse) Rapporteur ´
Blaise Nsom (Pr, LBMS, Universit´e de Bretagne Occidentale) Rapporteur
Narcisse Zahibo (Pr, LaRGE, Universit´e des Antilles et de la Guyane) Directeur
Didier Bernard (MCF, LaRGE, Universit´e des Antilles et de la Guyane) Co-encadrant
Jean-Fran¸cois Dorville (Dr, Lecturer, Universit´e des West Indies, Jama¨ıque) Co-encadrant
Philippe Palany (Ing´enieur, Direction Interr´egionale de M´et´eo-France) Invit´e”Les philosophes n’ont fait qu’interpr´eter le monde de diff´erentes mani`eres, ce qui importe
c’est de le transformer.“
Karl Marx, Th`eses sur Feuerbach (1845)UNIVERSITE DES ANTILLES ET DE LA GUYANE ´
R´esum´e
Facult´e des Sciences Exactes et Naturelles
D´epartement de Physique
Docteur de l’Universit´e des Antilles et de la Guyane
Simulations num´eriques m´eso- et micro-´echelles des circulations locales
g´en´er´ees par des ˆıles tropicales : cas de l’archipel de la Guadeloupe avec une
application `a la dispersion de polluants (WRF-LES-FLEXPART)
par Rapha¨el C´ec´e
Ce travail est l’expression d’une volont´e de chercheurs, de la Cara¨ıbe d’am´eliorer les
connaissances scientifiques m´eso- et micro-m´et´eorologiques appliqu´ees aux milieux insulaires
sous influence des aliz´es et de d´evelopper la recherche dans ces domaines.
On sait que le ph´enom`ene m´et´eorologique le plus remarquable impactant les ˆıles de la
Cara¨ıbe reste le cyclone tropical. Mais d’autres ph´enom`enes, `a des ´echelles inf´erieures,
telles que les pluies intenses, les houles, la d´egradation de la qualit´e de l’air ont une importance
aig¨ue en termes de risques naturels ou de risques sur la sant´e. Ces exemples
attestent la n´ecessit´e d’utiliser des m´ethodes de descente d’´echelle pour exploiter l’information
m´et´eorologique et/ou climatique de grande ´echelle et d´eriver des sc´enarios locaux
et r´egionaux appliqu´es aux territoires insulaires. Ce d´efi est important car l’attente d’analyses
scientifiques pertinentes dans ces domaines est grande.
Les travaux pr´esent´es dans ce m´emoire ont pour principaux objectifs la simulation num´erique
puis l’analyse des m´ecanismes m´eso- et micro-´echelles qui induisent des circulations
locales diurnes et nocturnes sur l’archipel de la Guadeloupe `a l’aide de codes
num´eriques m´et´eorologiques ´eprouv´es car largement utilis´es en recherche et en pr´evision
op´erationnelle.
Ils constituent donc la premi`ere ´etude de mod´elisation num´erique `a haute r´esolution en
basse atmosph`ere, par descente d’´echelle dynamique, pour des intervalles d’espace compris
entre 1 km et 111 m sur cet archipel.
Le mod`ele atmosph´erique Weather Research and Forecasting ARW V3.4 (WRF ARW),
non-hydrostatique, a ´et´e utilis´e pour l’ensemble des simulations pour mod´eliser la troposph`ere
depuis l’´echelle globale `a l’´echelle de la turbulence.Trois situations m´et´eorologiques classiques r´eelles d’une dur´ee de 48 heures, correspondant
`a 80 % des situations m´et´eorologiques observ´ees dans la zone, aliz´es soutenus (AS), aliz´es
moyens (AM), aliz´es faibles (AF) ont ´et´e examin´ees. Ces situations sont caract´eris´ees par
les valeurs du nombre de Froude local suivantes : 0,82 (AS), 0,41 (AM) et 0,21 (AF). Six
domaines de mod´elisation ont ´et´e s´electionn´es pour effectuer les descentes d’´echelle dynamiques
: D01 (maille de 27 km), D02 (maille de 9 km), D03 (maille de 3 km), D04 (maille
de 1 km), D05 (maille de 333 m) et D06 (maille de 111 m) avec soixante-dix niveaux
verticaux. Les quatre premiers domaines (D01 `a D04) couvrent l’archipel de la Guadeloupe
et sont utilis´es en mode m´eso-´echelle `a l’aide d’un sch´ema d’ensemble de couche
limite plan´etaire YSU. Les domaines D05 (couvrant l’ˆıle de la Basse-Terre et le centre de
l’archipel) et D06 (couvrant la zone littorale et rurale du Petit Cul-de-Sac Marin et la
zone urbaine de l’agglom´eration pointoise) sont utilis´es en mode Large Eddy Simulation
avec une fermeture de la turbulence 1,5 TKE 3D. Le mod`ele WRF a ´et´e forc´e toutes
les six heures par l’assimilation des champs d’analyses globales du mod`ele NCEP FNL
(1➦ de r´esolution). Les simulations effectu´ees ont permis d’obtenir des champs de variables
m´et´eorologiques 10-minutes `a tr`es hautes r´esolutions spatiales.
Les r´esultats des simulations m´eso- et micro-´echelles ont ´et´e confront´es aux valeurs exp´erimentales
obtenues `a l’aide de capteurs plac´es sur des mˆats m´et´eorologiques (campagne
Atmo-Mangrov et r´eseau de mesure M´et´eo-France). Il s’agissait d’optimiser l’utilisation
des couplages de codes num´eriques tout en conservant la possibilit´e de les confronter aux
observations exp´erimentales.
Les r´esultats des simulations num´eriques micro-´echelles, des diff´erents cas (AS, AM, AF)
sont utilis´ees pour forcer (c’est-`a-dire d´efinir les conditions limites) un mod`ele lagrangien
de dispersion de particules : FLEXPART. Le syst`eme coupl´e FLEXPART-WRF a ´et´e employ´e
dans le domaine D06 pour ´etudier la dispersion du panache d’oxydes d’azote ´emis
par la principale usine de production d’´electricit´e de l’ˆıle.
La concordance entre les s´eries spatio-temporelles simulation/exp´erimental a ´et´e qualifi´ee `a
l’aide d’outils statistiques de comparaison (MAE, MBE, IOA). Ces estimateurs montrent
que pour les champs m´et´eorologiques classiques, il y a une bonne ad´equation entre les
mesures exp´erimentales et les simulations obtenues aux fines ´echelles. Les simulations
retrouvent le comportement du vent et les principales circulations observ´ees exp´erimentalement.
L’´etude des effets des conditions aux limites, particuli`erement le changement de
carte d’occupation des sols, am´eliore sensiblement les r´esultats.
En aliz´es faibles, les coupes verticales pointant l’´energie cin´etique turbulente, la temp´erature
virtuelle et la masse volumique t´emoignent de l’existence d’un ´ecoulement catabatique.
Il se caract´erise par un front bien d´efini amenant des vents maximums situ´es dansles premiers niveaux en arri`ere de la surface frontale et des tourbillons verticaux en aval de
l’´ecoulement. Cette circulation d’ouest prend naissance, en fin d’apr`es-midi, sur les reliefs
de la Soufri`ere, descend les pentes au vent de l’ˆıle de la Basse-Terre et passe sur la zone
littorale d’Arnouville 2 `a 3 h apr`es son initiation.
Pendant la nuit, ce front oscille horizontalement sur la surface maritime du Petit Cul-deSac
Marin en s’accroissant verticalement. En effet, le front s’´etant r´echauff´e en passant
au-dessus de la surface maritime, sa propagation est frein´ee sur l’ˆıle de la Grande-Terre,
au sol fortement refroidi par le rayonnement infra-rouge.
Les simulations micro-´echelles ont ´et´e utiles pour caract´eriser l’aptitude de cet ´ecoulement
catabatique nocturne `a se propager en aval, d’Arnouville vers la r´egion pointoise, et
pr´eciser sa capacit´e `a d´egrader la qualit´e de l’air dans la zone urbaine. Les pics de concentration
de NOx simul´ees surviennent aux mˆemes p´eriodes que les observations exp´erimentales
mais sont surestim´ees et d´ecal´es temporellement d’une heure.
Des surestimations des vitesses de vent ont ´et´e observ´ees en condition nocturne. Ces
impr´ecisions sont dues au manque de r´ealisme des conditions limites (occupation des sols,
topographie, temp´erature de surface de la mer) et pourront ˆetre am´elior´ees dans le futur.
Les estimateurs statistiques ont montr´e une bonne ad´equation entre les mesures exp´erimentales,
les comparaisons graphiques (en s´eries temporelles et profils de concentration)
ont quant `a elles permis de mieux caract´eriser la dynamique des concentrations de polluants
et leurs possibles interactions avec les circulations locales.
Ces r´esultats num´eriques laissent envisager de nombreuses applications dans les domaines
de la pr´evention de risques environnementaux, dans l’aide `a la caract´erisation des ressources
d’´energie renouvelables solaire, ´eolienne voire houlo-motrice. Ils peuvent ˆetre
ais´ement transposables aux autres ˆıles des petites Antilles.Abstract
Meso-scale and micro-scale numerical simulations of local circulations
induced by tropical islands : Case of the Guadeloupe archipelago with a
pollutant dispersion case (WRF-LES-FLEXPART)
by Rapha¨el C´ec´e
The present work expresses the will of Caribbean researchers to improve the meso- and
micro-meteorological scientific knowledge of the trade winds influenced island areas, and
to develop research in these domains.
It is well known that tropical hurricanes remain the most remarkable meteorological phenomena
that affect the Caribbean islands. But some other phenomena, of smaller scale,
such as intense rainfall events, swells, or air quality degradation, are of extreme importance
for natural or health hazards. These examples show the need to use downscaling
methods to exploit large scale meteorological or climatic information, and to obtain local
and regional scenarios for the island areas. This is an important challenge, as sound scientific
studies in these matters are eagerly expected. The aim of the research works exposed
in the present dissertation is numerical simulation and analysis of the meso- and microscale
mechanisms that induce diurnal and nocturnal local circulations in the Guadeloupe
archipelago, using numerical meteorological models that are widely used in research and
in operational forecasting.
These works represent the first high-resolution (1 km to 111 m) numerical study of the
lower atmosphere over the Guadeloupe archipelago.
The Weather Research and Forecasting ARW 3.4 (WRF-ARW) model is used to simulate
the troposphere from global scale to turbulence scale. Real cases of three typical weather
types (80% of cases during a year) are examined during 48 hours : strong trade winds
(STW), medium trade winds (MTW) and weak trade winds (WTW). These weather types
are characterized by values of the local Froude number : 0.82 (STW), 0.41 (MTW) and
0.21 (WTW). Six domains have been selected for the dynamical downscaling : D01 (grid
spacing of 27 km), D02 (grid spacing of 9 km), D03 (grid spacing of 3 km), D04 (grid spacing
of 1 km), D05 (grid spacing of 333 m) and D06 (grid spacing of 111 m), including 70
vertical levels. The first four domains (D01 to D04) cover the Guadeloupe archipelago and
are used in the meso-scale simulations with the planetary boundary layer scheme YSU
(ensemble mean). Domain D05 (covering the Basse-Terre island and the middle of the
archipelago) and domain D06 (covering the coastal and rural area of Le Petit Cul-de-Sac
Marin and the urban area of Pointe-`a-Pitre), are employed in the micro-scale simulation(LES) with the 3D TKE 1.5 order closure scheme. WRF has been 6 hourly reinitialized
with the NCEP FNL global analyses (resolution of 1➦). These simulations permitted to
obtain 10-minutes meteorological variable fields with a very high resolution (111 m).
Meso-scale and micro-scale model results have been evaluated with observational data
from meteorological stations (field campaign Atmo-Mangrov, French Met Office).
Once validated, the micro-scale model outputs have been used for the assimilation of the
lagrangian particle dispersion model : FLEXPART. The coupling FLEXPART-WRF has
been employed in domain D06, in order to analyze the dispersion of the nitrogen oxide
plume emitted by the main power plant of the archipelago.
Agreements between model/observations time series have been evaluated with error statistical
tools (MAE, MBE, IOA).
The error statistical tools show that simulated typical meteorological variables have a
good agreement with observational data. The model simulates well wind patterns and local
circulations observed at the stations. The use of accurate land cover data significantly
improves the results.
During the weak trade winds, vertical cross sections of the turbulent kinetic energy, virtual
temperature and density indicate the occurrence of a katabatic flow with a well defined
front. This westerly circulation starts at the end of the afternoon in the area of the volcano
of La Soufri`ere. The katabatic flow extends to the windward coast of the Basse-Terre
island and reaches the coastal area of Arnouville 2 to 3 hours after its onset time. During
the night, the katabatic front oscillates over the marine area of Le Petit Cul-de-Sac Marin.
Due to its warming over the marine area, the front cannot extend on the Grande-Terre
colder land surface.
The micro-scale simulations permitted to study the ability of this gravity flow to extend
to the urban area of Pointe-`a-Pitre, and its ability to induce pollution events in this area.
The simulated and the observed NOx concentration peaks occur nearly at the same time,
but the model overestimates them, with a one hour lag.
Overestimations of the wind speeds have been observed at nighttime. These inaccuracies
are linked with the lack of realism of the boundary conditions (land cover, topography,
sea surface temperature). These biases will be corrected in the future.
The error statistical tools showed a good agreement with observational data. The graphical
evaluations (time series, concentration vertical profiles) allowed a better understanding
of the pollution dispersions under local circulations.
These numerical results can be useful in many fields : to prevent environmental risks, to
help characterizing renewable energy sources such as solar, wind or wave energy. They
can be easily transferred to other islands of the Lesser Antilles.Remerciements
Je remercie le professeur Narcisse Zahibo, directeur du laboratoire LaRGE (Laboratoire
de Recherche en G´eosciences et Energies), mon directeur de th`ese, de m’avoir fait con- ´
fiance pour ce projet.
Je remercie chaleureusement Didier Bernard, maˆıtre de conf´erences `a l’Universit´e des
Antilles de la Guyane, mon encadrant, qui a suivi mon travail et qui m’a soutenu avec un
grand d´evouement et beaucoup d’efficacit´e, y compris lorsqu’il a dˆu traverser des moments
difficiles.
Je remercie particuli`erement Jean-Fran¸cois Dorville, lecturer `a l’Universit´e des West Indies,
qui m’a fait d´ecouvrir le monde de la recherche lorsque j’´etais en master, et qui
malgr´e l’´eloignement s’est toujours rendu disponible pour m’aider dans ces pr´esents travaux.
J’exprime mes remerciements `a Jacques Laminie, Rapha¨el Pasquier et Patrick Siarras,
du Centre Commun de Calcul Intensif (C3I) de l’Universit´e des Antilles et de la Guyane,
qui m’ont aid´e `a installer le mod`ele num´erique WRF sur les calculateurs Orca et Wahoo
de l’Universit´e.
De mˆeme, je remercie Richard Emilion, professeur `a l’Universit´e d’Orl´eans, qui m’a permis ´
d’avoir acc`es au calculateur Phoebus du Centre de Calcul Scientifique en r´egion Centre
(CCSC) de l’Universit´e d’Orl´eans, ainsi que Laurent Catherine qui m’a aid´e `a utiliser
efficacement ce calculateur.
Philippe Palany, de M´et´eo-France, m’a donn´e acc`es aux donn´ees m´et´eorologiques d’observation
qui m’ont permis d’´evaluer mes r´esultats. Qu’il en soit remerci´e.
Je tiens aussi `a remercier les jeunes chercheurs de mon laboratoire, Ma¨ına Andr´e, St´ephanie
Monjoly, Christophe D’Alexis, Vanessa Clotaire, Christelle Dixit, Fr´ed´eric Dondin, Sandrine
Samot et sp´ecialement Thomas Plocoste, grˆace `a qui j’ai b´en´efici´e d’une ambiance
de travail stimulante et sympathique.
Mes remerciements s’adressent aussi `a mes coll`egues de l’Universit´e - et particuli`erement
Andr´e Roussas - qui m’ont aid´e `a affronter des conditions de travail parfois difficiles, ainsiqu’`a Dani`ele Frison pour son aide `a la r´edaction en anglais.
Je dois finalement remercier de nombreuses personnes qui ont contribu´e, mˆeme directement,
`a ce travail.
Tout d’abord mes parents, Pierre-Robert et Marie-Claude C´ec´e, qui m’ont aid´e et encourag´e
`a poursuivre mes ´etudes universitaires jusqu’au doctorat, ainsi que ma soeur,
Mellissa C´ec´e qui m’a soutenu malgr´e la distance.
Ensuite mes camarades de Combat Ouvrier et du journal Rebelle ! avec lesquels je milite
pour construire un monde meilleur, et sp´ecialement Ren´e Cuillierier qui m’a transmis son
enthousiasme r´evolutionnaire.
Et enfin ma compagne, Delphine Prudhomme, pour son ind´efectible soutien et son importante
contribution `a ces travaux.Table des Mati`eres
Citation i
R´esum´e ii
Abstract v
Remerciements vii
Table des Mati`eres ix
Liste des Figures xiv
Liste des Tableaux xx
Liste des Abr´eviations xxi
Introduction 1
1 Circulations atmosph´eriques dans les basses couches et leurs effets :
´etude bibliographique 6
1.1 Echelles des circulations atmosph´eriques ´ . . . . . . . . . . . . . . . . . . . 6
1.2 M´eso-´echelle et micro-´echelle : circulations locales de couche limite atmosph´erique
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Couche limite atmosph´erique (CLA) . . . . . . . . . . . . . . . . . 8
1.2.1.1 D´efinition . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1.2 Structure de la CLA associ´ee au cycle diurne . . . . . . . 8
Couche de m´elange . . . . . . . . . . . . . . . . . . . . . . . 9
Couche r´esiduelle . . . . . . . . . . . . . . . . . . . . . . . . 9
Couche limite stable . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1.3 Vent moyen, ondes et turbulence . . . . . . . . . . . . . . 10
1.2.2 Circulations locales g´en´er´ees par les conditions de terrain . . . . . . 11
1.2.2.1 R´egions cˆoti`eres : brises de mer–terre . . . . . . . . . . . . 11
Brises de mer . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Brises de terre . . . . . . . . . . . . . . . . . . . . . . . . . . 11
ixTable des Mati`eres x
1.2.2.2 R´egions orographiques : vents anabatiques–catabatiques . 12
Vents anabatiques . . . . . . . . . . . . . . . . . . . . . . . . 12
Vents catabatiques . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Simulations num´eriques de la descente dynamique de la m´eso-´echelle `a la
micro-´echelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1 Descente d’´echelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.2 Spectre de la turbulence : ” terra incognita ” (Wyngaard, 2004) . . 13
1.3.3 M´eso-´echelle : principaux sch´emas de moyenne d’ensemble 1D (Shin
and Hong, 2011) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.3.1 Sch´ema YSU : fermeture au premier ordre avec un m´elange
non-local . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.3.2 Sch´ema MYJ : fermeture TKE `a l’ordre 1,5 avec un m´elange
local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.4 Micro-´echelle : sch´emas Large Eddy Simulation (LES) 3D (Mirocha
et al., 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.4.1 Fermeture SFS Smagorinsky . . . . . . . . . . . . . . . . . 17
1.3.4.2 Fermeture SFS TKE d’ordre 1.5 . . . . . . . . . . . . . . . 17
1.3.5 Descente d’´echelle : couplage d’un sch´ema d’ensemble et d’un sch´ema
LES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Simulation num´erique de la dispersion de polluants : applications du mod`ele
FLEXPART-WRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.1 G´en´eralit´es sur les mod`eles lagrangiens de dispersion de particules
(Hegarty et al., 2013a,b) . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.2 Quelques applications du mod`ele FLEXPART-WRF . . . . . . . . . 20
1.5 Etat de l’art sur les circulations locales g´en´er´ees par des ˆıles tropicales ´ . . . 21
1.5.1 Circulations g´en´er´ees par les ˆıles tropicales larges (Fr ≥ 1 et une
largeur > 50 km) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.5.2 Circulations g´en´er´ees par les ˆıles tropicales montagneuses (Fr < 1) . 22
1.5.3 Circulations g´en´er´ees par les petites ˆıles (Fr ≥ 1 et une largeur ≤
50 km) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.6 Etat de l’art sur l’archipel de la Guadeloupe ´ . . . . . . . . . . . . . . . . . 23
1.6.1 Contexte m´et´eorologique synoptique . . . . . . . . . . . . . . . . . 23
1.6.2 Contexte m´et´eorologique local . . . . . . . . . . . . . . . . . . . . . 24
1.6.2.1 Quelques aspects des vents locaux d’apr`es Br´evignon (2003) 25
1.6.2.2 Campagne exp´erimentale dans la zone cˆoti`ere d’Arnouville
(ARN, D’Alexis et al. (2011)) . . . . . . . . . . . . . . . . 26
1.6.2.3 Campagne exp´erimentale dans la zone urbaine de Pointe-
`a-Pitre (DCH, Plocoste (2013); Plocoste et al. (2014)) . . 27
1.6.2.4 Variabilit´e diurne et spatiale des champs de surface . . . . 28
1.6.3 Impacts des circulations locales nocturnes sur la dispersion de polluants
industriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.6.3.1 Centrale EDF diesel Jarry nord . . . . . . . . . . . . . . . 29
1.6.3.2 Observations du panache de la centrale durant des retournements
nocturnes du vent . . . . . . . . . . . . . . . . . 30Table des Mati`eres xi
2 M´ethodologie et outils de simulation 32
2.1 M´ethodologie g´en´erale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2 S´election des trois situations m´et´eorologiques ´etudi´ees . . . . . . . . . . . . 36
2.2.1 Classification des types de temps . . . . . . . . . . . . . . . . . . . 36
2.2.2 Circulations synoptiques de basses couches pour les dates simul´ees . 37
2.3 Mod`ele num´erique m´eso-´echelle de pr´evision m´et´eorologique : WRF ARW
V3.4.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.1 Description du mod`ele d’apr`es les ´etudes de Skamarock et al. (2008)
et Wang et al. (2010) . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.1.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.1.2 Principales ´equations r´esolues . . . . . . . . . . . . . . . . 42
Coordonn´ee verticale η et variables associ´ees . . . . . . . . . 42
Equations d’Euler incluant l’humidit´e ´ . . . . . . . . . . . . . 43
Maillage ARW d´ecal´e : Arakawa-C . . . . . . . . . . . . . . . 44
2.3.1.3 Sch´emas de param´etrisation physique . . . . . . . . . . . . 45
2.3.2 Configurations utilis´ees . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3.2.1 Preprocessing WPS . . . . . . . . . . . . . . . . . . . . . . 47
Domaines de simulation . . . . . . . . . . . . . . . . . . . . . 47
Topographie . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Occupation des sols . . . . . . . . . . . . . . . . . . . . . . . 49
Donn´ees m´et´eorologiques globales pour l’assimilation du mod`ele
WRF ARW . . . . . . . . . . . . . . . . . . . . . 52
2.3.2.2 Param´etrisations WRF ARW . . . . . . . . . . . . . . . . 52
Caract´erisation des niveaux verticaux . . . . . . . . . . . . . 52
P´eriodes simul´ees et intervalles de temps des sorties mod`eles 53
Param´etrisations physiques m´eso- et micro-´echelles . . . . . . 54
Pas de temps de calcul . . . . . . . . . . . . . . . . . . . . . 55
Conditions initiales . . . . . . . . . . . . . . . . . . . . . . . 55
Conditions aux limites . . . . . . . . . . . . . . . . . . . . . 56
2.4 Mod`ele lagrangien de dispersion de particules : FLEXPART-WRF . . . . . 57
2.4.1 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.4.1.1 Int´egration des donn´ees m´et´eorologiques WRF . . . . . . . 57
2.4.1.2 Param´etrisation de la couche limite atmosph´erique et de
la turbulence . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.4.1.3 Calcul de la trajectoire des particules . . . . . . . . . . . . 59
2.4.2 Configurations de nos simulations . . . . . . . . . . . . . . . . . . . 60
2.4.2.1 P´eriodes de simulation et intervalles de temps des sorties
mod`eles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.4.2.2 Caract´erisation des niveaux verticaux . . . . . . . . . . . . 61
2.4.2.3 Param´etrisation du panache de NOx de la centrale EDF . 61
2.4.2.4 Param´etrisations physiques . . . . . . . . . . . . . . . . . 62
2.5 Donn´ees m´et´eorologiques d’observation pour l’´evaluation du mod`ele WRF
ARW3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.5.1 Radiosondages journaliers (Universit´e du Wyoming) . . . . . . . . . 62Table des Mati`eres xii
2.5.2 Bou´ees m´et´eorologiques du National Data Buoy Center . . . . . . . 63
2.5.3 Stations m´et´eorologiques de l’archipel de la Guadeloupe (M´et´eo
France et LaRGE) . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.6 Donn´ees d’observation de la qualit´e de l’air pour l’´evaluation du mod`ele
FLEXPART-WRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.7 Estimateurs d’erreur utilis´es pour l’´evaluation statistique des simulations . 67
3 R´esultats des simulations et discussion 69
3.1 Simulations num´eriques m´eso-´echelles des circulations g´en´er´ees par l’archipel
de la Guadeloupe (WRF) . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.1.1 Simulation M´eso-A : r´esum´e et article publi´e . . . . . . . . . . . . . 69
3.1.2 Simulation M´eso-A’ : effets du changement de carte d’occupation
des sols dans le domaine D04 . . . . . . . . . . . . . . . . . . . . . 89
3.1.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.2.2 Nouvelles cat´egories d’occupation des sols `a ARN, RZT,
DES, MOU et GBD . . . . . . . . . . . . . . . . . . . . . 89
3.1.2.3 Evaluation statistique des variables de surface simul´ees : ´
comparaison M´eso-A et M´eso-A’ . . . . . . . . . . . . . . 90
3.1.2.4 Evaluation graphique des cycles diurnes dans les simula- ´
tions M´eso-A et Meso-A’ . . . . . . . . . . . . . . . . . . . 93
Station d’Arnouville (ARN) : effets du biais spatial . . . . . 93
Station du Moule (MOU) : am´eliorations de la simulation
M´eso-A’ par rapport `a M´eso-A . . . . . . . . . . 94
3.1.2.5 Comparaison des cartes de circulations locales entre M´esoA’
et M´eso-A . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.1.2.6 Comparaison des cartes de flux de chaleur sensible HFX
et de temp´erature du sol Ts entre M´eso-A’ et M´eso-A . . . 97
3.1.2.7 Conclusion sur les effets de la carte CLC24 dans le domaine
D04 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.1.3 Conclusion sur les simulations num´eriques m´eso-´echelles des circulations
locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.2 Simulations num´eriques micro-´echelles des circulations g´en´er´ees par l’archipel
de la Guadeloupe (WRF-LES) . . . . . . . . . . . . . . . . . . . . . . . 103
3.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.2.2 Evaluation du mod`ele ´ . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.2.2.1 Evaluation statistique avec les observations 10 min du mˆat ´
instrument´e ARN . . . . . . . . . . . . . . . . . . . . . . . 104
3.2.2.2 Evaluation graphique avec les observations du mˆat instru- ´
ment´e ARN : cas des AF (Fr = 0, 21) . . . . . . . . . . . . 105
3.2.3 Ecoulement catabatique nocturne sur la cˆote au vent de la Basse- ´
Terre durant AF (Fr = 0, 21) . . . . . . . . . . . . . . . . . . . . . . 107
3.2.3.1 Evolution temporelle des variables de surface `a VER, ARN, ´
EDF et PAP . . . . . . . . . . . . . . . . . . . . . . . . . 109
3.2.3.2 Structure horizontale du front de l’´ecoulement simul´e (domaine
D06) . . . . . . . . . . . . . . . . . . . . . . . . . . 111Table des Mati`eres xiii
3.2.3.3 Structure verticale du front de l’´ecoulement simul´e (domaine
D06) . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.2.4 Conclusion sur les simulations num´eriques micro-´echelles des circulations
locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.3 Application de la mod´elisation micro-´echelle WRF-LES `a la dispersion d’un
panache de polluants industriels : couplage WRF-LES-FLEXPART . . . . 116
3.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3.2 Cas des aliz´es soutenus (AS, Fr = 0, 82) . . . . . . . . . . . . . . . . 117
3.3.3 Cas des aliz´es moyens (AM, Fr = 0, 41) . . . . . . . . . . . . . . . . 118
3.3.4 Cas des aliz´es faibles (AF, Fr = 0, 21) . . . . . . . . . . . . . . . . . 120
3.3.4.1 Comparaisons des s´eries temporelles simul´ees et observ´ees
`a la station PAP . . . . . . . . . . . . . . . . . . . . . . . 121
3.3.4.2 Etude des coupes verticales de concentration simul´ee aux ´
points PAP et EDF . . . . . . . . . . . . . . . . . . . . . 122
Conclusion et perspectives 123
3.3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.3.6 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
A Article publi´e 129
B Communications internationales 130
C Communication nationale 135
Bibliographie 137Liste des Figures
1.1 Classification des ph´enom`enes atmosph´eriques en fonction de leur ´echelle
spatio-temporelle (Orlanski, 1975; Stull, 1988). . . . . . . . . . . . . . . . . 7
1.2 Evolution temporelle de la structure verticale de la couche limite atmosph´erique ´
terrestre dans des r´egions anticycloniques (Stull, 1988). . . . . . . . . . . . 9
1.3 Sch´ema du spectre de l’´energie en fonction de la taille des structures turbulentes.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Carte topographique GeBCO 08 (General Bathymetric Chart of the Oceans
IOC et al. (2003), 30 secondes d’arc de r´esolution) en m : (a) zone de la
Cara¨ıbe ; (b) l’Arc des Petites Antilles. . . . . . . . . . . . . . . . . . . . . 24
1.5 Carte topographique (IGN, 50 m de r´esolution), avec la zone la plus peupl´ee
de l’archipel (rectangle noir), la d´echarge DCH (carr´e marron), la centrale
EDF (croix rouge), le campus de Fouillole (carr´e jaune), le mˆat instrument´e
du laboratoire LaRGE (ARN, triangle vert) et les 4 stations M´et´eo-France,
Raizet (RZT, disque rouge), Moule (MOU, ´etoile magenta), D´esirade (DES,
carr´e bleu), Grand-Bourg de Marie-Galante (GBD, losange noir). . . . . . 25
1.6 Cartes de circulations cˆoti`eres autour de la Guadeloupe durant des vents
synoptiques d’est (d’apr`es Br´evignon (2003)). . . . . . . . . . . . . . . . . 26
1.7 Photo des chemin´ees de la centrale ´electrique EDF Jarry nord, [cr´edit
photo : R. C´ec´e 2014]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.8 Photo satellite Google earth (8/04/2013) : localisation de la centrale EDF
et du campus UAG, les fl`eches rouges correspondant aux directions (a) et
(b) du panache durant une circulation nocturne d’ouest (Fig. 1.9). . . . . . 30
1.9 Photos du panache de la centrale EDF de Jarry (prise de vue depuis le
campus de Fouillole UAG, Fig. 1.8) : (a) direction du vent nord-ouest,
photo prise le 14/09/2010 `a 7 h 21 LT ; (b) direction du vent sud-ouest,
photo prise le 4/11/2009 `a 7 h 11 LT [cr´edits photos : D. Bernard 2009-2010]. 31
2.1 Sch´ema r´ecapitulatif de la m´ethodologie adopt´ee. . . . . . . . . . . . . . . 35
2.2 Donn´ees d’observation du radar de M´et´eo-France (250 m de r´esolution) `a
16 h LT : (a) le 15 d´ecembre 2007 (AS), (b) le 24 d´ecembre 2007 (AM) et
(c) le 3 d´ecembre 2007 (AF). . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Champs de surface FNL (NCEP (ment), 1➦ de r´esolution) durant AF le
3/12/2007 `a 12h UTC : (a) Pmer en hPa ; (b) vitesse UU du vent horizontal
`a 10 m en m.s-1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4 Champs de surface FNL (NCEP (ment), 1➦ de r´esolution) durant AS le
14/12/2007 `a 12h UTC : (a) Pmer en hPa ; (b) vitesse UU du vent horizontal
`a 10 m en m.s-1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
xivListe des Figures xv
2.5 Champs de surface FNL (NCEP (ment), 1➦ de r´esolution) durant AM le
24/12/2007 `a 12h UTC : (a) Pmer en hPa ; (b) vitesse UU du vent horizontal
`a 10 m en m.s-1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.6 Architecture du mod`ele WRF ARW (d’apr`es Wang et al. (2010)). . . . . . 42
2.7 Niveaux verticaux η dans WRF ARW avec pht et phs, respectivement, les
pressions hydrostatiques au sommet et `a la surface (d’apr`es Skamarock
et al. (2008)). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.8 Maille individuelle de la grille Arakawa-C avec les grandeurs vectorielles
(U, V , W, Ω et φ) et les scalaires (µ, θ, qv et ql) (Skamarock and Dudhia,
2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.9 Interactions entre les sch´emas de param´etrisation physique du mod`ele WRF
ARW (Dudhia, 2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.10 Cartes des domaines imbriqu´es : en blanc D01 (27 km de r´esolution), en
cyan D02 (9 km de r´esolution), en gris D03 (3 km de r´esolution), en jaune
D04 (1 km de r´esolution), en vert D05 (333 m de r´esolution) et en rouge
D06 (111 m de r´esolution). . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.11 Cartes topographiques (m AMSL) interpol´ees `a partir des donn´ees IGN
(50 m de r´esolution) : (a) D04 (1 km de r´esolution), (b) D05 (333 m de
r´esolution), (c) D06 (111 m de r´esolution) ; avec la station num´erique VER
(triangle jaune), le mˆat instrument´e ARN (triangle vert) et la centrale
´electrique EDF (croix rouge). . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.12 Carte d’occupation des sols de l’archipel de la Guadeloupe CLC24 (23 m
de r´esolution) : Corine Land Cover 2006 dont les 50 cat´egories ont ´et´e
converties en 24 cat´egories USGS, avec le rectangle noir repr´esentant l’agglom´eration
pointoise. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.13 Comparaison des cartes d’occupation des sols de l’archipel de la Guadeloupe
`a 1 km de r´esolution (D04) avec la ligne de cˆote World Vector Shoreline
(NOAA, 2014), (1) les zones urbaines, (2) les terres cultiv´ees non irrigu´ees,
(6) les m´elanges de terres cultiv´ees et de forˆets, (7) les pelouses, (8) les
arbustes, (9) les m´elanges d’arbustes et de pelouses, (10) les savanes, (11)
les forˆets de feuillus, (13) les forˆets denses, (14) les forˆets de conif`eres,
(15) les forˆets m´elang´ees mangroves incluses, (16) les surfaces d’eau, (17)
les v´eg´etations basses en zones inond´ees, (18) les surfaces bois´ees en zones
inond´ees, (21) la toundra bois´ee : (a) USGS ULC24 (M´eso-A), (b) Corine
CLC24 (M´eso-A’). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.14 Niveaux verticaux m´edians (WRF) pour les exp´eriences M´eso-A (croix
bleues) et M´eso-A’ (cercles rouges) : (a) profils lin´eaires en fonction du
niveau de pression (hPa) et (b) profils logarithmiques en fonction de l’altitude
(km). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.15 Profil vertical des 38 niveaux verticaux FLEXPART-WRF. . . . . . . . . . 61
2.16 G´eolocalisation des radiosondages (TRI, BAR, RZT, SXM, PTR, et SDM :
carr´es rouges), des bou´ees du r´eseau NDBC-NOAA (ATL, CAR, POR, et
BAH : cercles bleus) au sein des quatre premiers domaines (D01, D02,
D03, D04) employ´es dans les simulations WRF m´eso-´echelles, de r´esolutions
respectives de 27, 9, 3 et 1 km. . . . . . . . . . . . . . . . . . . . . . 63Liste des Figures xvi
2.17 Carte topographique (IGN, 50 m de r´esolution), avec le mˆat instrument´e
du laboratoire LaRGE (ARN, triangle vert) et les 4 stations M´et´eo-France,
Raizet (RZT, disque rouge), Moule (MOU, ´etoile magenta), D´esirade (DES,
carr´e bleu), Grand-Bourg de Marie-Galante (GBD, losange noir). . . . . . 64
2.18 Description du mˆat instrument´e du laboratoire LaRGE `a ARN (sch´ema
extrait de D’Alexis (2011)), avec, (a) le capteur barom´etrique PTB101B,
(b) la centrale d’acquisition Campbell CR3000, (c) le capteur HR capacitif
(HMP45C) pour l’humidit´e et la temp´erature (2 m AGL), (d) l’an´emom`etre
`a coupelles (2 m AGL), (e) la girouette (2 m AGL), (f) l’an´emom`etre sonique
3D (CSAT3) pour le calcul des flux turbulents (5 m AGL) et (g)
l’an´emom`etre sonique 2D (WindSonic) pour le vent horizontal (10 m AGL). 66
2.19 Carte de localisation de la station Gwad’air PAP (losange violet) et de la
centrale ´electrique EDF (croix rouge) : (a) Topographie (en m AMSL) du
domaine D05 (maille de 333 m) avec l’agglom´eration pointoise (contour
violet), (b) image satellite Google earth de la zone d’´etude (4/8/2013). . . 67
3.1 Carte d’occupation des sols de l’archipel de la Guadeloupe utilis´ee dans la
simulation M´eso-A’, `a 1 km de r´esolution avec les 5 stations (ARN, RZT,
DES, MOU et GBD) : (1) zones urbaines, (2) terres cultiv´ees non irrigu´ees,
(6) terres cultiv´ees–forˆets, (9) arbustes–pelouses, (11) forˆets de feuillus, (15)
forˆets m´elang´ees mangroves incluses, (16) surfaces d’eau et (17) v´eg´etations
basses en zones inond´ees. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2 Comparaison des s´eries temporelles (48 h) `a ARN, avec les observations
(triangles verts), M´eso-A (carr´es bleus)et M´eso-A’ (cercles rouges) : (a1)–
(a3) la temp´erature T2 (en ➦C), (b1)–(b3) la vitesse UU `a 10 m AGL (en
m.s-1), (c1)–(c3) la direction DD `a 10 m AGL (en ➦N) ; (a1)–(c1) pour AS,
(a2)–(c2) pour AM et (a3)–(c3) pour AF. . . . . . . . . . . . . . . . . . . . 93
3.3 Comparaison des s´eries temporelles (48 h) `a MOU, avec les observations
(triangles verts), M´eso-A (carr´es bleus) et M´eso-A’ (cercles rouges) : (a1)–
(a3) la temp´erature T2 (en ➦C), (b1)–(b3) la vitesse UU `a 10 m AGL (en
m.s-1), (c1)–(c3) la direction DD `a 10 m AGL (en ➦N) ; (a1)–(c1) pour AS,
(a2)–(c2) pour AM et (a3)–(c3) pour AF. . . . . . . . . . . . . . . . . . . . 95
3.4 Comparaison du vent `a 10 m AGL (M´eso-A’–M´eso-A), avec la direction
du vent pour M´eso-A’ (fl`eches rouges), la direction du vent pour M´esoA
(fl`eches noires), la diff´erence de vitesse du vent, UUA0 − UUA en m.s-1
(contours de couleur), la ligne de cˆote pour M´eso-A’ (ligne noire), la ligne
de cˆote pour M´eso-A (ligne magenta) : (a) le 14/12/2007 `a 14 h LT,(b) le
15/12/2007 `a 04 h LT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.5 Comparaison du vent `a 10 m AGL (M´eso-A’–M´eso-A), avec la direction
du vent pour M´eso-A’ (fl`eches rouges), la direction du vent pour M´esoA
(fl`eches noires), la diff´erence de vitesse du vent, UUA0 − UUA en m.s-1
(contours de couleur), la ligne de cˆote pour M´eso-A’ (ligne noire), la ligne
de cˆote pour M´eso-A (ligne magenta) : (a) le 24/12/2007 `a 14 h LT, (b) le
25/12/2007 `a 04 h LT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96Liste des Figures xvii
3.6 Comparaison du vent `a 10 m AGL (M´eso-A’–M´eso-A), avec la direction
du vent pour M´eso-A’ (fl`eches rouges), la direction du vent pour M´esoA
(fl`eches noires), la diff´erence de vitesse du vent, UUA0 − UUA en m.s-1
(contours de couleur), la ligne de cˆote pour M´eso-A’ (ligne noire), la ligne
de cˆote pour M´eso-A (ligne magenta) : (a) le 3/12/2007 `a 14 h LT, (b) le
4/12/2007 `a 04 h LT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.7 Comparaison M´eso-A’–M´eso-A pour le cas des AS, le 14/12/2007 `a 14 h LT
(a) et le 15/12/2007 `a 04 h LT (b) : la diff´erence de flux de chaleur sensible
HF XA0 − HF XA en W.m-2 (a1, b1) et la diff´erence de temp´erature de
surface T sA0 − T sA en ➦C (a2, b2). . . . . . . . . . . . . . . . . . . . . . . 98
3.8 Comparaison M´eso-A’–M´eso-A pour le cas des AF, le 24/12/2007 `a 14 h LT
(a) et le 25/12/2007 `a 04 h LT (b) : la diff´erence de flux de chaleur sensible
HF XA0 − HF XA en W.m-2 (a1, b1) et la diff´erence de temp´erature de
surface T sA0 − T sA en ➦C (a2, b2). . . . . . . . . . . . . . . . . . . . . . . 99
3.9 Comparaison M´eso-A’–M´eso-A pour le cas des AF, le 3/12/2007 `a 14 h LT
(a) et le 4/12/2007 `a 04 h LT (b) : la diff´erence de flux de chaleur sensible
HF XA0 − HF XA en W.m-2 (a1, b1) et la diff´erence de temp´erature de
surface T sA0 − T sA en ➦C (a2, b2). . . . . . . . . . . . . . . . . . . . . . . 100
3.10 S´eries temporelles 10 min `a ARN durant les 48 h de la simulation des AF
(3/12/2007–5/12/2007), avec les sorties du domaine D05 (333 m de r´esolution)
en bleu, les sorties du domaines D06 (111 m de r´esolution) en
rouge et les donn´ees observ´ees en noir ; (a), (b), (c), (d) et (e) repr´esentant
respectivement les variables, temp´erature de l’air `a 2 m AGL T2 (➦C),
vitesse du vent horizontal UU `a 10 m AGL (m.s-1), direction du vent DD `a
10 m AGL (➦N), flux de chaleur sensible HFX (W.m-2) et ´energie cin´etique
turbulente de surface TKE (en noir, l’´energie cin´etique turbulente totale
observ´ee, et
, en rouge et en bleu, l’´energie cin´etique turbulente sous-maille
simul´ee, es
, m2
.s-2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.11 Cartes des champs de vent (10 m AGL) du domaine D05, durant la nuit
du 3 au 4 d´ecembre 2007 : (a) 19 h LT, (b) 22 h LT, (c) 04 h LT et (d)
09 h LT ; avec la vitesse du vent horizontal en m.s-1, VER (cercle magenta),
ARN (triangle vert), EDF (carr´e blanc) et PAP (losange violet). . . . . . . 108
3.12 S´eries temporelles WRF-LES (10 min) durant la p´eriode du 3/12/2007
12 h LT au 4/12/2007 12 h LT, avec VER (D05) en noir, ARN (D06) en vert,
EDF (D06) en rouge et PAP (D06) en bleu ; (a), (b), (c) et (d) repr´esentent
respectivement les variables, flux de chaleur sensible HFX (W.m-2), temp´erature
de l’air `a 2 m AGL T2 (➦C), vitesse du vent horizontal UU `a
10 m AGL (m.s-1) et direction du vent DD `a 10 m AGL (➦N). . . . . . . . 110
3.13 Cartes des variables de surface simul´ees le 3/12/2007 `a 22 h LT : (a) vitesse
du vent horizontal UU `a 60 m AGL (m.s-1), (b) vitesse du vent vertical
`a 60 m AGL (m.s-1), (c) ´energie cin´etique turbulente sous-maille es
`a 60 m AGL (m2
.s-2) et (d) flux de chaleur sensible HFX (W.m-2) ; avec
ARN, EDF et PAP, respectivement repr´esent´es par le triangle vert, le carr´e
blanc et le losange violet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111Liste des Figures xviii
3.14 Cartes des variables de surface simul´ees le 4/12/2007 `a 04 h LT : (a) vitesse
du vent horizontal UU `a 60 m AGL (m.s-1), (b) vitesse du vent vertical
`a 60 m AGL (m.s-1), (c) ´energie cin´etique turbulente sous-maille es
`a 60 m AGL (m2
.s-2) et (d) flux de chaleur sensible HFX (W.m-2) ; avec
ARN, EDF et PAP, respectivement repr´esent´es par le triangle vert, le carr´e
blanc et le losange violet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.15 Coupe verticale suivant la latitude de la station ARN (16.223➦N) le 3
d´ecembre 2007 `a 19 h LT : (a) la masse volumique ρ (kg.m-3), (b) la temp´erature
virtuelle Tv (K). . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.16 Coupe verticale suivant la latitude de la station ARN (16.223➦N) le 3
d´ecembre 2007 `a 22 h LT : (a) la vitesse du vent suivant les composantes
x et z (m.s-1), (b) l’´energie cin´etique turbulente sous-maille es (m2
.s-2). . . 113
3.17 Coupe verticale suivant la latitude de la station ARN (16.223➦N) le 4
d´ecembre 2007 `a 04 h LT : (a) la vitesse du vent suivant les composantes
x et z (m.s-1), (b) l’´energie cin´etique turbulente sous-maille es (m2
.s-2). . . 114
3.18 Profil vertical spatio-temporel logarithmique de l’´energie cin´etique turbulente
sous-maille es (m2
.s-2) simul´ee `a ARN : la valeur des contours d’es est
limit´ee `a 0.2 m2
.s-2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
3.19 Cartes du vent (m.s-1) et des concentrations de NOx (µg.m-3) simul´es `a
10 m AGL durant les AS le 14 d´ecembre `a 16 h LT (a1),(a2) et le 15
d´ecembre `a 07 h LT (b1),(b2) `a l’aide de FLEXPART ; les points ARN,
EDF et PAP sont respectivement repr´esent´es par un triangle blanc, un
carr´e blanc et un losange blanc. . . . . . . . . . . . . . . . . . . . . . . . . 117
3.20 Comparaison du vent (m.s-1) et des concentrations de NOx (µg.m-3) observ´ees
et simul´ees sur le site de la station PAP durant les AS entre le 14
et le 15 d´ecembre 2007 : NO Obs. (ligne noire), NO2 Obs. (ligne bleue),
NO+NO2 Obs. (ligne verte) et NOx Flexpart `a 10 m AGL (ligne rouge). . 118
3.21 Cartes du vent (m.s-1) et des concentrations de NOx (µg.m-3) simul´es `a
10 m AGL durant les AM le 24 d´ecembre `a 16 h LT (a1),(a2) et le 25
d´ecembre `a 07 h LT (b1),(b2) `a l’aide de FLEXPART ; les points ARN,
EDF et PAP sont respectivement repr´esent´es par un triangle blanc, un
carr´e blanc et un losange blanc. . . . . . . . . . . . . . . . . . . . . . . . . 119
3.22 Comparaison des concentrations de NOx (µg.m-3) observ´ees et simul´ees sur
le site de la station PAP durant les AM entre le 24 et le 25 d´ecembre 2007 :
NO Obs. (ligne noire), NO2 Obs. (ligne bleue), NO+NO2 Obs. (ligne verte)
et NOx Flexpart `a 10 m AGL (ligne rouge). . . . . . . . . . . . . . . . . . 119
3.23 Cartes du vent (m.s-1) et des concentrations de NOx (µg.m-3) simul´es `a
10 m AGL durant les AF le 3 d´ecembre `a 16 h LT (a1),(a2) et le 4 d´ecembre
`a 07 h LT (b1),(b2) `a l’aide de FLEXPART ; les points ARN, EDF et PAP
sont respectivement repr´esent´es par un triangle blanc, un carr´e blanc et un
losange blanc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
3.24 Comparaison des concentrations de NOx (µg.m-3) observ´ees et simul´ees sur
le site de la station PAP durant les AF entre le 3 et le 4 d´ecembre 2007 :
NO Obs. (ligne noire), NO2 Obs. (ligne bleue), NO+NO2 Obs. (ligne verte)
et NOx Flexpart `a 10 m AGL (ligne rouge). . . . . . . . . . . . . . . . . . 121Liste des Figures xix
3.25 Profils spatio-temporels logarithmiques de la concentration de NOx (µg.m-3)
simul´ee durant les AF entre le 3 et le 4 d´ecembre 2007 : (a) site de la centrale
EDF, (b) site de la station de la qualit´e de l’air PAP. . . . . . . . . . . . . 123Liste des Tableaux
2.1 Equivalences entre les 50 classes de la Corine Land Cover 2006 DOM et les ´
24 classes de l’USGS AVHRR 1992 (Pineda et al., 2004). . . . . . . . . . . 50
2.2 Configuration des six domaines de simulation. . . . . . . . . . . . . . . . . 52
2.3 Pas de temps de calcul pour les six domaines de simulation. . . . . . . . . 55
2.4 Conditions aux limites des simulations WRF pour les six domaines ´etudi´es. 56
2.5 Variables des sorties WRF requises et optionnelles pour le for¸cage du mod`ele
FLEXPART-WRF (Brioude et al., 2013). . . . . . . . . . . . . . . . . . . . 58
3.1 Comparaison des occupations des sols utilis´ees dans les simulations M´eso-A
et M´eso-A’ pour les 5 stations (1 km de r´esolution). . . . . . . . . . . . . . 90
3.2 Evaluation statistique des variables de surface simul´ees : comparaison M´eso- ´
A et M´eso-A’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.3 Evaluation statistique des variables de surface simul´ees (10 min) par rap- ´
port aux observations ARN. . . . . . . . . . . . . . . . . . . . . . . . . . . 105
xxListe des abr´eviations
Nombres sans dimension
Fr Nombre de Froude local, d´efini par U/Nhm, avec U la vitesse du vent [m.s-1], N la
flottabilit´e [s-2] et hm la hauteur de l’obstacle [m]
Pr Nombre de Prandtl, d´efini par µCp/λ, avec µ la viscosit´e dynamique [kg.m-1.s-1],
Cp la capacit´e thermique massique [J.kg-1.K-1] et λ la conductivit´e thermique
[W.m-1.K-1]
Re Nombre de Reynolds, d´efini par V L/ν, avec V la vitesse caract´eristique du fluide
[m.s-1], L la dimension caract´eristique [m] et ν la viscosit´e cin´ematique du fluide
[m2
.s-1]
Variables
DD Direction du vent horizontal [➦N]
er Energie cin´etique turbulente r´esolue [m ´ 2
.s-2]
es Energie cin´etique turbulente sous-maille [m ´ 2
.s-2]
et Energie cin´etique turbulente totale, e ´
t = er + es
[m2
.s-2]
GFX Flux de chaleur du sol, de l’anglais : Ground Heat Flux [W.m-2]
HCLA Hauteur de la couche limite atmosph´erique [m]
HFX Flux de chaleur sensible, de l’anglais : Heat Flux [W.m-2]
LH Flux de chaleur latente, de l’anglais : Latent Heat [W.m-2]
LW Rayonnement des ondes longues re¸cu au sol, de l’anglais : Long Wave [W.m-2]
PMER Pression au niveau de la mer [hPa]
QVAP Rapport de m´elange de vapeur d’eau [g.kg-1]
SW Rayonnement des ondes courtes re¸cu au sol, de l’anglais : Short Wave [W.m-2]
xxiListe des Abr´eviations xxii
T2 Temp´erature de l’air `a 2 m AGL [➦C]
TKE Energie cin´etique turbulente, de l’anglais : Turbulent Kinetic Energy [m ´ 2
.s-2]
Ts Temp´erature de la surface du sol ou de la mer [➦C]
UU Vitesse du vent horizontal [m.s-1]
Stations d’observation
ARN Mˆat m´et´eorologique LaRGE de la zone d’Arnouville, Petit-Bourg, Guadeloupe
ATL Bou´ee m´et´eorologique du National Data Buoy Center (ID 41040, 14,516➦N, 53,024➦W)
BAH Bou´ee m´et´eorologique du National Data Buoy Center (ID 41046, 23,838➦N, 68,333➦W)
BAR Station m´et´eorologique de la Barbade (ID 78954)
CAR Bou´ee m´et´eorologique du National Data Buoy Center (ID 42059, 14,058➦N, 67,528➦W)
DES Station m´et´eorologique M´et´eo France de la D´esirade, Guadeloupe
GBD Station m´et´eorologique M´et´eo France de Grand-Bourg, Marie-Galante, Guadeloupe
MOU Station m´et´eorologique M´et´eo France du Moule, Guadeloupe
PAP Station de qualit´e de l’air Gwad’air du centre-ville de Pointe-`a-Pitre, Guadeloupe
POR Bou´ee m´et´eorologique du National Data Buoy Center (ID 41043, 21,061➦N, 64,966➦W)
PTR Station m´et´eorologique de Porto Rico (ID 78526)
RZT Station m´et´eorologique M´et´eo France du Raizet, Guadeloupe (ID 78897)
SDM Station m´et´eorologique de la R´epublique Dominicaine (ID 78486)
SXM Station m´et´eorologique de Saint Martin (ID 78866)
TRI Station m´et´eorologique de Trinidad (ID 78970)
Stations num´eriques WRF
EDF Station num´erique WRF `a la position de la centrale ´electrique EDF de Jarry,
Guadeloupe
PCM Station num´erique WRF de la zone du Petit Cul-de-Sac Marin, Guadeloupe
VER Station num´erique WRF de la zone de Vernou, Petit-Bourg, Guadeloupe
Domaines de simulation
D01 Domaine 1 de la descente d’´echelle avec une r´esolution de 27 km (m´eso-´echelle)Liste des Abr´eviations xxiii
D02 Domaine 2 de la descente d’´echelle avec une r´esolution de 9 km (m´eso-´echelle)
D03 Domaine 3 de la descente d’´echelle avec une r´esolution de 3 km (m´eso-´echelle)
D04 Domaine 4 de la descente d’´echelle avec une r´esolution d’1 km (m´eso-´echelle)
D05 Domaine 5 de la descente d’´echelle avec une r´esolution de 333 m (micro-´echelle)
D06 Domaine 6 de la descente d’´echelle avec une r´esolution de 111 m (micro-´echelle)
Divers
2D Etude en deux dimensions ´
3D Etude en trois dimensions ´
AF Aliz´es Faibles (avec une vitesse de 3 m.s-1 et un nombre de Froude, Frm = 0, 21)
AGL Au-dessus du sol, de l’anglais : Above Ground Level
AM Aliz´es Moyens (avec une vitesse de 6 m.s-1 et un nombre de Froude, Frm = 0, 41)
AMSL Au-dessus du niveau moyen de la mer, de l’anglais : Above Mean Sea Level
ARW Coeur dynamique Advanced Research du mod`ele WRF
AS Aliz´es Soutenus (avec une vitesse de 12 m.s-1 et un nombre de Froude, Frm = 0, 82)
CLA Couche Limite Atmosph´erique compos´ee de la CLS et de la CLP (du bas vers le
haut)
CLC24 Carte d’occupation des sols Corine Land Cover (2006) convertie aux 24 cat´egories
d´efinies par l’USGS
CLP Couche Limite Plan´etaire, partie haute de la CLA (≈ entre le sommet de la CLS
et la HCLA)
CLS Couche Limite de Surface, partie basse de la CLA (≈ entre 0 et 150 m AGL)
e.g. Par exemple, du latin : exempli gratia
Eq. Equation ´
Fig. Figure
FNL Mod`ele d’analyse m´et´eorologique globale, NCEP FNL (Final) Operational Global
Analysis
GFS Global Forecast System, mod`ele de pr´evision num´erique du temps `a l’´echelle globale
GRIB GRIdded Binary, format binaire utilis´e pour le stockage des donn´ees m´et´eorologiques,
format d´efini par la World Meteorological OrganizationListe des Abr´eviations xxiv
i.e. C’est-`a-dire, du latin : id est
IGN Institut National de l’Information G´eographique et Foresti`ere
IOA Indice d’ad´equation du mod`ele qui varie avec l’erreur quadratique moyenne, de
l’anglais : Index Of Agreement
IOA2 Indice d’ad´equation du mod`ele qui varie avec l’erreur moyenne absolue, de l’anglais :
Index Of Agreement 2
LaRGE Laboratoire de Recherche en G´eosciences et Energies, Universit´e des Antilles et ´
de la Guyane
LES Simulation aux grandes ´echelles, de l’anglais : Large Eddy Simulation
LT Temps local, de l’anglais : Local Time ; en Guadeloupe l’heure LT correspond `a
l’heure UTC−4
MAE Erreur moyenne absolue, de l’anglais : Mean Absolute Error
MBE Erreur du biais moyen, de l’anglais : Mean Bias Error
MSL Mean Sea Level (niveau moyen de la mer)
MYJ Sch´ema de turbulence 1D Mellor-Yamada-Janji´c
M´eso-A Simulation m´eso-´echelle utilisant la carte d’occupation des sols ULC24 dans le
domaine D04
M´eso-A’ Simulation m´eso-´echelle utilisant la carte d’occupation des sols CLC24 dans le
domaine D04
NCAR National Center for Atmospheric Research (institut am´ericain de recherche sur
l’atmosph`ere)
Obs. Donn´ees observ´ees
RMSE Erreur quadratique moyenne, de l’anglais : Root-Mean-Square Error
Tab. Tableau
ULC24 Carte d’occupation des sols USGS global land cover avec 24 cat´egories (1992)
USGS Institut d’´etudes g´eologiques des Etats-Unis, de l’anglais : United States Geological ´
Survey
UTC Temps universel coordonn´e, de l’anglais : Universal Time Coordinated ; en Guadeloupe
l’heure UTC correspond `a l’heure LT+4Liste des Abr´eviations xxv
WRF Mod`ele m´et´eorologique Weather Research and Forecasting
YSU Sch´ema de turbulence 1D Yonsei University
ZCIT Zone de Convergence IntertropicaleA la r´evolution mondiale du prol´etariat `
xxviIntroduction
Motivations et objectifs de la th`ese
La litt´erature a montr´e qu’en fonction de leur taille et de leur relief, les ˆıles tropicales sont
capables de g´en´erer leurs propres circulations dans les basses couches atmosph´eriques
(Br´evignon, 2003; Carlis et al., 2010; C´ec´e et al., 2014; D’Alexis, 2011; D’Alexis et al.,
2011; Feng and Chen, 1998; Jury et al., 2009; Lef`evre et al., 2010; Lesou¨ef et al., 2011;
Mahrer and Pielke, 1976; Malkus, 1955; Matthews et al., 2007; Minder et al., 2013;
Nguyen et al., 2010; Oliphant et al., 2001; Plocoste, 2013; Plocoste et al., 2014; Reisner
and Smolarkiewicz, 1994; Savij¨arvi and Matthews, 2004; Smith et al., 1997; Smith
and Grubiac, 1993; Smith et al., 2012; Souza, 1972; Whitehall et al., 2013; Yang and
Chen, 2005). Le contexte tropical insulaire, avec une forte irradiation solaire et des ˆıles
montagneuses, est propice `a de nombreux ph´enom`enes m´et´eorologiques locaux tels que les
vents catabatiques–anabatiques en zone montagneuse, les brises de mer-terre sur la cˆote,
la convection thermique-orographique ´evoluant en orages, les effets du relief sur des vents
cycloniques...
Ces ph´enom`enes se produisent aux ´echelles sub-kilom´etriques, infra-journali`eres, voir infrahoraires.
Ils engendrent des changements brusques qui peuvent g´en´erer des rafales de vent
localis´ees, des pr´ecipitations extrˆemes, des ´episodes de pollution atmosph´erique dans les
basses couches, ou des perturbations de l’´etat de la mer.
Il est donc essentiel d’am´eliorer les connaissances `a ces ´echelles fines, pour r´eduire les
risques sur la sant´e, les biens et les personnes. L’application de la mod´elisation de l’atmosph`ere
`a la micro-´echelle (inf´erieure au km, infra-horaire) b´en´eficierait aussi `a la recherche
sur la pr´ediction des ´energies renouvelables fluctuantes, comme l’´eolien ou le
solaire.
La bibliographie traitant des circulations locales g´en´er´ees par l’archipel de la Guadeloupe
est tr`es peu document´ee. Br´evignon (2003) a d´ecrit une cartographie grossi`ere des
r´egimes de vents locaux. D’apr`es Br´evignon (2003), il n’y aurait pas de retournement du
1Introduction 2
vent jour–nuit mais une simple variation dans la direction du vent. Il a estim´e que les
brises thermiques seraient principalement observ´ees le long de la cˆote sous le vent de la
Basse-Terre.
Pourtant, durant des aliz´es faibles `a mod´er´es, ces retournements nocturnes du vent des
basses couches ont ´et´e observ´es : sur la cˆote au vent de la Grande-Terre (Br´evignon,
2003), sur la cˆote au vent de la Basse-Terre (D’Alexis, 2011; D’Alexis et al., 2011) et sur
la cˆote sous le vent de la Grande-Terre (Plocoste, 2013; Plocoste et al., 2014). Dans le
premier cas, il s’agirait d’une brise de terre (Br´evignon, 2003). L’environnement cˆotier
et orographique du deuxi`eme cas sugg´ererait un ´ecoulement catabatique et/ou une brise
de terre (D’Alexis, 2011; D’Alexis et al., 2011). Enfin Plocoste et al. (2014) ont d´efini
la circulation nocturne d’ouest comme une brise urbaine induite par un ˆılot de chaleur
urbain dans l’agglom´eration pointoise. D’apr`es nous, l’origine purement urbaine de cet
´ecoulement serait discutable. Les mesures exp´erimentales de D’Alexis et al. (2011) effectu´ees
dans les mˆemes conditions m´et´eorologiques sur la cˆote au vent de la Basse-Terre
( station ARN), sugg´ereraient que l’´ecoulement d’ouest observ´e dans les travaux de Plocoste
et al. (2014) soit g´en´er´e, en amont, sur la cˆote au vent de la Basse-Terre avec une
extension vers la Grande-Terre. Les observations du panache de la centrale EDF de Jarry
(Fig. 1.7, 1.8, 1.9) confirmeraient cette extension de l’´ecoulement vers la cˆote ouest de la
Grande-Terre.
Cet ´ecoulement local nocturne d’ouest, soufflant en direction de la partie la plus peupl´ee
de l’archipel en passant par la zone industrielle de Jarry (o`u l’on trouve de nombreuses
sources d’´emissions de polluants), n´ecessite une analyse 3D de sa structure et de ses
m´ecanismes de formation.
Quels sont les effets pr´edominants `a prendre en compte, selon les conditions m´et´eorologiques,
pour comprendre ce cycle particulier du vent ? Quels sont les ordres de grandeur
(extensions verticale et horizontale, direction et intensit´e) pour les variations observ´ees ?
Quelles sont les influences de l’occupation des sols et de la zone maritime ? Quel est le
rˆole du flux de chaleur sensible dans les cycles diurnes observ´es ?
Actuellement, le mod`ele num´erique de pr´evision du temps, employ´e par M´et´eo-France en
Guadeloupe et en Martinique, a une r´esolution limit´ee `a 8 km (mod`ele Aladin). Cette
´echelle ne correspond pas aux ph´enom`enes m´et´eorologiques locaux qui apparaissent sur
ces petites ˆıles de l’Arc antillais.
Depuis une d´ecennie, le d´eveloppement des moyens de calcul a permis la mise en place de
mod`eles num´eriques de pr´evision du temps `a l’´echelle r´egionale. D’autres mod`eles m´et´eorologiques,
comme le mod`ele Weather Research and Forecasting WRF (Skamarock et al.,
2008), ont montr´e leur efficacit´e `a pr´edire les conditions atmosph´eriques m´eso-´echelles `aIntroduction 3
partir des donn´ees synoptiques des mod`eles globaux (Carlis et al., 2010; C´ec´e et al., 2014;
Jury et al., 2009; Lef`evre et al., 2010; Nguyen et al., 2010; Seaman et al., 2012; Yang and
Chen, 2005). Ce mod`ele est capable d’effectuer la descente d’´echelle depuis la m´eso-´echelle
(sch´ema d’ensemble de couche limite plan´etaire 1D) vers la micro-´echelle (Large Eddy Simulation,
LES 3D). C’est un axe de recherche r´ecent qu’on se propose d’appliquer `a notre
sujet d’´etude. Cette ´etude viendra compl´eter les validations de ce type de couplage entre
ces deux sch´emas de mod´elisation de la turbulence.
Ce m´emoire de th`ese constitue donc la premi`ere ´etude de mod´elisation num´erique `a haute
r´esolution de l’atmosph`ere dans les petites ˆıles montagneuses de l’archipel de la Guadeloupe
(avec des mailles m´eso-´echelles de 3 km et 1 km et des mailles micro-´echelles de
333 m et 111 m). Le mod`ele m´et´eorologique WRF ARW V3.4.1 (Skamarock et al., 2008)
ainsi que son module WRF-LES (micro-´echelle) ont ´et´e utilis´es pour simuler trois situations
m´et´eorologiques r´eelles de 48 heures, associ´ees `a des aliz´es faibles (AF), des aliz´es
moyens (AM), et des aliz´es forts (AS). Ces situations correspondent respectivement aux
valeurs du nombre de Froude local ´egales `a 0,21, 0,41 et 0,82 (Fr est d´efini par U/Nhm
avec des vitesses de vent horizontal U = 3, 6, 12 m.s-1, une flottabilit´e N de 0,01 s-1 et la
hauteur de la Soufri`ere hm = 1460 m).
Les travaux pr´esent´es ont pour principal objectif la simulation num´erique et l’analyse des
m´ecanismes m´eso- et micro-´echelles qui induisent des circulations locales diurnes et nocturnes
sur les ˆıles de la Guadeloupe et plus principalement dans la zone la plus peupl´ee
de l’archipel (l’agglom´eration pointoise situ´ee au centre de l’archipel autour du Petit Culde-Sac
Marin). A l’heure actuelle, o`u la mod´elisation de la descente d’´echelle depuis les `
sch´emas de moyenne d’ensemble (m´eso-´echelle) vers les sch´emas LES (micro-´echelle) reste
peu document´ee, notre ´etude permettra d’am´eliorer les connaissances sur cette imbrication.
Les observations de circulations nocturnes, apparaissant dans l’agglom´eration pointoise
et la zone industrielle de l’archipel, peuvent g´en´erer des pics de pollution, li´es aux sources
industrielles comme la production d’´electricit´e. Pour tenter d’´evaluer et de pr´evenir les
risques de pollution associ´es au passage de cette circulation, une analyse plus fine en temps
et en espace, est n´ecessaire. Cette analyse a pu ˆetre r´ealis´ee grˆace au couplage du mod`ele
lagrangien de dispersion de particules FLEXPART(Brioude et al., 2013) avec les sorties
WRF-LES. Les simulations micro-´echelles de la dispersion d’un panache de NOx seront
analys´ees.
Le for¸cage du mod`ele FLEXPART avec des sorties micro-´echelles WRF-LES (avec des
r´esolutions spatiales de 333 m et 111 m) toutes les 10 minutes permettra d’´evaluer laIntroduction 4
capacit´e de ce dernier `a repr´esenter la dispersion de polluants dans des ´ecoulements turbulents.
Ces premiers r´esultats de dispersion du panache de polluants issus de la zone
industrielle de Jarry pourraient aider `a l’´elaboration de plans de pr´evention de la pollution
atmosph´erique. L’ensemble des champs simul´es WRF, WRF-LES et WRF-LESFLEXPART
contribueront aussi `a combler le manque de donn´ees d’observation et de
mod´elisation (mod`ele Aladin de M´et´eo-France avec une maille de 8 km) locales sur l’archipel
de la Guadeloupe dans le domaine de la m´et´eorologie et de la pollution. Cette
´etude pourra ˆetre g´en´eralis´ee et appliqu´ee `a des environnements proches car l’Arc des Petites
Antilles est compos´e d’un ensemble d’ˆıles dont les tailles, les reliefs et les situations
m´et´eorologiques synoptiques sont similaires `a ceux retrouv´es en Guadeloupe.
Organisation du rapport
Nous pr´esenterons dans le chapitre 1, une synth`ese bibliographique des connaissances dans
le domaine de la mod´elisation des circulations atmosph´eriques, ainsi que l’´etat de l’art sur
des ´etudes exp´erimentales traitant des circulations particuli`eres d´ej`a observ´ees sur l’archipel
de la Guadeloupe.
La section 2.1 est consacr´e `a la description de la m´ethodologie et des principaux outils
employ´es. Les configurations du mod`ele m´et´eorologique r´egional WRF ARW et du mod`ele
lagrangien de dispersion de particules FLEXPART-WRF sont pr´esent´ees respectivement
dans les sections 2.3 et 2.4. Nous d´ecrivons les donn´ees d’observation disponibles pour
l’´evaluation des champs m´et´eorologiques simul´es et des sorties de concentration de polluants
dans les sections respectives, 2.5 et 2.6. La section 2.7 pr´esente les formulations des
estimateurs d’erreur statistiques.
Les r´esultats des simulations num´eriques m´eso-´echelles WRF (avec 4 domaines de r´esolutions
respectives 27, 9, 3 et 1 km), micro-´echelles WRF-LES (avec 2 domaines de r´esolutions
respectives 333 et 111 m) et de la dispersion de polluants WRF-LES-FLEXPART
(mˆemes domaines que WRF-LES) sont d´ecrits et discut´es dans le chapitre 3. La publication
traitant des sorties num´eriques de l’exp´erience M´eso-A (avec la carte d’occupation
des sols de la Guadeloupe USGS AVHRR 1992), est incluse dans la section 3.1.1. La section
3.1.2 pr´esente les effets de la carte d’occupation des sols Corine Land Cover 2006 sur
les circulations locales g´en´er´ees par l’archipel (exp´erience M´eso-A’). Dans la section 3.2,
nous analysons les circulations micro-´echelles WRF-LES, simul´ees `a partir du for¸cage des
sorties M´eso-A’ (1 km de r´esolution). Les simulations micro-´echelles de la dispersion duIntroduction 5
panache de la centrale EDF de Jarry (WRF-LES-FLEXPART) sont examin´ees `a la section
3.3.
Enfin dans la partie Conclusion et perspectives, nous r´esumons les principaux r´esultats et
enseignements de ces travaux, et nous pr´esentons leurs perspectives futures.Chapitre 1
Circulations atmosph´eriques dans les
basses couches et leurs effets : ´etude
bibliographique
1.1 Echelles des circulations atmosph´eriques ´
Comme d´ecrit par Malardel (2009) dans son livre de r´ef´erence Fondamentaux de M´et´eorologie,
l’atmosph`ere subit plusieurs types d’excitations ext´erieures comme les variations
cycliques du rayonnement solaire durant l’ann´ee, ou des excitations plus irr´eguli`eres et
complexes comme les interactions avec la surface terrestre ou oc´eanique. Il en r´esulte une
forte variabilit´e spatio-temporelle de l’´etat du fluide atmosph´erique. Dans l’atmosph`ere
excit´ee, des circulations se mettent en place et permettent un retour `a l’´equilibre. Ces
circulations pr´esentent un large champ d’´echelles spatiales et temporelles : du millim`etre
`a la taille de la plan`ete, et de la seconde `a plusieurs ann´ees (Malardel, 2009). D’apr`es Stull
(2000), les ´echelles de temps de la plupart des ph´enom`enes sont approximativement proportionnelles
aux ´echelles horizontales avec un coefficient proche d’1 s.m-1. Par exemple,
dans la couche limite atmosph´erique, les vents thermiques d’1 km de diam`etre ont une
dur´ee de circulation de 15 min. Les cellules orageuses qui ont une taille de 10 km peuvent
durer une demi-journ´ee tandis que les perturbations cycloniques de l’ordre de 1000 km
ont des dur´ees de vie allant de quelques jours `a quelques semaines (Stull, 2000).
Stull (1988) a propos´e une classification des ph´enom`enes atmosph´eriques en fonction de
leur ´echelle spatio-temporelle (Fig. 1.1). Les ´echelles (larges) plan´etaires et synoptiques ne
sont pas d´ecrites dans ce sch´ema. L’´echelle plan´etaire est caract´eris´ee par une dimension
6Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 7
Figure 1.1: Classification des ph´enom`enes atmosph´eriques en fonction de leur ´echelle
spatio-temporelle (Orlanski, 1975; Stull, 1988).
spatiale de l’ordre de grandeur de 10.000 km (la circonf´erence de la Terre repr´esentant
4 fois cette valeur) et une dimension temporelle allant de plusieurs semaines `a plusieurs
ann´ees. Les ph´enom`enes d’´echelle plan´etaire sont associ´es aux climats et incluent les circulations
li´ees aux ondes de Rossby, `a l’ENSO (” El Ni˜no-Southern Oscillation ”), ou les
circulations d’Hadley.
L’´echelle synoptique a une dimension spatiale d’un millier de kilom`etres et une dimension
temporelle de plusieurs jours. Elle correspond aux circulations g´en´er´ees par l’intensit´e et
la position des centres anticycloniques et d´epressionnaires (comme les aliz´es).
La m´eso-´echelle s’´etend sur un espace horizontal allant de 200 km `a plusieurs centaines de
m`etres et un espace temporel allant de quelques jours `a la demi-heure (Fig. 1.1). Plusieurs
sous-´echelles sont d´efinies dans la m´eso-´echelle : la m´eso-α (les cyclones et les fronts), la
m´eso-γ (les jets de basses couches, les amas de nuages), la m´eso-δ (les orages, les effets
urbains) et la micro-α (les couches limites atmosph´eriques, les nuages cumuliformes).
Les ph´enom`enes comme la turbulence, avec des ´echelles spatiales inf´erieures `a 3 km et des
´echelles de temps inf´erieures `a l’heure, sont class´es dans la micro-´echelle. La m´eso-´echelle et
la micro-´echelle semblent confondues dans les sous-´echelles : m´eso-δ et micro-α (Fig. 1.1).
Cette zone d’imbrication inclut les ´ecoulements locaux de la couche limite atmosph´erique
(comme les brises de terre–mer et les ´ecoulements catabatiques–anabatiques). Les ´etudes
de pollution atmosph´erique comme la dispersion de panaches de polluants s’appliquent
aussi dans le domaine de la micro-´echelle.
L’ensemble des ph´enom`enes m´et´eorologiques sont bien class´es dans des ´echelles d’espace
et de temps, leur mod´elisation est donc simplifi´ee.Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 8
1.2 M´eso-´echelle et micro-´echelle : circulations locales
de couche limite atmosph´erique
Dans cette partie, la description des ph´enom`enes de couche limite atmosph´erique, se
produisant `a la m´eso- et `a la micro-´echelle, est bas´ee sur les d´efinitions de Stull (1988).
1.2.1 Couche limite atmosph´erique (CLA)
1.2.1.1 D´efinition
La troposph`ere est la r´egion dense et habitable de l’atmosph`ere (elle regroupe 80% de
sa masse totale). La troposph`ere s’´etend du sol jusqu’`a une altitude moyenne de 11 km,
cependant seuls les premiers kilom`etres sont en g´en´eral modifi´es par les ph´enom`enes se
produisant `a la surface de la Terre. Stull (1988) a d´efini la couche limite atmosph´erique
(CLA) comme la partie de la troposph`ere qui est directement influenc´ee par la pr´esence
de la surface de la Terre avec un temps de r´eponse inf´erieur ou ´egal `a l’heure. Les for¸cages
incluent la friction, l’´evapo-transpiration, le bilan radiatif, la topographie. La hauteur de
la CLA varie en fonction des variables spatio-temporelles, avec des valeurs comprises entre
quelques centaines de m`etres `a quelques kilom`etres. Les variations diurnes de la temp´erature
de la CLA sont dues aux processus de transports, induits par le r´echauffement et le
refroidissement du sol (rayonnement solaire). La turbulence est un processus de transport
majeur.
1.2.1.2 Structure de la CLA associ´ee au cycle diurne
Stull (1988) a ´etudi´e l’´evolution diurne de la structure de la CLA terrestre dans des r´egions
anticycloniques (Fig. 1.2). La CLA passe par trois ´etats principaux : la couche m´elang´ee,
la couche r´esiduelle et la couche limite stable. La couche m´elang´ee peut ˆetre divis´ee en
couche nuageuse et une couche sous-nuageuse. La partie basse de la CLA, la couche de
surface, est d´efinie comme une couche de flux 1
constants donc avec des flux turbulents
relativement uniformes sur l’axe vertical. Une zone d’entrainement fortement stable, de
turbulence intermittente, s´epare la couche m´elang´ee de l’atmosph`ere libre. Durant la nuit,
cette zone d’entrainement laisse place `a une couche d’inversion non turbulente (aussi
appel´ee “capping”, Fig. 1.2).
1. Transport de mati`ere ou d’´energie `a travers une surfaceChapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 9
Figure 1.2: Evolution temporelle de la structure verticale de la couche limite ´
atmosph´erique terrestre dans des r´egions anticycloniques (Stull, 1988).
Couche de m´elange
La couche de m´elange se d´eveloppe durant la journ´ee avec une hauteur maximale atteinte
avant midi (Fig. 1.2). Dans cette couche, la turbulence est g´en´eralement induite par la
convection. Les sources de convection sont : le transfert de chaleur provenant du sol irradi´e
par les rayons du soleil et le refroidissement radiatif (dans les fr´equences de l’infra-rouge)
au sommet des nuages.
Couche r´esiduelle
Environ une heure avant le coucher du soleil, en absence d’advection d’air froid, les thermiques
de la couche de m´elange ne se d´eveloppent plus. A cet instant, la couche de `
m´elange commence `a se d´ecomposer en une couche r´esiduelle et une couche dite nocturne
(Fig. 1.2). La couche r´esultante est appel´ee couche r´esiduelle parce que ses conditions
thermodynamiques initiales sont les mˆemes que celles de la couche de m´elange en train
de disparaˆıtre.Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 10
Couche limite stable
Au cours de la nuit, la partie basse de la couche r´esiduelle se transforme en une couche
limite stable (Fig. 1.2). Cette couche est caract´eris´ee par une turbulence quasi-nulle et
un vent calme au niveau du sol. En cons´equence, les polluants ´emis dans la couche limite
stable se dispersent peu sur l’axe vertical. Pour ces conditions de stabilit´e, des ´ecoulements
particuliers peuvent se produire comme des vents catabatiques dans des r´egions orographiques
ou des brises de terre dans des r´egions cˆoti`eres. Ces deux ´ecoulements particuliers
seront d´ecrits dans la sous-section 1.2.2.
1.2.1.3 Vent moyen, ondes et turbulence
Les ´ecoulements locaux (se produisant sur un site d´efini) peuvent ˆetre divis´es en trois
cat´egories : le vent moyen, les ondes et la turbulence. Chacune de ces cat´egories existe
dans la CLA, o`u le transport des quantit´es comme la vapeur d’eau (humidit´e), la chaleur,
les mouvements (tourbillons) et les polluants, est domin´e par le vent moyen sur l’axe horizontal
et par la turbulence sur l’axe vertical. Le vent moyen est responsable de l’advection
assurant le transport horizontal rapide. Les ordres de grandeur classiques de vitesse du
vent sont compris entre 2 et 10 m.s-1. La friction induite pr`es du sol, g´en`ere un profil de
vitesse particulier (r´eduction continue de la vitesse en se rapprochant du sol), et donc une
vitesse du vent moyen plus faible. Les vitesses verticales du vent moyen sont de l’ordre du
millim`etre au centim`etre par seconde.
Les ondes transportent principalement la quantit´e de mouvement et l’´energie. Ces ondes
peuvent ˆetre localement g´en´er´ees par le cisaillement du vent moyen et du vent orographique.
La CLA se distingue du reste de l’atmosph`ere par la forte fr´equence de la turbulence au
voisinage du sol. La turbulence modifie les conditions de la CLA en fonction des for¸cages
de surface. Elle est superpos´ee au vent moyen, et se manifeste par des mouvements tourbillonnaires
(dits “eddies“ en anglais) de diff´erente taille imbriqu´es les uns dans les autres.
Les tourbillons les plus grands ont une taille proche de la hauteur de la CLA et sont entretenus
directement par les transferts de chaleur g´en´er´es par le sol irradi´e (pour les vents
thermiques de la CLA), par la friction du sol ou par le franchissement d’obstacle (pour les
sillages turbulents). Ces grands tourbillons peuvent ˆetre observ´es avec les boucles form´ees
par un panache de fum´ee. Les plus petits tourbillons, de l’ordre du millim`etre, sont tr`es
faibles `a cause des effets dissipatifs de la viscosit´e (friction inter-mol´eculaire qui transforme
les mouvements en chaleur).Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 11
Dans la litt´erature, les ´etudes de la turbulence et des ondes de CLA s´eparent les variables
(comme la temp´erature ou le vent) en une composante moyenne et une composante de perturbation
en respectant les r`egles dites de Reynolds (Boussinesq, 1887; Reynolds, 1947).
La partie moyenne repr´esente les effets de la temp´erature moyenne ou du vent moyen,
tandis que la partie de perturbation repr´esente l’effet des ondes ou celui de la turbulence.
1.2.2 Circulations locales g´en´er´ees par les conditions de terrain
Stull (1988) a d´ecrit les circulations locales dans des conditions de vents faibles et calmes.
1.2.2.1 R´egions cˆoti`eres : brises de mer–terre
L’importante capacit´e calorifique des oc´eans inhibe les variations diurnes de la temp´erature
de surface de l’eau tandis que la surface de la terre, caract´eris´ee par une faible
capacit´e calorifique et une faible conductivit´e mol´eculaire, se r´echauffe et se refroidit
consid´erablement durant le cycle diurne. Donc, durant la journ´ee, la terre est plus chaude
que la mer et durant la nuit, la terre est plus froide.
Brises de mer
Pendant la matin´ee, apr`es la disparition de la couche limite stable, l’air commence `a
s’´elever au-dessus du sol chaud et l’air provenant de la mer, plus froid, commence `a le
remplacer. La brise de mer se met en place. L’extension de la brise de mer `a l’int´erieur
des terres est d´elimit´ee par un front. Ce front est marqu´e par une zone de convergence,
une chute de la temp´erature de quelques degr´es Celsius, une augmentation de l’humidit´e
et des mouvements ascendants de l’ordre de 0,5 `a 2,5 m.s-1. Un ´ecoulement de retour vers
la mer peut apparaˆıtre au-dessus pour fermer la circulation de brise de mer. En absence
de vent synoptique, le front de brise peut progresser `a l’int´erieur des terres (entre 20 km
et 50 km de distance `a la cˆote), avec une vitesse comprise entre 1 m.s-1 et 5 m.s-1
.
Brises de terre
La nuit, la surface de la terre se refroidissant plus rapidement que celle de l’eau de la mer,
le gradient horizontal de temp´erature est invers´e. Une brise de terre se met en place :
l’air froid terrestre souffle en direction de la mer plus chaude. Une circulation de retourChapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 12
peut apparaˆıtre au-dessus : l’air chaud marin s’´el`eve et souffle en direction de la terre. La
circulation de brise de terre est moins intense que celle de la brise de mer.
1.2.2.2 R´egions orographiques : vents anabatiques–catabatiques
Ces ´ecoulements orographiques sont associ´es `a une diff´erence de temp´erature horizontale
entre l’air `a la surface des pentes de la montagne et l’air environnant `a la mˆeme altitude.
Vents anabatiques
Pendant la journ´ee, la surface des pentes de la montagne chauff´ees par le rayonnement
solaire r´echauffe `a son tour l’air proche du sol, qui devient plus chaud que l’air environnant
pour une mˆeme altitude. La flottabilit´e positive induit qu’un ´ecoulement anabatique se
d´eveloppe : l’air chaud va longer les pentes jusqu’au sommet de la montagne. L’air chaud
peut ensuite s’´elever au-dessus de la crˆete de la montagne et former des cumulus dans
certaines conditions d’humidit´e.
Vents catabatiques
La nuit, le refroidissement radiatif des pentes de la montagne refroidit l’air proche de
la surface. Une masse d’air plus froide que l’air environnant s’accumule sur le relief. La
flottabilit´e n´egative g´en`ere un ´ecoulement de gravit´e descendant les pentes : le vent catabatique.
Cet ´ecoulement a, en g´en´eral, une faible ´epaisseur de quelques dizaines de m`etres
et des vitesses de l’ordre de 1 `a 5 m.s-1 (Simpson, 1999).
1.3 Simulations num´eriques de la descente dynamique
de la m´eso-´echelle `a la micro-´echelle
Dans la section 1.1, nous avons montr´e que l’ensemble des ph´enom`enes m´et´eorologiques
sont class´es dans des ´echelles d’espace et de temps. Par cons´equent, leur mod´elisation
num´erique est simplifi´ee : chaque ph´enom`ene est simul´e aux ´echelles d’espace et de temps
lui correspondant. Pour des raisons de coˆut des calculs num´eriques, il est plus simple de
simuler des ph´enom`enes de large ´echelle, car ils sont associ´es `a des espaces importants
qui peuvent ˆetre repr´esent´es par un nombre plus faible de grandes mailles. A ces grandes `Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 13
´echelles, les fluctuations sur les circulations sont tr`es faibles. Il en r´esulte des pas de temps
de calcul plus importants.
Les ph´enom`enes m´et´eorologiques associ´es `a des ´echelles spatio-temporelles diff´erentes,
interagissent entre eux (e.g. les circulations m´eso-´echelles dans un cyclone et les tourbillons
turbulents qui l’animent `a la micro-´echelle). Pour ´etudier ces interactions d’´echelles, il est
n´ecessaire d’effectuer une mod´elisation avec une imbrication d’´echelles. La notion de descente
d’´echelle est un terme g´en´erique pour d´efinir le passage d’une simulation `a l’´echelle
donn´ee `a une autre simulation `a l’´echelle plus fine (Fig. 2.10).
1.3.1 Descente d’´echelle
En simulation m´et´eorologique, il existe deux types de descentes d’´echelle dynamique entre
un domaine parent et son domaine imbriqu´e de r´esolution plus ´elev´ee. La descente d’´echelle
sans retour d’information du domaine imbriqu´e vers le domaine parent est appel´ee ” oneway
”. La descente d’´echelle avec un retour d’information du domaine imbriqu´e vers le
domaine parent est appel´ee ” two-way ”. Le transfert des conditions atmosph´eriques du
domaine imbriqu´e vers le domaine parent permettrait d’am´eliorer les simulations m´et´eorologiques.
Dans les mod`eles m´et´eorologiques m´eso-´echelles comme le Weather Research
and Forecasting WRF, le rapport de r´esolution entre le domaine imbriqu´e et le domaine
parent, est pr´econis´e `a [3 :1] (Skamarock et al., 2008).
1.3.2 Spectre de la turbulence : ” terra incognita ” (Wyngaard,
2004)
Dans la mod´elisation m´eso-´echelle, l’´echelle l de la turbulence contenant l’´energie et les
flux, est tr`es petite devant l’´echelle ∆ du filtre spatial de r´esolution des ´equations du
mouvement, donc la turbulence ne peut pas ˆetre r´esolue (Wyngaard, 2004). Dans ce
cas la turbulence est enti`erement mod´elis´ee par la fermeture des sch´emas de moyenne
d’ensemble. Dans la mod´elisation micro-´echelle Large Eddy Simulation (LES), c’est le cas
contraire, l est grand devant ∆, la turbulence de grande ´echelle est r´esolue et celle de petite
´echelle (dissipation) est mod´elis´ee. Les mod`eles de fermeture de la turbulence ne sont pas
con¸cus pour ˆetre utilis´es quand l et ∆ sont du mˆeme ordre de grandeur, Wyngaard (2004)
a appel´e cet intervalle num´erique : la ” terra incognita ”.Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 14
1.3.3 M´eso-´echelle : principaux sch´emas de moyenne d’ensemble
1D (Shin and Hong, 2011)
La couche limite atmosph´erique se compose de la couche limite de surface (CLS, comprise
entre 0 et 150 m AGL 2
) et de la couche limite plan´etaire (CLP, comprise entre le sommet
de la CLS et le sommet de la CLA). Dans les mod`eles m´et´eorologiques, les ph´enom`enes de
couche limite atmosph´erique sont param´etr´es par un sch´ema de couche limite de surface
et un sch´ema de couche limite plan´etaire. Comme d´ecrit par Shin and Hong (2011),
dans les sch´emas de couche limite plan´etaire, les flux turbulents sous-mailles sont calcul´es
en utilisant les variables moyennes pronostiqu´ees (comme la temp´erature, le rapport de
m´elange, les vitesses horizontales), suivant les ´equations de diffusion verticale du type :
∂C
∂t = −
∂
∂zw0c
0 =
∂
∂z
Kc
∂C
∂z (1.1)
o`u Kc est la diffusivit´e turbulente pour la variable moyenne C, t le temps, z la coordonn´ee
verticale, et w
0
la fluctuation de la vitesse verticale.
1.3.3.1 Sch´ema YSU : fermeture au premier ordre avec un m´elange non-local
Le sch´ema YSU (Hong et al., 2006) ne n´ecessite pas l’addition de nouvelles ´equations pronostiques
pour exprimer les effets de la turbulence sur les variables moyennes (Shin and
Hong, 2011). En couche limite convective, ce sch´ema est bas´e sur le profil K en d´eterminant
la diffusivit´e turbulente Kc (fonction du cisaillement du vent local et du nombre de Richardson
local dans l’atmosph`ere libre). En addition de la diffusion locale (Eq. 1.1), le
sch´ema YSU consid`ere le m´elange non-local par des grands tourbillons convectifs (Shin
and Hong, 2011). Pour exprimer ce m´elange non-local, un terme d’ajustement de gradient
non-local (γc) est ajout´e :
∂C
∂t =
∂
∂z
Kc
∂C
∂z − γc
− (w0c
0
)h
z
h
3
(1.2)
avec h la hauteur de la couche limite convective. Le sch´ema YSU traite explicitement
les processus d’entrainement au sommet de la couche limite plan´etaire. En couche limite
stable, la version du sch´ema YSU am´elior´ee par Hong (2010) est bas´ee sur le nombre de
Richardson global entre la couche de surface et le sommet de la couche limite (Shin and
Hong, 2011).
2. Au-dessus du sol, de l’anglais : Above Ground LevelChapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 15
1.3.3.2 Sch´ema MYJ : fermeture TKE `a l’ordre 1,5 avec un m´elange local
Le sch´ema MYJ (Janji´c, 1990) n´ecessite l’addition d’une ´equation pronostique de l’´energie
cin´etique turbulente, exprim´ee par l’accronyme anglais TKE (Turbulent Kinetic Energy) :
Kc = l
√
eSc (1.3)
avec e la TKE, l la longueur de m´elange (d´efinie par Prandtl comme la distance sur
laquelle une perturbation transporte des propri´et´es d’une parcelle d’air) et Sc le coefficient
de proportionnalit´e (Shin and Hong, 2011). Le sch´ema MYJ applique le m´elange local en
tenant compte de la diffusivit´e turbulente locale existant entre le plus bas et le plus haut
niveau vertical, en couche limite convective et stable. L’entrainement est param´etr´e par
le calcul de Kc pr`es du sommet de la couche limite plan´etaire.
1.3.4 Micro-´echelle : sch´emas Large Eddy Simulation (LES) 3D
(Mirocha et al., 2010)
Figure 1.3: Sch´ema du spectre de l’´energie en fonction de la taille des structures
turbulentes.
Les simulations aux grandes ´echelles (LES, de l’anglais : Large Eddy Simulation) ont pour
principe de calculer par r´esolution num´erique directe les structures turbulentes de grande
taille et de mod´eliser celles de petite taille (Fig. 1.3). Dans la CLA, les grands tourbillons
sont de l’ordre d’une centaine de m`etres, mais leur structure varie selon l’´ecoulement,Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 16
tandis que les petits tourbillons ont un caract`ere universel.
Les m´ethodes LES ont pour avantages : la simulation des ´ecoulements complexes de la
micro-´echelle et la r´eduction de la puissance de calcul requise par rapport `a la simulation
num´erique directe (DNS, de l’anglais : Direct Numerical Simulation).
La mod´elisation LES repose sur la r´esolution explicite en 3D des ´echelles de production
et de transport de l’´energie turbulente atmosph´erique, tandis que la partie petite ´echelle
du spectre de la turbulence, correspondant `a la dissipation de l’´energie turbulente, est
´elimin´ee par l’interm´ediaire d’un filtre spatial (Mirocha et al., 2010). Les effets du filtrage
des structures de ces ´echelles, sur le composant r´esolu de l’´ecoulement, sont mod´elis´es par
un mod`ele de fermeture dit ” sub-filter scale ” (SFS).
Mirocha et al. (2010) ont d´ecrit les ´equations LES de la mani`ere suivante, les variables
r´esolues des structures grandes ´echelles ´etant not´ees avec un tilde, nous avons :
∂u˜i
∂t +
∂(˜uiu˜j )
∂xj
= −
1
ρ˜
∂p˜
∂xi
−
∂τij
∂xj
, (1.4)
avec τij = (ugiuj ) − (˜uju˜i). (1.5)
u˜i,j sont les vitesses r´esolues (i, j = 1, 2, 3, correspondant aux 3 composantes de la vitesse,
respectivement, u, v et w) ; ˜p est la pression r´esolue ; ˜ρ est la densit´e r´esolue ; xi
, xj
font
r´ef´erence aux coordonn´ees spatiales avec i, j = 1, 2, 3 indiquant respectivement les composants,
x, y et z. τij d´efinit la contrainte de cisaillement `a la sous-´echelle du filtre (SFS)
induit par les petites structures (petits tourbillons). Cette force de surface est param´etr´ee
par un mod`ele de contrainte SFS.
Les deux mod`eles de contrainte SFS principalement utilis´es dans la bibliographie sont :
le mod`ele de Smagorinsky (Lilly, 1967; Smagorinsky, 1963) et le mod`ele bas´e sur la fermeture
SFS TKE d’ordre 1,5 (Lilly, 1967). Chacun de ces mod`eles est de la forme de
viscosit´e turbulente (les effets de la turbulence sont d´ecrits par une analogie avec la viscosit´e
mol´eculaire) :
τij = −2νT S˜
ij , (1.6)
avec νT le coefficient de viscosit´e turbulente et S˜
ij = 1/2[(∂u˜i/∂x˜j )+ (∂u˜j/∂x˜i)] le tenseur
de d´eformation des grandes structures (Mirocha et al., 2010).Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 17
1.3.4.1 Fermeture SFS Smagorinsky
Le coefficient de viscosit´e d’eddy de Smagorinsky est calcul´e d’apr`es la formule :
νT = (CSl)
2max[0,(S˜
ijS˜
ij − Pr−1N
2
)
1/2
]. (1.7)
CS est le coefficient de Smagorinsky. L’´echelle de longueur est donn´ee par l = (∆x∆y∆z)
1/3
.
Le nombre de Prandtl turbulent Pr est d´efini par µCp/λ, avec µ la viscosit´e dynamique
(kg.m-1.s-1), Cp la capacit´e thermique massique (J.kg-1.K-1) et λ la conductivit´e thermique
(W.m-1.K-1). Le nombre de Prandtl repr´esente le rapport entre la diffusivit´e de la quantit´e
de mouvement et la diffusivit´e thermique. N2
est la fr´equence de Brunt-V¨ais¨al¨a. Elle
repr´esente la stabilit´e de la couche d’air : si la parcelle d’air d´eplac´ee verticalement oscille
autour de sa position d’´equilible N2
est positive, dans le cas contraire N2
est inf´erieure ou
´egale `a 0. L’´equation 1.7 induit une r´eduction de la contrainte quand la stabilit´e augmente
jusqu’`a une limite de la disparition du m´elange, quand N2
est tr`es important par rapport
aux d´eformations. Ceci limiterait l’utilisation du mod`ele Smagorinsky dans des conditions
de forte stabilit´e (Mirocha and Kirkil, 2010).
1.3.4.2 Fermeture SFS TKE d’ordre 1.5
Dans ce mod`ele le coefficient de viscosit´e d’eddy est d´efini par :
νT = Cl√
es
, (1.8)
o`u es est l’´energie cin´etique turbulente sous-maille, et C = 0, 15. Quand cette fermeture
est s´electionn´ee, le mod`ele WRF int`egre l’´equation pronostique suivante, de la TKE du
SFS (Mirocha et al., 2010) :
∂t(µdes)+Transport = µd(Production cisaillement+Production thermique+Dissipation)
(1.9)
avec µd, la masse de la colonne d’air sec et le terme de dissipation mod´elis´e par l’expression
−Ce
3/2
s /l.Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 18
1.3.5 Descente d’´echelle : couplage d’un sch´ema d’ensemble et
d’un sch´ema LES
Les simulations num´eriques des circulations locales incluant une descente d’´echelle (” oneway
” et ” two-way ”) depuis les dimensions synoptiques jusqu’`a celles de la m´eso-echelle
sont largement r´epandues dans la litt´erature et ont montr´e leur efficacit´e (Carlis et al.,
2010; C´ec´e et al., 2014; Jury et al., 2009; Lef`evre et al., 2010; Nguyen et al., 2010; Seaman
et al., 2012; Yang and Chen, 2005). En revanche la descente d’´echelle (” one-way
” et ” two-way ”) depuis la m´eso-´echelle (sch´ema de moyenne d’ensemble 1D) vers la
micro-´echelle (Large Eddy Simulation 3D) est tr`es r´ecente et peu document´ee (Mirocha
and Kirkil, 2010). Cette imbrication d’´echelle n´ecessite d’importants moyens de calcul en
comparaison avec les simulations m´eso-´echelles. Ces besoins ´elev´es de calcul sont principalement
li´es au maillage. La r´esolution minimale requise en LES est de l’ordre de la
centaine de m`etres, alors que les sch´emas de moyenne d’ensemble sont limit´es `a la r´esolution
du kilom`etre. En g´en´eral, le rapport de r´esolution d’imbrication entre deux domaines
est de 3 :1. Dans le cas de l’imbrication m´eso-LES, il sera donc n´ecessaire d’utiliser des
domaines interm´ediaires situ´ees dans la ” terra incognita ” (Wyngaard, 2004) du spectre
de la turbulence. Enfin, la finesse du maillage LES induit des dur´ees de calcul plus longues,
associ´ees `a la diminution du pas de temps et `a l’augmentation de la fr´equence d’appel des
sch´emas de mod´elisation de la physique.
La plupart des ´etudes traitant le sujet ont ´et´e r´ealis´ees `a partir de l’utilisation du syst`eme
coupl´e WRF-LES.
Dans le cas d’imbrication id´ealis´ee (sans couplage avec la m´eso-´echelle) de deux domaines
LES en ” two-way ”, Moeng et al. (2007) ont montr´e un bon transfert des conditions
turbulentes du domaine imbriqu´e vers le domaine parent. Moeng et al. (2007) ont ´enonc´e
les probl`emes qui seraient rencontr´es dans le cas du transfert de ces conditions turbulentes
d’un domaine LES 3D vers un domaine de moyenne d’ensemble 1D m´eso-´echelle :
la diff´erence de pr´ediction du transport turbulent entre les deux domaines (induisant des
biais sur les champs de vent et de temp´erature) et le temps de latence aux conditions
limites (passage des mouvements turbulents LES dans les ´ecoulements laminaires m´eso-
´echelles).
Zhu (2008b) a analys´e un cas r´eel de transport turbulent dans l’ouragan Ivan. Il a utilis´e
simultan´ement 6 domaines avec une r´esolution horizontale comprise entre 8100 m et
100 m. Dans les 3 premiers domaines (m´eso-´echelle), les circulations de la couche limite
cyclonique ont ´et´e r´esolues par le sch´ema YSU. Dans les 3 autres domaines (micro-´echelle),
le mod`ele LES de Smagorinsky a ´et´e s´electionn´e pour r´esoudre les grands tourbillons deChapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 19
la turbulence. Les r´esultats WRF-LES du vent de surface (moyenn´e toutes les 10 min)
ont montr´e une bonne ad´equation avec les donn´ees d’observation. Par une ´etude similaire
WRF-LES, Zhu (2008a) a montr´e que les vents d´evastateurs de l’ouragan Katrina, lors de
son arriv´ee sur les cˆotes am´ericaines, avaient pour principale origine les grands tourbillons
de la turbulence.
L’´evaluation de la ressource ´eolienne, la pr´evision de la puissance ´electrique g´en´er´ee,
la conception d’une ferme ´eolienne, n´ecessitent l’analyse, en conditions m´et´eorologiques
r´eelles, des ´ecoulements moyens et turbulents. L’imbrication m´eso-´echelle – ´echelle large
eddy (” one-way ” et ” two-way ”) commence aussi `a ˆetre appliqu´ee dans le domaine
de l’´energie ´eolienne (Liu et al., 2010; Lundquist et al., 2010; Marjanovic et al., 2010).
Liu et al. (2010) ont montr´e la capacit´e du syst`eme WRF-LES, incluant l’assimilation
de donn´ees d’observation non-maill´ees, `a pr´edire les effets locaux du vent dans une ferme
´eolienne.
Talbot et al. (2012) ont men´e les travaux les plus r´ecents sur l’imbrication de domaines
LES (dont la plus haute r´esolution est de 50 m) dans les domaines WRF m´eso-´echelles. Ils
ont analys´e les performance du syst`eme WRF-LES pour des situations m´et´eorologiques
r´eelles. Talbot et al. (2012) ont r´ealis´e la descente d’´echelle en deux ´etapes, `a l’aide de trois
domaines m´eso-´echelles (de r´esolutions respectives, 12150 m, 4050 m et 1350 m) et de trois
domaines micro-´echelles (de r´esolutions respectives, 450 m, 150 m et 50 m). Le mod`ele
de moyenne d’ensemble YSU a ´et´e utilis´e pour la m´eso-´echelle. Les sorties du domaine
m´eso-´echelle de plus haute r´esolution (1350 m) ont ensuite ´et´e interpol´ees lin´eairement en
temps et en espace pour le for¸cage du domaine LES de plus faible r´esolution (450 m). Les
mod`eles sous-mailles TKE ordre 1,5 et Smagorinsky ont ´et´e test´es en LES. Dans le domaine
de plus haute r´esolution (50 m), Talbot et al. (2012) ont constat´e que les variations
de temp´erature ´etaient bien simul´ees contrairement `a celles de l’humidit´e sp´ecifique. Les
vitesses et les directions du vent simul´e pr´esentaient d’importantes erreurs particuli`erement
durant la nuit. Talbot et al. (2012) n’ont pas remarqu´e de diff´erences significatives
entre les simulations micro-´echelles Smagorinsky et TKE ordre 1,5.
1.4 Simulation num´erique de la dispersion de polluants
: applications du mod`ele FLEXPART-WRF
L’analyse du transport de polluants dans l’air est essentiel dans la pr´evention des risques
sur la sant´e, le suivi de la qualit´e de l’air (pic de pollution r´ecent `a Paris, poussi`eres
du Sahara dans l’arc des Petites Antilles), et la s´ecurit´e a´erienne (´eruptions en 2010 duChapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 20
volcan Eyjafj¨oll en Islande et du volcan de la Soufri`ere de Montserrat). La connaissance
des champs de vent aux diff´erentes ´echelles, macroscopiques et microscopiques, permet de
pr´edire les trajectoires des particules. Les deux m´ethodes principalement connues sont : la
m´ethode eul´erienne et la m´ethode lagrangienne. La m´ethode eul´erienne consiste `a suivre
l’ensemble des concentrations de particule en chaque point du domaine. Cette approche
est tr`es gourmande en m´emoire et en temps de calcul. La m´ethode lagrangienne consiste `a
suivre une particule ou un groupe de particule. Dans cette section, nous nous focaliserons
sur les m´ethodes lagrangiennes et leurs couplages avec le mod`ele m´et´eorologique m´eso-
´echelle WRF.
1.4.1 G´en´eralit´es sur les mod`eles lagrangiens de dispersion de
particules (Hegarty et al., 2013a,b)
Les mod`eles lagrangiens de dispersion de particules suivent un ensemble de particules en
sens direct (” forward ”) depuis une r´egion source et en sens indirect (” backward ”)
depuis un r´ecepteur (lieu de mesures) (Hegarty et al., 2013a). Le transport de chacune
des particules est bas´e sur les champs de vents moyens (provenant d’un mod`ele num´erique
de pr´evision m´et´eorologique) et la composante turbulente du vent obtenue par un mod`ele
sous-maille (Hegarty et al., 2013a). L’´evaluation des mod`eles lagrangiens les plus utilis´es,
HYSPLIT (Hybrid Single Particle Lagrangian Integrated Trajectory), STILT (Stochastic
Time-Inverted Lagrangian Transport) et FLEXPART (FLEXible PARTicle), a montr´e
que ces mod`eles ont les mˆemes performances et que la pr´ecision des simulations d´epend
principalement des donn´ees m´et´eorologiques utilis´ees comme condition initiale et limite
(Hegarty et al., 2013a,b).
1.4.2 Quelques applications du mod`ele FLEXPART-WRF
Le syst`eme FLEXPART-WRF (Brioude et al., 2013) repr´esente le mod`ele lagrangien de
dispersion de particules FLEXPART (Stohl et al., 2005) qui int`egre les champs m´et´eorologiques
m´eso-´echelles du mod`ele WRF (Skamarock et al., 2008) avec le pas de temps
souhait´e. Nous d´ecrirons le mod`ele FLEXPART-WRF dans la section 2.4 du rapport.
Landgren (2011) a utilis´e le mod`ele FLEXPART-WRF (incluant 3 domaines imbriqu´es
de r´esolutions respectives, 9, 3 et 1 km) pour examiner les ´emissions de gaz de trois
volcans : Popocat´epetl (Mexique), Tungurahua (Equateur) et Nyiragongo (R´epublique ´
d´emocratique du Congo). Landgren (2011) a constat´e que le mod`ele FLEXPART-WRFChapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 21
simulait bien les ´emissions de gaz volcaniques mˆeme pour des petites ´echelles (1 km).
Globalement, les mesures de concentration de SO2 ont montr´e une bonne performance du
mod`ele dans deux tiers des cas. Cependant les hauteurs et largeurs du panache ´etaient
biais´ees, le mod`ele pr´esentait une importante propagation du panache. D’apr`es Landgren
(2011), l’am´elioration des donn´ees m´et´eorologiques d’entr´ee pourrait r´eduire ces biais.
Dans une ´etude exp´erimentale et num´erique, de Foy et al. (2011) ont examin´e les panaches
de polluants affectant le bassin du centre-ville de Mexico. Les mesures lidar ont
´et´e compar´ees aux sorties mod`eles FLEXPART-WRF pour plusieurs groupes d’´emissions :
les ´emissions urbaines, les feux de forˆet et les poussi`eres soulev´ees par le vent. Le mod`ele
´etait suffisamment performant pour caract´eriser correctement les types d’a´erosols et leur
ˆage (de Foy et al., 2011).
A l’aide de FLEXPART-WRF, ` Angevine et al. (2013) ont aussi men´e une ´etude du transport
de polluants multi-sources. Ces travaux concernent plusieurs r´egions de la Californie
et deux types de traceurs : les ´emissions automobiles (CO) et l’´emission agricole d’ammoniac.
Sur plusieurs sites de comparaison, les sorties mod`eles ´etaient qualitativement
fid`eles aux observations.
Sandeepan et al. (2013) ont montr´e la capacit´e du mod`ele FLEXPART-WRF `a reproduire
l’effet de serpentement d’un panache bi-modal (p´eriodicit´e de 30 min) durant un
´ecoulement catabatique.
1.5 Etat de l’art sur les circulations locales g´en´er´ees ´
par des ˆıles tropicales
Les effets m´ecaniques des ˆıles sur le flux d’aliz´es continu sont caract´eris´es par un nombre
de Froude local Fr qui est d´efini par (U/Nhm), o`u U est la vitesse du vent, hm est la
hauteur de l’obstacle, et N est la fr´equence de flottabilit´e.
De mani`ere g´en´erale, la litt´erature et en particulier Beucher (2010) analyse les circulations
locales pour chacun des trois types d’ˆıles tropicales suivants : les ˆıles larges (avec Fr ≥ 1
et une largeur > 50 km), les ˆıles montagneuses (avec Fr < 1), ou les ˆıles petites (avec
Fr ≥ 1 et une largeur ≤ 50 km).Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 22
1.5.1 Circulations g´en´er´ees par les ˆıles tropicales larges (Fr ≥ 1
et une largeur > 50 km)
Les effets des ˆıles larges sur les vents synoptiques ont ´et´e examin´es pour les ˆıles Tiwi
(Oliphant et al., 2001) et Porto Rico (Jury et al., 2009; Malkus, 1955). Oliphant et al.
(2001) ont montr´e qu’avec une topographie plate de 8000 km2
, les ˆıles Tiwi g´en`erent leur
propre r´egime de circulations locales d’origine thermique, associ´e avec des brises de mer
le jour, et des brises de terre la nuit. Les simulations de la m´et´eorologie m´eso-´echelle
de Porto Rico, `a l’aide du mod`ele Weather Research and Forecast (WRF), ont indiqu´e
comment le r´echauffement diurne et l’orographie agissent sur la structure de la couche
limite convective et le flux d’aliz´es (Jury et al., 2009).
1.5.2 Circulations g´en´er´ees par les ˆıles tropicales montagneuses
(Fr < 1)
En g´en´eral, les ˆıles montagneuses comme l’archipel d’Hawaii (Carlis et al., 2010; Feng
and Chen, 1998; Nguyen et al., 2010; Reisner and Smolarkiewicz, 1994; Smith and Grubiac,
1993; Yang and Chen, 2005), la Nouvelle-Cal´edonie (Lef`evre et al., 2010), l’ˆıle de
la R´eunion (Lesou¨ef et al., 2011), ou les ˆıles des Petites Antilles comme Saint-Vincent
(Smith et al., 1997) et la Dominique (Minder et al., 2013; Smith et al., 2012) auraient
principalement des effets m´ecaniques sur le flux incident (blocage sur la cˆote au vent
et contournements, effets d’acc´el´eration de Venturi, panne de vent et tourbillons dans le
sillage) avec dans certains cas des circulations thermiques apparaissant sur leurs cˆotes
sous le vent.
Les r´esultats de l’´etude num´erique id´ealis´ee de Lesou¨ef et al. (2011) ont montr´e que le
r´egime des ´ecoulements locaux au-dessus de l’ˆıle de la R´eunion variait avec l’intensit´e des
aliz´es. Dans le cas de vitesse de vent synoptique nulle, des circulations thermiques sont
g´en´er´ees par les contrastes de temp´erature entre la terre et la mer, et entre l’air et les
pentes des montagnes. Pour une vitesse de vent synoptique de 5 m.s-1, le r´egime de vent
local est caract´eris´e par une convergence diurne et une divergence nocturne. Des brises
thermiques peuvent se produire sur la cˆote sous le vent. Pour une vitesse de vent synoptique
de 10 m.s-1, la convergence et la divergence de la circulation sont moins marqu´ees.
Les effets thermiques sont inhib´es par les forts aliz´es, cependant il y a des occurrences de
brises sur la cˆote sous le vent.
Durant la campagne de terrain Dominica Experiment (DOMEX), Minder et al. (2013);Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 23
Smith et al. (2012) ont observ´e que deux types de r´egimes de vent local apparaissaient
sur la cˆote sous le vent de l’ˆıle montagneuse de la Dominique en fonction de l’intensit´e
des aliz´es. Des vitesses de vent synoptique inf´erieures `a 5 m.s-1 ´etaient associ´ees `a des
´ecoulements anabatiques sur les pentes au vent et sous le vent tandis que celles sup´erieures
`a 8 m.s-1 ´etaient associ´ees `a des fort courants descendant les pentes sous le vent du relief.
1.5.3 Circulations g´en´er´ees par les petites ˆıles (Fr ≥ 1 et une
largeur ≤ 50 km)
Les impacts thermiques des petites ˆıles sur la couche limite atmosph´erique marine ont
´et´e analys´es par des observations et des simulations num´eriques au-dessus de l’ˆıle de la
Barbade, dont le diam`etre est de 40 km (Mahrer and Pielke, 1976; Souza, 1972; Whitehall
et al., 2013) et au-dessus de l’ˆıle de Nauru, dans le Pacifique, dont le diam`etre est de 5 km
(Matthews et al., 2007; Savij¨arvi and Matthews, 2004). Ces ´etudes ont montr´e qu’avec un
important r´echauffement de la surface du sol, les petites ˆıles tropicales peuvent g´en´erer
leurs propres circulations d’origine convective.
Whitehall et al. (2013) ont men´e des simulations WRF d’un ph´enom`ene d’inondations
extrˆemes sur l’ˆıle de la Barbade, durant les aliz´es faibles (vitesse de vent inf´erieure `a
5 m.s-1). Les r´esultats de la mod´elisation ont indiqu´e que le d´eveloppement de nuages
de convection profonde ´etait conditionn´e par deux m´ecanismes de circulation locale.
Premi`erement, un syst`eme de brise de mer induisait une convergence de l’humidit´e dans
les basses couches. Deuxi`emement, la topographie de l’ˆıle (sommet `a 366 m AMSL), entraˆınait
une ´el´evation m´ecanique de cette masse d’air humide.
1.6 Etat de l’art sur l’archipel de la Guadeloupe ´
1.6.1 Contexte m´et´eorologique synoptique
L’archipel de la Guadeloupe est un ensemble d’ˆıles localis´e `a 61,5➦W et 16,3➦N dans la
partie centrale de l’Arc des Petites Antilles (Fig. 1.4). Ces ˆıles travers´ees par les aliz´es ont
un climat tropical insulaire caract´eris´e par deux saisons pr´edominantes (Br´evignon, 2003).
La premi`ere est une saison relativement s`eche avec des pr´ecipitations tr`es peu intenses, appel´ee
le carˆeme. Elle s’´etend de mi-janvier `a mars. La seconde, appel´ee l’hivernage, s’´etend
de juillet `a novembre. Elle se caract´erise par des cumuls de pluie plus ´elev´es. L’intensit´e desChapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 24
Figure 1.4: Carte topographique GeBCO 08 (General Bathymetric Chart of the
Oceans IOC et al. (2003), 30 secondes d’arc de r´esolution) en m : (a) zone de la
Cara¨ıbe ; (b) l’Arc des Petites Antilles.
pr´ecipitations est le facteur marquant principalement la diff´erence entre ces deux saisons.
Les donn´ees d’observation de la station m´et´eorologique du Raizet (RZT, disque rouge,
Fig. 1.5), localis´ee en zone convective, indiquent qu’en f´evrier le cumul moyen mensuel est
de l’ordre de 60,6 mm tandis qu’en octobre il atteint 214,5 mm. Le cycle saisonnier est
une cons´equence de la variation annuelle de la latitude de la zone de convergence intertropicale
(ZCIT). Le cycle annuel des pr´ecipitations observ´ees `a la station m´et´eorologique
du Raizet indique que le carˆeme correspond `a la position la plus australe de la ZCIT,
soit 5➦S, et l’hivernage, `a la position la plus nord soit 10➦N. Br´evignon (2003) a d´ecrit
le r´egime des aliz´es arrivant sur l’Arc antillais. Les aliz´es sont g´en´er´es par l’anticyclone
des A¸cores dans l’Atlantique nord et soufflent vers les basses pressions ´equatoriales en
subissant une d´eviation vers la droite de leur mouvement, li´ee `a la force de Coriolis. La
direction et la force des aliz´es d´epend principalement de la position et de l’intensit´e des
centres anticycloniques et d´epressionnaires sur l’Atlantique. Durant l’ann´ee, les aliz´es sont
en g´en´eral mod´er´es (vitesse de l’ordre de 6 m.s-1). Le passage de perturbations tropicales,
subtropicales ou de fronts peut induire dans leur queue une panne d’aliz´es caract´eris´ee par
des vents tr`es faibles (vitesse inf´erieure `a 5 m.s-1). Le passage des cyclones tropicaux peut
g´en´erer de puissants vents tournants qui ont des vitesses comprises entre 20 et 70 m.s-1
.
1.6.2 Contexte m´et´eorologique local
L’archipel de la Guadeloupe comprend deux ˆıles principales (Fig. 1.5) : la Basse-Terre, une
ˆıle volcanique montagneuse avec une topographie complexe qui s’´el`eve jusqu’`a 1467 m (le
sommet du volcan de la Soufri`ere) et la Grande-Terre, un plateau calcaire avec une faibleChapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 25
topographie qui s’´el`eve jusqu’`a 135 m. Ces deux ˆıles sont s´epar´ees par un canal ´etroit,
la Rivi`ere sal´ee. Ce dernier est bord´e par deux zones d’eaux peu profondes : Le Petit
Cul-de-sac Marin au sud et le Grand Cul-de-sac Marin au nord. D´esirade, Marie-Galante
et Les Saintes sont des petites ˆıles de l’archipel. La particularit´e de la Guadeloupe est la
combinaison de deux types de topographie (Fig. 1.5) : l’ˆıle montagneuse de la Basse-Terre
(Fr < 1 et une largeur ≤ 50 km) et la petite ˆıle, relativement plate, de la Grande-Terre
(Fr > 1 et une largeur ≤ 50 km).
Il y a tr`es peu d’´etudes traitant des circulations locales au-dessus de la Guadeloupe. Dans
la bibliographie, les donn´ees m´et´eorologiques d’observation proviennent principalement
de quatre stations M´et´eo-France (Raizet, D´esirade, Moule, et Grand-Bourg) et d’une
station cˆoti`ere du Laboratoire de Recherche en G´eosciences et Energie (LaRGE), situ´ee `a ´
Arnouville. Ces stations sont respectivement nomm´ees RZT, DES, MOU, GBD, et ARN
(Fig. 1.5).
Figure 1.5: Carte topographique (IGN, 50 m de r´esolution), avec la zone la plus
peupl´ee de l’archipel (rectangle noir), la d´echarge DCH (carr´e marron), la centrale
EDF (croix rouge), le campus de Fouillole (carr´e jaune), le mˆat instrument´e du
laboratoire LaRGE (ARN, triangle vert) et les 4 stations M´et´eo-France, Raizet (RZT,
disque rouge), Moule (MOU, ´etoile magenta), D´esirade (DES, carr´e bleu),
Grand-Bourg de Marie-Galante (GBD, losange noir).
1.6.2.1 Quelques aspects des vents locaux d’apr`es Br´evignon (2003)
En se basant sur des observations en mer et des donn´ees de stations terrestres, Br´evignon
(2003) a pr´esent´e quelques aspects du vent sur l’archipel. Ils ont d´efini trois r´egimes de
circulation locale. Le r´egime au vent : les vents synoptiques continus soufflent sans panneChapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 26
de vent nocturne (cas de DES et MOU, Fig. 1.5). Le r´egime continental insulaire au milieu
de l’archipel, dans les zones terrestres autour du Grand Cul-de-Sac Marin et du Petit Culde-Sac
Marin (cas de ARN, RZT, GBD, Fig. 1.5), avec la nuit, le refroidissement radiatif
du sol qui induit une panne de vent dans les basses couches. Le r´egime sous le vent (incluant
le r´egime orographique), qui est gouvern´e par des effets thermiques et dynamiques
locaux. Le vent est en g´en´eral faible et perturb´e dans la zone sous le vent. Sous des vents
synoptiques faibles, la nuit, des apparitions de faibles brises de terre sur la cˆote au vent de
la Grande-Terre (MOU, Fig. 1.5) ont ´et´e observ´ees. Br´evignon (2003) a publi´e des cartes
de circulations cˆoti`eres (Fig. 1.6) en se basant sur les observations marines empiriques.
Pour un vent d’est, les circulations diurnes et les circulations nocturnes semblent similaires
(Fig. 1.6). On peut observer, de jour comme de nuit, des effets dynamiques de contourneFigure
1.6: Cartes de circulations cˆoti`eres autour de la Guadeloupe durant des vents
synoptiques d’est (d’apr`es Br´evignon (2003)).
ment et d’acc´el´eration du vent, ainsi que des retournements du vent qui apparaissent sur
la cˆote sous le vent de la Basse-Terre. D’apr`es Br´evignon (2003), le ph´enom`ene de brise
de mer–terre serait tr`es discret en Guadeloupe `a cause de la petitesse du territoire. Il a
indiqu´e qu’il n’y aurait pas de retournement du vent jour–nuit mais une simple variation
dans la direction du vent. Les brises thermiques seraient principalement observ´ees le long
de la cˆote sous le vent de la Basse-Terre (Br´evignon, 2003).
1.6.2.2 Campagne exp´erimentale dans la zone cˆoti`ere d’Arnouville (ARN,
D’Alexis et al. (2011))
D’Alexis (2011) a men´e une campagne exp´erimentale de terrain pour analyser les ph´enom`enes
de micro-´echelle dans la couche de surface de mangrove 3
. Entre avril 2007 et avril
3. Milieu naturel cˆotier avec une v´eg´etation semi-immerg´ee domin´ee par les pal´etuviers.Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 27
2008, la station m´et´eorologique du Laboratoire de Recherche en G´eosciences et Energie ´
(LaRGE) a enregistr´e des mesures `a 1 Hz et `a 20 Hz. Cette station ´etait localis´ee dans la
zone cˆoti`ere d’Arnouville sur la cˆote au vent de la Basse-Terre (ARN, Fig. 1.5). Les donn´ees
recueillies sur une ann´ee ont montr´e qu’en g´en´eral, sous des aliz´es faibles `a mod´er´es, il
y a des apparitions d’un renversement nocturne du vent dans les bas niveaux verticaux.
Cet ´ecoulement nocturne d’ouest est associ´e `a une chute soudaine de la temp´erature de
l’air `a 2 m AGL. La localisation (une zone cˆoti`ere en bas des pentes au vent de la chaˆıne
de montagnes), pourrait sugg´erer un vent catabatique et–ou une brise de terre. Durant
261 jours de mesure (entre avril 2007 et avril 2008), D’Alexis et al. (2011) ont observ´e
121 jours d’occurrence de cet ´ecoulement nocturne (i.e. une fr´equence d’apparition d’un
jour sur deux). Cette observation indiquerait que durant la campagne exp´erimentale, pr`es
de la moiti´e des nuits ont ´et´e marqu´ees par cet ´ecoulement. Sur l’ann´ee, d´ecembre est le
mois de fr´equence maximale du ph´enom`ene, alors que juin est celui de fr´equence minimale.
D’Alexis et al. (2011) ont constat´e que cet ´ecoulement inverse du vent pouvait s’´etablir
pendant toute la nuit, ou ˆetre intermittent avec le retour des ´ecoulements classiques des
aliz´es. Les circulations nocturnes particuli`eres observ´ees par Br´evignon (2003); D’Alexis
et al. (2011), ont une direction ouest, une vitesse de vent inf´erieure `a 2 m.s-1, et semblent
repousser au large les aliz´es des basses couches.
1.6.2.3 Campagne exp´erimentale dans la zone urbaine de Pointe-`a-Pitre (DCH,
Plocoste (2013); Plocoste et al. (2014))
Plocoste (2013) a men´e une campagne exp´erimentale sur la dispersion des compos´es organiques
volatils de la d´echarge de la Gabarre (DCH, Fig. 1.5) situ´ee dans l’agglom´eration
pointoise, sur la cˆote ouest de la Grande-Terre `a 7 km de ARN. Durant des aliz´es faibles,
Plocoste et al. (2014) ont observ´e la pr´esence d’un renversement nocturne du vent qui
adopte une direction ouest et une vitesse inf´erieure `a 2 m.s-1. Ce flux ´etait associ´e `a
une baisse locale de la temp´erature de l’air. Les mesures de la station RZT (entre 2000 et
2012) ont montr´e que ce ph´enom`ene ´etait plus fr´equent durant le mois de d´ecembre et bien
moins fr´equent au cours du mois de juin (Plocoste, 2013). Cette mˆeme variation annuelle
avait ´et´e constat´ee par D’Alexis et al. (2011) `a la station ARN. Plocoste et al. (2014)
ont attribu´e l’origine de cet ´ecoulement `a la pr´esence d’un ˆılot de chaleur urbain dans la
zone et l’ont d´efini comme une brise urbaine. D’apr`es nous, l’origine purement urbaine de
cet ´ecoulement serait discutable pour les raisons suivantes. Les mesures exp´erimentales de
D’Alexis et al. (2011) effectu´ees dans les mˆemes conditions m´et´eorologiques, sugg´ereraient
que l’´ecoulement d’ouest observ´e par Plocoste (2013) est g´en´er´e, en amont, sur la cˆoteChapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 28
au vent de la Basse-Terre avec une extension vers la Grande-Terre. Les observations du
panache de la centrale EDF de Jarry (Fig. 1.7, 1.8, 1.9) confirmeraient cette extension de
l’´ecoulement vers la cˆote ouest de la Grande-Terre (sous-section 1.6.3).
1.6.2.4 Variabilit´e diurne et spatiale des champs de surface
Au-dessus des ˆıles de l’archipel de la Guadeloupe, la temp´erature de l’air `a 2 m augmente
en g´en´eral de 5➦C entre 6 h et 10 h LT 4
et atteint sa valeur maximale `a 13 h LT (Br´evignon,
2003). Le refroidissement radiatif commence `a la fin de l’apr`es-midi (17 h LT) et la temp´erature
minimale est atteinte le lendemain matin `a 5 h LT.
Durant ses travaux de th`ese, D’Alexis (2011) a examin´e la relation entre le cycle diurne
(moyenn´e sur les six mois de la saison s`eche de l’ann´ee 2008) de la temp´erature de l’air
`a 2 m et celui de la vitesse du vent `a 10 m. La station m´et´eorologique de la D´esirade,
DES, est caract´eris´ee par des vents soutenus (7–8 m.s-1) avec une absence de variations
diurnes de la vitesse du vent `a 10 m. Les donn´ees de vent de cette station peuvent ˆetre
utilis´ees pour d´ecrire de mani`ere grossi`ere le vent synoptique incident. Pour les stations du
Raizet et d’Arnouville, respectivement, RZT et ARN, qui sont sous l’influence du r´egime
continental insulaire, les temp´eratures et les vitesses de vent semblent avoir une ´evolution
horaire quasiment synchronis´ee.
Les cycles diurnes de temp´erature et la moyenne annuelle de la temp´erature de l’air audessus
de la mer (27➦± 0,5➦C) indiquent que le contraste thermique le plus important entre
la terre et la mer apparaˆıt durant la nuit (le contraste mer–RZT atteint 4,7➦C `a 5 h LT). De
plus, les cycles diurnes de la vitesse du vent `a 10 m montrent que les diff´erences majeures
entre le vent synoptique (station DES) et le vent local (stations continentales insulaires)
se produisent `a partir de l’heure du d´ebut de refroidissement radiatif. Ceci peut sugg´erer
que durant la nuit, les circulations locales sont mieux marqu´ees que durant le jour. Dans
le cas de RZT, `a partir de minuit, le plus souvent, il y a une absence totale de vent. A`
cause du refroidissement nocturne, une couche froide de surface se d´eveloppe au-dessus de
la Grande-Terre, et les aliz´es plus chauds sont oblig´es de passer au-dessus de cette couche
(Br´evignon, 2003).
4. Temps local, de l’anglais : Local Time ; en Guadeloupe l’heure LT correspond `a l’heure UTC−4Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 29
1.6.3 Impacts des circulations locales nocturnes sur la dispersion
de polluants industriels
1.6.3.1 Centrale EDF diesel Jarry nord
Malgr´e le d´eveloppement des ´etudes sur la caract´erisation de ressources ´energ´etiques renouvelables
dans l’Arc des Petites Antilles (comme l’´energie marine, l’´eolien ou le solaire),
l’´electricit´e est presque exclusivement produite `a partir de sources fossiles. En Guadeloupe,
la principale usine de production d’´electricit´e est la centrale EDF diesel Jarry nord
(Fig. 1.7), situ´ee dans la zone industrielle de Jarry (Petit Cul-de-Sac Marin, Fig. 1.5 et
Fig. 1.8). Cette centrale constitue la premi`ere source industrielle d’´emissions de polluants.
Figure 1.7: Photo des chemin´ees de la centrale ´electrique EDF Jarry nord, [cr´edit
photo : R. C´ec´e 2014].
D’apr`es le Registre fran¸cais des Emissions polluantes ´ , la centrale EDF Jarry nord ´emet
en moyenne chaque ann´ee, 0,5 M´egatonnes de dioxyde de carbone (CO2), 10 kilotonnes
d’oxydes d’azote (NOx) et 3 kilotonnes d’oxydes de soufre (SOx). La dispersion de ces
rejets importants doit ˆetre examin´ee pour pr´evenir les risques sanitaires.Chapitre 1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 30
Figure 1.8: Photo satellite Google earth (8/04/2013) : localisation de la centrale
EDF et du campus UAG, les fl`eches rouges correspondant aux directions (a) et (b) du
panache durant une circulation nocturne d’ouest (Fig. 1.9).
1.6.3.2 Observations du panache de la centrale durant des retournements
nocturnes du vent
Des observations du panache de la centrale EDF Jarry nord nous ont permis de d´etecter, en
d´ebut de matin´ee, le renversement nocturne du vent dans la couche limite stable (Fig. 1.9).
Dans le cas du 14 septembre 2010 `a 7 h 21 LT, le vent dans les basses couches a
une direction nord-ouest, le panache se dirige vers le campus universitaire de Fouillole
(Fig. 1.9a, 1.8). Le radiosondage du jour (lanc´e `a 7 h LT depuis la station RZT) indique
une faible vitesse du vent dans les basse couches (< 0,5 m.s-1, `a 125 m AGL) et une
´epaisseur de la couche limite stable de 400 m.
Dans le cas du 4 novembre 2009 `a 7 h 11 LT, le vent de basses couches a une direction
sud-ouest, le panache se dirige vers le pont de la Gabarre (Pointe-`a-Pitre, Fig. 1.9b, 1.8).
Comme pour la pr´ec´edente situation, l’analyse du radiosondage correspondant montre de
faibles vitesses du vent dans les basses couches (≈ 3 m.s-1 `a 325 m AGL) et une couche
limite stable plus d´evelopp´ee (550 m).
Ces observations confirment la pr´esence d’une circulation d’ouest dans le Petit Cul-de-Sac
Marin, en amont de la zone urbaine de Pointe-`a-Pitre.
Cet ´ecoulement local nocturne d’ouest, soufflant en direction de la partie la plus peupl´ee
de l’archipel en passant par la zone industrielle de Jarry, dans laquelle plusieurs sources
d’´emissions de polluants sont pr´esentes, n´ecessite une analyse 3D de sa structure et des
m´ecanismes de sa formation dans les basses couches de l’atmosph`ere surplombant l’archipel.Chapitre
1. Circulations atmosph´eriques dans les basses couches et leurs effets : ´etude
bibliographique 31
Figure 1.9: Photos du panache de la centrale EDF de Jarry (prise de vue depuis le
campus de Fouillole UAG, Fig. 1.8) : (a) direction du vent nord-ouest, photo prise le
14/09/2010 `a 7 h 21 LT ; (b) direction du vent sud-ouest, photo prise le 4/11/2009 `a
7 h 11 LT [cr´edits photos : D. Bernard 2009-2010].Chapitre 2
M´ethodologie et outils de simulation
2.1 M´ethodologie g´en´erale
Les travaux de mod´elisations num´eriques pr´esent´es ont deux objectifs principaux. Premi`erement,
l’analyse des m´ecanismes m´eso- et micro-´echelles qui induisent des circulations
locales diurnes et nocturnes sur les ˆıles de la Guadeloupe. Deuxi`emement, l’´etude des
effets de ces circulations sur la dispersion du panache de la source industrielle la plus polluante
de l’archipel. Pour atteindre ces objectifs, la m´ethodologie suivante a ´et´e adopt´ee
(Fig. 2.1).
Nous avons choisi trois situations m´et´eorologiques r´eelles d´ependant de la vitesse du flux
incident des aliz´es et excluant les perturbations synoptiques pluvieuses : les aliz´es faibles
(AF), les aliz´es soutenus (AS), et les aliz´es moyens (AM), correspondant aux p´eriodes
respectives, 3/12/2007 6 h UTC–5/12/2007 6 h UTC 1
, 14/12/2007 6 h UTC–16/12/2007
6 h UTC, et 24/12/2007 6 h UTC–26/12/2007 6 h UTC.
Pour ces trois types de temps nous avons simul´e, `a l’aide du mod`ele WRF ARW V3.4.1,
une descente d’´echelle ” two-way ” jusqu’`a 1 km de r´esolution (m´eso-´echelle), avec l’assimilation
des donn´ees d’analyse mondiale FNL NCEP (NCEP (ment), 110 km de r´esolution)
aux conditions limites du domaine de plus basse r´esolution. Quatre domaines imbriqu´es,
D01, D02, D03 et D04 (de r´esolutions respectives 27, 9, 3 et 1 km) ont ´et´e employ´es, le domaine
D04 couvrant la totalit´e de l’archipel de la Guadeloupe (Fig. 2.10). L’intervalle de
temps des sorties mod`eles est horaire. La turbulence de la CLP est mod´elis´ee par le sch´ema
1. Temps universel coordonn´e, de l’anglais : Universal Time Coordinated ; en Guadeloupe l’heure UTC
correspond `a l’heure LT+4
32Chapitre 2. M´ethodologie et principaux outils de simulation 33
d’ensemble 1D YSU (Hong et al., 2006). Les ´echanges sol–atmosph`ere gouvernent le bilan
´energ´etique de surface et sont succeptibles d’induire des circulations locales d’origine
thermique et dynamique. Afin d’obtenir des simulations pertinentes, il est n´ecessaire de
disposer de cartes d’occupation des sols r´ealistes, d´ecrivant avec pr´ecision les diff´erentes
cat´egories succeptibles d’exister dans le territoire `a ´etudier. Pour la descente d’´echelle
m´eso-´echelle, deux exp´eriences num´eriques ont ´et´e r´ealis´ees. La premi`ere, ” M´eso-A ”,
inclut dans le domaine D04 la carte d’occupation des sols USGS Advanced Very High
Resolution Radiometer (AVHRR) d’1 km de r´esolution qui r´esulte d’analyses d’images
satellites datant de 1992 (Anderson et al., 1976; Eidenshink and Faundeen, 1994). La
seconde, ” M´eso-A’ ”, inclut dans le domaine D04 la carte d’occupation des sols Coordination
of Information on the Environment (Corine Land Cover, CLC2006), de 23 m
de r´esolution qui a ´et´e produite `a partir d’images satellites plus r´ecentes, de 2006 (EEA,
2007). Les r´esultats de l’exp´erience M´eso-A ont ´et´e publi´es par C´ec´e et al. (2014). L’article
est pr´esent´e dans la section 3.1.1 du rapport. Les r´esultats de l’exp´erience M´eso-A’ nous
permettent d’´evaluer l’impact de la carte d’occupation des sols Corine 2006 sur les circulations
locales g´en´er´ees par la Guadeloupe. Les champs de surface simul´es dans le domaine
D04 sont ´evalu´es `a l’aide des donn´ees d’observation de 5 stations m´et´eorologiques.
Les simulations micro-´echelles WRF-LES sont r´ealis´ees `a l’aide de deux nouveaux domaines
(Fig. 2.10) : D05 (333 m de r´esolution) et D06 (111 m de r´esolution). Le domaine
D05 inclut l’ˆıle de la Basse-Terre et la cˆote ouest de la Grande-Terre. Le domaine D06
couvre la zone du Petit Cul-de-Sac Marin incluant la zone d’Arnouville (ARN), la zone
industrielle de Jarry et Pointe-`a-Pitre. Les domaines D05 et D06 ont une imbrication ”
one-way ”. Les conditions limites du domaine D05 sont d´efinies par les sorties horaires du
domaine m´eso-´echelle D04 via une fonction d’interpolation WRF ” NDOWN ” (avec une
m´ethode spline cubique). WRF-LES r´esoud explicitement en 3D les ´echelles de production
et de transport de l’´energie cin´etique turbulente tandis que sa dissipation est mod´elis´ee
par le mod`ele de fermeture TKE d’ordre 1,5. L’intervalle de temps des sorties WRF-LES
pour les deux domaines est de 10 minutes. Le choix de cet intervalle de temps repose sur
deux contraintes, le volume des donn´ees de sortie (150 Mo par sortie) et la possibilit´e de
comparer les donn´ees num´eriques avec des donn´ees d’observations de station. Ces champs
simul´es infra-horaires sont ´evalu´es `a l’aide des donn´ees d’observation du mˆat instrument´e
ARN (la direction DD et la vitesse UU du vent horizontal `a 10 m AGL, la temp´erature de
l’air `a 2 m AGL T2, le flux de chaleur sensible HFX, l’´energie cin´etique turbulente TKE,
etc.).
Enfin, nous avons utilis´e un couplage WRF-LES-FLEXPART pour ´etudier la pollution
de la centrale diesel EDF de Jarry. La dispersion du panache de NOx de la centrale estChapitre 2. M´ethodologie et principaux outils de simulation 34
simul´ee pour des p´eriodes de 24 h pour chaque type de temps. Le mod`ele lagrangien
FLEXPART-WRF est forc´e toutes les 10 minutes avec les sorties WRF-LES. Les simulations
WRF-LES-FLEXPART sont r´ealis´ees dans le domaine LES D06. Les concentrations
de NOx simul´ees par le syst`eme WRF-LES-FLEXPART sont moyenn´ees et sauv´ees toutes
les 10 minutes. Ces sorties sont compar´ees, graphiquement, avec les donn´ees d’observation
de l’unique station de mesure de la qualit´e de l’air dans la zone (station de Pointe-`a-Pitre
de l’association agr´e´ee de surveillance de la qualit´e de l’air en Guadeloupe, Gwad’air).Chapitre 2. M´ethodologie et principaux outils de simulation 35
Figure 2.1: Sch´ema r´ecapitulatif de la m´ethodologie adopt´ee.Chapitre 2. M´ethodologie et principaux outils de simulation 36
2.2 S´election des trois situations m´et´eorologiques ´etudi´ees
2.2.1 Classification des types de temps
Nous utiliserons la classification climatologique des types de temps dans les Petites Antilles
et la Guyane, d´ecrite dans le rapport de stage de K. Morvan (R´ealisation d’une
climatologie et dune classification en type de temps sur les Petites Antilles et la Guyane,
Universit´e des Antilles et de la Guyane, M´et´eo-France, 2011). Cette classification obtenue
par des k-moyennes est fond´ee sur 20 ans d’observations des stations m´et´eorologiques locales
et sur les champs de r´e-analyses Era-Interim du Centre europ´een pour les pr´evisions
m´et´eorologiques `a moyen terme (CEPMMT, en anglais : European Center for Medium
range Weather Forecasting, ECMWF). Elle utilise les variables r´e-analys´ees suivantes : la
vitesse du vent horizontal `a 850 hPa, la vitesse du vent vertical `a 600 hPa, la divergence
du vent horizontal `a 200 hPa, la pression au niveau de la mer (Pmer), la temp´erature de
l’air `a 2 m, la temp´erature de l’air `a 925 hPa et la temp´erature potentielle du thermom`etre
mouill´e `a 850 hPa.
Pour simuler et examiner les circulations du vent local g´en´er´ees par l’archipel de la Guadeloupe,
trois types de temps issus de cette classification ont ´et´e choisis. Le for¸cage principal
est la vitesse du flux incident des aliz´es, en conformit´e avec la m´ethode pr´esent´ee par Lesou¨ef
et al. (2011) et Smith et al. (2012).
Les aliz´es faibles (AF), les aliz´es moyens (AM), et les aliz´es soutenus (AS) sont associ´es
`a des vitesses de vent respectives de 3, 6, et 12 m.s-1. D’apr`es Br´evignon (2003) les AM
repr´esentent le type de temps le plus fr´equent durant l’ann´ee (60% des cas). Les AS et AF
constituent chacun 10% des cas durant l’ann´ee, les 20% des cas restants correspondent aux
fortes perturbations pluvieuses (les fronts d´epressionnaires, les ondes d’est, les cyclones,
etc.).
Dans le but d’´etudier les m´ecanismes qui induisent les retournements nocturnes du vent
des basses couches `a ARN, les jours simul´es ont ´et´e s´electionn´es durant la p´eriode de la
campagne exp´erimentale de D’Alexis (2011), soit d’avril 2007 `a juin 2008.
Le mois de d´ecembre a ´et´e choisi car ce mois, correspondant `a l’initiation de la saison
s`eche, inclut aussi bien l’apparition des trois types de temps (AS, AM et AF), l’absence
de fortes perturbations synoptiques que des fr´equences ´elev´ees des retournements nocturnes
du vent.
A partir de ces crit`eres, nous avons s´electionn´e trois p´eriodes de 48 heures, correspondant `Chapitre 2. M´ethodologie et principaux outils de simulation 37
respectivement aux situations m´et´eorologiques, AF, AS, et AM : 3/12/2007 6 h UTC–
5/12/2007 6 h UTC, 14/12/2007 6 h UTC–16/12/2007 6 h UTC, et 24/12/2007 6 h UTC–
26/12/2007 6 h UTC (avec le temps UTC correspondant `a LT+4). Les observations effectu´ees
`a partir des images radar M´et´eo-France montrent une couverture nuageuse tr`es
faibles durant ces trois p´eriodes (Fig. 2.2). La couverture nuageuse pr´esente sur la chaˆıne
de montagne de la Basse-Terre, durant les AS (Fig. 2.2a) est caract´eristique d’un r´egime
orographique.
Figure 2.2: Donn´ees d’observation du radar de M´et´eo-France (250 m de r´esolution)
`a 16 h LT : (a) le 15 d´ecembre 2007 (AS), (b) le 24 d´ecembre 2007 (AM) et (c) le 3
d´ecembre 2007 (AF).
2.2.2 Circulations synoptiques de basses couches pour les dates
simul´ees
Pour d´ecrire les circulations synoptiques de basses couches correspondant `a chaque type
de temps (AF, AS, et AM), les champs de surface FNL (NCEP (ment), 1➦ de r´esolution)
sont examin´es dans la zone centrale de l’oc´ean Atlantique (latitudes comprises entre 5➦N
et 35➦N et longitudes comprises entre 70➦W et 10➦W). Le flux d’aliz´es arrivant sur les Antilles
est principalement conditionn´e par la position et la force des cellules anticycloniques
des A¸cores et des Bermudes.
Durant les AF, le 3 d´ecembre 2007 `a 12 h UTC, la faible cellule anticyclonique des Bermudes
est s´epar´ee de celle des A¸cores par un creux barom´etrique (avec une Pmer minimale
de 1005 hPa). Nous observons un front d´epressionnaire de 1012 hPa (22➦N, 54➦W,
Fig. 2.3a) qui induit, dans sa queue, une zone de vents faibles affectant la Martinique,
la Dominique et la Guadeloupe (Fig. 2.3b). Sur l’Arc des Petites Antilles, le gradient
de pression horizontale a une faible valeur de 0,2 hPa sur 100 km (Fig. 2.3a). Les aliz´es
arrivant sur la Guadeloupe ont une direction nord-est et une vitesse inf´erieure `a 5 m.s-1
(Fig. 2.3b).Chapitre 2. M´ethodologie et principaux outils de simulation 38
Figure 2.3: Champs de surface FNL (NCEP (ment), 1➦ de r´esolution) durant AF le
3/12/2007 `a 12h UTC : (a) Pmer en hPa ; (b) vitesse UU du vent horizontal `a 10 m
en m.s-1
.
Durant les AS, le 14 d´ecembre 2007, le fort anticyclone des Bermudes est en position
basse, l’isobare 1024 hPa est positionn´ee `a 25➦N (Fig. 2.4a). Il y a un resserrement des
isobares, le gradient de pression horizontale atteint sur l’Arc des Petites Antilles, la valeur
de 0,6 hPa sur 100 km. Les aliz´es incidents ont des vitesses ´elev´ees de 12 m.s-1 et une
direction est-nord-est quasi-uniforme (Fig. 2.4b). La l´eg`ere d´ec´el´eration du vent autour
de la Martinique, de la Dominique et de la Guadeloupe pourrait sugg´erer un freinage du
flux par l’orographie de ces ˆıles montagneuses.
Durant les AM, le 24 d´ecembre 2007, les deux cellules anticycloniques sont en position
haute (Fig. 2.5a). Elles sont s´epar´ees par un faible creux barom´etrique (avec une Pmer
minimale de 1018 hPa). Les AM sont caract´eris´es par des vents d’est mod´er´es arrivant
sur les Petites Antilles (7 m.s-1, Fig. 2.5b). Sur l’Arc, le gradient de pression horizontale a
une valeur moyenne de 0,4 hPa sur 100 km. Au passage de l’Arc antillais, le flux d’aliz´es
subit une d´ec´el´eration de 2 m.s-1 (Fig. 2.5b).Chapitre 2. M´ethodologie et principaux outils de simulation 39
Figure 2.4: Champs de surface FNL (NCEP (ment), 1➦ de r´esolution) durant AS le
14/12/2007 `a 12h UTC : (a) Pmer en hPa ; (b) vitesse UU du vent horizontal `a 10 m
en m.s-1
.Chapitre 2. M´ethodologie et principaux outils de simulation 40
Figure 2.5: Champs de surface FNL (NCEP (ment), 1➦ de r´esolution) durant AM le
24/12/2007 `a 12h UTC : (a) Pmer en hPa ; (b) vitesse UU du vent horizontal `a 10 m
en m.s-1
.Chapitre 2. M´ethodologie et principaux outils de simulation 41
2.3 Mod`ele num´erique m´eso-´echelle de pr´evision m´et´eorologique
: WRF ARW V3.4.1
2.3.1 Description du mod`ele d’apr`es les ´etudes de Skamarock
et al. (2008) et Wang et al. (2010)
Le mod`ele Weather Research and Forecasting ARW (WRF ARW, Skamarock et al. (2008))
est un mod`ele atmosph´erique non-hydrostatique et compressible con¸cu par le National
Center for Atmospheric Research (NCAR). WRF ARW est largement utilis´e en recherche
scientifique et en pr´evision op´erationnelle. C’est un code num´erique dit open-source (libre
de t´el´echargement, d’utilisation et de d´eveloppement). WRF est principalement support´e
et d´evelopp´e par la Mesoscale and Microscale Meteorology Division du NCAR. Ce mod`ele
m´et´eorologique permet une grande vari´et´e de mod´elisations de l’atmosph`ere : des applications
depuis l’´echelle globale jusqu’`a l’´echelle LES, des descentes d’´echelle dynamiques ”
one-way ” ou ” two-way ”, des simulations id´ealis´ees ou r´eelles incluant le for¸cage par des
champs de mod`eles globaux (type GFS, FNL, ou des r´e-analyses Era-Interim), des assimilations
de donn´ees d’observation en temps r´eel pour la pr´ediction... Il contient plusieurs
conditions de limites lat´erales avec un ensemble d’options de param´etrisation physique.
2.3.1.1 Architecture
Wang et al. (2010) ont d´ecrit l’architecture du mod`ele WRF (Fig. 2.6). Pour des simulations
de cas r´eels, le programme WRF Preprocessing System (WPS) est utilis´e. Ses
fonctions permettent : de d´efinir les domaines de simulation ; d’interpoler les donn´ees
terrestres statiques (comme la topographie et l’occupation des sols) sur les domaines de
simulation ; et d’interpoler les donn´ees m´et´eorologiques maill´ees d’un autre mod`ele (GFS,
FNL NCEP, Era-Interim, ...). Les donn´ees d’observation non maill´ees (stations m´et´eorologiques,
radar, ...) peuvent ˆetre ´egalement int´egr´ees, filtr´ees et valid´ees par le syst`eme
d’assimilation WRF-Var ou le syst`eme d’analyse OBSGRID. Le coeur dynamique ARW
utilise les sch´emas de second et troisi`eme ordre de Runge-Kutta pour g´en´erer les pr´evisions.
Les sorties WRF peuvent ˆetres lues et trait´ees par plusieurs outils de visualisation (VAPOR,
NCAR Command Language (NCL), ou RIP4). Le programme MET permet de les
formater pour leur assimilation dans WPS.Chapitre 2. M´ethodologie et principaux outils de simulation 42
Figure 2.6: Architecture du mod`ele WRF ARW (d’apr`es Wang et al. (2010)).
2.3.1.2 Principales ´equations r´esolues
Le coeur dynamique ARW r´esout les ´equations d’Euler non-hydrostatiques et compressibles
(Skamarock et al., 2008). Le mod`ele suit la philosophie de Ooyama (1990), ces
´equations sont exprim´ees sous forme de flux de variables conservatrices (i.e., la chaleur, la
quantit´e de mouvement, etc.). Les ´equations sont formul´ees en utilisant une coordonn´ee
verticale hydrostatique, η, qui d´epend des variations topographiques (Kasahara, 1974;
Laprise, 1992).
Coordonn´ee verticale η et variables associ´ees
La coordonn´ee verticale d´ependant de la pression hydrostatique (ph = ρgH) et donc de
la topographie, est appel´ee η et d´efinie par :
η = (ph − pht)/µd o`u µd = phs − pht. (2.1)
ph est la pression hydrostatique, pht et phs, repr´esentent respectivement, les pressions
hydrostatiques au sommet et `a la surface. Les valeurs de η sont normalis´ees et varient
entre 1 `a la surface et 0 au sommet du mod`ele (Fig. 2.7). Avec µd(x,y) repr´esentant laChapitre 2. M´ethodologie et principaux outils de simulation 43
masse de la colonne d’air sec par unit´e de surface au point (x,y), les variables s’´ecrivent :
V = µdv = (U, V, W), Ω = µdη,˙ Θ = µdθ. (2.2)
v = (u, v, w) sont les vitesses covariantes en 3D (base vectorielle), ω = ˙η est la vitesse
verticale contravariante (vitesse associ´ee au changement de coordonn´ee verticale), θ est
la temp´erature potentielle. Dans les ´equations gouvernantes de ARW, les variables nonconserv´ees
suivantes apparaissent : le g´eopotentiel φ = gz (avec g l’acc´el´eration de la
pesanteur), la pression p, et le volume massique α = 1/ρ.
Figure 2.7: Niveaux verticaux η dans WRF ARW avec pht et phs, respectivement, les
pressions hydrostatiques au sommet et `a la surface (d’apr`es Skamarock et al. (2008)).
Equations d’Euler incluant l’humidit´e ´
En utilisant la coordonn´ee verticale adimensionnelle η et les variables associ´ees d´ecrites
ci-dessus, Skamarock et al. (2008) ont ´ecrit les ´equations d’un fluide parfait compressible,
le long de la colonne d’air (axe-η). Ces ´equations sont dites d’Euler et ont ´et´e pr´esent´eesChapitre 2. M´ethodologie et principaux outils de simulation 44
par Laprise (1992), pour les avantages qu’elles offrent en simulation atmosph´erique nonhydrostatique
:
∂tU + (∇.Vu) + µdα∂xp + (α/αd)∂ηp∂xφ = FU (2.3)
∂tV + (∇.Vv) + µdα∂yp + (α/αd)∂ηp∂yφ = FV (2.4)
∂tW + (∇.Vw) − g[(α/αd)∂ηp − µd] = FW (2.5)
∂tΘ + (∇.Vθ) = FΘ (2.6)
∂tµd + (∇.V) = 0 (2.7)
∂tφ + µ
−1
d
[(V.∇φ) − gW] = 0 (2.8)
∂tQm + (∇.Vqm) = FQm (2.9)
en incluant la relation diagnostique pour le volume massique d’air sec,
∂ηφ = −αdµd, (2.10)
et l’´equation d’´etat des gaz atmosph´eriques
p = p0(Rdθm/p0αd)
γ
. (2.11)
γ = cp/cv = 1.4 est le rapport de capacit´e thermique pour l’air sec, Rd est la constante
des gaz parfaits pour l’air sec, et p0 est la pression de r´ef´erence (1000 hPa). Les termes
FU , FV , FW , FΘ et FQm repr´esentent les for¸cages provenant de la physique du mod`ele, du
m´elange turbulent, de la vapeur d’eau, des projections sph´eriques et de la rotation de la
Terre. Les ´equations 2.3 et 2.4 repr´esentent les ´equations de la quantit´e de mouvement
horizontale. Les ´equations 2.5, 2.6, 2.7, 2.8 et 2.9 d´ecrivent respectivement, la quantit´e de
mouvement verticale, l’´equation thermodynamique, l’´equation de continuit´e, l’´equation
de la hauteur du g´eopotentiel et l’´equation de l’humidit´e. Skamarock et al. (2008) ont
exprim´e ces ´equations eul´eriennes humides sous forme de perturbations par rapport `a un
´etat de r´ef´erence (avec les variables d´efinies suivant la d´ecomposition de Reynolds (1947)
p = ¯p(¯z)+p
0
, φ = φ¯(¯z)+φ
0
, α = ¯α(¯z)+α
0
, µd = ¯µd(x, y)+µ
0
d
) et en utilisant des facteurs
d’´echelle et des termes rotationnels.
Maillage ARW d´ecal´e : Arakawa-C
La r´esolution num´erique des ´equations d´efinies dans la section pr´ec´edente (Eq. 2.3-2.8) se
fait `a l’aide d’un maillage d´ecal´e. Les grandeurs vectorielles (U, V , W, Ω et φ) sontChapitre 2. M´ethodologie et principaux outils de simulation 45
moyenn´ees sur les arˆetes de la maille et les grandeurs scalaires (µ, θ, qv et ql) sont
moyenn´ees au centre de la maille (Fig. 2.8). Ce sch´ema est d´enomm´e Arakawa de type C
du nom d’un de ses cr´eateurs (Arakawa and Lamb, 1977), il est particuli`erement utilis´e
dans les r´esolutions d’´ecoulements g´eophysiques (oc´ean et atmosph`ere).
Figure 2.8: Maille individuelle de la grille Arakawa-C avec les grandeurs vectorielles
(U, V , W, Ω et φ) et les scalaires (µ, θ, qv et ql) (Skamarock and Dudhia, 2014).
2.3.1.3 Sch´emas de param´etrisation physique
Les cat´egories de param´etrisation physique disponibles dans WRF sont : la microphysique,
la convection, la couche de surface, la surface du sol (canop´ee), le rayonnement
et la couche limite plan´etaire (CLP) (Skamarock et al., 2008). Les interactions entre les
sch´emas de param´etrisation ont ´et´e r´esum´ees par Dudhia (2014) dans la Fig. 2.9.
La microphysique r´esout explicitement 2
les processus suivants : les changements d’´etats
de la vapeur d’eau, la formation nuageuse et les pr´ecipitations.
Les sch´emas de convection sont responsables de la prise en compte des ph´enom`enes se
produisant `a l’´echelle de la sous-maille, provenant de nuages de convection profonde et
peu profonde : repr´esentation des flux verticaux associ´es aux mouvements ascendants et
descendants. Ces sch´emas sont importants car ils permettent de r´eduire le coˆut de calcul
qui serait n´ecessaire `a la r´esolution de ces ph´enom`enes avec un maillage plus fin.
2. L’´etat actuel est calcul´e uniquement `a l’aide des ´etats pr´ec´edents.Chapitre 2. M´ethodologie et principaux outils de simulation 46
Figure 2.9: Interactions entre les sch´emas de param´etrisation physique du mod`ele
WRF ARW (Dudhia, 2014).
Les sch´emas de couche de surface calculent les vitesses de friction et les coefficients
d’´echange. Ces variables permettent le calcul des flux de chaleur et d’humidit´e dans les
mod`eles de surface et le calcul du tenseur des contraintes de surface dans les sch´emas de
couche limite plan´etaire (CLP).
Les mod`eles de surface utilisent l’information atmosph´erique fournie par la couche de surface,
le rayonnement et la microphysique (pr´ecipitations) pour produire les flux de chaleur
et d’humidit´e associ´es aux variables d’´etat du sol et aux propri´et´es de surface (rugosit´e,
alb´edo, ...).
Les sch´emas de CLP d´eterminent les profils de flux dans la couche limite de m´elange et
la couche stable. Ces sch´emas fournissent des ´evolutions spatio-temporelles de la temp´erature,
de l’humidit´e et de la quantit´e de mouvement horizontal dans la colonne atmosph´erique.
Enfin, les sch´emas de rayonnement mod´elisent la divergence du flux radiatif (r´eflexion,
diffusion, effets des nuages) et les flux des grandes et courtes longueurs d’onde arrivant `a
la surface.Chapitre 2. M´ethodologie et principaux outils de simulation 47
2.3.2 Configurations utilis´ees
2.3.2.1 Preprocessing WPS
Domaines de simulation
Les simulations WRF incluent 6 domaines imbriqu´es dont les zones de couverture et
les r´esolutions ont ´et´e s´electionn´ees en fonction des objectifs de la mod´elisation et des
recommandations de Skamarock et al. (2008) (comme le rapport de r´esolution entre un
domaine parent et un domaine imbriqu´e de [3 :1]).
Dans le but de simuler les circulations locales m´eso-´echelles induites par les interactions
entre les vents synoptiques et des petites ˆıles comme la Guadeloupe, nous avons utilis´e
une descente d’´echelle ” two way ” avec quatre domaines (D01, D02, D03, D04, de r´esolutions
respectives en km : 27, 9, 3, 1)(Fig. 2.10). Le domaine de plus basse r´esolution,
D01, couvre une grille de 80 x 80 mailles [longitude x latitude] dans la zone centrale de
l’Atlantique (de l’Am´erique du Sud `a la R´epublique Dominicaine). Le domaine D02 couvre
une grille de 121 x 109 mailles dans l’Arc des Petites Antilles. Le domaine D03 couvre
une grille de 112 x 91 mailles dans la zone d´elimit´ee par la Dominique et les ˆıles de Saint
Kitts et N´evis. Le dernier domaine imbriqu´e, D04, couvre une grille de 130 x 112 mailles
sur l’archipel de la Guadeloupe.
Figure 2.10: Cartes des domaines imbriqu´es : en blanc D01 (27 km de r´esolution),
en cyan D02 (9 km de r´esolution), en gris D03 (3 km de r´esolution), en jaune D04
(1 km de r´esolution), en vert D05 (333 m de r´esolution) et en rouge D06 (111 m de
r´esolution).
Dans le but d’´etudier, `a la micro-´echelle, les circulations nocturnes particuli`eres observ´ees
`a ARN et leurs effets dans la zone la plus peupl´ee de l’archipel, deux autres domaines
ont ´et´e associ´es `a notre ´etude (Fig. 2.10) : le D05 et le D06 (de r´esolutions respectives,Chapitre 2. M´ethodologie et principaux outils de simulation 48
333 m et 111 m). Le domaine D05 couvre une grille de 120 x 129 mailles sur l’ˆıle de la
Basse-Terre et la cˆote ouest de la Grande-Terre. Enfin le dernier domaine imbriqu´e D06
est compos´e de 165 x 69 mailles sur la zone du Petit Cul-de-Sac Marin, incluant la zone
d’Arnouville, la zone industrielle de Jarry et Pointe-`a-Pitre.
Topographie
La topographie des trois domaines de plus faibles r´esolutions (D01, D02 et D03) a ´et´e
interpol´ee `a partir des donn´ees fournies par l’US Geological Survey 3
(USGS, 30 secondes
d’arc de r´esolution). La topographie des trois autres domaines (D04, D05 et D06) a ´et´e
interpol´ee depuis la carte topographique de l’Institut G´eographique National 4
(IGN) dont
la r´esolution est de 50 m. L’impact de la r´esolution sur la repr´esentation du relief de la
Guadeloupe est illustr´e par la comparaison de la topographie des domaines D04, D05 et
D06 (Fig. 2.11).
Figure 2.11: Cartes topographiques (m AMSL) interpol´ees `a partir des donn´ees IGN
(50 m de r´esolution) : (a) D04 (1 km de r´esolution), (b) D05 (333 m de r´esolution),
(c) D06 (111 m de r´esolution) ; avec la station num´erique VER (triangle jaune), le
mˆat instrument´e ARN (triangle vert) et la centrale ´electrique EDF (croix rouge).
3. Institut d’´etudes g´eologiques des Etats-Unis, de l’anglais : United States Geological Survey ´
4. Institut National de l’Information G´eographique et Foresti`ereChapitre 2. M´ethodologie et principaux outils de simulation 49
Occupation des sols
Les circulations locales sont g´en´eralement g´en´er´ees par des contrastes thermiques de surface.
Donc leur mod´elisation num´erique implique une bonne repr´esentation de la carte
d’occupation des sols. Pour notre application au cas de l’archipel de la Guadeloupe, nous
avons pr´ealablement utilis´e une carte d’occupation des sols tr`es bien r´ef´erenc´ee dans la
bibliographie : les donn´ees globales USGS 5
(ULC24) avec 1 km de r´esolution (Anderson
et al., 1976; Eidenshink and Faundeen, 1994). Cette carte d’occupation des sols, r´ealis´ee
`a partir des donn´ees satellites du Radiom`etre Avanc´e `a Tr`es Haute R´esolution AVHRR
(1992–1993, Eidenshink and Faundeen (1994)), a ´et´e employ´ee dans l’exp´erience M´eso-A.
Dans le cadre des simulations micro-´echelles, il ´etait pr´ef´erable de disposer de donn´ees
dont la r´esolution est sup´erieure ou ´egale `a la taille d’une maille du domaine D06 (111 m).
De plus, dans un souci de r´ealisme, la date de la carte d’occupation des sols devait correspondre
avec notre p´eriode de simulation (2007).
Les donn´ees de la carte d’occupation des sols Corine Land Cover 2006 (EEA, 2007) pour
les d´epartements d’outremer, bas´ee sur l’interpr´etation des images des satellites SPOT et
Landsat, ont ´et´e r´ecemment mises en ligne. Ces donn´ees, qui incluent une classification
en 50 classes d’occupation des sols, ont une r´esolution 1 : 100000 (un pixel de 23 m pour
la Guadeloupe).
Le sch´ema de canop´ee Noah-LSM (Chen and Dudhia, 2001), utilis´e dans la configuration
de nos simulations WRF, est param´etr´e `a partir des 24 cat´egories USGS d’occupation
du sol. Pour int´egrer la nouvelle carte d’occupation des sols, la conversion des 50 classes
Corine en 24 classes USGS est n´ecessaire. Pineda et al. (2004) ont propos´e un tableau
d’´equivalences entre les cat´egories Corine et les cat´egories USGS (Tab. 2.1).
En nous basant sur l’analyse de Pineda et al. (2004), nous avons donc converti les 50 classes
de la carte d’occupation des sols de la Guadeloupe Corine 2006 en 24 classes USGS pour
obtenir la carte CLC24 6
(Fig. 2.12). Cette repr´esentation de tr`es haute r´esolution est tr`es
r´ealiste (Fig. 2.12) : on y observe l’agglom´eration pointoise (au centre de l’archipel), la
domination des forˆets de feuillus sur l’ˆıle de la Basse-Terre et celle des terres cultiv´ees sur
la Grande-Terre. La pr´ecision de la carte nous permet aussi d’observer la zone aride du
crat`ere de la Soufri`ere (Fig. 2.12).
La comparaison, `a 1 km de r´esolution (domaine D04), des cartes USGS AVHRR (ULC24)
(Fig. 2.13a) et Corine CLC24 (Fig. 2.13b) montre d’importants biais dans l’occupation
des sols ULC24. Tout d’abord, contrairement `a la repr´esentation CLC24, la ligne de cˆote
ULC24 semble avoir un d´ecalage sud-est avec la ligne de cˆote World Vector Shoreline
5. Carte d’occupation des sols USGS global land cover avec 24 cat´egories (1992)
6. Carte d’occupation des sols Corine Land Cover (2006) convertie aux 24 cat´egories d´efinies par USGSChapitre 2. M´ethodologie et principaux outils de simulation 50
Tableau 2.1: Equivalences entre les 50 classes de la Corine Land Cover 2006 DOM ´
et les 24 classes de l’USGS AVHRR 1992 (Pineda et al., 2004).
Corine Description Corine USGS Description USGS Albedo Rugosit´e
1–11 Zones urbaines, industrielles 1 Zones urbaines, industrielles 0,15 1,00
12 Terres cultiv´ees non irrigu´ees 2 Terres cultiv´ees non irrigu´ees 0,19 0,07
13-14 Terres irrigu´ees en permanence, 3 Terres cultiv´ees irrigu´ees 0,15 0,07
rizi`eres
15–21 Vignobles, vergers et petits fruits, 6 Terres cultiv´ees/forˆets 0,15 0,07
oliveraies, canne `a sucre,
bananeraies, palmeraies, caf´eiers
22 Prairies 2 Terres cultiv´ees non irrigu´ees 0,19 0,07
23–26 Cultures annuelles et permanentes, 6 Terres cultiv´ees/forˆets 0,15 0,07
syst`emes complexes de culture,
zones agricoles et espaces naturels,
territoires agro-forestiers
27 Forˆets de feuillus 11 Forˆets de feuillus 0,12 0,80
28 Forˆets de conif`eres 14 Forˆets de conif´eres 0,10 1,09
29–30 Forˆets m´elang´ees, mangroves 15 Forˆets m´elang´ees 0.12 0.80
31 Pelouses et pˆaturages naturels 7 Pelouses 0,19 0,08
32–34 Landes et broussailles, v´eg´etation 9 Arbustes et pelouses 0,23 0,05
V´eg´etation scl´erophylle,
forˆet et v´eg´etation arbustive
35–38 Plages, dunes et sable, roches nues 19 Zones arides et 0,12 0,01
V´eg´etation clairsem´ee, v´eg´etation clairsem´ee
zones incendi´ees
39 Glaciers et neiges ´eternelles 24 Neige et glacier 0,70 0,001
40–44 Marais int´erieurs, salines, tourbi`eres 17 v´eg´etation basse 0,12 0,04
Marais maritimes, marais salants, en zones innond´ees
zones intertidales
45–50 Eaux continentales, eaux maritimes 16 Surfaces d’eau 0,19 0,001
(NOAA, 2014). De plus, la domination de l’occupation des sols de l’archipel par les savanes
et les terres cultiv´ees non irrigu´ees semble irr´ealiste (Fig. 2.13a). Cette carte ne
montre pas les diff´erences entre la v´eg´etation de l’ˆıle plate de la Grande-Terre et celle du
relief de la Basse-Terre qui est soumis `a un r´egime pluvieux plus intense. Enfin les zones
urbaines de la carte ULC24 semblent tr`es mal repr´esent´ees.
Suite `a cette comparaison graphique, le choix a ´et´e fait d’effectuer de nouvelles simulations
m´eso-´echelles (M´eso-A’) en int´egrant l’occupation des sols CLC24 dans le domaine D04.
Les effets de la CLC24 sur les circulations locales de l’archipel (1 km de r´esolution) sont
examin´es `a la section 3.1.2. La CLC24 est aussi utilis´ee dans les domaines micro-´echelles :
D05 et D06.
La configuration des donn´ees g´eographiques pour les six domaines de simulation estChapitre 2. M´ethodologie et principaux outils de simulation 51
Figure 2.12: Carte d’occupation des sols de l’archipel de la Guadeloupe CLC24 (23 m
de r´esolution) : Corine Land Cover 2006 dont les 50 cat´egories ont ´et´e converties en
24 cat´egories USGS, avec le rectangle noir repr´esentant l’agglom´eration pointoise.
Figure 2.13: Comparaison des cartes d’occupation des sols de l’archipel de la
Guadeloupe `a 1 km de r´esolution (D04) avec la ligne de cˆote World Vector Shoreline
(NOAA, 2014), (1) les zones urbaines, (2) les terres cultiv´ees non irrigu´ees, (6) les
m´elanges de terres cultiv´ees et de forˆets, (7) les pelouses, (8) les arbustes, (9) les
m´elanges d’arbustes et de pelouses, (10) les savanes, (11) les forˆets de feuillus, (13)
les forˆets denses, (14) les forˆets de conif`eres, (15) les forˆets m´elang´ees mangroves
incluses, (16) les surfaces d’eau, (17) les v´eg´etations basses en zones inond´ees, (18) les
surfaces bois´ees en zones inond´ees, (21) la toundra bois´ee : (a) USGS ULC24
(M´eso-A), (b) Corine CLC24 (M´eso-A’).
r´esum´ee dans le tableau 2.2.Chapitre 2. M´ethodologie et principaux outils de simulation 52
Tableau 2.2: Configuration des six domaines de simulation.
D01 D02 D03 D04 D05 D06
R´esolution [m] 27000 9000 3000 1000 333 111
Nombre de mailles [lon. x lat.] 80 x 80 121 x 109 112 x 91 130 x 112 120 x 129 165 x 69
Superficie [km2
] 4665600 1068309 91728 14560 1584 140
Topographie USGS 30 s IGN 50 m
Occupation des sols M´eso-A ULC24 30 s ULC24 30 s CLC24 23 m
Occupation des sols M´eso-A’ ULC24 30 s CLC24 23 m CLC24 23 m
Sch´ema de turbulence Sch´ema de moyenne d’ensemble 1D Sch´ema LES 3D
Donn´ees m´et´eorologiques globales pour l’assimilation du mod`ele WRF ARW
Les donn´ees globales du syst`eme NCEP FNL (Final) Operational Global Analysis (NCEP,
ment) ont ´et´e int´egr´ees toutes les 6 heures, dans le mod`ele WRF. Ces champs de donn´ees,
dont la maille est de 1➦(≈ 110 km) et le pas de temps de six heures, sont en t´el´echargement
libre. Les analyses NCEP FNL sont disponibles pour des dates post´erieures au 30/07/1999
18 h UTC. Les donn´ees proviennent du syst`eme d’assimilation de donn´ees mondiales
(GDAS), qui recueille, en continu, les donn´ees d’observation depuis le syst`eme de t´el´ecommunications
globales (GTS). Les sorties d’analyses FNL incluent des champs `a la
surface et sur 26 niveaux verticaux levels entre 1000 mb et 10 mb. Les param`etres disponibles
comprennent la pression de surface, la pression au niveau de la mer, la hauteur
du g´eopotentiel, la temp´erature, la temp´erature de surface du sol et de la mer, l’humidit´e
relative, les composantes horizontales du vent, les mouvements verticaux, la vorticit´e et
la teneur en ozone.
2.3.2.2 Param´etrisations WRF ARW
Caract´erisation des niveaux verticaux
Les exp´eriences M´eso-A et M´eso-A’ comportent respectivement 71 et 70 niveaux verticaux
m´edians (centres des mailles verticales) avec un premier niveau vertical `a une altitude de
13 m AGL (Fig. 2.14b). Le sommet du mod`ele est limit´e au niveau de pression 50 hPa dans
l’exp´erience M´eso-A et `a la tropopause 100 hPa dans l’exp´erience M´eso-A’ (Fig. 2.14a).
Le mod`ele fournit les variables de surface classiques avec la temp´erature `a 2 m AGL (T2)
qui est calcul´ee `a partir de la temp´erature du premier niveau vertical et de celle de la
surface du sol, tandis que pour le vent `a 10 m AGL, le calcul est bas´e sur la th´eorie des
similitudes de Monin-Obukhov.
Suivant les recommandations de Skamarock et al. (2008), la distance entre les niveauxChapitre 2. M´ethodologie et principaux outils de simulation 53
Figure 2.14: Niveaux verticaux m´edians (WRF) pour les exp´eriences M´eso-A (croix
bleues) et M´eso-A’ (cercles rouges) : (a) profils lin´eaires en fonction du niveau de
pression (hPa) et (b) profils logarithmiques en fonction de l’altitude (km).
verticaux est inf´erieure `a 900 m (Fig. 2.14b). Dans le but d’´etudier les circulations locales
induites dans la CLA par l’orographie et les contrastes thermiques de surface, nous
avons d´efini dans les deux exp´eriences 43 niveaux verticaux dans les couches inf´erieures `a
3000 m AGL, en incluant 23 niveaux dans les 1000 premiers m`etres (Fig. 2.14b).
Les simulations WRF-LES micro-´echelles (D05 et D06) comportent les mˆemes niveaux
verticaux que ceux de l’exp´erience M´eso-A’.
P´eriodes simul´ees et intervalles de temps des sorties mod`eles
A m´eso- et micro-´echelle, la dur´ee des p´eriodes simul´ees est de 60 heures pour les trois `
cas, AF (du 2 d´ecembre 2007 18 h UTC au 5 d´ecembre 2007 6 h UTC), AS (du 13
d´ecembre 2007 18 h UTC au 16 d´ecembre 2007 6 h UTC) et AM (du 23 d´ecembre 2007
18 h UTC au 26 d´ecembre 2007 6 h UTC). Aussi bien en m´eso-´echelle qu’en micro-´echelle,
les r´esultats des 12 premi`eres heures ne sont pas pris en compte dans notre analyse, car
ils correspondent `a la p´eriode classique du temps de latence du mod`ele, appel´ee ” spin-up
” (Hu et al., 2010).
Les sorties mod`eles m´eso-´echelles (D01, D02, D03 et D04) sont sauvegard´ees toutes les
heures. Suivant la m´ethode de Talbot et al. (2012), les champs simul´es horaires du domaine
D04 sont utilis´es par la suite comme conditions limites du domaine LES D05 via une
fonction d’interpolation spline cubique, appel´ee ” NDOWN ”. Les sorties WRF-LES des
domaines D05 et D06 sont sauvegard´ees toutes les 10 minutes.Chapitre 2. M´ethodologie et principaux outils de simulation 54
Param´etrisations physiques m´eso- et micro-´echelles
Les sch´emas de physique utilis´es dans nos travaux `a la m´eso-´echelle et `a la micro-´echelle
correspondent aux param´etrisations les plus fr´equemment employ´ees dans les ´etudes num´eriques
utilisant le mod`ele WRF.
Dans les domaines m´eso-´echelles (D01, D02, D03 et D04), la couche limite plan´etaire
(CLP) est mod´elis´ee par le sch´ema de moyenne d’ensemble non-local-K YSU (Hong et al.,
2006) associ´e `a la diffusion horizontale Smagorinsky du premier ordre. Les ´etudes comparatives
des sch´emas de CLP du mod`ele WRF ont montr´e que le sch´ema YSU ´etait
le plus performant en couche limite convective (Hu et al., 2010; Shin and Hong, 2011).
Cependant, en condition de stabilit´e nocturne, le sch´ema YSU (versions WRF ant´erieures
`a la 3.4.1 utilis´ee ici) avait tendance `a inhiber le gradient de vent vertical, ceci ´etant en
parti dˆu `a un m´elange vertical excessif (Hu et al., 2013). La r´eduction du m´elange vertical
nocturne dans la version 3.4.1 du code WRF ARW a permis d’am´eliorer la pr´ediction des
vitesses du vent des basses couches durant la nuit (Hu et al., 2013). Le sch´ema YSU a
aussi montr´e de bonnes performances dans les ´etudes de couplage micro-´echelle WRF-LES
(Talbot et al., 2012; Zhu, 2008a,b).
Dans les domaines micro-´echelles (D05 et D06), la couche limite plan´etaire (CLP) est
r´esolue explicitement par le sch´ema LES 3D avec la fermeture 3D TKE d’ordre 1.5 (d´ecrit
`a la sous-section 1.3.4).
Dans les six domaines de simulation, la param´etrisation de la couche de surface est bas´ee
sur la th´eorie des similitudes de Monin-Obukhov.
La microphysique est mod´elis´ee par le sch´ema WRF Single-Moment 6-class WSM6 (Hong
and Lim, 2006) qui est pr´ef´erable pour les simulations de haute r´esolution au sch´ema
WRF Single-Moment 3-class WSM3 utilis´e par Lef`evre et al. (2010).
Pour la param´etrisation du rayonnement `a ondes longues et du rayonnement `a ondes
courtes, les sch´emas RRTM (Mlawer et al., 1997) et Dudhia (Dudhia, 1989) sont respectivement
s´electionn´es. Les ˆıles volcaniques des Petites Antilles, comme la Martinique, la
Dominique et la Guadeloupe ont une topographie complexe. Dans le but de mieux simuler
les for¸cages radiatifs, les effets de pente et d’ombre ont ´et´e ajout´es pour les domaines D03,
D04, D05 et D06.
Le mod`ele de surface Noah Land Surface Model (Chen and Dudhia, 2001) est s´electionn´e.
Il inclut le calcul de l’humidit´e et de la temp´erature dans quatre couches du sol.
Dans le domaine D01, le sch´ema Kain-Fritsch (Kain, 2004) est ajout´e pour mod´eliser
la convection. Dans les 5 autres domaines, le mod`ele r´esout explicitement la convection.
D’apr`es Skamarock et al. (2008), les sch´emas de convection doivent ˆetre appliqu´es sur des
mailles de taille sup´erieure `a 10 km.Chapitre 2. M´ethodologie et principaux outils de simulation 55
L’option de variation de la temp´erature de surface de la mer en fonction du rayonnement
est activ´ee. Cette option permet de simuler le cycle diurne de la temp´erature de surface
de la mer.
Pas de temps de calcul
Pour maximiser les pas de temps de calcul tout en maintenant le mod`ele num´eriquement
stable, nous avons utilis´e une m´ethode de pas de temps adaptatif bas´ee sur les conditions
de stabilit´e Courant-Friedrichs-Lewy (CFL). Trois param`etres doivent ˆetre pr´ealablement
d´efinis en fonction de la r´esolution du domaine (∆x, en km). Skamarock et al. (2008)
recommandent un pas de temps de d´epart de 6∆x, un pas de temps minimal de 4∆x et
un pas de temps maximal de 8∆x.
Le pas de temps adaptatif a ´et´e employ´e pour les simulations m´eso-´echelles (Tab. 2.3). Son
utilisation pour les simulations LES entraˆınait des erreurs et des interruptions de calcul.
Nous avons donc fix´e les pas de temps de calcul des domaines D05 et D06 (Tab. 2.3).
Tableau 2.3: Pas de temps de calcul pour les six domaines de simulation.
D01 D02 D03 D04 D05 D06
∆x = 27 km ∆x = 9 km ∆x = 3 km ∆x = 1 km ∆x = 0.3 km ∆x = 0.1 km
Pas de temps de d´epart (s) 162 54 18 6 ∅ ∅
∆t = 6∆x
Pas de temps minimal (s) 108 36 12 4 ∅ ∅
∆t = 4∆x
Pas de temps maximal (s) 216 72 24 8 ∅ ∅
∆t = 8∆x
Pas de temps constant (s) ∅ ∅ ∅ ∅ 1,2 0,4
∆t = 4∆x
Conditions initiales
Les conditions initiales incluent aussi bien les conditions au sol (topographie, occupation
des sols, ...) que les champs m´et´eorologiques interpol´es provenant des analyses globales
du mod`ele NCEP FNL (NCEP, ment), dont la maille est de 110 km. Ces champs maill´es
comportent des variables 2D au sol et des variables 3D qui seront interpol´ees sur les
niveaux verticaux de la simulation.Chapitre 2. M´ethodologie et principaux outils de simulation 56
Conditions aux limites
Les conditions aux limites lat´erales des six domaines de simulation sont configur´ees par une
zone de sp´ecification (zone entourant le domaine d’´epaisseur ´egale `a une maille) et par la
zone de relaxation (zone suivant entourant le domaine d’´epaisseur ´egale `a quatre mailles).
Les valeurs des conditions sont impos´ees dans la zone de sp´ecification, puis propag´ees
dans la zone de relaxation (Davies and Turner, 1977) permettant d’´eviter les instabilit´es
induits par d’´eventuels gradients ´elev´es.
Tableau 2.4: Conditions aux limites des simulations WRF pour les six domaines
´etudi´es.
D01 D02 D03 D04 D05 D06
Sommet Vitesse verticale w nulle
Surface Conditions du sol (topographie, rugosit´e, alb´edo, ...)
Bords lat´eraux NCEP-FNL Sorties D01 Sorties D02 Sorties D03 Sorties D04 Sorties D05
Intervalle de temps 6 h ∆tD01 ∆tD02 ∆tD03 1 h ∆tD05
Imbrication Two-way One-way
Dans le cas des simulations `a la m´eso-´echelle, les conditions aux limites lat´erales du premier
domaine (D01, 27 km de maille) proviennent des champs m´et´eorologiques NCEP-FNL
(NCEP, ment) interpol´es, 2D et 3D, toutes les six heures (Tab. 2.4). Pour les trois autres
domaines (D02, D03 et D04), les conditions aux limites sont ´etablies par imbrication :
c’est le domaine parent qui fixe les conditions lat´erales du domaine fils `a chaque pas de
temps.
Dans le cas des simulations `a la micro-´echelle, les conditions aux limites lat´erales du
premier domaine (D05, 333 m de maille) sont ´etablies par les sorties interpol´ees, 2D et
3D, du domaine D04 (1 km de r´esolution), toutes les heures. Les conditions limites du
domaine D06 sont d´efinies par les r´esultats du domaine D05.
Le sommet de l’atmosph`ere, d´efini respectivement dans les simulations M´eso-A et M´esoA’,
`a 50 hPa et 100 hpa, est param´etr´e par une condition de vitesse verticale nulle.Chapitre 2. M´ethodologie et principaux outils de simulation 57
2.4 Mod`ele lagrangien de dispersion de particules :
FLEXPART-WRF
2.4.1 Description
Le mod`ele lagrangien de dispersion de particules FLEXPART (Stohl et al., 2005) a ´et´e
con¸cu initialement pour simuler, aux larges et moyennes ´echelles, la dispersion de polluants
provenant de sources industrielles, tels les accidents au sein d’une centrale nucl´eaire,
les incendies de plateforme industrielle, etc. FLEXPART simule le transport, la diffusion,
les d´epˆots secs et humides, et la d´esint´egration radioactive des traceurs lib´er´es
depuis des sources (point, ligne, surface ou volume). La dynamique de ce code permet
des simulations directes (la dispersion des traceurs depuis leur source), ou indirectes
(d´etermination des sources potentielles pour des r´ecepteurs connus). Ce mod`ele utilise
les donn´ees m´et´eorologiques mondiales comme les pr´edictions du mod`ele Global Forecast
System (GFS, Han and Pan (2011); Yang et al. (2006)) fournies avec une r´esolution
sup´erieure ou ´egale `a 0,5➦. Dans le cas des moyennes et petites ´echelles, c’est le mod`ele
coupl´e FLEXPART-WRF qui a ´et´e d´evelopp´e pour mod´eliser la dispersion de particules
(Brioude et al., 2013). Tout comme FLEXPART, le code FLEXPART-WRF ´ecrit en Fortran
95 est en libre t´el´echargement sous la licence GNU General Public Licence (GPL).
2.4.1.1 Int´egration des donn´ees m´et´eorologiques WRF
Le transport des polluants dans le code num´erique FLEXPART-WRF est forc´e par des
champs de variables m´et´eorologiques WRF (Tab. 2.5).
Les sorties du mod`ele WRF sont maill´ees sur une grille Arakawa C-grid avec des niveaux
verticaux η suivant la topographie. Les composantes du vent horizontal et vertical sont
d´efinies sur grille d´ecal´ee. Dans le mod`ele FLEXPART-WRF, les vents sont interpol´es
sur le centre des mailles, de telle sorte que toutes les donn´ees m´et´eorologiques soient sur
la mˆeme grille. Les donn´ees WRF 3-D sont interpol´ees dans FLEXPART-WRF, sur des
niveaux cart´esiens suivant la topographie.Chapitre 2. M´ethodologie et principaux outils de simulation 58
Tableau 2.5: Variables des sorties WRF requises et optionnelles pour le for¸cage du
mod`ele FLEXPART-WRF (Brioude et al., 2013).
Variable WRF Dimension Description
ZNW 1D Valeur Eta des niveaux verticaux Eta
ZNU 1D Valeur Eta `a la moiti´e des niveaux verticaux
PB 3D Valeur de la pression `a l’´etat de r´ef´erence en Pa
P 3D Perturbation sur la pression en Pa
PHB 3D Valeur du g´eopotentiel `a l’´etat de r´ef´erence en m2
.s-2
PH 3D Perturbation sur le g´eopotentiel en m2
.s-2
T 3D Perturbation de temp´erature potentielle en K
QVAP 3D Rapport de m´elange de vapeur d’eau en kg.kg-1
TKE 3D Energie cin´etique turbulente en m ´ 2
.s-2 (optionnel)
XLAT 2D Latitude en degr´e nord
XLONG 2D Longitude en degr´e est
MAPPAC M 2D Facteur d’´echelle de la carte
PSFC 2D Pression `a la surface en Pa
U10 2D Vitesse du vent horizontal `a 10 m suivant l’axe x
V10 2D Vitesse du vent horizontal `a 10 m suivant l’axe y
T2 2D Temp´erature `a 2 m en K
Q2 2D Humidit´e sp´ecifique `a 2 m en kg.kg-1
SW 2D Rayonnement solaire incident en W.m-2 (optionnel)
RAINNC 2D Pr´ecipitation r´esolue explicitement en mm (optionnel)
RAINC 2D Pr´ecipitation convective en mm (optionnel)
HFX 2D Flux de chaleur sensible `a la surface en W.m-2 (optionnel)
UST 2D Vitesse de friction en m.s-1 (optionnel)
HCLA 2D Hauteur de la couche limite atmosph´erique en m (optionnel)
Type 1 des variables de vent int´egr´ees
U 3D Vitesse du vent horizontal suivant l’axe x en m.s-1
V 3D Vitesse du vent horizontal suivant l’axe y en m.s-1
W 3D Vitesse du vent suivant l’axe z en m.s-1
Type 2 des variables de vent int´egr´ees
AVGFLX RUM 3D Vitesse du vent horizontal suivant l’axe x, pond´er´ee sur la masse
et moyenn´ee sur l’intervalle de temps, en Pa.m.s-1
AVGFLX RVM 3D Vitesse du vent horizontal suivant l’axe y, pond´er´ee sur la masse
et moyenn´ee sur l’intervalle de temps, en Pa.m.s-1
AVGFLX WWM 3D Mouvement vertical, pond´er´e sur la masse
et moyenn´e sur l’intervalle de temps, en Pa.m.s-1
MU 2D Perturbation de la masse d’air dans la colonne en Pa
MUB 2D Masse d’air de r´ef´erence dans la colonne en Pa
Type 3 des variables de vent int´egr´ees
U 3D Vitesse du vent horizontal suivant l’axe x en m.s-1
V 3D Vitesse du vent horizontal suivant l’axe y en m.s-1
WW 3D Mouvement vertical de la masse d’air en Pa.s-1
2.4.1.2 Param´etrisation de la couche limite atmosph´erique et de la turbulence
Par d´efaut, deux param`etres de couche limite WRF sont utilis´es : la vitesse de friction et
le flux de chaleur sensible. Stohl et al. (2005) ont indiqu´e que ces param`etres peuvent ˆetre
calcul´es dans FLEXPART en appliquant la m´ethode du profil (Berkowicz and Prahm,
1982) au vent (10 m et second niveau vertical) et `a la temp´erature (2 m et second niveau
vertical). Une option (SFC OPTION) permet d’int´egrer la hauteur de la couche limite
simul´ee par WRF ou d’effectuer son calcul dans FLEXPART par la m´ethode de la valeur
critique du nombre de Richardson (Stohl et al., 2005; Vogelezang and Holtslag, 1996).
Dans ce cas, la HCLA est atteinte pour le premier niveau vertical pour lequel le nombre
de Richardson d´epasse la valeur critique de 0,25.Chapitre 2. M´ethodologie et principaux outils de simulation 59
Quatre options sont disponibles pour la param´etrisation du vent turbulent dans la couche
limite (Brioude et al., 2013) :
1. Le traitement de la turbulence est d´esactiv´e.
2. Le m´elange turbulent de la couche limite est trait´e par le sch´ema de turbulence
Hanna (Hanna, 1982). Ce sch´ema est bas´e sur les param`etres suivants : la hauteur
de couche limite (HCLA), la longueur de Monin-Obukhov, l’´echelle de la vitesse de
convection, la longueur de rugosit´e et la vitesse de friction. En fonction du r´egime
de la couche limite, instable, stable ou neutre, diff´erents profils turbulents sont
utilis´es. Le sch´ema de turbulence Hanna peut ˆetre associ´e `a une param´etrisation
de couche limite convective. Dans ce cas la turbulence gaussienne est remplac´ee
par la formulation de Luhar et al. (1996).
3. Les composantes du vent turbulent sont calcul´ees `a partir de l’´energie cin´etique
turbulente (TKE) fournie par WRF. La TKE est r´epartie entre les composantes horizontales
et verticales suivant la couche de surface et la stabilit´e locale param´etr´ee
par le sch´ema de turbulence Hanna.
4. La TKE des sorties WRF est utilis´ee. La TKE est r´epartie d’apr`es l’´equilibre entre
l’´energie turbulente de production et celle de dissipation.
Au-dessus de la CLP, la turbulence est bas´ee sur une diffusivit´e verticale constante de
0,1 m2
.s-1 dans la stratosph`ere et une diffusivit´e horizontale de 50 m2
.s-1 dans la troposph`ere
libre (Stohl et al., 2005). La stratosph`ere et la troposph`ere sont diff´erenci´ees par
une valeur seuil de 2 pvu (potential vorticity units).
2.4.1.3 Calcul de la trajectoire des particules
Comme d´ecrit par Stohl et al. (2005), FLEXPART utilise un sch´ema du type ” acc´el´eration
nulle ”. L’´equation de la trajectoire (Stohl et al., 1998) est une ´equation diff´erentielle du
premier ordre,
dX
dt = v[X(t)] (2.12)
qui est int´egr´ee `a l’aide d’un sch´ema d’int´egration num´erique du premier ordre de type
Euler :
X(t + ∆t) = X(t) + v(X, t)∆t, (2.13)
o`u t est le temps, ∆t l’incr´ement de temps, X le vecteur position et v = ¯v + vt + vm, le
vecteur du vent incluant le vent de la maille ¯v, les fluctuations du vent turbulent vt et les
fluctuations du vent `a la m´eso-´echelle vm.Chapitre 2. M´ethodologie et principaux outils de simulation 60
Le transport des particules est calcul´e `a partir des donn´ees m´et´eorologiques (principalement
les vents) interpol´ees `a la position de la particule (Stohl et al., 2005) tandis que la
dispersion turbulente est bas´ee sur la r´esolution des ´equations de Langevin.
2.4.2 Configurations de nos simulations
L’objectif principal des simulations WRF-LES-FLEXPART est d’analyser les effets des
circulations locales sur la dispersion d’un panache de polluants industriels dans la zone
la plus peupl´ee de l’archipel pour trois cas r´eels de situation m´et´eorologique (AS, AM et
AF).
Nous nous sommes int´eress´es `a la source industrielle la plus polluante de l’ˆıle : la centrale
diesel EDF de Jarry nord, situ´ee dans le Petit Cul-de-Sac Marin (Fig. 1.5, 1.7, 1.8, 1.9).
D’apr`es le Registre fran¸cais des Emissions polluantes ´ , la centrale EDF Jarry nord ´emet
chaque ann´ee, 10 kilotonnes d’oxydes d’azote en ´equivalent NO2 (NOx = NO + NO2).
Seules les ´emissions de NOx sont r´epertori´ees dans ce registre, le rapport du m´elange NO–
NO2 n’est pas disponible. Nous avons donc analys´e les concentrations d’oxyde d’azote
NOx produites par la combustion du diesel dans la centrale, durant les trois types de
temps (AS, AM et AF). La couleur brune, caract´eristique du NO2, nous permet d’´evaluer
visuellement la structure du panache depuis des photos d’observation (Fig. 1.7, 1.9).
Les simulations de la dispersion du NOx ´emis depuis les chemin´ees de la centrale sont
effectu´ees dans le domaine LES D06 (Fig. 2.10, 2.11) `a l’aide de FLEXPART.
2.4.2.1 P´eriodes de simulation et intervalles de temps des sorties mod`eles
Les dur´ees des p´eriodes simul´ees sont de 24 heures pour les trois cas : AF (du 3 d´ecembre
2007 16 h UTC au 4 d´ecembre 2007 16 h UTC), AS (du 14 d´ecembre 2007 16 h UTC au
15 d´ecembre 2007 16 h UTC) et AM (du 24 d´ecembre 2007 16 h UTC au 25 d´ecembre
2007 16 h UTC).
Les sorties WRF-LES du domaine D06 sont utilis´ees pour forcer toutes les 10 minutes
le mod`ele FLEXPART. Les sorties de concentration de NOx sont moyenn´ees sur 10 minutes
et sauvegard´ees toutes les 10 minutes. Nous avons choisi d’employer le mˆeme intervalle
de temps pour l’int´egration dans FLEXPART des sorties WRF-LES et pour les
sauvegardes des concentrations WRF-LES-FLEXPART, pour limiter toute mod´elisation
suppl´ementaire des champs m´et´eorologiques par FLEXPART et les ´eventuels biais associ´es.Chapitre
2. M´ethodologie et principaux outils de simulation 61
2.4.2.2 Caract´erisation des niveaux verticaux
Pour simuler les effets des circulations locales sur la dispersion du panache de NOx, 38
niveaux verticaux, allant de 10 `a 3000 m AGL ont ´et´e employ´es (Fig. 2.15). Tout comme
dans le mod`ele WRF, les niveaux verticaux FLEXPART suivent les variations de la topographie.
Figure 2.15: Profil vertical des 38 niveaux verticaux FLEXPART-WRF.
2.4.2.3 Param´etrisation du panache de NOx de la centrale EDF
D’apr`es le site internet du Registre fran¸cais des Emissions polluantes ´ , la centrale EDF
Jarry nord a ´emis en 2007 9,790 kilotonnes d’oxydes d’azote en ´equivalent NO2. En partant
de ce chiffre, la masse totale de NOx ´emise par la centrale durant les simulations
de 24 heures est de 26,820 tonnes. Le nombre total de particules simul´ees durant les 24
heures, est ´etabli `a 100000 avec un taux d’´emission constant (toutes les 10 minutes).
Les dimensions de la colonne d’´ejection des particules, sont d´etermin´ees en fonction des
coordonn´ees g´eographiques des chemin´ees de la centrale, de leur hauteur et des observations
de l’extension verticale du panache en couche limite atmosph´erique neutre. La
distance entre les deux chemin´ees est inf´erieure `a la taille de la maille du domaine D06
(111 m). Nous consid´erons donc, une unique colonne d’´ejection pour les deux chemin´ees
sur la grille du domaine. La colonne d’´ejection s’´etend horizontalement sur un rectangle
d´elimit´e par le coin inf´erieur gauche (16.23518➦N, 61.5543➦W) et le coin sup´erieur droit
(16.23559➦N, 61.5537➦W). La colonne d’´ejection s’´etend verticalement depuis la hauteur
des chemin´ees (≈ 60 m AGL) jusqu’`a la hauteur du panache observ´ee en couche limite
neutre (≈ 600 m AGL).Chapitre 2. M´ethodologie et principaux outils de simulation 62
2.4.2.4 Param´etrisations physiques
Brioude et al. (2012) ont montr´e que l’utilisation des champs de vitesse verticale instantan´ee
WRF, entrainait des biais dans les zones de topographie complexe. Pour pr´evenir
ces incertitudes, les simulations ont ´et´e effectu´ees en int´egrant les champs de vitesses
moyenn´ees WRF : les composantes horizontales et verticales de la vitesse sont pond´er´ees
sur la masse et moyenn´ees sur l’intervalle de temps. Dans notre cas, ces champs de vitesses
sont moyenn´ees sur 10 minutes. D’apr`es Brioude et al. (2013), les champs de vitesses
moyenn´ees WRF permettent de r´eduire les incertitudes sur la mod´elisation de la trajectoire
des particules dans FLEXPART.
Les sorties num´eriques WRF-LES n’incluent pas la hauteur de la couche limite atmosph´erique
(HCLA), FLEXPART d´etermine ce param`etre en se basant sur la valeur critique du
nombre de Richardson.
Nous avons utilis´e les deux param´etrisations de turbulence qui permettent l’int´egration
des champs de TKE produits par WRF-LES (description dans la partie 2.4.1.2). Durant
nos simulations, l’activation de la param´etrisation de la turbulence bas´ee sur l’´equilibre
entre la production et la dissipation de la TKE, a entrain´e des instabilit´es num´eriques
g´en´erant des valeurs invalides. Donc nous avons finalement opt´e pour l’utilisation d’une
seule param´etrisation : la r´epartition de la TKE WRF-LES suivant des coefficients de
stabilit´e du sch´ema Hanna (Hanna, 1982).
2.5 Donn´ees m´et´eorologiques d’observation pour l’´evaluation
du mod`ele WRF ARW3
2.5.1 Radiosondages journaliers (Universit´e du Wyoming)
Pour ´evaluer nos premi`eres simulations nous avons jug´e utile d’effectuer des comparaisons
des param`etres sur toute la troposph`ere `a l’aide des donn´ees fournies par les radiosondages.
Cependant un seul radiosondage est disponible une fois par jour pour la zone de la Guadeloupe
(station RZT de l’a´eroport du Raizet), soit pour les trois simulations de 48 heures,
seulement six profils observ´es. Pour avoir des points de comparaison suppl´ementaires,
d’autres stations de radiosondage (12 h UTC) ont ´et´e utilis´ees : BAR (ID 78954, Barbade)
et SXM (ID 78866, Saint-Martin) qui sont localis´ees dans le domaine D02, TRI
(ID 78970, Trinidad), PTR (ID 78526, Porto-Rico), et SDM (ID 78486, R´epublique Dominicaine)
qui sont localis´ees dans le domaine D01 (Fig. 2.16).Chapitre 2. M´ethodologie et principaux outils de simulation 63
Il faut noter que les radiosondages ont approximativement la moiti´e du nombre des niveaux
verticaux simul´es par WRF. Pour calculer les estimateurs d’erreur pr´esent´es dans
la section 2.7, les radiosondages observ´es et les profils verticaux mod´elis´es sont interpol´es
(avec une m´ethode spline cubique) aux mˆemes niveaux de pression (1000, 950, 925, 900,
850, 800, 700, 650, 600, 500, 400, 300, 250, 200, 150, et 100 hPa).
Le mod`ele int`egre les profils d’observation via les analyses NCEP FNL `a 12 h UTC. Pour
estimer la capacit´e du mod`ele WRF `a pr´edire la stratification, les profils verticaux WRF
`a 11 h UTC sont ´evalu´es.
Les r´esultats des 35 comparaisons (TRI a un radiosondage manquant) `a chaque niveau,
entre les profils interpol´es observ´es et simul´es sont pr´esent´es dans la section 3.1.1 du
rapport.
Figure 2.16: G´eolocalisation des radiosondages (TRI, BAR, RZT, SXM, PTR, et
SDM : carr´es rouges), des bou´ees du r´eseau NDBC-NOAA (ATL, CAR, POR, et
BAH : cercles bleus) au sein des quatre premiers domaines (D01, D02, D03, D04)
employ´es dans les simulations WRF m´eso-´echelles, de r´esolutions respectives de 27, 9,
3 et 1 km.
2.5.2 Bou´ees m´et´eorologiques du National Data Buoy Center
Les donn´ees d’observation de la surface de la mer sont extraites de quatre bou´ees du
National Data Buoy Center (http://www.ndbc.noaa.gov/) : la bou´ee POR (ID 41043,
21,061➦N, 64,966➦W, au nord de Porto-Rico) localis´ee dans le domaine 2, la bou´ee BAH
(ID 41046, 23,838➦N, 68,333➦W, au large des Bahamas), la bou´ee CAR (ID 42059, 15,058➦N,
67,528➦W, en mer des Cara¨ıbes) et la bou´ee ATL (ID 41040, 14,516➦N, 53,024➦W, dansChapitre 2. M´ethodologie et principaux outils de simulation 64
l’oc´ean Atlantique), qui sont localis´ees dans le domaine 1 (Fig. 2.16).
Les donn´ees d’observation horaires ´etudi´ees sont les moyennes 10 min des variables suivantes
: la temp´erature de la surface de la mer, la temp´erature de l’air `a 4 m au-dessus
du niveau de la mer (AMSL), la vitesse et la direction du vent `a 5 m AMSL. Les quatre
bou´ees ont une pr´ecision de 1➦C pour la temp´erature de surface de la mer, 1➦C pour la
temp´erature de l’air, 1 m.s-1 pour la vitesse du vent et 10➦ pour la direction du vent.
Les variables des sorties WRF sont extraites au point de maille le plus proche de chaque
bou´ee. Les observations, temp´erature de surface de la mer, temp´erature de l’air `a 4 m AMSL,
et vitesse et direction du vent `a 5 m AMSL, sont respectivement compar´ees avec les variables
WRF, ”skin temperature”, temp´erature de l’air `a 2 m AMSL et vitesse et direction
du vent `a 10 m AMSL.
L’´evaluation des champs de surface marins WRF est pr´esent´ee `a la section 3.1.1 du rapport.
2.5.3 Stations m´et´eorologiques de l’archipel de la Guadeloupe
(M´et´eo France et LaRGE)
Les donn´ees d’observation `a la surface terrestre sont extraites des cinq stations m´et´eorologiques
de l’archipel de la Guadeloupe (domaine 4), en fonctionnement durant la p´eriode
´etudi´ee (d´ecembre 2007). RZT, DES, MOU, et GBD sont des stations du r´eseau M´et´eoFigure
2.17: Carte topographique (IGN, 50 m de r´esolution), avec le mˆat
instrument´e du laboratoire LaRGE (ARN, triangle vert) et les 4 stations
M´et´eo-France, Raizet (RZT, disque rouge), Moule (MOU, ´etoile magenta), D´esirade
(DES, carr´e bleu), Grand-Bourg de Marie-Galante (GBD, losange noir).Chapitre 2. M´ethodologie et principaux outils de simulation 65
France, localis´ees respectivement, au Raizet, `a la D´esirade, au Moule et `a Grand-Bourg
(Fig. 2.17). Les donn´ees horaires utilis´ees sont les moyennes 10 min des variables suivantes
: la temp´erature de l’air `a 2 m AGL, la vitesse et la direction du vent `a 10 m AGL.
Ces quatre stations M´et´eo-France ont une pr´ecision de 0,1➦C pour la temp´erature, 1 m.s-1
pour la vitesse du vent, et 10➦ pour la direction du vent.
D’Alexis (2011) a men´e une campagne exp´erimentale de terrain pour analyser les ph´enom`enes
de micro-´echelle dans la couche de surface de mangrove. Entre avril 2007 et juin
2008, la station m´et´eorologique du Laboratoire de Recherche en Energie et G´eosciences ´
(LaRGE) a enregistr´e des mesures `a 1 Hz et `a 20 Hz. Ce mˆat instrument´e ARN, localis´e
dans la zone cˆoti`ere d’Arnouville de Petit-Bourg (Fig. 2.17) est muni d’un capteur
barom´etrique PTB101B (Fig. 2.18a), d’une centrale d’acquisition Campbell CR3000
(Fig. 2.18b), d’un capteur HR capacitif (HMP45C) pour l’humidit´e et la temp´erature `a
2 m AGL (Fig. 2.18c), d’un an´emom`etre `a coupelles `a 2 m AGL (Fig. 2.18d), d’une girouette
`a 2 m AGL (Fig. 2.18e), d’un an´emom`etre sonique 3D (CSAT3) pour le calcul
des flux turbulents `a 5 m AGL (Fig. 2.18f) et d’un an´emom`etre sonique 2D (WindSonic)
pour le vent horizontal `a 10 m AGL (Fig. 2.18g). La station ARN a une pr´ecision de 0,2➦C
pour la temp´erature, 2% (avec une r´esolution de 0,01 m.s-1) pour la vitesse du vent, et
3➦ pour la direction du vent. En plus de ces variables classiques, la station ARN, avec
ses mesures `a 20 Hz nous permettra d’´evaluer les simulations de flux turbulents comme
le flux de chaleur sensible (HFX) et l’´energie cin´etique turbulente (TKE). Les champs de
surface WRF-LES (10 minutes) seront ´evalu´es avec les donn´ees mesur´ees par ARN.Chapitre 2. M´ethodologie et principaux outils de simulation 66
Figure 2.18: Description du mˆat instrument´e du laboratoire LaRGE `a ARN (sch´ema
extrait de D’Alexis (2011)), avec, (a) le capteur barom´etrique PTB101B, (b) la
centrale d’acquisition Campbell CR3000, (c) le capteur HR capacitif (HMP45C) pour
l’humidit´e et la temp´erature (2 m AGL), (d) l’an´emom`etre `a coupelles (2 m AGL), (e)
la girouette (2 m AGL), (f ) l’an´emom`etre sonique 3D (CSAT3) pour le calcul des flux
turbulents (5 m AGL) et (g) l’an´emom`etre sonique 2D (WindSonic) pour le vent
horizontal (10 m AGL).
2.6 Donn´ees d’observation de la qualit´e de l’air pour
l’´evaluation du mod`ele FLEXPART-WRF
Nous avons utilis´e les donn´ees d’observation de concentration en NOx enregistr´ees par
la station du r´eseau Gwad’air (association agr´e´ee de surveillance de la qualit´e de l’air,
AASQA) situ´ee `a Pointe-`a-Pitre (PAP) donc dans l’agglom´eration pointoise (Fig. 2.19).
Cette agglom´eration compos´ee de quatre communes (Pointe-`a-Pitre, Baie-Mahault, Les
Abymes et Le Gosier) inclut la zone industrielle la plus importante de l’archipel (zone deChapitre 2. M´ethodologie et principaux outils de simulation 67
Jarry, not´ee EDF sur la Fig. 2.19). L’agglom´eration pointoise est la zone la plus peupl´ee
de l’archipel : 133000 habitants pour une superficie de 175 km2
(Plocoste, 2013).
Figure 2.19: Carte de localisation de la station Gwad’air PAP (losange violet) et de
la centrale ´electrique EDF (croix rouge) : (a) Topographie (en m AMSL) du domaine
D05 (maille de 333 m) avec l’agglom´eration pointoise (contour violet), (b) image
satellite Google earth de la zone d’´etude (4/8/2013).
Plocoste (2013) a d´ecrit les ´equipements de mesure de cette station : un analyseur d’oxyde
d’azote NOX 2000 G, un analyseur de poussi`eres TEOM 1400A, un analyseur d’ozone OZ
2000 G et un calibrateur SONIMIX 3022-2000TM et un analyseur de dioxyde de soufre
SF 2000 G.
2.7 Estimateurs d’erreur utilis´es pour l’´evaluation statistique
des simulations
C´ec´e et al. (2014) ont d´ecrit les estimateurs d’erreur (MBE, RMSE, MAE, IOA and IOA2)
qui ont ´et´e employ´es pour l’´evaluation statistique des simulations.
Les outils d’´evaluation statistique les plus utilis´es dans les ´etudes de mod´elisation m´et´eorologiques,
ont ´et´e d´evelopp´es par Willmott (1981); Willmott and Matsuura (2005). Les
erreurs individuelles de pr´ediction du mod`ele sont d´efinies comme ei = Pi − Oi (i =
1, 2, ..., n), o`u Pi et Oi sont respectivement les pr´edictions mod`eles et les observations in
situ. L’erreur du biais moyen est d´efinie comme MBE = n
−1 Pn
i=1
ei = P¯ − O¯. L’erreur
moyenne absolue est d´efinie par MAE = n
−1 Pn
i=1
|ei
|. L’erreur quadratique moyenne est
bas´ee sur la somme du carr´e des erreurs : RMSE =
n
−1 Pn
i=1
|ei
|
2
1/2
. Willmott (1981) aChapitre 2. M´ethodologie et principaux outils de simulation 68
d´efini un indice de performance des mod`eles (IOA) comme
IOA = 1 −
Pn
i=1
|ei
|
2
Pn
i=1
[|Pi − O¯| + |Oi − O¯|]
2
(2.14)
avec une valeur comprise entre 0 et 1. Les valeurs sup´erieures `a 0,5 sont consid´er´ees comme
bonnes. Willmott et al. (2011) ont reformul´e un indice de performance dont la valeur suit
les variations de croissance ou d´ecroissance de la MAE. L’intervalle de valeur est [-1,1].
Ils ont exprim´e ce nouvel indice comme
IOA2 =
1 −
Pn
i=1
|ei|
2
Pn
i=1
|Oi−O¯|
, quand Pn
i=1
|ei
| ≤ 2
Pn
i=1
|Oi − O¯|
2
Pn
i=1
|Oi−O¯|
Pn
i=1
|ei|
− 1, quand Pn
i=1
|ei
| > 2
Pn
i=1
|Oi − O¯|
(2.15)
. D’apr`es l’´equation (2.15), une valeur de IOA2 ´egale `a 0,5 indique que la somme des erreurs
repr´esente la moiti´e de la somme des variations du mod`ele parfait plus celles ajout´ees
des observations. A l’oppos´e, une valeur de IOA2 ´egale `a -0,5 signifie que la somme des `
erreurs repr´esente le double de la somme des variations du mod`ele parfait plus celles des
observations. La RMSE et l’IOA sont les outils les plus utilis´es dans la lit´erature pour
exprimer les diff´erences entre les pr´evisions et les donn´ees observ´ees. Cependant, comme
´ecrit par Willmott and Matsuura (2005), du fait qu’ils sont caract´eris´es par la somme
du carr´e des erreurs, les erreurs importantes ont relativement plus d’influence sur l’erreur
totale, que les plus faibles (contrairement `a la MAE).
Nos simulations num´eriques de courte dur´ee, avec peu de points spatiaux de comparaison
(nombre faible de stations m´et´eorologiques dans la zone d’´etude) seraient d’autant plus
affect´ees par ce probl`eme. Pour le r´esoudre, suivant la recommandation de Willmott and
Matsuura (2005); Willmott et al. (2011), la MAE and l’IOA2 sont choisis `a la place de
la RMSE et du IOA. Les valeurs suivantes de IOA2 : n´egative, comprise entre 0 et 0,5,
et sup´erieure `a 0,5, sont respectivement consid´er´ees comme mauvaises, bonnes et tr`es
bonnes.Chapitre 3
R´esultats des simulations et
discussion
3.1 Simulations num´eriques m´eso-´echelles des circulations
g´en´er´ees par l’archipel de la Guadeloupe
(WRF)
Dans cette partie, nous pr´esentons les r´esultats des simulations num´eriques m´eso-´echelles
incluant les quatre domaines : D01, D02, D03 et D04 (Fig. 2.10).
Deux configurations du domaine D04 sont analys´ees : la configuration M´eso-A (carte
d’occupation des sols USGS 1992, ULC) et la configuration M´eso-A’ (carte d’occupation
des sols Corine 2006, CLC24).
3.1.1 Simulation M´eso-A : r´esum´e et article publi´e
Les r´esultats des simulations num´eriques m´eso-´echelles (M´eso-A) ont ´et´e publi´es dans la
revue scientifique ” Monthly Weather Review ”.
Le mod`ele Weather Research and Forecast (WRF) est utilis´e pour simuler une descente
d’´echelle dynamique `a l’aide des quatre domaines imbriqu´es (D01, D02, D03, D04), de
r´esolutions respectives : 27, 9, 3, 1 km.
Les trois situations m´et´eoroloqiques, correspondant aux aliz´es faibles, moyens et soutenus,
sont simul´ees : AF, AM et AS (respectivement li´es aux valeurs du nombre de Froude local
69Chapitre 3. R´esultats des simulations et discussion 70
de 0,21, 0,41 et 0,82).
Pour les trois types de temps, les variables m´et´eorologiques classiques pr´esentent une
bonne ad´equation avec les donn´ees d’observations, sur plusieurs sites. C’est aussi le cas
des champs simul´es `a 1 km sur l’archipel de la Guadeloupe, malgr´e l’utilisation dans le
mod`ele WRF de la carte d’occupation des sols ULC24 dont les biais ont ´et´e d´ecrits dans
le chapitre 2 du rapport.
Les r´esultats de la simulation M´eso-A ont permis de compl´eter la cartographie des r´egimes
m´et´eorologiques locaux observ´es par Br´evignon (2003). Ces descriptions peu pr´ecises n’incluaient
pas des donn´ees maill´ees de vent, de temp´erature de surface, de couverture nuageuse
et de flux de chaleur sensible sur l’ensemble de l’archipel.
Les r´egimes attendus du vent local (au vent, continental insulaire, sous le vent) et la
pr´edominance des effets thermiques et orographiques (respectivement au-dessus de la
Grande-Terre et de la Basse-Terre) sont retrouv´es dans les sorties simul´ees.
Dans le cas des AS, la convection est inhib´ee et les circulations locales sont g´en´er´ees par
l’orographie.
Durant les AM, dans les zones de faibles topographies, les circulations locales sont gouvern´es
par le contraste thermique de surface qui induit, durant la journ´ee, une convergence
des vents marins vers la terre et, durant la nuit, une divergence des vents de la terre vers
la mer.
Dans le cas des AF, le mod`ele simule correctement un vent catabatique nocturne induisant
un ´ecoulement d’ouest observ´e exp´erimentalement par D’Alexis (2011); D’Alexis
et al. (2011) sur la cˆote au vent de la Basse-Terre. Durant la nuit, cette circulation s’opposant
aux aliz´es semble s’´etendre en mer (dans le Petit Cul-de-Sac Marin), puis sur la
zone industrielle de Jarry et enfin sur la cˆote ouest de la Grande-Terre. Cet ´ecoulement a
une vitesse de vent maximale de 4.7 m s-1
.
Les r´esultats de l’exp´erience M´eso-A sugg`erent que cet ´ecoulement particulier, apparaissant
dans l’agglom´eration pointoise et la zone industrielle de Jarry, pourrait g´en´erer une
d´egradation de la qualit´e de l’air, li´ee aux sources industrielles de polluants (comme la
centrale diesel de production d’´electricit´e).Numerical Simulations of Island-Induced Circulations and Windward Katabatic Flow
over the Guadeloupe Archipelago
RAPHAE¨ L CE´ CE´ , DIDIER BERNARD, AND CHRISTOPHE D’ALEXIS
Department of Physics, University of the French West Indies and French Guiana, Pointe-a-Pitre, Guadeloupe
JEAN-FRANC¸ OIS DORVILLE
Department of Physics, University of West Indies, Kingston, Jamaica
(Manuscript received 8 April 2013, in final form 18 September 2013)
ABSTRACT
This article deals with the first high-resolution numerical modeling of the weather over the small and high
islands of the Guadeloupe archipelago. Its main goal is to analyze the mechanisms that drive local-scale
airflow circulations over this archipelago, using the 1-km Weather Research and Forecasting Model (WRF).
Three meteorological situations corresponding to weak trade winds (WTW), medium trade winds (MTW),
and strong trade winds (STW) have been selected and are linked with local Froude number values of 0.21,
0.41, and 0.82, respectively. For these three weather types, simulated typical meteorological variables present
a good agreement with observational data at several locations. The 48-h simulations allow the completion of
the previous coarse observational descriptions that did not include a map of the wind, skin temperature, cloud
cover, and sensible heat flux for the whole archipelago. The expected local wind regime areas (windward,
inland, and leeward) are retrieved in the model outputs, including the predominance of thermal and orographic
effects over Grande-Terre Island and Basse-Terre Island, respectively. Under STW, the convection is
inhibited and the local circulations are driven by the orography. In the case of WTW, the model simulates well
a katabatic wind, inducing cold nocturnal reversed flow on the windward coast of Basse-Terre. This circulation,
opposing the trade winds, extends to the sea and Grande-Terre Island. This flow has a maximum wind
speed of 4.7 m s21
. This particular flow occurring in the most densely populated area produces an important
nocturnal pollution period due to industrial sources (the diesel power plants of the archipelago).
1. Introduction
Many authors have shown that strong radiative and
high topography forcings may induce local circulations
over tropical islands. Mechanical effects of islands on
the steady trade winds is characterized by the local
Froude number Frm which is defined by (U/Nhm), where
U is the wind speed, hm is the height of the mountain,
and N is the buoyancy frequency. The literature dealing
with this subject is generally concerned with one of three
types of island: large (i.e., Frm $ 1, width .50 km), high
(i.e., Frm , 1), or small (i.e., Frm $ 1, width #50 km).
Effects of large islands on synoptic winds have been
examined for the Tiwi Islands (Oliphant et al. 2001) and
Puerto Rico (Malkus 1955; Jury et al. 2009). Oliphant
et al. (2001) showed that with a flat area of 8000 km2
, the
Tiwi Islands generate their own thermal airflow regime
associated with sea/land-breeze systems. The Weather
Research and Forecasting Model (WRF) simulation
over Puerto Rico (Jury et al. 2009), indicated how diurnal
heating and orography act on the convective
boundary layer structure and trade wind airstream. In
general, high islands like the Hawaiian Islands (Smith
and Grubiac 1993; Reisner and Smolarkiewicz 1994;
Feng and Chen 1998; Yang and Chen 2005; Carlis et al.
2010; Nguyen et al. 2010), New Caledonia (Lefevre et al.
2010), Reunion Island (Lesoue¨f et al. 2011), or Lesser
Antilles islands like St. Vincent (Smith et al. 1997) and
Dominica (Smith et al. 2012) would have mainly mechanical
effects on the impinging airflow with in some
cases thermal circulations occurring on the lee side.
During the Dominica Experiment field campaign
(DOMEX), Smith et al. (2012) observed that two types
Corresponding author address: Raphae¨l Cece, Faculty of Sciences,
Department of Physics, University of the French West Indies and
French Guiana, Fouillole campus, Pointe-a-Pitre 97110, Guadeloupe.
E-mail: raphael.cece@univ-ag.fr
850 MONTHLY WEATHER REVIEW VOLUME 142
DOI: 10.1175/MWR-D-13-00119.1
2014 American Meteorological Society
71
Influence du mapping sur la reconnaissance d’un
syst`eme de communication
Marion Bellard
To cite this version:
Marion Bellard. Influence du mapping sur la reconnaissance d’un syst`eme de communication.
Information Theory. Universit´e Pierre et Marie Curie, 2014. French. .
HAL Id: tel-00959782
https://tel.archives-ouvertes.fr/tel-00959782v2
Submitted on 17 Mar 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THÈSE DE DOCTORAT DE
l’UNIVERSITÉ PIERRE ET MARIE CURIE
Spécialité
Informatique
École doctorale Informatique, Télécommunications et Électronique (Paris)
Présentée par
Marion Bellard
Pour obtenir le grade de
DOCTEUR de l’UNIVERSITÉ PIERRE ET MARIE CURIE
Sujet de la thèse :
Influence du mapping sur la reconnaissance d’un système de
communication
soutenue le 30 janvier 2014
devant le jury composé de :
Thierry Berger Université de Limoges Rapporteur
Pierre Loidreau DGA-MI Rapporteur
Gilles Burel Université de Bretagne Occidentale Examinateur
Jean-Pierre Tillich INRIA Paris-Rocquencourt Examinateur
Annick Valibouze Université Pierre et Marie Curie Examinateur
Nicolas Sendrier INRIA Paris-Rocquencourt Directeur de thèseMarion Bellard
Influence du mapping sur la reconnaissance d’un système de
communication
INRIA-équipe-projet SECRET
Domaine de Voluceau
78153 Le ChesnayRemerciements
Je tiens à remercier ici toutes les personnes qui m’ont permis d’effectuer cette thèse dans d’excellentes
conditions, aussi bien pour leurs qualités techniques que humaines.
Je tiens d’abord à remercier Nicolas Sendrier mon directeur de thèse pour ses conseils et ses idées
qui ont été précieuses et nécessaires au bon déroulement de ces trois années de thèse.
Je tiens également à remercier Jean-Pierre Tillich, avec qui j’ai eu la chance de travailler, pour son
exigence et sa patience.
Merci ensuite à mes deux rapporteurs Pierre Loidreau et Thierry Berger qui ont donné de leur
temps pour la relecture de ce manuscrit. Je devrais d’ailleurs remercier doublement Thierry Berger,
je lui dois en effet ma découverte des codes correcteurs au cours de mes deux années de Master. Merci
également à Gilles Burel et Annick Valibouze d’avoir accepté de faire partie de mon jury.
Je ne saurais remercier les gens qui m’ont aidée et soutenue durant cette thèse sans remercier
Audrey, avec qui j’ai partagé de multiples interrogations et rebondissements, pour sa disponibilité. Je
lui souhaite bonne chance pour la suite.
Mes pensées vont ensuite vers Maxime et Jérôme sans qui cette thèse n’aurait pas eu lieu et bien
sûr Florine, Denis, Marc, Pierre, Angélique et François pour leur accueil et leur sympathie. Je ne doute
pas que j’aurai le plaisir de les revoir.
Un grand merci à tous les membres et anciens du projet SECRET que j’ai eu l’occasion de côtoyer
Anne, Pascale, María, Christelle, André, Anthony, Ayoub, Baudoin, Céline, Christina, Denise, Gaë-
tan, Grégory, Joëlle, Mamdouh, Matthieu, Rafael, Stéphane, Valentin, Vincent, Virginie et Yann. Je
garderai d’excellents souvenirs des trois années que j’ai passées au projet.
Je dois une dédicace particulière à Christelle qui est d’un grand secours et qui nous aide toujours
avec le sourire, à Ayoub, Baudoin, Céline, Christina et Valentin avec qui j’ai partagé mes séances de
footing et à Christina de nouveau en tant que pâtissière en chef du projet et ancienne collègue de
bureau, merci à elle pour ses excellents gâteaux et sa bonne humeur. Merci également à tous ceux
avec qui j’ai appris l’art des mots croisés.
Mes prochains remerciements vont à mes collègues Grégory, Valentin et Virginie qui font du bureau
1 un endroit où il fait bon travailler. Mille mercis à Grégory pour tous ses conseils et son aide précieuse,
à Valentin pour sa disponibilité sans faille et à Virginie pour sa gentillesse et sa présence.
Merci ensuite à mes proches pour leur soutien et leur patience, mes amies Amanda et Adeline, ma
famille Fanny, Michael, Fredo, Ingrid, Christine, mes parents bien sûr et enfin Nicolas.iiNotations
Notations mathématiques
H⊤ la transposée de la matrice H
dH( . , . ) la distance de Hamming
de( . , . ) la distance euclidienne
WH( . ) le poids de Hamming
Fq le corps à q éléments, q puissance d’un
nombre premier
GL(a, F2) l’ensemble des matrices inversibles de
taille a × a à coefficients dans F2
pgcd le plus grand diviseur commun
ppcm le plus petit multiple commun
degg(x) le degré du polynôme g(x)
Notations relatives aux mappings
a le nombre de bits par symboles binaires de
la modulation
C une constellation
CL(f) la classe linéaire de f
CA(f) la classe affine de f
f un mapping
Gp la pénalité de Gray moyenne
Gpk la pénalité de Gray maximum
Notations relatives aux codes correcteurs
C un code
n la longueur du code
k la dimension du code
G une matrice génératrice
H une matrice duale
iiiChapitre 1
A0 l’amplitude de l’onde porteuse
A et B des alphabets de modulation
b(t) un bruit blanc gaussien
f0 la fréquence de l’onde porteuse
g(t) une impulsion élémentaire
M le nombre de points de la constellation
M − ASK,M − P SK, M − QAM une modulation à M points
p(t) une onde porteuse
r(t) le signal reçu
sI (t) la porteuse en phase
sQ(t) la porteuse en quadrature
s(t) le signal émis
ϕ0 la phase de l’onde porteuse
Chapitre 4
C\I code poinçonné aux positions indéxées par I
HI matrice duale restreinte aux positions indixées par I
p la probabilité d’erreur du canal binaire symétrique
PC la probabilité de collisions pour des données codées
Paléa la probabilité de collisions pour des données aléatoires
R = PC
Paléa
le rapport des probabilités de collisions
t la taille des blocs de lecture d’une séquence binaire
Xobs le nombre de collisions observées sur une séquence binaire
xobs la probabilité de collisions observée sur une séquence biniareRésumé
Ce document présente les travaux effectués durant ma thèse au sein de l’Equipe-projet SECRET
à INRIA Paris-Rocquencourt.
Nous nous intéressons à la reconstruction d’un système de communication dans un contexte non
coopératif. Nous cherchons d’une part à reconstruire l’association réalisée entre symboles binaires et
symboles physiques lors de la conversion de données binaires en un signal modulé (éventuellement
bruité). On appelle cette opération le mapping. Dans un canal hertzien, une modulation M-aire peut
transmettre M symboles distincts formant une constellation dans un espace euclidien multidimensionnel
(par exemple bidimensionnel, représentant la phase et l’amplitude des symboles transmis). Nous
regardons essentiellement les modulations de 4 à 256 − QAM (Quadrature Amplitude Modulation).
En l’absence de redondance il est impossible de décider quel mapping a été utilisé, aussi nous supposons
ici que les données binaires sont codées. Nous nous intéressons particulièrement aux mappings
respectant le critère de Gray (deux symboles de la constellation, voisins pour la distance euclidienne,
correspondront à des symboles binaires à distance de Hamming de 1). Ce type de mapping est en effet
couramment utilisé car il permet de limiter l’impact des erreurs d’interprétations lors de la démodulation.
La recherche exhaustive du mapping pour ce type de constellations devient impossible lorsque
le nombre de points de celles-ci augmente, alors que les grandes constellations possèdent l’avantage
d’augmenter les débits de transmission. Nous définissons alors deux types de classes d’équivalences de
mappings : linéaires et affines. Nous définissons de plus un test basé sur la reconnaissance de codes
convolutifs et le taux d’erreur du canal. Nous construisons un algorithme de reconstruction, en appliquant
ce test, de manière appropriée, à un ensemble de représentants des classes d’équivalences
définies. Nous verrons que le résultat d’un tel parcours n’est pas unique mais qu’il permet de réduire
significativement le nombre de mappings possibles tout en réduisant le coût de la recherche.
D’autre part nous définissons une méthode de détection des paramètres d’un code convolutif ainsi
qu’une méthode de reconstruction du dual d’un tel code. Nous regardons une séquence binaire codée
et bruitée par blocs de taille t. Deux blocs identiques définissent ce que l’on appelle une collision. La
cardinalité de l’ensemble des blocs observés pour des données codées est inférieure à celle observée
pour des données aléatoires. Donc la donnée de la probabilité de collisions pour différentes tailles de
blocs permet de distinguer des données codées de données aléatoires. Des blocs glissants sont utilisés
pour caractériser la présence d’un code convolutif. Cela permet d’obtenir la longueur, la dimension
du code et le degré maximum des polynômes générateurs du dual ainsi que la taille de chacune des
équations de parité. De plus en poinçonnant des bits dans chacun des blocs observés nous déduisons
de la probabilité de collisions des équations de parité du code et une matrice génératrice du dual. La
probabilité de collision est de plus invariante pour le changement de mapping lorsque la taille de bloc
est un multiple de la taille des symboles du mapping. Nous sommes alors en mesure de détecter la
longueur du code sans connaître le mapping qui a été utilisé lors de la modulation.
vTable des matières
Notations iii
Résumé v
Introduction 1
1 Introduction à la Transmission du signal Numérique 3
1.1 Modulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Transmission du signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Constellations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Canal de transmission . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Démodulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Mappings 13
2.1 Codages Gray réfléchis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Codages Gray non réfléchis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Codages Gray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Mappings Gray P SK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Mappings Gray QAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.6 Mappings quasi-Gray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Codes Convolutifs et Codes de Reed-Solomon 23
3.1 Introduction aux codes correcteurs d’erreurs . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Codes cycliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Codes convolutifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.1 Représentation binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.2 Équations de parité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.3 Représentation en série . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.4 Codeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4 Reconstruction de codes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.1 Codes Convolutifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.2 Codes Reed-Solomon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
vii4 Signature de codes convolutifs et recherche du dual par tests statistiques 39
4.1 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.1 Test de profondeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.2 Test de Burrows-Wheeler et Runs . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Test de collisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 Espérance du nombre de collisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.1 Code de parité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.2 Équation de parité de poids u . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4 Distingueur de code convolutif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.5 Détection des paramètres d’un code convolutif par un teststatistique . . . . . . . . . . 52
4.5.1 Détection de la longueur de code . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.5.2 Détection de la dimension de code . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.5.3 Détection de la longueur des équations de parité . . . . . . . . . . . . . . . . . 58
4.5.4 Résultats de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.6 Application à la reconstruction du dual . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.6.1 Reconstruction du dual d’une matrice binaire . . . . . . . . . . . . . . . . . . . 60
4.6.2 Reconstruction du dual d’un code convolutif . . . . . . . . . . . . . . . . . . . . 62
4.7 Signature de codes convolutifs à mapping inconnu . . . . . . . . . . . . . . . . . . . . 64
5 Classes de Mappings 65
5.1 Relations d’équivalences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2 Partitionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.3 Représentants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.4 Classification des mappings Gray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.4.1 Partitionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.4.2 Représentants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.5 Classification des mappings quasi-Gray . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6 Reconstruction de mappings en présence de données codées et bruitées 79
6.1 Classes d’équivalences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.1 Équivalence linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.2 Équivalence affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.1.3 Nombre de solutions par classe affine . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1.4 Unicité de la classe affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.2 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.3 Applications aux mappings Gray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.4 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.5 Application au cas des codes Reed-Solomon . . . . . . . . . . . . . . . . . . . . . . . . 91
A Rapport de probabilités de collisions avec une équation de parité 93Introduction
La transmission d’une information numérique nécessite notamment un codage, à l’aide de codes
correcteurs d’erreurs, puis une adaptation au canal de transmission que l’on appelle modulation. La
modulation est composée de deux parties. La première appelée le mapping permet d’associer des symboles
binaires à des paramètres physiques comme une amplitude et une phase. La seconde partie de la
modulation permet elle d’utiliser ces valeurs pour modifier ponctuellement un signal porteur. Lors de
la réception d’un signal il faut effectuer les opérations inverses de celles appliquées en émission afin de
retrouver l’information émise. Un signal reçu doit donc avant toute chose être démodulé. On parle de
contexte non coopératif lorsqu’un observateur doit recouvrer la séquence binaire émise à partir du seul
signal transmis. Dans ce contexte il faut donc démoduler le signal observé pour associer aux symboles
physiques une information binaire et enfin reconstruire le codage canal utilisé. Nous nous intéressons
ici à ce problème de reconstruction d’un système de communication. Retrouver la modulation correspond
au problème de la démodulation aveugle pour lequel il existe de nombreux travaux académiques,
cependant cette démodulation n’inclut pas la reconstruction du mapping. Nous étudions alors le problème
de la reconstruction du mapping. Retrouver le codage utilisé correspond au problème de la
reconstruction de codes correcteurs d’erreurs pour lequel il existe également de nombreux travaux de
recherche. On pourra citer notammant le travail de A. Valembois sur la reconstruction du dual d’un
code correcteur d’erreur. Son algorithme se base sur la méthode de Canteaut-Chabaud de recherche de
mots de petits poids dans un code. Des travaux spécifiques sur la reconstruction des codes convolutifs
existent comme les thèses de E. Filiol, J. Barbier et M. Côte. Nous sommes intéressés à résoudre le
problème de la reconnaissance de mapping lorsque les données sont codées par un codeur convolutif et
nous utilisons le travail de M. Côte pour notre étude. Cela nous permet d’obtenir une matrice géné-
ratrice du code correcteur utilisé à partir d’une séquence codée bruitée. Cependant, si l’on ne connaît
pas l’association réalisée entre symboles binaires et symboles physiques, le mapping, on ne connaît pas
le comportement de l’algorithme de reconnaissance de code convolutif. Nous nous intéressons à ce problème
et étudions l’interaction entre la reconnaissance de codes convolutifs et la recherche de mapping.
Dès lors que la transmission d’un signal s’effectue grâce à un protocole de communication, la sé-
quence composée des mots de code transmis est encapsulée. De ce fait, il est possible de s’appuyer sur
des balises pour connaître la synchronisation des mots de codes, c’est-à-dire que l’on connait le début
des mots. Nous considérons alors dans ces travaux que la synchronisation est connue et qu’on n’avons
pas à la rechercher.
Nous avons abordé nos travaux selon deux axes. Le premier objectif est de décrire une méthode de
reconstruction du mapping à partir de données démodulées avec un mapping par défaut. Le second
axe consiste à obtenir des informations sur le code de manière invariante pour le mapping.
1Le second axe nous conduit à l’utilisation d’un test statistique basé sur le comptage de collisions
dans une séquence binaire observée par blocs. Ce test permet d’estimer le cardinal de l’ensemble observé
et donne une information à la fois quantitative et qualitative sur l’espace des blocs observés.
Nous définissons alors une méthode de détection de la longueur d’un code convolutif invariante pour
le changement de mapping. C’est-à-dire que nous sommes en mesure de dire si un code convolutif
à été utilisé pour coder les données observées et le cas écheant d’en donner la longueur et ce sans
connaître le mapping utilisé. Nous définissons de plus une méthode de détection des paramètres d’un
code convolutif et de reconstruction du dual connaissant le mapping. C’est l’objet du Chapitre 4. Ce
travail a été soumis à publication.
Le premier axe concerne la reconstruction du mapping lorsque les données observées sont codées.
Nous nous sommes principalement intéressés au cas des codes convolutifs. Lorsque l’on parcourt les
divers mappings possibles on peut observer une multitude de séquences codées correspondant à divers
codes correcteurs. Nous explicitons alors les liens qui relient les différents codes observés. Des classes
d’équivalences de mapping peuvent être définies. Elles seront présentées dans le Chapitre 5. Ceci
nous conduit à l’élaboration d’une méthode de reconstruction de mappings permettant de diminuer
le nombre de mappings à parcourir pour les petites tailles de constellations. Pour des constellations à
16 points et plus, nous considérons uniquement les mappings de type Gray et quasi-Gray. La méthode
s’étend naturellement à ces mappings. Celle-ci est applicable dans le cas où le signal transmis est
un signal bruité. Nous regardons également le comportement des codes de Reed-Solomon vis-à-vis
du changement de mapping. Ceci est vu au Chapitre 6. Cette partie du travail à fait l’objet d’une
publication à ISITA’2012 [7].
2Chapitre 1
Introduction à la Transmission du signal
Numérique
On peut représenter un système de communication (Figure 1.1) par la suite des traitements
appliqués aux données binaires, en émission et en réception, afin d’assurer leur transmission.
Codage source Codage canal Modulation
Décodage source Décodage Canal Démodulation
Canal de transmission
Bruit
Figure 1.1 – Synoptique d’une transmission numérique
Codage source : Le codage de source consiste à éliminer la redondance de manière à réduire la
quantité de données à transmettre.
Codage canal : Quel que soit le type de canal de transmission utilisé, le signal transmis est
soumis à des perturbations, que l’on appelle bruit, pouvant entraîner une altération des données. Afin
d’y remédier, il est d’usage d’ajouter de la redondance à l’information dans le but de détecter puis
corriger les erreurs de transmission. Nous utilisons pour cela des codes correcteurs d’erreurs.
Modulation : La modulation consiste à transformer un message en un signal adapté à la transmission
sur un support physique.
Une introduction aux codes correcteurs d’erreurs est donnée au Chapitre 3. Nous nous intéressons
à présent à différents types de modulations. Nous définissons ici ce qu’est une constellation et introduisons
la notion de mapping, avant d’aborder les modèles de canaux de transmission. Ce chapitre est
basé sur les ouvrages [19], [39] et [22].
3Chapitre 1. Introduction à la Transmission du signal Numérique
1.1 Modulation
Nous nous intéressons ici à la transmission de données numériques. L’information à véhiculer est
donc une séquence binaire, tandis qu’un support physique permet de transmettre une information
sous forme d’un signal continu. La modulation consiste alors à transformer l’information binaire en
un signal continu adapté au support de transmission.
Nous verrons qu’il existe deux possibilités pour transmettre un signal numérique : la transmission
en bande de base ou la modulation d’une onde porteuse. La transmission en bande de base consiste à
associer à la séquence binaire d’entrée un signal physique qui est transmis dans une plage de fréquence
contenant la fréquence nulle. Elle s’utilise dans le cas d’une transmission filaire. La modulation par
onde porteuse consiste à modifier un ou plusieurs paramètres d’une onde porteuse, en fonction du
symbole binaire à transmettre (un bloc de bits de longueur donnée), et à l’émettre dans une plage de
fréquence donnée qui peut être différente pour différents utilisateurs.
Une démarche commune aux deux méthodes de transmission est l’association d’une information
physique et d’un symbole binaire. C’est ce que nous appelons le mapping.
1.1.1 Transmission du signal
Transmission en bande de base
La notion de transmission en bande de base ne sera pas utile en tant que telle mais sera utile pour
la compréhension du mécanisme de modulation présenté dans le paragraphe suivant.
L’information à transmettre étant une séquence binaire, la première approche est d’associer au bit
0 un état significatif (par exemple une tension positive) et d’associer au bit 1 un autre état significatif
(par exemple une tension négative). On appelle cette opération le codage, même si ce terme peut
porter à confusion.
Un exemple de codage : le codage NRZ (No Return to Zero) Le codage NRZ associe au bit
0 une valeur α et associe au bit 1 la valeur −α. La transmission de la séquence 0110101 se traduira
alors par la transmission du signal suivant :
+α
−α
0
1 1 1 1
0 0
Figure 1.2 – Exemple de transmission suivant un codage NRZ
Cet exemple ne constitue pas une règle générale, le bit 0 pouvant être codé par une valeur α positive
ou négative et inversement pour le bit 1.
41.1 Modulation
On dit alors que l’ensemble A = {α, −α} est un alphabet pour le codage NRZ.
De manière générale, la suite de bits constituant le message est mise sous forme de symboles binaires,
en créant des paquets de a bits. Il existe donc 2a
symboles binaires distincts auquels sont
associés des valeurs αi appartenant à un alphabet A de cardinal 2a
. Le signal émis est de la forme
s(t) = P
j αjg(t − jT) où αj est la j
ème valeur à transmettre et appartient à l’alphabet A choisi et
g(t) est une impulsion élémentaire de durée T.
Dans l’exemple du codage NRZ, l’impulsion utilisée est telle que g(t) = (
1 si 0 ≤ t < T
0 sinon . On
détaille le calcul de s(t) pour la transmission de la séquence binaire 0110101 dans le tableau ci-dessous :
j bit à transmettre αj s(t)
0 0 −α −αg(t) = −α, ∀ 0 ≤ t < T
1 1 α αg(t − T) = α, ∀ T ≤ t < 2T
2 1 α αg(t − 2T) = α, ∀ 2T ≤ t < 3T
3 0 −α −αg(t − 3T) = −α, ∀ 3T ≤ t < 4T
4 1 α αg(t − 4T) = α, ∀ 4T ≤ t < 5T
5 0 −α −αg(t − 5T) = −α, ∀ 5T ≤ t < 6T
6 1 −α −αg(t − 6T) = −α, ∀ 6T ≤ t < 7T
Modulation par onde porteuse
On définit une onde porteuse par l’expression p(t) = A0cos(2πf0t + ϕ0) où A0 est l’amplitude du
signal, f0 sa fréquence et ϕ0 sa phase.
La modulation par onde porteuse consiste à transmettre de l’information en modifiant un ou
plusieurs paramètres de cette onde porteuse. Le signal en bande de base est alors transposé en fréquence
afin d’assurer la transmission dans une bande de fréquence adaptée. C’est-à-dire que le signal en bande
de base devient le signal modulant. De plus le signal est transmis à une fréquence donnée qui peut être
différente pour différents utilisateurs. Il existe différents types de modulation utilisant des paramètres
distincts de la porteuse comme :
– la modulation ASK (Amplitude Shift Keying), une modulation d’amplitude
– la modulation PSK (Phase Shift Keying), une modulation de phase
– la modulation FSK (Frequency Shift Keying), une modulation de fréquence
– la modulation QAM (Quadrature Amplitude Modulation), une modulation de phase et d’amplitude
Nous ne nous intéressons ici qu’aux modulations d’amplitude et/ou de phase. On note a le nombre
de bits par symbole binaire. On a donc M = 2a
symboles possibles. Nous supposons ici, pour simplifier
5Chapitre 1. Introduction à la Transmission du signal Numérique
l’écriture des signaux modulés, que l’amplitude A0 des porteuses est égale à 1.
Modulation ASK Le signal modulé s’écrit
s(t) = X
j
αjg(t − jT)cos(2πf0t)
En notant
sI (t) = X
j
αjg(t − jT)
on a
s(t) = cos(2πf0t)sI (t)
Le signal sI (t) modifie alors l’amplitude de la porteuse p(t) = cos(2πf0t).
On prendra a priori comme alphabet {±α, ±3α, . . . , ±(M − 1)α}.
Modulation PSK Le signal modulé s’écrit
s(t) = X
j
cos(2πf0t + αj )g(t − jT)
En notant
sI (t) = X
j
cos(αj )g(t − jT)
et
sQ(t) = X
j
sin(αj )g(t − jT)
on a
s(t) = cos(2πf0t)sI (t) − sin(2πf0t)sQ(t)
Le signal sI (t) modifie l’amplitude de la porteuse p(t) = cos(2πf0t) tandis que le signal sQ(t)
modifie l’amplitude de la porteuse sin(2πf0t) = cos(2πf0t +
π
2
). On appelle la première porteuse la
porteuse en phase, la seconde la porteuse en quadrature.
On pourra prendre, pour M = 4, l’un des deux alphabets suivants {
iπ
4
|i = 1, 3, 5, 7} ou {
iπ
2
|k =
0, 1, 2, 3}. On prendra pour M = 8 l’alphabet {
iπ
4
|i = 0, 1, 2, . . . , 7}.
Modulation QAM La modulation d’amplitude et de phase simultanée nécessite l’utilisation de
deux alphabets A et B de cardinal respectif 2b
et 2b
′
. À un symbole binaire de b + b
′ bits on associe
un couple (αi
, βi
′) ∈ A × B. Et le signal modulé s’écrit
s(t) = X
j
αjcos(2πf0t + βj )g(t − jT)
(αj , βj ) ∈ A × B étant la j
ème valeur à transmettre.
En écrivant
sI (t) = X
j
αjcos(βj )g(t − jT)
61.1 Modulation
sI (t)
sQ(t)
−(M − 1)α −3α −α α 3α (M − 1)α
b b b b b b
Figure 1.3 – Constellation d’une modulation M-ASK ayant pour alphabet {±α, ±3α, . . . , ±(M −1)α}
et
sQ(t) = X
j
αjsin(βj )g(t − jT)
on a
s(t) = cos(2πf0t)sI (t) − sin(2πf0t)sQ(t)
Comme pour la modulation de phase, sI (t) et sQ(t) modifient respectivement l’amplitude de la
porteuse en phase et de la porteuse en quadrature.
Les trois modulations présentées ici s’écrivent sous la forme s(t) = cos(2πf0t)sI (t)−sin(2πf0t)sQ(t)
avec des expressions différentes pour sI (t) et sQ(t) (avec sQ(t) = 0 pour une modulation ASK). À ce
titre on peut classer chacune de ces modulations comme des cas, particuliers ou non, de modulation
de type QAM.
Nous étudierons pour ces modulations les divers mappings possibles. Nous allons voir à présent la
notion de constellation et leur forme pour ces modulations.
On note M − ASK, M − P SK et M − QAM des modulations à M = 2a points, c’est-à-dire
admettant log2M bits par symbole binaire.
1.1.2 Constellations
Pour un temps tj fixé, il existe (αj , βj ) tel que :
(
sI (tj ) = αj
sQ(tj ) = 0 pour une modulation ASK
(
sI (tj ) = cos(αj )
sQ(tj ) = sin(αj )
pour une modulation PSK
(
sI (tj ) = αj cos(βj )
sQ(tj ) = αj sin(βj )
pour une modulation QAM
On représente alors l’ensemble des sI (tj ) et sQ(tj ) dans le plan, formant ainsi une constellation,
représentée par la Figure 1.3 dans le cas d’une modulation M-ASK.
Définition 1.1.1 (Constellation) Une constellation est la représentation des différents états de la
modulation
On peut faire de même pour les modulations de type PSK et QAM. On obtient pour une modulation
PSK un ensemble de points répartis sur un cercle. (Le rayon du cercle étant déterminé par l’amplitude
A0 de la porteuse, que nous avons supposé normalisée à 1 afin de simplifier l’écriture des signaux
modulés). Un exemple de constellation PSK pour un nombre de bits par symbole égal à 3 est donné
par la Figure 1.5.
7Chapitre 1. Introduction à la Transmission du signal Numérique
t t
t t
Figure 1.4 – Constellation d’une modulation 4-PSK
b
b
b
b
b
b
b
b
αk
sI (t)
sQ(t)
Figure 1.5 – Constellation 8-PSK
r r r r
r r r r
r r r r
r r r r
r r r r
r r r r r r
r r r r r r
r r r r r r
r r r r r r
r r r r
r r r r r r r r
r r r r r r r r
r r r r r r r r
r r r r r r r r
r r r r r r r r
r r r r r r r r
r r r r r r r r
r r r r r r r r
r r r r r r r r
r r r r r r r r
r r r r r r r r r r r r
r r r r r r r r r r r r
r r r r r r r r r r r r
r r r r r r r r r r r r
r r r r r r r r r r r r
r r r r r r r r r r r r
r r r r r r r r r r r r
r r r r r r r r r r r r
r r r r r r r r
r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
r r r r r r r r r r r r r r r r
Figure 1.6 – Constellations correspondant à des modulations (de gauche à droite) : 16-QAM, 32-
QAM, 64-QAM, 128-QAM et 256-QAM
Le choix de l’alphabet (ou des alphabets) détermine la forme de la constellation. Les modulations
32 et 128−QAM sont d’ailleurs ici cruciformes contrairement aux modulations à 2a points avec a pair.
Nous étudions ici les mappings des constellations données par la Figure 1.6 pour les modulations
QAM de 16 à 256 points, par la Figure 1.5 pour une constellation à 8 points et enfin par la Figure 1.4
pour une constellation à 4 points, soit de 2 à 8 bits par symbole binaire. La représentation sous forme
de constellation sera à présent l’unique représentation pour une modulation donnée.
1.2 Mapping
La modulation est l’opération qui permet de convertir une séquence d’information binaire en un
signal adapté au support de transmission. Le nombre de bits que l’on souhaite transmettre à chaque
intervalle de temps détermine la taille de l’alphabet à utiliser et donc le nombre de points de la constellation
pour une modulation donnée.
81.3 Canal de transmission
Définition 1.2.1 (Mapping 1) On appelle mapping l’association réalisée entre un symbole binaire
et un élément de l’alphabet correspondant à la modulation choisie.
Un exemple de mapping
Prenons une modulation 2−ASK d’alphabet A = {−α, α}, on peut définir un mapping en associant
au bit 0 la valeur −α, et au bit 1 la valeur α. On peut représenter cette association directement sur
la constellation. Mais un second mapping est possible en faisant l’association inverse, c’est-à-dire en
associant au bit 0 la valeur α et au bit 1 la valeur −α.
On peut alors considérer l’opération de mapping comme l’association d’un point de la constellation
et d’un symbole binaire.
Définition 1.2.2 (Mapping 2) Soit C une constellation à M = 2a points. On appelle mapping toute
bijection, f, de C dans {0, 1}
a
, qui à un point P de C associe un symbole binaire de longueur a.
Naturellement d’après la définition 1.2.2, le nombre de mappings possible pour une constellation
donnée est de (2a
)!. Ce nombre est décrit pour différentes tailles de constellations par la Table 1.1.
Table 1.1 – Nombre de mappings pour a = 2, 3, 4
a Nombre de mappings
2 24
3 40 320
4 > 2 ∗ 1013
Nous utiliserons à présent cette définition du mapping. Notons qu’il existe cependant certains
mappings ayant des propriétés permettant de limiter les erreurs de transmission, comme les mappings
de type Gray [30] que nous utiliserons par la suite.
1.3 Canal de transmission
Lors de la transmission d’un signal, celui-ci est soumis à des atténuations et déformations propres
au canal (par exemple dû à la distance entre deux antennes pour une communication sans-fil). Il est
également soumis à des perturbations externes que l’on appelle couramment du bruit.
Différents supports de transmission permettent de véhiculer une information (câble électrique,
fibre optique, liaison sans-fil . . .). Chaque type de transmission possède un modèle de propagation qui
lui est propre. Une liaison sans-fil est en particulier sensible aux obstacles entraînant des réflexions,
diffractions du signal. À ce titre, ces liaisons sont les plus difficiles à modéliser et il existe différents
modèles de canaux de transmission.
Les deux modèles les plus couramment utilisés sont le canal à bruit blanc additif gaussien et
le canal binaire symétrique. Ils sont tous deux des canaux dits sans mémoire. Il existe cependant
d’autres modèles simulant notamment les canaux multi-trajets tels que les canaux de Rayleigh et de
Rice, utilisés pour modéliser les radiocommunications, auxquels nous ne nous intéressons pas ici.
Le canal à bruit blanc additif gaussien : le signal reçu r(t) s’écrit comme l’addition du signal
émis s(t) et du bruit blanc gaussien b(t). b(t) est modélisé, dans une bande de fréquence limitée, par
un processus aléatoire centré de moyenne nulle, de variance σ
2
, dont la densité de probabilité est :
9Chapitre 1. Introduction à la Transmission du signal Numérique
p(b) = 1
√
2πσ2
e
−b
2
2σ2
La qualité d’une transmission analogique se mesure à l’aide du rapport signal à bruit, noté SNR
(Signal to Noise Ratio) et exprimé généralement en décibels. Il mesure le rapport de puissance entre
le signal et le bruit. Plus le bruit est élevé plus le rapport signal à bruit diminue. La qualité d’une
transmission numérique se mesure quant à elle à l’aide de deux outils distincts qui sont le rapport
signal à bruit par bit, Eb/N0, et le Taux d’Erreur Binaire (TEB ou BER pour Bit Error Rate). Le
rapport signal à bruit par bit mesure le rapport entre l’énergie véhiculée par un bit, Eb, et la densité
spectrale de puissance du bruit, N0.
Le taux d’erreur binaire définit la probabilité pour un bit d’être faux :
BER =
nombre de bit f aux
nombre de bits transmis
Il est possible de calculer le taux d’erreur binaire en fonction du rapport signal à bruit par bit. Ce
calcul dépend fortement de la modulation choisie et du mapping utilisé. On trouve ce calcul dans la
littérature pour différents types de modulation ([22, 39, 40]).
Le canal binaire symétrique : les entrées et sorties du canal binaire symétrique sont des valeurs
binaires. Il est caractérisé par la probabilité d’erreur p qu’un bit (0 ou 1) soit modifié (en son opposé)
lors de la transmission. La probabilité qu’un bit ne soit pas modifié lors de la transmission est alors
1 − p. Il est représenté par la Figure 1.7.
0 0
1 1
p p
1 − p
1 − p
Figure 1.7 – Canal binaire symétrique de probabilité d’erreur p
On considère que le canal binaire symétrique regroupe alors la modulation, le canal et la démodulation
dans le schéma d’un système de communication.
Il est courant de considérer deux modèles de canaux de transmission :
– Un modèle dit interne AWGN (Additive White Gaussian Noise), pour lequel est calculé le taux
d’erreur binaire (en fonction de la modulation et du mapping).
– Un modèle dit externe BSC (Binary Symetric Channel) ayant pour probabilité d’erreur p la
probabilité définie par le BER du canal interne.
Ce qui rend transparent la modulation et la démodulation pour le codage canal.
1.4 Démodulation
On appelle démodulation l’extraction des paramètres αk et βk contenus dans les composantes sI (t)
et sQ(t) d’un signal émis s(t). Le signal reçu s
′
(t) correspond au signal s(t) transformé par le bruit du
101.4 Démodulation
canal de transmission. Les composantes s
′
I
(t) et s
′
Q(t) reçues correspondent alors à des modifications
des composantes sI (t) et sQ(t) et la donnée d’un couple (s
′
I
(t), s′
Q(t)) donnera lieu à interprétation,
dans le sens où l’on évaluera la distance entre le point de coordonnées (s
′
I
(t), s′
Q(t)) et les points de la
constellation.
En effet, l’objectif est de retourner les symboles les plus probablement émis. Un détecteur a maximum
de vraisemblance (ML pour Maximum Likelihood) fait l’hypothèse que les symboles émis sont
équiprobables. Il calcule alors la distance euclidienne entre les symboles reçus et les symboles possibles.
La décision se fait, pour un symbole reçu donné, en faveur du symbole de l’alphabet le plus proche au
sens de la distance euclidienne.
De cette manière une erreur de décision peut être commise si le point de coordonnées (s
′
I
(t), s′
Q(t))
est plus proche géométriquement d’un point de la constellation différent de celui correspondant au
signal émis à l’instant t. Lorsqu’une telle erreur se produit, le plus souvent, un point de la constellation
est interprété comme étant un de ses plus proches voisins.
11Chapitre 1. Introduction à la Transmission du signal Numérique
12Chapitre 2
Mappings
Le mapping est l’association réalisée entre les points d’une constellation et les différents symboles
binaires possibles pour une taille de constellation donnée. La taille d’une constellation en désigne
le nombre de points, elle détermine alors le débit de transmission. À une constellation de M = 2a
points, est associé un ensemble de 2a
symboles binaires de longueur a. Nous utilisons tout au long de
ce manuscrit la notation a pour désigner le nombre de bits par symbole binaire du mapping. Nous
rappelons la définition de mapping comme étant une bijection de la constellation C dans {0, 1}
a
.
Définition 2.0.1 (Mapping) Soit C une constellation à M = 2a points. On appelle mapping toute
bijection f, de C dans {0, 1}
a
, qui à un point P de C associe un symbole binaire de longueur a.
Nous rappelons que le nombre de mappings, pour une constellation donnée, est le nombre de
permutations de {0, 1}
a
, c’est-à-dire (2a
)!. Nous pouvons alors décrire l’ensemble des mappings en
décrivant l’ensemble de ces permutations, pour de petites tailles de constellations (ie a = 2 ou
a = 3).
Il existe cependant des mappings permettant de limiter le Taux d’Erreur Binaire (T EB ou BER
pour Bit Error Rate) en réception. Il définit le nombre d’erreurs de transmission ou d’écriture pour une
information numérique. Un taux d’erreur de 10−2
signifie qu’un bit sur 100 est erroné. Les mappings
Gray [30] permettent de limiter les erreurs de transmission et donc de diminuer le BER.
Définition 2.0.2 (Mapping Gray) Soit C une constellation à M = 2a points. Soit f un mapping
de C. On dit que f est un mapping Gray si pour tous points Pi
, Pj de C, voisins pour la distance
euclidienne, alors f(Pi) et f(Pj ) sont à distance de Hamming de 1.
Le terme mapping est essentiellement utilisé pour désigner l’association des symboles binaires et
des points d’une constellation en dimension 2. Il est alors courant d’utiliser le terme codage dans le
cas d’une constellation en dimension 1.
La décision réalisée lors de la démodulation consiste à associer le point reçu, à l’instant t, au
point de la constellation le plus proche, au sens de la distance euclidienne. Si le symbole binaire,
correspondant au point de la constellation le plus proche, est à distance de Hamming de 1, du symbole
binaire émis à l’instant t, alors un seul bit est erroné à cet instant.
F. Gray a introduit en 1953 ce type de codage. Il a pour but de limiter les erreurs de transmission.
Le code Gray impose des éléments successifs ayant un seul bit différent. Nous pouvons par exemple
coder les entiers de 0 à 7 en binaire naturel : 000, 001 , 010 , 011, 100, 101, 110, 111 ou selon le codage
13Chapitre 2. Mappings
Gray : 000, 001, 011, 010, 110, 111, 101, 100. Le codage Gray assure de plus un minimum d’opérations
lors du passage d’un élément au suivant. Ce codage, également appelé binaire réfléchi, est le codage
initialement introduit par F. Gray.
Il existe d’autres codages que nous pouvons qualifier de codage Gray puisqu’ils respectent la
distance de Hamming de 1 entre deux symbole successifs. Nous voyons en effet dans ce chapitre
différents types de codage Gray, réfléchis ou non réfléchis et de quelle façon les générer d’après les
travaux de E.N. Gilbert [29].
Ces codages sont utilisés pour construire des mappings Gray pour des constellations P SK, QAM
carrées. Les travaux de R.D. Wesel, X. Liu, J.M Cioffi et C. Komminakis [56] ont permis de décrire
la méthode de construction de mappings Gray à partir du produit direct de deux codages Gray. Ainsi
il nous est possible d’énumérer tous les mappings Gray. Ils ont également mis en avant l’impossibilité
de construire un mapping Gray pour une constellation en croix. Nous décrivons alors des méthodes
issues essentiellement de ces travaux [32, 56] d’une part et des travaux de J.G. Smith [45] d’autre
part, permettant de définir des mappings approchant le critère de Gray. Ils sont communément appelés
des mappings quasi-Gray. On pourra également citer les travaux de P.K. Vitthaladevuni, M.S.
Alouini et J.C. Kieffer [51, 52] dans ce domaine. Cependant il n’existe pas de définition formelle des
mappings quasi-Gray au sens où tous les mappings peuvent être considérés comme quasi-Gray avec
des caractéristiques se rapprochant plus ou moins du critère de Gray.
2.1 Codages Gray réfléchis
Nous définissons ici un codage Gray réfléchi et sa méthode de construction. Un tel codage est
construit comme suit : à l’étape 0 on choisit un symbole parmi les 2a possibles. Ce symbole sert
de labellisation pour le point le plus à gauche de la constellation. À l’étape i on choisit un bit à
complémenter (non utilisé pendant les étapes précédentes). À cette étape, 2i points sont déjà labellisés.
Nous labellisons alors les 2i
suivants par symétrie en complémentant le bit précédemment choisi.
L’exemple d’un codage Gray réfléchi pour une constellation unidimensionnelle à 8 points est donné
ci-dessous, il permet d’illustrer cette construction.
Le symbole d’origine est choisi :
b b b b b b b b
001
Le 3ème bit est complémenté pour obtenir le symbole suivant :
b b b b b b b b
001 000
Les deux symboles suivants sont obtenus par symétrie et en complémentant le 2ème bit de chaque
symbole.
b b b b b b b b
001 000 010 011
142.2 Codages Gray non réfléchis
Les derniers symboles s’obtiennent alors en complémentant le 1er bit de chaque symbole, en utilisant
également une symétrie :
b b b b b b b b
001 000 010 011 111 110 100 101
Cette construction permet de décrire 23
.3! codages Gray réfléchis différents : 23 pour le choix du
symbole d’origine et 3! pour le choix de l’ordre des bits à complémenter. Plus généralement, pour une
constellation à 2a points il existe 2a
.a! codages Gray réfléchis.
2.2 Codages Gray non réfléchis
F. Gray a introduit les codes Gray réfléchis. Il existe cependant des codages également appelés
codages Gray qui sont de type non réfléchis. Le codage donné ci-dessous en est un exemple. Nous
pouvons cependant remarquer que les symboles situés aux extrémités sont à distance de Hamming de
1. Nous appelons de tels codages des codages Gray cycliques. Les codages Gray réfléchis sont d’ailleurs
des codages cycliques.
b b b b b b b b
101 001 000 010 011 111 110 100
Il existe donc trois familles de codages Gray : les codages Gray réfléchis, les codages Gray cycliques
et enfin les codages qui ne sont ni réfléchis ni cycliques.
2.3 Codages Gray
E.N. Gilbert [29] a décrit en 1957 une méthode de génération de l’ensemble des codages Gray basée
sur la description de chemins dans un graphe. On définit Qa comme étant un graphe à 2a
sommets
où deux sommets sont reliés par une arête si leurs labels respectifs ne diffèrent que d’un bit. Une
représentation de ces graphes dans le cas a = 2, 3, 4 est donnée par la Figure 2.1, où chaque
sommet est labellisé par l’écriture binaire de son numéro.
0 1
2 3
0 1
2 3
4 5
6 7
Figure 2.1 – Représentation des graphes Qa, de gauche à droite a = 2, 3, 4
15Chapitre 2. Mappings
Les cubes ainsi construits permettent d’obtenir d’une part le nombre de codages Gray pour a ∈
J1, 4K, et d’autre part les codages Gray en eux-mêmes. En effet, la description d’un codage Gray est
équivalente à la description d’un chemin, de longueur 2a de Qa, ne parcourant qu’une seule fois chacun
des sommets.
Le chemin défini par les sommets 0, 1, 3, 2, dans Q2, permet d’obtenir, par le biais de ses labels, le
codage Gray suivant : 00, 01, 11, 10. Le chemin 0, 2, 3, 1 définit également un codage Gray. Il existe
deux chemins de longueur 4 parcourant chacun des sommets de Q2 et ayant pour origine le sommet
0, ainsi que pour chacune des origines possibles. Il y a donc 8 codages Gray à 2 bits. Nous pouvons
déterminer le nombre de codages Gray cycliques pour a ∈ J1, 4K en posant la contrainte suivante : les
chemins retenus sont ceux ayant pour extrémités des sommets voisins.
Le nombre de codage Gray obtenu par simulation est :
– pour a = 2 : 8 dont 8 cycliques
– pour a = 3 : 144 dont 96 cycliques
– pour a = 4 : 91392 dont 43008 cycliques
Les codages Gray réfléchis sont utilisés pour la construction de mappings quasi-Gray, à savoir
des mappings respectant “au maximum” le critère de Gray, dans le cas de constellation comme les
32 − QAM et 128 − QAM. Les codages Gray cycliques sont utilisés pour la construction de mappings
Gray valides pour les constellations P SK. L’ensemble des codages Gray est également utilisé dans le
cas des constellations QAM carrées ou rectangulaires.
2.4 Mappings Gray PSK
Une constellation P SK est un ensemble de points dans le plan répartis sur un cercle de rayon A
(l’amplitude du signal). Un codage Gray cyclique permet donc de définir un mapping Gray pour ce
type de constellation en “enroulant” ce code sur lui-même. Ainsi il existe 96 mappings Gray P SK,
dont 48 sont des mappings issus de codages Gray réfléchis.
Nous remarquons que la notion de points voisins dans une constellation diffère selon sa configuration.
Un point a uniquement deux voisins dans une constellation P SK tandis qu’il peut en avoir
jusqu’à quatre dans une constellation QAM.
2.5 Mappings Gray QAM
Nous décrivons ici la méthode de génération d’un mapping Gray, pour une constellation QAM
carrée ou rectangulaire, issue des travaux Wesel, Liu, Cioffi, Komminakis. Cette méthode utilise le
produit direct de deux codages Gray. Elle permet notamment la génération de l’ensemble des mappings
Gray. Soit une constellation QAM à 2a × 2
b points. Soient deux codages Gray à 2a
et 2b points
respectivement. L’un est utilisé verticalement, l’autre horizontalement. Nous pouvons alors labelliser
un point en adjoignant ses labels verticaux et horizontaux correspondants. En vue de générer l’ensemble
des mappings Gray possibles sans parcourir deux fois le même mapping, il faut fixer la contrainte de
ne pas inverser l’ordre des bits issus d’un même codage. Il y a alors
a+b
a
mappings possibles pour
deux codages horizontaux et verticaux fixés. Deux exemples de tels mappings sont donnés par la
Figure 2.2.
162.6 Mappings quasi-Gray
b
b
b
b
b
b
b
b 10
00 01 11
11
01
00
10
0000
0001
0010
0011
0100
0101
0110
0111
1000
1001
1010
1011
1100
1101
1110
1111
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b 10
00 01 11
11
01
00
10
0000
0001
0100
0101
0010
0011
0110
0111
1000
1001
1100
1101
1010
1011
1110
1111
b
b
b
b
b
b
b
b
Figure 2.2 – Deux mappings Gray construits par produit direct de codes Gray
On note nl (respectivement nc) le nombre de codages Gray lignes (respectivement colonnes). Le
nombre de mappings Gray pour une constellation QAM rectangulaire de taille 2a × 2
b
est de
nl
. nc .
a + b
a
!
Le nombre de mappings Gray pour les constellations 4 − P SK, 8 − P SK, 16 − QAM, 64 − QAM
et enfin 256 − QAM est donné par la Table 2.1.
Constellation Nombre de mappings Gray
4 − P SK 8
8 − P SK 96
16 − QAM 384
64 − QAM 414 720
256 − QAM 584 674 836 480
Table 2.1 – Nombre de mappings Gray
La génération de mappings Gray réfléchis pour les constellations QAM carrées ou rectangulaires
peut se faire par une méthode similaire à celle définie pour les codages Gray. Elle peut également se
faire par produit direct de deux codages Gray réfléchis. Les mappings Gray minimisent les erreurs de
réception. Ils sont potentiellement très utilisés et sont à ce titre des cibles privilégiées pour la suite de
notre travail. Il est impossible d’utiliser des mappings Gray pour les constellations en croix, 32−QAM
et 128 − QAM, nous nous intéressons donc aux mappings dits quasi-Gray.
2.6 Mappings quasi-Gray
Wesel & al. ont démontré qu’il n’est pas possible de construire de mappings Gray pour les constellations
en croix, notamment 32−QAM et 128−QAM. Il est cependant possible d’utiliser des mappings
dits quasi-Gray respectant autant que possible le critère de Gray. Il existe dans la littérature différents
17Chapitre 2. Mappings
mappings quasi-Gray. Le but de cette section est d’en présenter quelques uns. La qualité d’un mapping
quasi-Gray peut être jugée grâce aux deux critères suivants : la pénalité de Gray moyenne, la pénalité
de Gray maximum. Comme il n’existe pas de définition formelle des mappings quasi-Gray, en pratique,
on recherche des mappings qui minimisent les pénalités de Gray moyenne et maximum.
Définition 2.6.1 (Pénalité de Gray moyenne) On définit la pénalité de Gray moyenne, notée Gp,
comme le nombre moyen de bits différents entre deux symboles binaires voisins.
Définition 2.6.2 (Pénalité de Gray maximum) On définit la pénalité de Gray maximum, notée
Gp
k , comme le nombre maximum de bits différents entre deux symboles binaires voisins.
Mappings 32 − QAM
Méthode par déplacement de labels
La première approche se base sur la définition de mappings quasi-Gray à partir de mappings
rectangles. Deux méthodes sont schématisées ici, la première issue de [56] est vue dans la Figure 2.3,
la seconde issue de [45] est vue dans la Figure 2.4.
b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b
(2)
(4)
(1)
(3)
b b b b b b b b
b b b b b b b b
b b b b b b b b
b b b b b b b b
(2)
(4)
(1)
(3)
Figure 2.3 – Construction d’un mapping 32 − QAM par la méthode de Wesel & al.
b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b
(2)
(4)
(1)
(3)
b b b b b b b b
b b b b b b b b
b b b b b b b b
b b b b b b b b
(2)
(4)
(1)
(3)
Figure 2.4 – Construction d’un mapping 32 − QAM par la méthode de J.G. Smith
Méthode par définition de transitions
La seconde approche se base sur la notion de transition. On appelle transition entre deux symboles
binaires s1 et s2, un vecteur v, de taille a tel que s2 = s1 + v. Les transitions pour les constellations
32 − QAM sont des vecteurs de taille 5. Wesel & al. ont étudié ces transitions pour en déterminer
le nombre nécessaire à l’obtention d’un mapping 32 − QAM, ainsi que les agencements décrivant
des mappings quasi-Gray raisonnables. Il en résulte qu’il est possible de labelliser entièrement une
182.6 Mappings quasi-Gray
constellation, pour a impair, avec a + 1 transitions : les transitions unitaires (de poids de Hamming
1) et une transition combinaison linéaire des précédentes.
Pour les mappings 32 − QAM, ils proposent ainsi six schémas (Figure 2.5). La construction d’un
mapping avec cette méthode consiste à choisir le symbole binaire correspondant à l’un des points de la
constellation et à appliquer les transitions successivement afin d’obtenir la labellisation de l’ensemble
de la constellation.
Nous avons matérialisé les transitions non unitaires en les soulignant de gris dans ces schémas de
construction. Cela permet de remarquer les positions où les contraintes de Gray ne sont pas respectées.
Le nombre de ces positions détermine en partie la qualité du mapping quasi-Gray ainsi défini. Le
nombre de mappings quasi-Gray obtenus grâce à l’un des six schémas correspond à 5!.32 ( 5! pour le
choix des transitions e1 à e5, e6 étant fixe, 32 pour le choix du symbole d’origine).
Correspondance des méthodes
Le premier schéma de la Figure 2.5 (en haut à gauche) correspond à un mapping Gray réfléchi
pour lequel les points situés aux extrémités droite et gauche ont été déplacés. Ce schéma correspond
à la construction de la Figure 2.3. On peut également représenter la construction de la Figure 2.4
sous forme de schéma de transition ( Figure 2.6) à partir du schéma de transition d’un mappings
rectangulaire réfléchi (Figure 2.7).
b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b
e4 e2 e2
e6 e7 e7 e6
e5 e5 e1 e1
e2
e1 e1
e3
e1 e1
e2
e1 e1
e6 e7 e7 e6
e2 e2
e6 = e1 ⊕ e5, e7 = e2 ⊕ e5
Figure 2.6 – Schéma de transition des mappings quasi-Gray de J.G. Smith
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
e1 e5 e4 e1
e3
e2
e1 e1 e5
e2
Figure 2.7 – Schéma de transition d’un mappings Gray réfléchi rectangulaire 32 − QAM
19Chapitre 2. Mappings
b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b
e4 e2 e2
e6 e5 e5 e6
e5 e5 e1 e1
e2
e1 e1
e3
e1 e1
e2
e1 e1
e6 e5 e5 e6
e2 e2
e6 = e1 ⊕ e2 ⊕ e5
(a) Construction 1
b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b
e1 e3 e3
e4
e5 e3 e3 e5
e4 e6 e5 e5 e6 e4
e3 e4 e4 e3
e2
e3 e4 e4 e3
e4 e6 e5 e5 e6 e4
e5 e3 e3 e5
e4
e3 e3
e6 = e3 ⊕ e4 ⊕ e5
(b) Construction 2
b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b
e1
e4 e4
e2
e5 e4 e4 e5
e4 e6 e3 e3 e6 e4
e3 e5 e5 e3
e2
e3 e5 e5 e3
e4
e3 e5 e5 e3
e2
e5 e5
e6 = e3 ⊕ e4 ⊕ e5
(c) Construction 3
b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b
e1
e6 e6
e2
e3 e6 e6 e3
e4 e4 e3 e3 e4 e4
e3 e5 e5 e3
e2
e3 e5 e5 e3
e4 e6 e4 e4 e6 e4
e5 e3 e3 e5
e2
e3 e3
e6 = e3 ⊕ e4 ⊕ e5
(d) Construction 4
b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b
e5 e1 e5
e2
e4 e4
e5 e3 e3 e3 e3 e5
e6 e6
e2
e6 e6
e5 e4 e4 e4 e4 e5
e3 e3
e2
e6 = e3 ⊕ e4 ⊕ e5
(e) Construction 5
b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b
e1 e6 e6
e2
e4 e6 e6 e4
e3 e5 e4 e4 e5 e3
e6 e3 e3 e6
e2
e6 e3 e3 e6
e3 e4 e5 e5 e4 e3
e5 e6 e6 e5
e2
e6 e6
e6 = e3 ⊕ e4 ⊕ e5
(f) Construction 6
Figure 2.5 – Six schémas de transitions pour générer des 32-QAM quasi-Gray. Les traits en pointillés
signifient que toute la ligne, ou toute la colonne, est construite avec la même transition
202.6 Mappings quasi-Gray
Pénalité de Gray
Nous pouvons calculer pour chacun des schémas présentés ici la pénalité de Gray moyenne. Ainsi
pour la méthode de la Figure 2.4 la pénalité moyenne est de 7
6
:
A B D′ C
′
E I M Q U Y
F J N R V Z
G K O S W A′
H L P T X B′
D C E′ F
′
A E I M Q U Y C
′
B F J N R V Z D′
C G K O S W A′ E′
D H L P T X B′ F
′
Avec les notations précédentes, les points J, N, R, V , K, O, S, W puis E, F, G, H, Y , Z, A′
,
B′ ont une pénalité moyenne de 1. En effet, ils respectent le critère de Gray. Les points A, C
′
, D et
F
′ont une pénalité de 3
2
, les points B, D′
, C, E′ ont une pénalité de 4
3
et enfin les points restants ont
une pénalité de 5
4
. La pénalité moyenne est donc de 7
6
.
De la même manière, il est possible de calculer les pénalités de Gray pour les autres méthodes de
construction, elles sont données par la Table 2.2
Figure 2.5a 2.5b 2.5c 2.5d 2.5e 2.5f 2.4
Gp
19
16
9
8
17
16
118
96
110
96
71
48
7
6
Gk
p
3 3 3 3 3 3 2
Table 2.2 – Pénalité de Gray de mappings 32 − QAM
Mappings 128 − QAM
Nous présentons ici deux types de mappings quasi-Gray pour les constellations 128 − QAM cruciformes.
Ces deux méthodes se basent sur la modification de mappings Gray rectangulaires. La seconde
méthode est issue des travaux de P.K. Vitthaladevuni, M.S. Alouini et J.C. Kieffer [52]. Elles sont
données par la Figure 2.8 et la Figure 2.9.
21Chapitre 2. Mappings
b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b
bb
b b b b b b b b b b b b
b
b
b b b b b b b b b b b b
b
b
b
b
b b b b b b b b b b b b
b
b b
b
b b b b b b b b b b b b
b
b
bbb b
bbbb
b b b b b b b b b b b b
b
b
b b b b b b b b b b b b
b
b
b b b b b b b b b b b b
b
b
b b b b b b b b b b b b
b
b
b
(1) (2)
(3) (4)
b b b b b b b b b b b b b b b
(3) (4)
(1) (2)
Figure 2.8 – Construction d’un mapping 128 − QAM par la méthode de Wesel & al.
b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b b b b b b b b b b b b b b b b
b
bb
b b b b b b b b b b b b
b
b
b b b b b b b b b b b b
b
b
b
b
b b b b b b b b b b b b
b
b b
b
b b b b b b b b b b b b
b
b
bbb b
bbbb
b b b b b b b b b b b b
b
b
b b b b b b b b b b b b
b
b
b b b b b b b b b b b b
b
b
b b b b b b b b b b b b
b
b
b
(1)
(2)
(3)
(4)
b b b b b b b b b b b b b b b
(1) (2) (3) (4)
(5)
(6)
(7)
(8)
(5) (6) (7) (8)
Figure 2.9 – Construction d’un mapping 128 − QAM par la méthode de Vitthaladevuni & al.
La pénalité de Gray du mapping présenté Figure 2.9 est donnée dans [52] est vaut
1 +
1
√
2 ∗ 128
+
1
3 ∗ 128
≃ 1.0651
Ces méthodes s’étendent au cas des constellations 512 − QAM. Dans la suite de ce travail nous
utilisons les mappings quasi-Gray définis à partir de mappings Gray rectangles. Elles sont efficaces
dans le sens où elles nécessitent peu de transformations alors que nous sommes déjà en mesure de
générer les mappings Gray rectangulaires.
22Chapitre 3
Codes Convolutifs et Codes de Reed-Solomon
Ce chapitre introductif a pour objectif de donner des notions de théorie des codes. Notamment
nous présentons ce que sont les codes convolutifs et les codes de Reed-Solomon. Ces deux types de
codes sont ceux utilisés dans le Chapitre 6 pour la reconnaissance du mapping bien que nous nous
soyons essentiellement concentrés sur le cas des codes convolutifs. Nous présentons en effet de plus
une méthode de détection des codes convolutifs dans le Chapitre 4.
3.1 Introduction aux codes correcteurs d’erreurs
Les codes correcteurs d’erreurs sont des systèmes visant à réduire les erreurs de transmission.
Le codage de l’information binaire à transmettre, par ce type de systèmes, permet d’ajouter de la
redondance ; c’est-à-dire que l’on transmet plus de données que la quantité d’informations initiale.
La redondance introduite est utilisée lors de la réception des données afin de détecter et corriger les
erreurs de transmission.
Il existe deux grandes familles de codes : les codes en blocs et les codes convolutifs. Pour chacune de
ces deux familles, l’information est séparée en blocs de taille constante k appelés mots d’information.
Les blocs obtenus par codage de ces mots d’informations sont appelés des mots de code.
On note u = (u1, . . . , uk), ui ∈ Fq, un mot d’information et y = (y1, . . . , yn), yi ∈ Fq, le mot de
code associé où n > k. On appelle n la longueur du code.
Codes en blocs Nous allons à présent voir des exemples de codes en blocs et les premières définitions
de codes, notamment de codes dits linéaires.
Un exemple de code : le code à répétition
Le principe du code à répétition est simplement de répéter un certain nombre de fois n chacun
des bits du message à transmettre. Pour n = 3 le message 0110 devient 000111111000. Si une erreur
se produit lors de la transmission alors on retrouvera le message initial par vote majoritaire. Cette
méthode permet de corriger toutes les erreurs de poids 1 (un seul bit sur les trois répétés est faux).
Ce code a l’avantage de pouvoir corriger autant d’erreurs que l’on souhaite en augmentant le
nombre de répétition, mais le nombre de bits à transmettre est alors trop important. Pour n = 3 si le
message à transmettre est de longueur m alors le message codé sera de longueur 3m.
23Chapitre 3. Codes Convolutifs et Codes de Reed-Solomon
On définit le rendement d’un code par le ratio k/n où k est la longueur des mots d’informations
et n celle des mots de code. Dans l’exemple du code à répétition k = 1 et n = 3.
On définit la distance minimale d’un code, noté d, comme la plus petite distance séparant deux
mots de code (pour la distance de Hamming). Le code à répétition a pour distance minimale d = n.
La question du décodage est liée à la notion de capacité de correction, c’est-à-dire pour un code
donné, combien d’erreurs est-on en mesure de corriger. Soit C un code de longueur n, dont la longueur
des mots d’informations est k et de distance minimale d. Soit y = (y1, . . . , yn), yi ∈ Fq un mot de
code. Lors de la transmission du signal, ce mot de code peut être modifié. Le mot reçu s’écrit alors
y
′ = y + e où e correspond à l’erreur ajoutée.
On appelle décodage par maximum de vraisemblance le décodage qui consiste à associer à y
′
le
mot de code y le plus proche (au sens de la distance de Hamming). Alors on peut décoder de manière
unique tous mots reçus ayant au plus t = ⌊
d−1
2
⌋ erreurs. t est appelé la capacité de correction.
L’objectif de la théorie des codes est de définir des codes assurant à la fois de bon taux de transmission
et de bonnes capacités de correction.
Un exemple de code : le code de Hamming
Soit G =
1 0 0 0 0 1 1
0 1 0 0 1 0 1
0 0 1 0 1 1 0
0 0 0 1 1 1 1
. Le code défini par l’ensemble des y = uG, avec u = (u1, u2, u3, u4),
ui ∈ F2, a pour longueur 7, des mots d’informations de longueur 4 et une distance minimale de 3.
Il a donc pour capacité de correction t = 1, pour un rendement de 4
7
. Il est ainsi un code de même
distance minimale que le code à répétition mais a un meilleur rendement.
Le code de Hamming présenté ici est défini par une matrice G de taille k × n, à coefficients dans
F2, que l’on appelle une matrice génératrice. Il peut également être défini par une matrice dite de
parité, notée H, de taille (n − k) × n, à coefficients dans F2, telle que GH⊤ = 0k×(n−k)
. Alors, pour
tout mot de code y de C on a yH⊤ = 0. On peut ainsi déterminer l’appartenance d’un mot à un code
en connaissant une matrice de parité.
Nous nous attachons maintenant à définir les notions de code, matrice génératrice et matrice de
parité pour les codes dit linéaires.
Définition 3.1.1 (Code) Un code C sur Fq de longueur n est un sous-ensemble de F
n
q
Définition 3.1.2 (Code linéaire) Un code linéaire C sur Fq de longueur n et de dimension k est
un sous-espace vectoriel de F
n
q de dimension k.
On écrit [n, k, d]q les paramètres d’un code linéaire C de longueur n, dimension k, et distance
minimale d défini sur Fq et [n, k, d] lorsque qu’il n’y a pas d’ambiguïté sur le corps de base.
Définition 3.1.3 (Matrice génératrice) Une matrice génératrice d’un code linéaire C est une matrice
dont les vecteurs lignes forment une base de C .
243.2 Codes cycliques
Une matrice génératrice n’est donc pas unique et un code possède autant de matrices génératrices
que de bases.
Définition 3.1.4 (Code dual) Soit C une code linéaire de longueur n et dimension k. On note C
⊥
le code dual de C tel que C
⊥ = {y ∈ F
n
q
| uy = 0, ∀u ∈ C } où uy =
Pn
i=1 uiyi
, ui
, yi ∈ Fq
Lors de l’utilisation d’un code en bloc, chaque mot d’information est codé indépendamment des
autres. Le mot de code y dépend uniquement du mot d’information u. On définit la fonction de codage
pour les codes en blocs comme l’application linéaire injective φ : F
k
q → F
n
q qui à un mot d’information
u associe un mot de code y = φ(u). On peut d’ailleurs définir un code en bloc comme l’ensemble des
mots de code y = uG où G est une matrice de l’application φ dans une base donnée. D’autre part,
lorsque l’on dispose d’une séquence binaire à coder, cette dernière est décomposée en blocs de taille k
qui seront codés pour former des blocs de taille n, constituant ainsi la séquence codée. On note alors
respectivement uj et yj les mots d’informations et de codes obtenus au temps j. On obtient donc la
relation suivante : yj = ujG. Lorsque les séquences d’informations et les séquences codées sont vues
comme des séquences infinies, on écrit U(D) = P
j≥0 ujDj où D est une variable indéterminée et
uj = (u0, . . . , uk)j = (u0,j , . . . , uk,j ). On a alors Y (D) = U(D)G avec Y (D) = P
j≥0
yjDj
.
3.2 Codes cycliques
Soient c = (c0, c1, . . . , cn−1) appartenant à F
n
q
et c
′ = (cn−1, c0, . . . , cn−2) le décalé de c. Un
code de longueur n est dit cyclique si pour tout mot de code c = (c0, c1, . . . , cn−1) son décalé
c
′ = (cn−1, c0, . . . , cn−2) est aussi un mot de code. Ce qui implique que (cn−2, cn−1, c0, . . . , cn−3),
(cn−3, cn−2, cn−1, . . . , cn−4) et ainsi de suite sont aussi des mots de code.
Pour les mots de codes d’un code cyclique on adopte usuellement l’écriture suivante
c(x) = c0 + c1x + · · · + cn−1x
n−1
D’où
c
′
(x) = cn−1 + c0x + · · · + cn−2x
n−1
D’autre part
xc(x) = c0x + c1x
2 + · · · + cn−1x
n
= cn−1(x
n − 1) + (c0x + c1x
2 + · · · + cn−2x
n−1 + cn−1)
et
xc(x) mod (x
n − 1) = cn−1 + c0x + · · · + cn−2x
n−1
donc
c
′
(x) = xc(x) mod (x
n − 1)
De même, si c est décalé de deux rangs vers la droite, on obtient (cn−2, cn−1, c0, . . . , cn−3), ce qui
correspond à x
2
c(x) mod (x
n − 1). C’est également vrai pour les décalés suivants.
25Chapitre 3. Codes Convolutifs et Codes de Reed-Solomon
L’ensemble des opérations sur c(x) se fait alors dans l’anneau quotient Fq[x]/(x
n−1) et on identifie
F
n
q
à Fq[x]/(x
n − 1).
En montrant que C est un idéal de cet anneau, on obtient alors l’existence d’un unique polynôme
unitaire g(x) de degré minimal et tel que g(x) est un générateur de C . De plus g(x) divise x
n −1 dans
Fq[x].
Notons r le degré de g(x) = g0 + g1x + · · · + grx
r
. Ce polynôme g(x) est un générateur du code
alors tout mot de code c(x) est un multiple de g(x), c’est-à-dire c(x) = m(x)g(x) avec m(x) =
m0 +m1x+· · · +mk−1x
k−1
. Le code est de dimension k et {g(x), xg(x), x2
g(x), . . . , xk−1
g(x)} est une
base de C . Le polynôme c(x) = m(x)g(x) de degré inférieur ou égal à n − 1 s’écrit :
c(x) = m0g(x) + m1xg(x) + · · · + mk−1x
k−1
g(x)
ce qui se représente sous la forme matricielle suivante :
m0 m1 . . . mk−1
g(x)
xg(x)
.
.
.
x
k−1
g(x)
ou encore
m0 m1 . . . mk−1
g0 g1 . . . gr
g0 g1 . . . gr
.
.
.
.
.
.
.
.
.
g0 g1 . . . gr
Cette matrice de taille k × n est une matrice génératrice de C . D’autre part soit h(x) tel que
g(x)h(x) = x
n − 1 alors
H(n−k)×n =
hk hk−1 . . . h0
hk kk−1 . . . g0
.
.
.
.
.
.
.
.
.
hk hk−1 . . . h0
est une matrice génératrice du dual où h(x) = h0 + h1x + · · · + hk−1x
k−1
Codes cycliques raccourcis Soit C
′
le sous-ensemble de C composé de l’ensemble des mots de
code c
′
(x) tels que c
′
(x) = m(x)g(x) avec
m(x) = m0 + m1x + · · · + mk−i−1x
k−i−1
et i un entier positif. C’est-à-dire
m =
m0 m1 . . . mk−i−1 0 . . . 0
.
Alors C
′
est un code de dimension k − i et de longueur n − i. Un tel code est dit raccourci.
263.2 Codes cycliques
Codes Reed-Solomon Les codes Reed-Solomon font partie des codes cycliques les plus utilisés, ils
permettent de corriger les erreurs se produisant par paquets. Il ont été inventés en 1960 par Reed et
Solomon.
Nous supposons à présent que n est premier avec q. Il existe deux façons de décrire un code
de Reed-Solomon. La première que nous donnons est la première définie historiquement et permet de
donner des résultats théoriques, la seconde est cependant utilisée pour décrire des codeurs et décodeurs
de ces codes.
Définition 3.2.1 Soient α un élément primitif de Fqm, n = q
m − 1 et m(x) = m0 + m1x + · · · +
mk−1x
k−1 ∈ Fqm[x] un mot d’information sous forme polynomiale.
Soit φ : m(x) → c tel que
c = (c0, c1, . . . , cn−1) =
m(1), m(α), m(α
2
), . . . , m(α
n−1
)
Le code de Reed-Solomon de longueur n = q
m −1 et de dimension k sur Fqm est l’ensemble des images,
par φ, des polynômes de degré inférieur ou égal à k − 1 à coefficients dans Fqm.
La seconde construction se rapproche de celle des codes BCH (ils doivent leur nom à Bose, Chaudury
et Hocquenghem) que nous allons évoquer à présent.
Rappelons que le polynôme minimal d’un élément de Fqm est le polynôme (non nul) de plus faible
degré dont il est racine. De plus les éléments admettant le même polynôme minimal sont dits conjugués.
Un polynôme primitif est un polynôme minimal dont au moins une racine est un élément primitif
de Fqm.
Un code BCH de longueur n capable de corriger au moins t erreurs se construit selon la procédure
suivante : Prendre m le plus petit entier tel que Fqm a une racine n-ième primitive α. Choisir un entier
b positif (souvent b = 1). Déterminer ensuite les polynômes minimaux de α
b
, αb+1, . . . , αb+2t−1 à
coefficients dans Fq. Le polynôme générateur g(x) du code est le plus petit multiple commun de ces
polynômes minimaux.
Ainsi, les coefficients de g(x) sont dans Fq ainsi que les mots du code tandis que les racines de g(x)
sont elles dans Fqm. De plus, certains des α
i
sont potentiellement conjugués donc g(x) est de degré au
plus 2t.
Le code ainsi construit est un code de longueur n, de dimension n − deg g(x) et de distance minimale
supérieure ou égale à δ = 2t + 1.
Les α
b
, αb+1, . . . , αb+2t−1
sont par définition racines de leur polynômes minimaux respectifs et
sont alors racines de g(x) sur Fqm. Donc pour tout α
i
, (i = b, b + 1, . . . , b + 2t − 1 ), g(α
i
) = 0 et par
conséquent c(α
i
) = m(α
i
)g(α
i
) = 0. Ceci se traduit par
c0 + c1α
i + c2(α
i
)
2 + · · · + cn−1(α
i
)
n−1 = 0, ∀i = b, b + 1, . . . , b + 2t − 1
27Chapitre 3. Codes Convolutifs et Codes de Reed-Solomon
Donc
c0 c1 . . . cn−1
1
α
i
(α
i
)
2
.
.
.
(α
i
)
n−1
= 0
et
H =
1 α
b
(α
b
)
2
. . . (α
b
)
n−1
1 α
b+1 (α
b+1)
2
. . . (α
b+1)
n−1
.
.
.
.
.
.
.
.
.
.
.
.
1 α
b+2t−1
(α
b+2t−1
)
2
. . . (α
b+2t−1
)
n−1
est également une matrice génératrice du dual.
Passons à présent aux codes de Reed-Solomon. Dans Fqm le polynôme minimal d’un élément α est
égal à (x − α). Un tel code prend comme polynôme générateur
g(x) = (x − α
b
)(x − α
b+1)· · ·(x − α
b+2t−1
).
g(x) est alors de degré exactement 2t. Donc n − k = 2t. Et le code est en mesure de corriger t erreurs.
Un exemple de code Reed-Solomon : Nous décrivons ici un code de longueur 15 et de dimension
9 sur F2
4 . Ce code est en mesure de corriger 3 erreurs. De plus F2
4 est identifié à F2[x]/(x
4+x+1).
Soit α dans F2
4 une racine de x
4 + x+ 1. Nous avons α
15 = 1. On peut d’autre part décrire l’ensemble
des puissances successives de α. En effet α
4 = α + 1 puisque α est racine de x
4 + x + 1. Ensuite
α
5 = α
2 + α. Les puissances suivantes se calculent de la même manière et dépendent uniquement de
1, α, α
2
et α
3
. On peut donc en donner une représentation vectorielle dans cette base. Les 7 premières
puissances sont données dans le tableau ci-dessous :
Puissance de α Représentation dans la base Représentation vectorielle
1 1 (1, 0, 0, 0)
α α (0, 1, 0, 0)
α
2 α
2
(0, 0, 1, 0)
α
3 α
3
(0, 0, 0, 1)
α
4 α + 1 (1, 1, 0, 0)
α
5 α
2 + α (0, 1, 1, 0)
α
6 α
3 + α
2
(0, 0, 1, 1)
et α est bien un élément primitif de F2
4. Prenons b = 1, on a n = 15 et k = 9 donc 2t = 6 et
g(x) = (x − α)(x − α
2
)(x − α
3
)(x − α
4
)(x − α
5
)(x − α
6
).
L’avantage de tels codes est que l’on maîtrise très bien la capacité de correction. De plus, les codes
définis sur F2
8 sont souvent utilisés du fait de leur praticité. En effet, chaque élément de F2
8 se repré-
sente dans la base {1, α, . . . α7} sur un octet.
Par ailleurs, il est possible de donner des matrices systématiques pour les matrices génératrices
de C ainsi que pour C
⊥. En effet, la division euclidienne de x
n−k+i par g(x) pour i = 0, 1, . . . , k − 1
283.3 Codes convolutifs
donne
x
n−k+i = qi(x)g(x) + ri(x)
avec ri(x) = ri,0 + ri,1x + · · · + ri,n−k−1x
n−k−1
. C’est-à-dire
x
n−k+i − ri(x) = qi(x)g(x)
donc x
n−k+i − ri(x) est un multiple de g(x) et est aussi un mot de code. Le polynôme ri(x) s’écrit
sous forme matricielle
ri,0 ri,1 . . . ri,n−k−1 0 . . . 0
donc x
n−k − r0(x) correspond à
−r0,0 −r0,1 . . . −r0,n−k−1 1 0 . . . 0
et on obtient la matrice génératrice suivante :
G =
−r0,0 −r0,1 . . . −r0,n−k−1 1 0 0 . . . 0
−r1,0 −r1,1 . . . −r1,n−k−1 0 1 0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
−rk−1,0 −rk−1,1 . . . −rk−1,n−k−1 0 0 0 . . . 1
et
H =
1 0 0 . . . 0 r0,0 r1,0 . . . rk−1,0
0 1 0 . . . 0 r0,1 r1,1 . . . rk−1,1
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . 1 r0,n−k−1 r1,n−k−1 . . . rk−1,n−k−1
Les codes en blocs ont l’avantage d’être largement étudiés et permettent à ce titre des constructions
variées. En revanche la complexité de codage et décodage peut varier selon le type de code. Les codes
convolutifs sont eux implémentés sous forme de registres à décalage et présentent ainsi l’avantage
d’offrir un codage simple et un décodage rapide au fur et à mesure de la réception de l’information.
Cependant, ils fournissent généralement de plus faibles capacités de correction.
On définit pour les codes convolutifs linéaires la notion de matrice génératrice de manière similaire
à la notion de matrice génératrice pour les codes en blocs. Les définitions présentées dans le paragraphe
suivant sont essentiellement issues de [38]. Nous parlerons ici uniquement de codes convolutifs linéaires,
nous utiliserons donc le terme code convolutif pour signifier code convolutif linéaire.
3.3 Codes convolutifs
Lors de l’utilisation d’un code convolutif, le mot de code yj dépend du mot d’information uj mais
également des mots d’informations reçus aux instants précédents. yj dépend donc de uj , uj−1, . . . , uj−M
où M correspond à la mémoire du codeur. On définit donc la fonction de codage d’un code convolutif
comme l’application linéaire injective φ : F
k
2 → F
n
2
telle que yj = φ(uj , uj−1, . . . , uj−M). Ainsi,
29Chapitre 3. Codes Convolutifs et Codes de Reed-Solomon
k
n
G0 G1 G2
. . .
G0 G1 G2
. . .
G0 G1
.
.
.
GM
GM
. . . GM
.
.
.
0k×n
0k×n
0k×n
0k×n
G2
Figure 3.1 – Matrice génératrice binaire d’un code convolutif
la matrice G de cette application dans une base donnée prendra la forme d’une matrice shiftée infi-
nie comme définie par la Figure 3.1 , où chacune des matrices Gi est une matrice binaire de taille k×n.
On pourra également décrire la matrice G comme une matrice à coefficients dans F2(D). On note
G(D) = G0 +G1D +G2D2 +. . . GM DM, G(D) est alors une matrice de taille k ×n à coefficients dans
F2(D).
On peut d’ailleurs voir les codes en blocs comme des codes convolutifs de mémoire nulle.
On distinguera ici la notion de code et de codeur. Le code est l’ensemble des mots de code tandis
que le codeur (ou encodeur) est la réalisation physique de la fonction de codage. D’autre part, la réalisation
physique d’une fonction de codage correspond à l’implémentation de registres à décalage. Mais
au même titre qu’un code dispose de plusieurs matrices génératrices, il existe différentes réalisations
pour un même code généré. Les registres nécessitant le moins de mémoire sont à priori les plus utilisés
et donc les plus intéressants du point de vue de la reconnaissance. Nous verrons alors que l’algorithme
de reconnaissance de codes convolutifs que nous utilisons dans la suite se propose de retourner une des
matrices génératrices correspondant à ces registres. On note alors (n, k) les paramètres d’un codeur
convolutif ayant k entrées et n sorties.
Nous ne décrirons pas précisément le fonctionnement de cet algorithme mais en donnerons les
principales composantes. Cet algorithme sera ensuite pour nous un moyen de discriminer les mappings
lors de la reconnaissance de mapping en présence de données codées par un codeur convolutif.
Définition 3.3.1 (Code convolutif) Un (n, k) code convolutif C est un sous-espace vectoriel de
dimension k de F2(D)
n
.
Définition 3.3.2 (Matrice génératrice) Une matrice génératrice G(D) du code C de paramètres
(n, k) est une matrice de taille k × n dont les lignes forment une base de C .
Une matrice génératrice d’un code convolutif est donc une matrice à coefficients dans F2(D). On
parle de matrice génératrice polynomiale lorsque les coefficients de G(D) appartiennent à F2[D].
On peut écrire U(D) = P
j≥0 ujDj avec uj = (u0, . . . , uk)j = (u0,j , . . . , uk,j ) et Y (D) =
P
j≥0
yjDj
. On a alors Y (D) = U(D)G(D).
303.3 Codes convolutifs
(u0, u1, . . . , uM, uM+1, . . .) ×
G0 G1 . . . GM 0 . . .
G0 G1 . . . GM 0 . . .
.
.
.
G0 G1 . . . GM 0
G0 G1 . . . GM
.
.
.
.
.
.
.
.
.
|{z} |{z} |{z} |{z}
. . .
y0 y1 yM yM+1
Figure 3.2 – Codage d’une séquence par un code convolutif
3.3.1 Représentation binaire
Rappelons que du point de vue binaire la séquence codée (composée des mots de code concaténés),
notée y0y1 . . . yM . . . est telle que :
y0 = u0G0
y1 = u0G1 + u1G0
. . .
yM = u0GM + u1GM−1 + · · · + uM G0
yM+1 = u1GM + u2GM−1 + · · · + uM+1G0
où uj est le mot d’information à l’instant j et les Gi
les blocs de la matrice génératrice binaire
infinie de C présentée précédemment.
Remarquons que dès lors que j ≥ M + 1, yj ne dépend plus de u0. En effet la mémoire du codeur
est de M et yj = φ(uj , uj−1, . . . , uj−M).
Lorsque j = 0, . . . , M − 1 , yj ne dépend pas de tous les Gi (i = 0, . . . , M). Cela constitue une
phase d’initialisation.
Dès lors que j ≥ M, yj dépend de tous les Gi et la sortie yj est obtenue en effectuant le produit
de la séquence d’entrée par la matrice binaire infinie. Nous avons alors :
yj =
X
M
i=0
uj−iGi
.
Ce produit est représenté par la Figure 3.2
31Chapitre 3. Codes Convolutifs et Codes de Reed-Solomon
3.3.2 Équations de parité
Soit H =
H0 H1 . . . HM 0 . . .
H0 H1 . . . HM 0 . . .
.
.
.
.
.
.
H0 H1 . . . HM 0
H0 H1 . . . HM 0
.
.
.
.
.
.
une matrice duale de C . On a
y0 y1 . . . yM
H0 . . . HM
⊤
= 01×(n−k)
.
On dit que
y0 y1 . . . yM
vérifie n−k équations de parité. Il en est de même pour
y1 y2 . . . yM+1
,
y2 y3 . . . yM+2
et ainsi de suite. Les équations de parité s’appliquent à toutes les sous-séquences
de longueur n(M + 1) par blocs glissants (avec un décalage de n).
3.3.3 Représentation en série
La séquence d’information s’écrit comme étant la série
U(D) = X
j≥0
ujDj
.
Notons
Y (D) = X
j≥0
yjD
j
.
Nous avons alors la relation Y (D) = U(D)G(D) avec G(D) = G0 + G1D + · · · + GMDM. En effet
G(D) = G0 + G1D + · · · + GMDM donc
X
j≥0
ujD
j
G(D) = X
j≥0
ujG0D
j +
X
j≥0
ujG1D
j+1 + · · · +
X
j≥0
ujGM D
j+M
=
X
j≥0
ujG0D
j +
X
j≥1
uj−1G1D
j + · · · +
X
j≥M
uj−MGM D
j
= u0G0 + (u0G1 + u1G0)D + . . .
+ (u0GM + u1GM−1 + · · · + uMG0)D
M +
X
j>M
X
M
i=0
uj−iGi
D
j
=
X
j≥0
yjD
j = Y (D)
323.3 Codes convolutifs
u1,t
u2,t
s1,t
s2,t
s3,t
y1,t
y3,t
y2,t
Figure 3.3 – Codeur de rendement 2/3
3.3.4 Codeurs
Les sorties d’un codeur convolutif dépendent des entrées à différents instants. En termes d’implé-
mentation, il faut donc stocker différents états de l’entrée dans des registres. Notons m ce nombre de
registres. Les m registres représentent alors l’état interne du codeur, noté sj (sj est un vecteur binaire
de taille m). Notons que dans le cas particulier où k = 1 alors m = M. L’entier m est également
appelé la longueur de contrainte du codeur.
Il est possible de déterminer une matrice génératrice du code C en fonction du vecteur d’entrée
uj , du vecteur d’état sj et du vecteur de sortie yj pour un codeur donné. Le vecteur d’état sj dépend
de l’état sj−1 à l’instant précédent et de l’entrée uj à l’instant j. La sortie yj dépend de l’entrée uj à
l’instant j et de l’état interne sj . L’opération de codage se décrit alors comme suit :
sj+1 = sjAm×m + ujBk×m
yj = ujUk×n + sjVm×n
avec Am×m, Bk×m, Uk×n, Vm×n des matrices binaires et s0 = 01×m. En posant
E(D) = B.
D
−1
Idm − A
−1
nous obtenons
Y (D) = U(D) [U + E(D)V ]
d’où
G(D) = U + E(D)V.
33Chapitre 3. Codes Convolutifs et Codes de Reed-Solomon
Nous proposons à présent un exemple de codeur convolutif de rendement 2/3 donné par la Figure
3.3. Notons
uj = (u1, u2)j = (u1,j , u2,j )
yj = (y1, y2, y3)j = (y1,j , y2,j , y3,j )
sj = (s1, s2, s3)j = (s1,j , s2,j , s3,j ).
Le codage est décrit comme suit :
y1,j = u1,j + s3,j
y2,j = s1,j + s2,j
y3,j = u2,j + s2,j
Nous obtenons alors
Uk×n =
1 0 0
0 0 1 !
Vm×n =
0 1 0
0 1 1
1 0 0
Am×m =
0 0 1
0 0 0
0 0 0
Bk×m =
1 0 0
0 1 0 !
Et finalement
E(D) =
D 0 D2
0 D O !
d’où
G(D) =
1 + D2 D O
0 D 1 + D
!
Nous utilisons également dans ce manuscrit une notation décimale pour représenter les polynômes
générateurs dont la représentation en base 2 donne les coefficients des polynômes dans l’ordre décroissant.
Dans le cas de l’exemple nous obtenons
5 2 0
0 2 3!
.
3.4 Reconstruction de codes
La méthode décrite par A. Valembois dans [47] et [48] est actuellement utilisée pour la reconstruction
de codes en blocs et de codes convolutifs. Cette méthode permet la reconstruction d’une matrice
343.4 Reconstruction de codes
génératrice du dual. Elle s’appuie sur la méthode de Canteaut-Chabaud pour trouver des mots candidats
du dual et décide selon un test statistique de leur appartenance au dual.
Il existe de plus des méthodes spécifiques au type de codes recherchés. En effet, connaître une
matrice binaire du dual n’est pas suffisant pour le décodage. Il faut d’une part retrouver une matrice
génératrice du code puis en extraire la structure algébrique.
B. Rice a initié des travaux sur la reconnaissance des codes convolutifs (n, 1) dans le cas non bruité
dans [41]. E. Filiol a ensuite proposé une méthode de reconstruction des codes convolutifs lorsque
les données observées sont bruitées dans [28] et [27]. Puis une méthode algébrique a été donnée par
J. Barbier, G. Sicot et S. Houcke dans [5], elle est ensuite détaillée dans la thèse de J. Barbier [3].
De nombreuses autres études ont depuis été menées sur la reconstruction des codes convolutifs dont
[14, 21, 24, 33, 35–37, 53, 59–61]
3.4.1 Codes Convolutifs
Soit C un code tel que les polynômes générateurs soient premiers entre eux et de longueur de
contrainte m. Le codeur utilisé nécessite m bits pour remplir ses registres. Une séquence d’information
de taille ks + m s’envoie sur une séquence codée de taille ns. Soit Cs cette restriction :
Cs : F
ks+m
2 → F
ns
2
Le théorème suivant, issue de [14], donne le rang de l’application Cs en fonction de s et montre
qu’à partir de s > km
n−k
toutes les séquences de taille ns ne correspondent pas à une séquence codée.
Le critère du rang est à la base de la plupart des résultats sur la reconnaissance de codes convolutifs.
Théorème 3.4.1 Soit s ∈ N
∗
. Soit Cs : F
ks+m
2 → F
ns
2
l’application linéaire obtenue par restriction.
Si tous les polynômes générateurs sont premiers entre eux alors
rang(Cs) = (
ns si s ≤
km
n−k
k(s + m) si s ≥
km
n−k
Il en découle que la matrice dont les lignes sont des séquences codées de taille ns n’est pas de rang
plein lorsque s > km
n−k
. Ce défaut de rang peut alors s’identifier par un pivot de Gauss. Malgré tout,
lorsque la séquence observée est bruitée, cette méthode n’est plus envisageable.
Les alternatives sont alors de chercher des plages non bruitées, d’utiliser une méthode appelée
Gauss randomisé issue des travaux de G. Sicot et S. Houcke [42, 43] qui est applicable pour de faibles
taux d’erreur ou encore d’utiliser la méthode introduite par A. Valembois [47, 48]. M. Cluzeau dans
[15] a également repris et fait évoluer l’approche proposée par A. Valembois
L’algorithme de reconnaissance de codes convolutifs linéaires dont nous disposons (issu de [20, 21])
utilise la méthode de A. Valembois et se propose alors de retourner une matrice génératrice correspondant
à un codeur minimisant le nombre de registres nécessaires à l’implémentation, lorsque la séquence
binaire observée est une séquence codée et bruitée. Cet algorithme retourne alors une matrice génératrice
parmi les matrices génératrices polynomiales (à coefficients F2[D]) appelée une matrice canonique
35Chapitre 3. Codes Convolutifs et Codes de Reed-Solomon
(voir [20, 38]). Nous allons à présent décrire dans les grandes lignes le fonctionnement de cet algorithme.
A partir d’une séquence, codée et bruitée, tronquée, nous cherchons à retrouver une matrice gé-
nératrice du code utilisé ainsi que le taux d’erreur associé. Nous ne connaissons ni n (la longueur du
code) ni k (la dimension du code), et effectuons alors cette recherche également.
Nous avons vu précédemment que pour un mot observé, nous disposons d’un critère d’appartenance
au code C utilisé ; à savoir y ∈ C si et seulement si yH⊤ = 01×(n−k) avec H une matrice génératrice
du dual de C et si et seulement si pour tout h ∈ C
⊥ on a yh = 0
Cet algorithme procède en 3 étapes principales. Le premier objectif est de trouver une matrice gé-
nératrice du dual de C , noté H, autrement appelée matrice de parité. Il utilise pour cela l’algorithme
de A. Valembois et la méthode de Canteaut-Chabaud. Cette recherche s’effectue à partir d’une matrice
formée de mots issus de la séquence observée.
La séquence observée étant bruitée, cette première étape permet de sélectionner des mots du dual
non bruités. La seconde étape utilise alors ces mots du dual non bruités pour reconstruire le dual du
dual, à savoir une matrice génératrice du code lui-même.
La dernière étape a pour but d’extraire une matrice canonique de la matrice reconstruite à l’étape 2.
A ces étapes se rajoutent (entre la première et la deuxième étape) une étape de recherche de la
longueur n du code et en fin d’algorithme une étape de recherche du taux d’erreur. La recherche
du taux d’erreur consiste à décoder la séquence observée par l’algorithme de Viterbi avec la matrice
génératrice retournée par l’algorithme de reconnaissance de codes.
Première étape : Reconstruction d’une matrice H du dual de C
Nous disposons d’une séquence observée S à partir de laquelle nous formons une matrice R˜ de la
manière suivante : la séquence est découpée en blocs de taille n(m + 1) (quitte à itérer sur la taille des
blocs lorsque ces paramètres sont inconnus), chacun de ces blocs constitue une ligne de R˜.
Si R˜ n’est pas une matrice bruitée : pour h ∈ C
⊥, alors Rh˜ ⊤ vaut 0. C’est-à-dire h appartient au
noyau de R˜. Si R˜ est bruitée : pour h ∈ C
⊥, alors Rh˜ ⊤ est de poids faible.
L’algorithme de recherche de mots de poids faibles de Canteaut-Chabaud permet alors de retrouver
des h candidats et l’algorithme de A. Valembois permet de décider s’ils appartiennent ou non à C
⊥
selon le poids de Hamming de Rh˜ ⊤ et de h.
En sortie de cette première étape, nous disposons alors de mots du dual. Le produit d’une ligne
de R˜ par h détermine une équation de parité.
M. Côte et N. Sendrier [20] utilisent alors ces mots du dual h pour former une seconde matrice, que
l’on notera R et reconstituer une matrice génératrice du dual. Cette reconstruction se base sur une
élimination de Gauss. En effet, une application de l’élimination de Gauss sur la matrice R la transforme
en une matrice de forme particulière dans laquelle il est possible d’identifier un bloc minimal :
363.4 Reconstruction de codes
c’est-à-dire un ensemble de lignes et de colonnes adjacentes engendrant le sous-espace vectoriel décrit
par R. Ce bloc, noté H, engendre C
⊥.
Deuxième étape : Reconstruction d’une matrice génératrice de C à partir du dual
Cette étape consiste à retrouver le dual du dual de C, c’est-à-dire à retrouver le code lui-même. La
matrice H précédemment reconstituée est utilisée pour former une nouvelle matrice H′
sur laquelle
est pratiquée également une élimination de Gauss afin de trouver le bloc minimal, noté G, engendrant
le sous-espace vectoriel décrit par H′
.
Troisième étape : Reconstruction d’une matrice génératrice polynomiale canonique de C
Après utilisation d’algorithmes de basicité et réduction [20] sur la matrice G reconstruite à l’étape
2, une matrice G(D) polynomiale canonique de C est fournie.
Les étapes présentées ici reposent sur le fait que la longueur n soit connue. N. Sendrier propose
d’appliquer la méthode de Canteaut-Chabaud et l’algorithme de A. Valembois à une matrice R˜ pour
quelques longueurs de blocs bien choisies de telle sorte que cette longueur puisse être un multiple de
la longueur n du code. D’autre part, le calcul de wH(Rh˜ ⊤) fournit une indication sur le taux d’erreur
potentiel du canal. Il est alors possible de distinguer la plus petite longueur de code fournissant pour
l’ensemble des mots du dual un faible taux d’erreur. Cette longueur est la longueur n du code C .
Cet algorithme de reconnaissance de codes convolutifs permet d’effectuer une reconnaissance de
codes lorsque la séquence observée est bruitée. Des tests de résistance au bruit ont été effectués
dans [20]. Il permet de plus d’effectuer cette recherche à paramètres inconnus. Cette méthode fournit
également le taux d’erreur du canal en appliquant un décodage de la séquence observée.
3.4.2 Codes Reed-Solomon
La difficulté de la reconstruction des codes de Reed-Solomon réside dans la recherche de la structure
algébrique. En effet il existe des méthodes de reconstruction de codes en blocs permettant de
reconstruire une base du code dual et ainsi de reconstruire une base du code. Il est possible notamment
d’effectuer un pivot de Gauss sur une matrice contenant les données observées, de faire appel à
le méthode de Gauss randomisé ou enfin d’utiliser la méthode A. Valembois ou de M. Cluzeau.
Cependant ce n’est pas suffisant pour caractériser un code de Reed-Solomon. Les méthodes énoncées
plus haut offrent la possibilité de reconstruire une base du code vu sous forme binaire mais ne
permettent pas de donner la structure algébrique du code. Pour cela il existe des techniques spécifiques
au type de code utilisé.
L’algorithme de V.M. Sidelnikov et S.O. Shestakov [44] répond à ce problème pour les codes de
Reed-Solomon. Il prend en entrée une matrice de taille génératrice k × n, contenant des éléments de
Fq, mise sous forme systématique. Nous avons vu que la matrice systématique d’un tel code dispose
d’une forme particulière, ceci permet d’écrire un ensemble d’équations qui après résolution fournissent
les paramètres du code. Cet algorithme fonctionne de plus lorsque les coordonnées du code ont été permutées.
Nous verrons que dans notre cas ce point fort sera à notre désavantage. Aussi nous utiliserons
finalement un algorithme moins performant qui sera évoqué ultérieurement.
37Chapitre 3. Codes Convolutifs et Codes de Reed-Solomon
38Chapitre 4
Signature de codes convolutifs et recherche du
dual par tests statistiques
Lors de l’étude d’un système de communication et de la partie codage canal qui le compose, nous
souhaitons avant toute chose identifier la famille de codes utilisée, voire les paramètres du code. En
effet, ces informations permettent respectivement d’utiliser un algorithme de reconnaissance de code
approprié et d’accélérer la recherche. Nous nous intéressons alors dans ce chapitre à une méthode permettant
de distinguer si une séquence observée est aléatoire ou codée par un codeur convolutif. Cette
technique possède notamment l’avantage de fonctionner lorsque le mapping utilisé est inconnu. Elle
permet alors de distinguer la longueur d’un code convolutif sans connaissance du mapping. De plus
nous étendons cette méthode à une méthode de reconstruction du dual d’un code convolutif lorsque
le mapping est connu.
Nous appelons signature un biais observé via un test statistique, appliqué à une séquence codée
et bruitée, permettant d’identifier l’utilisation d’un code correcteur d’erreurs. Nous supposons dans la
suite que nous disposons d’une séquence codée éventuellement bruitée. Christophe Chabot [14] s’est
intéressé à divers tests statistiques, dédiés aux générateurs pseudo-aléatoires, comme la série de test
du NIST (National Institute of Standards and Technology) [1] . Ces tests ont été expérimentés dans le
cadre de l’identification de séquences codées et bruitées par des codes en blocs, des codes convolutifs
et des turbo-codes. Le résultat de ces tests a montré que les codes en blocs ne sont en général pas
identifiables de cette façon sauf pour de petites longueurs et dimensions non réalistes. Cependant, le
test de compression de Lempel-Ziv (méthode de compression par dictionnaire) s’est révélé adapté pour
l’identification de codes convolutifs et turbo-codes et ce dans un contexte bruité également. Nous nous
intéressons cependant dans la suite de ce chapitre aux codes convolutifs uniquement.
Christophe Chabot s’est alors intéressé à d’autres méthodes de compression comme la compression
utilisée dans bzip2, faisant appel à la transformée de Burrows-Wheeler [11]. Les meilleurs taux
de compression étant obtenus avec bzip2, il a défini un test statistique basé sur le calcul du nombre
de runs (séquences maximales de bits identiques) dans une séquence codée après application de la
transformée de Burrows-Wheeler. Ce test permet l’identification des paramètres d’un code convolutif.
Il existe également un test dit de profondeur permettant d’obtenir la longueur de contrainte d’un
code convolutif de longueur 2.
39Chapitre 4. Signature de codes convolutifs et recherche du dual par tests statistiques
Il est clair que les codes convolutifs offrent l’avantage d’être de petites longueurs n et dimensions
k (pour que le décodage en treillis soit possible), et de degré d compris typiquement entre 2 et 10. Les
objets que nous manipulons sont donc de tailles bien inférieures à celles nécessaires pour des codes en
blocs. La méthode de détection que nous définissons dans ce chapitre s’applique en théorie pour des
codes en blocs mais elle n’est cependant applicable en pratique que pour de petits codes et est donc
particulièrement adaptée pour la détection des codes convolutifs. C’est pourquoi nous nous intéressons
à ce type de code dans ce chapitre.
Dès lors que nous observons une équation de parité sur une séquence, l’espace ambiant n’atteint
pas l’ensemble de toutes les séquences possibles. Pour un code de longueur n et de degré maximum
d, les séquences de taille t = n(d + 1) sont au nombre de 2t−1 au plus contre 2t pour une séquence
aléatoire. En effet il existe au moins un bit de redondance donc au moins un bit est entièrement déterminé
par les autres. Les tests qui sont décrits dans ce chapitre utilise ce phénomène. Nous l’utilisons
également en définissant un test basé sur le comptage de blocs de taille t dans une séquence codée et
bruitée. En itérant sur la taille des blocs, nous pouvons observer une diminution du nombre de blocs
possibles sur certaines longueurs. Nous effectuons de plus cette mesure par comptage de collisions.
Nous observons alors une probabilité de collisions différente pour des données codées et des données
aléatoires. L’utilisation de blocs glissants permet de plus de caractériser la présence d’un code de type
convolutif. Cette méthode autorise également la reconnaissance des paramètres du code utilisé dans un
contexte bruité. Nous savons par ailleurs grâce au paradoxe des anniversaires que seulement 2t/2 blocs
environ sont nécessaires à l’observation de collisions. Nous définissons ensuite une méthode de reconstruction
du dual par comptage de collisions en poinçonnant la séquence observée de manière adéquate.
Nous verrons enfin que la signature d’un code convolutif peut se détecter sans connaissance a
priori du mapping utilisé. Ce qui offre un avantage considérable pour la reconnaissance de système de
communication. En effet nous sommes en mesure grâce à ce test de déterminer la longueur du code
convolutif utilisé sans avoir reconnu le mapping utilisé. Ceci permettra alors d’effectuer la recherche
du mapping avec une information non négligeable sur le code à rechercher. La reconnaissance du
mapping est l’objet du Chapitre 6. Cependant ce travail sur la détection de codes convolutifs a été
effectué ultérieurement au travail sur la reconnaissance du mapping et n’a donc pas pu être utilisé alors.
L’estimation du cardinal d’un observable, tout en minimisant la quantité de mémoire utilisée, est
un défi primordial pour l’analyse de trafic internet par exemple. Marianne Durand s’intéresse dans sa
thèse [26] à divers algorithmes d’estimation de cardinal. Nous n’avons pas exploré ces possibilités pour
estimer la cardinalité d’une séquence codée vue par blocs mais il serait intéressant d’étudier l’efficacité
de ces algorithmes dans le contexte de la reconstruction de codes.
404.1 État de l’art
4.1 État de l’art
4.1.1 Test de profondeur
Le test de profondeur décrit dans [31] s’applique au cas d’un code convolutif de longueur 2 et donc
de dimension 1. Dans ce cas la longueur de contrainte du code coïncide avec d + 1 où d est le degré
maximum du code.
Soit C tel que P1 et P2 soient des polynômes générateurs. Le codeur utilisé nécessite M bits pour
remplir ses registres. Une séquence d’information de taille s + m s’envoie sur une séquence codée de
taille 2s. Soit Cs cette restriction :
Cs : F
s+m
2 → F
2s
2
Le théorème suivant est à la base de la plupart des résultats sur la reconnaissance de codes convolutifs.
Il donne en effet le rang de l’application Cs en fonction de s et montre qu’à partir de s > m
toutes les séquences de taille 2s ne correspondent pas à une séquence codée.
Théorème 4.1.1 ?? Soit s ∈ N
∗
. Soit Cs : F
s+m
2 → F
2s
2
l’application linéaire obtenue par restriction.
Si pgcd(P1,P2)=1 alors
Cs est surjective ⇔ s ≤ m
Cs est injective ⇔ s ≥ m
et
rang(Cs) = (
2s si s ≤ m
s + m si s ≥ m
Dès lors que s > m, Cs est injective et non surjective, on cherche donc le plus petit s tel que Cs+1
n’est pas surjective. Il existe des séquences de longueur 2s qui ne sont pas des séquences codées dans
ce cas. La distribution de ces séquences n’est pas uniforme lorsque s > m
Le test de profondeur consiste alors à choisir un nombre significatif de séquences de longueur 2s
(s peut être initialisé à 2). Pour chaque bloc de taille 2, on regarde la probabilité d’apparition des 2
bits suivants. Si la répartition est uniforme, on incrémente s de 1 sinon s correspond à la longueur
de contrainte du code. Ce test est applicable pour un canal binaire symétrique de probabilité d’erreur
allant jusqu’à 0,05.
4.1.2 Test de Burrows-Wheeler et Runs
La transformée de Burrows-Wheeler effectue un arrangement sur les données tel que les motifs
récurrents d’une séquence observée entraînent des suites de bits identiques en sortie de la transformée.
Cette modification de la séquence facilite ensuite la compression par dictionnaire. Elle est ainsi
utilisée dans bzip2. Les compressions obtenues en appliquant la transformée de Burrows-Wheeler à
une séquence codée indiquent que le taux d’erreur et les paramètres de longueur de contrainte sont
identifiables. Christophe Chabot a donc élaboré un test basé sur la transformée de Burrows-Wheeler
et une Pvalue mesurant la variation entre le nombre de runs observés et le nombre de runs théoriques
pour une séquence aléatoire.
41Chapitre 4. Signature de codes convolutifs et recherche du dual par tests statistiques
Il a de plus remarqué que pour des séquences de longueur donnée, générées par des codes de
paramètres n, k et m, les Pvalue observées sont identiques quel que soit le code de même paramètres
utilisé (codes non dégénérés) et sont fonction du taux d’erreur du canal. Il obtient ainsi des courbes
types pour différents paramètres. Ces courbes sont de plus toutes distinctes. Lorsque que la Pvalue
observée correspond à plusieurs courbes, on peut augmenter artificiellement le bruit jusqu’à identifier
une seule courbe. Ceci donne alors n, k et m ainsi que le taux d’erreur initial.
Nous pouvons également tester le calcul de l’entropie sur une séquence codée lue par blocs de taille
t. Lorsque t atteint la longueur nécessaire pour disposer d’une équation de parité, l’entropie calculée
vaut bien t − 1.
Les tests que l’on vient de voir se basent sur le fait que le cardinal des motifs observés lorsque
l’on regarde une séquence codée lue par blocs de taille t ne vaut pas 2t
lorsque l’on dépasse une
certaine taille de blocs. Donc, pour mesurer cette diminution du nombre de motifs possibles, à partir
d’un certain rang, il faut effectuer un comptage sur ces motifs. Mais l’inconvénient est la taille des
données nécessaires pour obtenir ce résultat. C’est pourquoi nous nous sommes intéressés ensuite à
élaborer une mesure de ce cardinal par comptage de collisions. Ce test repose alors sur le paradoxe
des anniversaires.
4.2 Test de collisions
L’objectif de ce chapitre est de décrire dans un premier temps une méthode de reconnaissance
des paramètres d’un code convolutif. Elle s’appuie sur le comptage du nombre de collisions dans une
séquence binaire lue par bloc. La probabilité de collisions entre deux symboles binaires de taille t,
pour des données aléatoires, est de 1
2
t
. Dès lors que les données sont codées, la probabilité de collisions
augmente. Le comptage des collisions permet donc de distinguer des données aléatoires de données
codées lorsque t est suffisamment grand pour correspondre à la taille d’une équation de parité.
Nous pouvons lire la séquence par blocs disjoints ou par blocs glissants. Mais les équations de parité
d’un code convolutif étant valides par blocs glissants (avec un décalage correspondant à la longueur
du code) nous tirons parti de ce phénomène en effectuant le comptage par blocs glissants.
Les paramètres du code sont alors identifiés en itérant sur la taille des blocs de lecture. Ce procédé
a l’avantage d’avoir un faible coût et d’être résistant au bruit.
Le test que nous effectuons repose sur le paradoxe des anniversaires. Nous observons une séquence
binaire par blocs de taille t. Lorsqu’un symbole, de taille t, apparaît i fois dans la séquence on dit qu’il
y a
i.(i−1)
2
collisions. Nous comptons alors le nombre total de collisions que nous notons XN pour une
séquence composée de N blocs. Dans un contexte non bruité cela correspond à
XN =
X
N
i=1
X
j>i
x(si
, sj )
où
x(si
, sj ) = (
1 si si = sj
0 sinon.
424.2 Test de collisions
Nous pouvons alors comparer la probabilité de collisions observée et l’espérance de ce nombre pour
des données aléatoires ou codées. En effet pour des données aléatoires, vues par bloc de taille t on a
P(s = s
′
) = 1
2
t
et par linéarité de l’espérance on a :
E [XN ] = X
N
i=1
X
j>i
E[x(si
, sj )]
=
1
2
t
|{i, j ∈ J1, NK, j > i}|
=
N.(N − 1)
2
t+1
Le test statistique se déroule alors comme suit : Soit une séquence binaire observée, composée de
N blocs de taille t. Nous comptons le nombre, noté Xobs, de collisions observées sur cette séquence.
Après normalisation, la probabilité empirique, xobs, de collision, vaut
xobs =
2.Xobs
N.(N − 1)
Pour observer de manière sûre une collision, pour des données aléatoires, il faut disposer d’au moins
2
t + 1 symboles soit t.(2t + 1) bits. Mais d’après le paradoxe des anniversaires on a une collision avec
une probabilité supérieure ou égale à α pour cαt
√
2
t bits où cα =
p
−2 ln(1 − α). Lorsque nous avons
i équations de parité, il faut disposer de cαt
√
2
t−i bits pour obtenir au moins une collision avec une
probabilité supérieure ou égale à α. Le tableau suivant donne alors les quantités de données nécessaires
pour différentes valeurs de α lorsque il existe une équation de parité avec t = 20.
α Nombre de bits nécessaires
1/2 17 051
2/3 21 467
3/4 24 114
Nous nous plaçons dans le cas du canal binaire symétrique de probabilité d’erreur p et nous
calculons dans la suite de ce chapitre la probabilité de collisions pour le code de parité ainsi que
lorsque les données sont codées par un codeur convolutif et possèdent une équation de parité. Le
cas du code de parité n’est pas utile en soit puisque nous nous intéressons uniquement aux codes
convolutifs mais il facilite la compréhension de la probabilité de collisions en présence d’une équation
de parité.
Dans le cas non bruité, le modèle de probabilité de collisions s’étend lorsqu’il y a plusieurs équations
de parité. Il est en revanche plus difficile d’établir des formules génériques pour les probabilités de
collisions lorsqu’il existe plusieurs équations de parité. Nous verrons alors expérimentalement pour le
canal binaire symétrique que la distinction entre des données codées possédant plusieurs équations de
parité et des données aléatoires est claire.
De plus, nous utilisons comme mesure le rapport entre la probabilité de collisions pour des données
aléatoires et la probabilité de collisions empirique.
43Chapitre 4. Signature de codes convolutifs et recherche du dual par tests statistiques
4.3 Espérance du nombre de collisions
Dans un contexte non bruité, deux symboles reçus sont égaux si et seulement si les symboles émis
sont égaux. Cependant, dans un canal bruité, on peut obtenir une collision entre deux symboles reçus
pour des symboles émis différents et inversement, deux symboles émis égaux peuvent correspondre à
des symboles reçus différents.
Nous pouvons donc observer des collisions sur la séquence reçue là où il n’y en avait pas sur la
séquence non bruitée et inversement. Nous calculons alors la probabilité de collisions entre deux mots
de code bruités pour le code de parité de longueur t. Ensuite, nous calculons cette même probabilité
de collisions entre deux symboles ayant la taille d’une équation de parité.
4.3.1 Code de parité
Nous supposons ici que la séquence émise est constituée de mots de code du code de parité de
longueur t. Nous notons s et s
′ deux mots de code du code de parité choisis uniformément dans
l’ensemble des mots de code. Ils sont émis dans un canal binaire symétrique de probabilités d’erreur
p, et r et r
′
sont les symboles reçus correspondants. Nous calculons alors la probabilité que r soit égal
à r
′
.
Proposition 4.3.1 Soient r et r
′ deux mots de code du code de parité, de taille t, reçus après transmission
à travers un canal binaire symétrique de probabilité d’erreur p alors
P
r = r
′
=
1
2
t−1
X
t
i=0
i pair
p
2 + (1 − p)
2
t−i
(2p(1 − p))i
t
i
!
Démonstration : Tout d’abord dans un bloc de taille t, le dernier bit dépend des t − 1 précédents
par définition du code de parité. Donc il existe seulement 2t−1 blocs distincts.
Lorsque le canal n’est pas bruité, c’est à dire p = 0, P(r = r
′
) = P(s = s
′
) = 1
2
t−1 .
Notons
s = s0s1 . . . st−i−1st−i
. . . st−1
et
s
′ = s
′
0
s
′
1
. . . s′
t−i−1
s
′
t−i
. . . s′
t−1
Sans perdre de généralité on peut supposer que s et s
′
sont différents sur les i dernières positions et
identiques sur les t−i premières. Appelons r et r
′
les versions bruitées de s et s
′
respectivement. Alors
P(r = r
′
) = P(r0 = r
′
0
, . . . , rt−i−1 = r
′
t−i−1
, rt−i = r
′
t−i
, . . . , rt−1 = r
′
t−1
)
Ces évènements sont indépendants dans un canal binaire symétrique donc
P(r = r
′
) =
t
Y−1
i=0
P(ri = r
′
i
)
444.3 Espérance du nombre de collisions
Alors
P(r0 = r
′
0
) = P(r0 = s0, r′
0 = s
′
0
) + P(r0 = s0, r′
0 = s0
′
)
= (1 − p)
2 + p
2
et
P(rt−1 = r
′
t−1
) = P(rt−1 = st−1, r′
t−1 = st−1
′
) + P(rt−1 = st−1, r′
t−1 = s
′
t−1
)
= 2p(1 − p)
De plus
P(r0 = r
′
0
) = . . . = P(rt−i−1 = r
′
t−i−1
)
et
P(rt−i = r
′
t−i
) = . . . = P(rt−1 = r
′
t−1
).
D’où pour s et s
′ fixé
P(r = r
′
) =
(1 − p)
2 + p
2
t−i
(2p(1 − p))i
.
Or la différence de s et s
′
est de poids pair puisque la somme de deux mots de code est un mot de
code. Donc il y a Pt
i=0
i pair
t
i
possibilités de positionner cette différence. D’où
P(r = r
′
) = 1
2
t−1
X
t
i=0
i pair
(1 − p)
2 + p
2
t−i
(2p(1 − p))i
t
i
!
Remarque 4.3.2 Remarquons que lorsque p = 0
X
t
i=0
i pair
(1 − p)
2 + p
2
t−i
(2p(1 − p))i
t
i
!
= 1
donc on a bien P(r = r
′
) = 1
2
t−1 dans ce cas. Ce qui correspond bien à l’intuition que l’on a.
Donc, lorsque p = 0, la probabilité de collision est deux fois plus élevée pour le code de parité que
pour des données aléatoires. Nous pouvons alors distinguer aisément des données codées par le code
de parité, de données aléatoires, sur des blocs de taille t, quitte à itérer sur t. Dans ce cas, les blocs
sont lus de manière disjointe naturellement.
Notons PC la probabilité de collision pour le code de parité et Paléa la probabilité de collision, pour
des données aléatoires. Le rapport PC
Paléa
est représenté dans la Figure 4.1 pour différents niveaux de
bruit. Nous remarquons que lorsque le canal est bruité jusqu’à p = 10−3
, nous distinguons clairement
la présence d’un code car le rapport des probabilités de collisions est proche de 2. Cependant, lorsque
le bruit augmente, nous voyons qu’il sera toujours aisé de distinguer de très petits codes tandis que
pour les codes de plus grandes longueurs (au delà de n = 10), cette distinction risque d’être moins
claire voire impossible.
Nous nous intéressons dans la suite de ce chapitre à la reconnaissance des paramètres d’un code
convolutif. Soit C un code convolutif possédant une équation de parité de taille t, nous montrons à
présent qu’il est possible de distinguer la présence d’une telle équation en observant la probabilité de
collision sur des blocs de taille t. Nous établissons pour cela la probabilité de collisions attendue.
45
Caractérisation et d´etection de malware Android basées
sur les flux d’information
Radoniaina Andriatsimandefitra
To cite this version:
Radoniaina Andriatsimandefitra. Caract´erisation et d´etection de malware Android bas´ees sur
les flux d’information. Cryptography and Security. Sup´elec, 2014. French.
HAL Id: tel-01095994
https://hal.inria.fr/tel-01095994
Submitted on 16 Dec 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.2014
THÈSE DE DOCTORAT
DOMAINE : STIC
Spécialité : Informatique
Ecole doctorale MATISSE
présentée par
Radoniaina Andriatsimandefitra
Ratsisahanana
préparée à l’unité de recherche CIDRE
Confidentialité, Intégrité, Disponibilité, Répartition
Supélec/INRIA
Caractérisation et
détection de malware
Android basées sur les
flux d’information
Thèse soutenue à Supélec
le (date)
devant le jury composé de :
Pascal Caron
Maître de Conférence à l’université de Rouen / examinateur
Anthony Desnos
Ingénieur chez Google / examinateur invité
Jean-Yves Marion
Professeur à l’université de Lorraine / rapporteur
Ludovic Mé
Professeur à Supélec / directeur de thèse
David Pichardie
Professeur à l’ENS Rennes / examinateur
Radu State
Chercheur à l’université du Luxembourg/rapporteur
Valérie Viet Triem Tong
Professeur associé à Supélec / encadrant de thèseiiTable des mati`eres
Table des figures vii
Liste des tableaux xi
1 Introduction 1
2 Etat de l’art 5 ´
2.1 Syst`eme Android . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Architecture du syst`eme Android . . . . . . . . . . . . . . 6
2.1.2 Applications Android . . . . . . . . . . . . . . . . . . . . 9
2.2 S´ecurit´e du syst`eme Android . . . . . . . . . . . . . . . . . . . . 16
2.2.1 M´ecanismes issus de Linux . . . . . . . . . . . . . . . . . 16
2.2.2 M´ecanismes propres `a Android . . . . . . . . . . . . . . . 17
2.3 Limites des m´ecanismes de s´ecurit´e Android . . . . . . . . . . . . 21
2.3.1 Abus de permission . . . . . . . . . . . . . . . . . . . . . 21
2.3.2 Permissions : attaques par d´el´egation et attaques par collusion
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.3 Communication entre composants via les intents . . . . 21
2.3.4 Failles logicielles : ´el´evation de privil`ege . . . . . . . . . . 23
2.4 Malware Android . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.1 D´efinitions . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.2 Malwares Android : 2010 `a 2011 [113] . . . . . . . . . . . 25
2.4.3 Malwares Android en 2013 . . . . . . . . . . . . . . . . . 28
2.5 Renforcement de la s´ecurit´e sous Android . . . . . . . . . . . . . 30
2.5.1 Protection des ressources sensibles . . . . . . . . . . . . . 30
2.5.2 Communication entre processus et entre composants . . . 35
2.5.3 Abus des permissions . . . . . . . . . . . . . . . . . . . . 39
2.6 Suivi de flux d’information . . . . . . . . . . . . . . . . . . . . . . 41
2.6.1 Suivi de flux au sein d’une application . . . . . . . . . . . 42
2.6.2 Suivi de flux au niveau syst`eme . . . . . . . . . . . . . . . 43
2.6.3 Suivi de flux au niveau hardware . . . . . . . . . . . . . . 44
2.7 Classification et d´etection de malware . . . . . . . . . . . . . . . 46
2.8 Analyse d’applications Android . . . . . . . . . . . . . . . . . . . 48
2.8.1 D´esassembleur, d´ecompilateur . . . . . . . . . . . . . . . . 48
iiiiv TABLE DES MATIERES `
2.8.2 Comparaison d’applications . . . . . . . . . . . . . . . . . 49
3 Blare : un moniteur de flux d’information 55
3.1 Mod`ele th´eorique . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1.1 Conteneurs d’information . . . . . . . . . . . . . . . . . . 56
3.1.2 Information et contenu courant d’un objet : itag . . . . . 56
3.1.3 Politique de flux d’information : pxqptag . . . . . . . . . . 57
3.1.4 Suivi et contrˆole de flux d’information . . . . . . . . . . . 59
3.2 D´efinition d’une politique de flux d’information . . . . . . . . . . 62
3.3 KBlare : suivi et contrˆole de flux via LSM . . . . . . . . . . . . . 65
3.4 AndroBlare : Blare sous Android . . . . . . . . . . . . . . . . . . 68
3.4.1 Communication entre processus : Binder . . . . . . . . . . 69
3.4.2 Suivi de flux d’information dans le Binder . . . . . . . . . 72
3.4.3 Ex´ecution des applications Android . . . . . . . . . . . . 74
3.4.4 Description des flux observ´es . . . . . . . . . . . . . . . . 84
3.4.5 Outils en espace utilisateur . . . . . . . . . . . . . . . . . 84
3.5 AndroBlare : analyse d’applications Android . . . . . . . . . . . 85
4 Graphes de flux syst`eme 89
4.1 Graphe de flux syst`eme . . . . . . . . . . . . . . . . . . . . . . . 89
4.2 Quelques op´erations utiles sur les SFG . . . . . . . . . . . . . . . 92
4.2.1 Intersection de deux SFG : g1 [ g2 . . . . . . . . . . . . . 92
4.2.2 Inclusion d’un SFG dans un autre : g1 Ď g2 . . . . . . . . 93
4.2.3 Nœuds et arcs d’un SFG . . . . . . . . . . . . . . . . . . . 93
4.3 Construction d’un graphe de flux syst`eme . . . . . . . . . . . . . 93
4.4 SFG : profil comportemental d’une application . . . . . . . . . . 95
4.4.1 Analyse de DroidKungFu1 avec AndroBlare . . . . . . . . 95
4.4.2 Analyse du SFG de DroidKungFu1 . . . . . . . . . . . . . 96
4.5 Politique de flux d’information `a partir d’un SFG . . . . . . . . . 100
5 Caract´erisation et d´etection de malware 107
5.1 Caract´erisation de malware Android . . . . . . . . . . . . . . . . 108
5.2 Evaluation de la m´ethode de classification . . . . . . . . . . . . . ´ 111
5.2.1 Jeu de donn´ee . . . . . . . . . . . . . . . . . . . . . . . . 111
5.2.2 Exp´erimentation et r´esultat . . . . . . . . . . . . . . . . . 112
5.3 De la n´ecessit´e du filtrage . . . . . . . . . . . . . . . . . . . . . . 118
5.4 D´etection d’ex´ecution de malware Android . . . . . . . . . . . . . 121
5.5 Evaluation de la capacit´e de d´etection . . . . . . . . . . . . . . . ´ 122
6 Conclusion 129
A Ev`enements d´eclencheurs de code malveillant 133 ´
A.1 Outils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
A.2 BadNews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
A.3 DroidKungFu1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
A.4 DroidKungFu2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144TABLE DES MATIERES ` v
A.5 jSMSHider . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Publications 147
Bibliographie 149vi TABLE DES MATIERES `Table des figures
2.1 Architecture de la plateforme Android . . . . . . . . . . . . . . . 8
2.2 Fichier MANIFEST.MF de l’application HelloActivity . . . . . . . . 18
2.3 Fichier .SF de l’application HelloActivity . . . . . . . . . . . . . 19
3.1 Extrait de la sortie de la commande ps sous Android 4.4 . . . . . 58
3.2 Exemple de contrˆole de flux d’information effectu´e par Blare . . 61
3.3 Design de Linux Security Module . . . . . . . . . . . . . . . . . . 66
3.4 Appel d’une m´ethode distante grˆace au Binder . . . . . . . . . . 70
3.5 S´equence de d´emarrage d’Android . . . . . . . . . . . . . . . . . 75
3.6 M´ecanisme de notification de l’ex´ecution d’une application Android 77
3.7 Exemple de message lev´e par Blare sous Linux . . . . . . . . . . 84
3.8 Format des flux observ´es par Blare sous Android . . . . . . . . . 85
3.9 AndroBlare : environnement d’analyse d’application Android . . 87
4.1 Exemple de flux d’information causant l’apparition d’arcs parall`eles
dans les SFG . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.2 Exemple de SFG avec des arcs parall`eles . . . . . . . . . . . . . . 90
4.3 Graphe de d´ependance et SFG repr´esentant les flux d’information
ayant pr´ec´ed´e la corruption d’un fichier f ilex . . . . . . . . . . . 92
4.4 Permissions demand´ees par un ´echantillons de DroidKungFu . . . 96
4.5 Liste des applications dans le menu du t´el´ephone apr`es l’installation
d’une nouvelle application par un ´echantillon de DroidKungFu 97
4.6 Extrait du SFG d’un ´echantillon de DroidKungFu . . . . . . . . 98
4.7 Extrait des alertes lev´ees par l’´echantillon de DroidKungFu1 lors
de l’´evaluation de la politique de Finger Scaner . . . . . . . . . . 104
5.1 S0 : sous-graphe en commun des ´echantillons de BadNews . . . . 115
5.2 S1 : sous-graphe en commun des ´echantillons de DroidKungFu 1 116
5.3 S2 : sous-graphe en commun des ´echantillons de DroidKungFu 2 117
5.4 S3 : Sous-graphe en commun des ´echantillons de jSMSHider . . . 117
5.5 Profil calcul´e lorsqu’aucun filtrage n’est r´ealis´e . . . . . . . . . . 119
5.6 Premier profil calcul´e en utilisant aucune liste blanche . . . . . . 120
5.7 Second profil calcul´e en utilisant aucune liste blanche . . . . . . . 120
5.8 Troisi`eme profil calcul´e en utilisant aucune liste blanche . . . . . 120
viiviii TABLE DES FIGURES
5.9 Quatri`eme profil calcul´e en utilisant aucune liste blanche . . . . . 120
A.1 Extrait du graphe d’appel de fonction d’un ´echantillon de BadNews137
A.2 Extrait du graphe d’appel de fonction d’un ´echantillon de DroidKungFu
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141Liste des listings
2.1 Partage d’une page web grˆace `a un intent implicite. Extrait du
code du navigateur par d´efaut d’Android . . . . . . . . . . . . . 11
2.2 Fichier AndroidManifest.xml d’Angry Birds Space . . . . . . . 15
2.3 Exempe de code Java avec et sans r´eflexion . . . . . . . . . . . . 29
2.4 Extrait du code de l’application JetBoy fourni avec le SDK Android 49
2.5 Extrait du code smali de l’application JetBoy . . . . . . . . . . . 52
2.6 Extrait du code r´esultant de la d´ecompilation de l’application
JetBoy avec le d´ecompilateur par d´efaut d’Androguard . . . . . . 53
3.1 Exemple de politique App Armor . . . . . . . . . . . . . . . . . . 62
3.2 Liste des op´erations sur les fichiers support´ees par Binder . . . . 71
3.3 Signature de la fonction binder ioctl . . . . . . . . . . . . . . . 71
3.4 Fonction de chargement en m´emoire du code d’une application . 78
3.5 D´eclaration d’une famille Generic Netlink dans le noyau pour le
m´ecanisme de coop´eration . . . . . . . . . . . . . . . . . . . . . . 79
3.6 D´efinition d’une commande Generic Netlink pour notifier l’ex´ecution
d’une application . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.7 Enregistrement de la famille servant `a la notification d’ex´ecution
des applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.8 Notification de l’ex´ecution d’une application par la machine virtuelle
Dalvik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.1 Entr´ee dans le fichier packages.xml ajout´ee suite `a l’installation
d’une nouvelle application par un ´echantillon de DroidKungFu . 99
4.2 Extrait de la politique BSPL de l’application Finger Scanner . . 105
5.1 Contenu du fichier sstimestamp.xml d’un ´echantillon de DroidKungFu1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
A.1 Fichier AndroidManifest.xml d’un ´echantillon de BadNews . . . 135
A.2 Code appel´e `a la r´eception d’un Intent par les composants de
type Receiver d’un ´echantillon de BadNews . . . . . . . . . . . . 136
A.3 Extrait du code de la m´ethode sendRequest d’un ´echantillon de
BadNews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
A.4 Code appel´e `a l’ex´ecution du composant AdvService d’un ´echantillon
de BadNews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
A.5 Extrait du contenu du fichier AndroidManifest.xml d’un ´echantillon
de DroidKungFu1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
ixx LISTE DES LISTINGS
A.6 M´ethode onCreate du composant SearchService d’un ´echantillon
de DroidKungFu1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
A.7 Contenu du fichier sstimestamp.xml d’un ´echantillon de DroidKungFu1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
A.8 M´ethode onCreate d’un composant service d’un ´echantillon de
DroidKungFu2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144Liste des tableaux
2.1 Types de permission Android . . . . . . . . . . . . . . . . . . . . 17
2.2 Exploits root connus et leur usage par les malware Android de
2010 `a 2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.1 Intervalle de valeur du type int selon sa taille en bits . . . . . . 56
3.2 Blare : m´ethode de suivi de flux . . . . . . . . . . . . . . . . . . . 60
3.3 Un extrait de la politique de flux d’information . . . . . . . . . . 64
3.4 Liste des hooks LSM utilis´es par KBlare pouvant engendrer un
flux d’information . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.1 Nombre d’alertes lev´ees par Blare lors de l’ex´ecution des versions
originales et infect´ees de trois applications en appliquant une politique
BSPL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.1 Classification des 19 ´echantillons de malware. . . . . . . . . . . . 114
5.2 Nombre de profils obtenus en variant le filtrage . . . . . . . . . . 118
5.3 R´esultat de d´etection sur les applications b´enignes provenant de
Google Play. Taux de faux positif : 0% . . . . . . . . . . . . . . . 124
5.4 R´esultats de la d´etection sur 39 ´echantillons de malware. Taux
de Vrai Positif : 100% . . . . . . . . . . . . . . . . . . . . . . . . 125
xixii LISTE DES TABLEAUXListe des algorithmes
1 Construction d’un SFG `a partir des entr´ees d’un journal de Blare 94
2 Calcul d’une politique de flux d’information Blare `a partir d’un SFG101
3 Calcul des parties communes de SFG d’application caract´erisant
son comportement malveillant et regroupement de ces SFG . . . . 109
4 One-step-classification function . . . . . . . . . . . . . . . . . 109
5 D´etection de l’ex´ecution de malware Android bas´e sur les flux d’information
caus´e dans le syst`eme . . . . . . . . . . . . . . . . . . . 122
xiiixiv LISTE DES ALGORITHMESRemerciements
Avant d’aborder le pourquoi de ce document, je tenais avant tout `a remercier
les membres du jury d’avoir accept´e d’´evaluer mon travail : David Pichardie
pour avoir accept´e de pr´esider le jury de ma th`ese, Radu State et Jean-Yves
Marion pour avoir accept´e d’ˆetre les rapporteurs de ce m´emoire, Pascal Caron et
Anthony Desnos pour avoir accept´e d’examiner mon travail. Je tiens ´egalement `a
remercier Ludovic M´e et Val´erie Viet Triem Tong pour leur encadrement et leur
implication dans la r´ealisation de ma th`ese, ainsi que le reste de l’´equipe pour
ces trois ann´ees pass´ees ensemble. Finalement, un grand merci aux membres de
ma famille et aux amis qui m’ont soutenu tout au long de la th`ese. Kudos au
Langomatic (organisateurs, participants et staff du O’Connell’s) pour toutes ces
soir´ees du lundi riches en rencontres et en diversit´es culturelles.
xvxvi LISTE DES ALGORITHMESChapitre 1
Introduction
Lanc´e officiellement en 2008, Android est devenu en quelques ann´ees le
syst`eme d’exploitation le plus r´epandu sur les plateformes mobiles de type
smartphone et tablette [72, 107, 71]. Au del`a de sa large adoption par le grand
public, il a ´egalement suscit´e l’int´erˆet des d´eveloppeurs d’applications malveillantes
qui voient dans le syst`eme Android, une cible potentielle d’attaque au
mˆeme niveau que les ordinateurs de bureau `a cause de la diversit´e des donn´ees et
services qu’ils proposent. Les appareils tournant sous Android offrent diff´erentes
fonctionnalit´es allant du simple t´el´ephone `a celles des ordinateurs de bureau
et assistants num´eriques personnels (pockets PC ou PDA). La combinaisons
de toutes ces fonctionnalit´es font de ces appareils un point de concentration
de divers donn´ees et services sensibles (liste de contact, messages, donn´ees de
g´eolocalisation, etc.) et en cons´equence une cible de valeur pour les d´eveloppeurs
de malware. Ces derni`eres ann´ees, nous avons ainsi vu l’apparition d’un nombre
toujours grandissant d’applications malveillantes qui cherchent `a voler les donn´ees
du t´el´ephone, les corrompre, espionner l’utilisateur, abuser des services offerts
par le t´el´ephone, etc. A la vue du nombre grandissant des malware Android, il `
devient n´ecessaire de d´evelopper des outils d’analyse de malware afin de comprendre
leur fonctionnement et plus tard les d´etecter.
L’une des raisons de la prolif´eration de ces malware est l’insuffisance des
m´ecanismes de s´ecurit´e Android `a d´etecter et bloquer de telles attaques et la
facilit´e d’acc`es `a une partie des ressources sensibles du t´el´ephone. Android propose
un ensemble de m´ethodes pour acc´eder ces ressources et ces acc`es n´ecessite
une autorisation de la part de l’utilisateur au moment de l’installation. L’application
est install´ee uniquement si l’utilisateur valide toutes les autorisations
demand´ees par l’application. Toute application install´ee sur le t´el´ephone a ainsi
acc`es aux ressources dont elle a demand´e l’acc`es sans que le syst`eme ne contrˆole
l’usage qui est fait des ressources. Les premiers travaux li´es `a la s´ecurit´e d’Android
sont donc focalis´es sur l’analyse des limites de la s´ecurit´e sous Android
et sur une mani`ere de les combler. Enck et al. proposent par exemple dans [47]
une v´erification des permissions demand´ees par les applications afin de s’assurer
qu’elles ne soient trop dangereuses. Ce type d’approche a cependant une prin-
12 CHAPITRE 1. INTRODUCTION
cipale limitation qui est de ne d´etecter que ce que nous savons ˆetre dangereux.
Il ne permet donc pas de d´etecter et d’apprendre de nouvelles attaques.
Dans ce th`ese nous adoptons une approche diff´erente qui est bas´ee sur les
flux d’information. Un flux d’information d´ecrit un transfert d’information entre
deux objets. Au niveau du syst`eme d’exploitation, il d´ecrit par exemple des communications
entre deux applications ou des acc`es `a un fichier. Au lieu de nous
focaliser sur les limitations du syst`eme Android pour identifier les sc´enarios
d’attaque et les d´etecter par la suite, nous proposons d’apprendre comment
les attaques ont lieu en analysant directement les malware et utiliser la base
de connaissance acquise durant l’apprentissage pour d´etecter les malware. Selon
les travaux de Zhou et al. la m´ethode d’infection principale utilis´ee par les
d´eveloppeurs de malware est d’ajouter leur code malicieux `a des applications
existantes et proposer les versions infect´ees de ces applications en t´el´echargement
sur les plateformes de t´el´echargement tels que Google Play. En supposant qu’un
malware soit distribu´e sous la forme de diff´erentes applications, nous pouvons
supposer que les applications infect´ees par le mˆeme code malveillant ont partiellement
un comportement similaire. En analysant les ´echantillons des malware et
en isolant ces comportements similaires, nous pouvons ainsi `a la fois apprendre
le comportement malveillant d’un malware et calculer un profil pour ce malware
afin de le d´etecter. Le reste de ce document est divis´e comme suit.
Le chapitre 2 pr´esente le contexte de ce travail et est divis´e en deux parties.
La premi`ere partie concerne le syst`eme Android : l’architecture du syst`eme, ses
points communs et diff´erences avec les syst`emes Linux, la notion d’applications
Android, l’analyse des limites du mod`ele de s´ecurit´e d’Android, les menaces que
repr´esentent les malware Android et les travaux essayant de combler ces limites.
La deuxi`eme partie du chapitre introduit les bases n´ecessaires `a l’accomplissement
de notre objectif. Nous y pr´esentons dans un premier temps la notion
de suivi de flux d’information et les diff´erents niveaux existant pour observer
les flux d’information. Par la suite nous pr´esentons comment les m´ethodes d’apprentissage
peuvent ˆetre utilis´ees afin de classifier et d´etecter des malware. Nous
pr´esentons pour cela quelques travaux connus exploitant les traces d’ex´ecution
des malware pour les classifier.
Le chapitre 3 pr´esente Blare le moniteur de flux d’information et son portage
pour le syst`eme Android. Blare est un outil de d´etection d’intrusion param´etr´e
par une politique de flux d’information afin de d´etecter les intrusions dans un
syst`eme. Ayant ´et´e d´evelopp´e pour les syst`emes Linux, il ne prenait ainsi pas
en compte une partie des flux existant sous Android. Ces flux sont li´es `a des
m´ecanismes propres `a Android qui n’existent pas sous Linux. Dans un premier
temps, nous pr´esentons donc ces m´ecanismes et les flux d’information qu’ils
causent qui ´etaient invisibles `a Blare. Ensuite, nous pr´esentons comment nous
avons pris en compte ces m´ecanismes et am´elior´e ainsi l’observation des flux
d’information sous Android. Le r´esultat de ces am´eliorations, AndroBlare, est
ce qui nous sert d’environnement d’analyse durant cette th`ese.
Le chapitre 4 introduit une structure de donn´ee appel´ee graphe de flux
syst`eme ou System Flow Graph. Cette structure d´ecrit de mani`ere compacte et
plus compr´ehensible les flux d’information que Blare observe dans les syst`emes.3
Un des objectifs de cette th`ese est de comprendre le fonctionnement d’un malware
en l’analysant dans notre environnement d’analyse AndroBlare. Apr`es
avoir pr´esent´e la structure, nous montrons dans ce chapitre, `a travers l’analyse
d’un ´echantillon de malware, l’utilit´e de la structure pour repr´esenter le
comportement d’un malware et comprendre son comportement. Cette structure
repr´esentant le comportement d’une application, nous montrons ´egalement
qu’elle peut assister un d´eveloppeur dans la cr´eation d’une politique de flux
d’information pour son application.
Enfin, le chapitre 5 pr´esente notre approche afin de classifier et d´etecter les
malware Android. La classification consiste `a regrouper les ´echantillons d’un
malware avec un comportement similaire et extaire un profil caract´erisant les
´echantillons d’un mˆeme groupe. Cette classification s’apparente `a un apprentissage
non supervis´e et nous pr´esentons dans ce chapitre comment nous le r´ealisons
puis l’´evaluons avec un ensemble d’´echantillons de malware. La d´etection consiste
`a utiliser les profils calcul´es durant la classification pour d´etecter d’autres ´echantillons
de malware. Nous pr´esentons ainsi en deuxi`eme partie de ce chapitre
comment nous utilisons AndroBlare et les profils calcul´es pour d´etecter
l’ex´ecution de malware et ´evaluons l’approche avec d’autres ´echantillons.4 CHAPITRE 1. INTRODUCTIONChapitre 2
Etat de l’art
´
L’objectif de cette th`ese est de d´evelopper une m´ethode afin de caract´eriser
et d´etecter les malwares Android. La r´ealisation de cet objectif s’est faite en
plusieurs ´etapes : le portage du moniteur de flux d’information Blare pour le
syst`eme Android, la proposition d’une structure de donn´ee pour repr´esenter
les profils d’une application et une m´ethode de calcul de profil des malwares
Android ainsi que de leur d´etection. Dans ce premier chapitre, nous introduisons
dans un premier temps le syst`eme Android : son architecture, la notion
d’application Android et le mod`ele de s´ecurit´e d’Android. Ensuite, nous montrons
en section 2.3 et 2.4 les limites du m´ecanisme de s´ecurit´e Android ainsi
qu’un aper¸cu des menaces que repr´esentent les malware Android. La section 2.5
pr´esente ensuite les diff´erents travaux visant `a combler les limites du m´ecanisme
de s´ecurit´e d’Android ainsi qu’`a d´etecter les attaques visant le syst`eme. L’approche
pour laquelle nous avons opt´ee est bas´ee sur les flux d’information au
niveau du syst`eme. La section 2.6 pr´esente ainsi diff´erents travaux li´es au suivi
de flux d’information et une discussion sur les apports et limitations de ces
approches. Une partie des exp´erimentations que nous menons dans cette th`ese
consiste `a ex´ecuter des ´echantillons de malware Android et plus pr´ecis´ement leur
code malveillant. Comme ´evoqu´e dans les travaux de Zhou et al. dans [113], certains
malware v´erifient un nombre de conditions avant d’ex´ecuter leur code malveillant.
Afin d’identifier ces conditions, il est n´ecessaire d’analyser statiquement
les ´echantillons des malware concern´es. Nous pr´esentons ainsi en section 2.8 un
ensemble d’outils d’analyse statique des applications Android.
2.1 Syst`eme Android
Android partage une base commune aux syst`emes Linux qui est le noyau et
un ensemble de commandes et utilitaires n´ecessaires. Dans cette section, nous
pr´esentons dans un premier temps l’architecture du syst`eme Android, celle de
ses applications et les m´ecanismes de s´ecurit´e fournis avec le syst`eme.
56 CHAPITRE 2. ETAT DE L’ART ´
2.1.1 Architecture du syst`eme Android
Le syst`eme Android est divis´e en plusieurs couches comme illustr´e sur la
figure 2.1. La partie la plus basse repr´esente le cœur du syst`eme, c’est-`a-dire le
noyau, et le reste l’espace utilisateur.
2.1.1.1 Noyau Android
Le noyau Android est une version modifi´ee du noyau Linux 1
et repr´esente
le cœur du syst`eme. Le noyau est le programme servant d’interface entre les
diff´erents composants du syst`eme (p´eriph´eriques, processus, fichiers etc). Parmi
les modifications notables apport´ees dans le noyau Android, nous pouvons citer
les m´ecanismes binder, ashmem, wakelock, low memory killer, logger,
RAM console et Paranoid Networking.
Binder est un m´ecanisme de communication entre processus et d’appel de
m´ethodes distantes. L’appel de m´ethodes distantes, appel´e Remote Procedure
Call en anglais, consiste `a faire ex´ecuter une m´ethode par une entit´e distante.
Il est inspir´e du projet OpenBinder [81]. Comme nous le verrons par la suite, il
est un ´el´ement essentiel du fonctionnement du syst`eme Android.
Ashmem pour Anonymous Shared Memory est un m´ecanisme de partage de
m´emoire similaire `a celui du noyau Linux shm. Il est utilis´e pour partager
les donn´ees entre applications Android. Parmi les ”nouveaut´es” apport´ees par
ashmem il y a par exemple l’usage de compteur pour connaˆıtre le nombre de
processus faisant r´ef´erence `a une zone de m´emoire partag´ee et ´eviter les fuites
de m´emoire.
Wakelock est un m´ecanisme servant `a notifier le noyau de ne pas se mettre en
veille. Contrairement aux syst`emes Linux, le syst`eme Android essaie par d´efaut
de se mettre en veille ´etant donn´e qu’il est destin´e `a tourner sur des appareils
`a ressources limit´ees. Lors d’ex´ecution de code ne devant ˆetre interrompu, le
wakelock est ainsi utilis´e pour dire au syst`eme de rester ´eveill´e.
Low memory killer est un m´ecanisme utilis´e par le noyau pour lib´erer de
la m´emoire lorsqu’il ne reste plus assez de m´emoire.
Logger est un m´ecanisme de journalisation qui ´ecrit les ´ev`enements du
syst`eme uniquement dans des zones allou´ees en m´emoire. Contrairement aux
syst`emes Linux traditionnels, les ´ev`enements ´ecrits dans le journal du syst`eme
ne sont ainsi jamais ´ecrits dans un fichier.
RAM Console est un m´ecanisme qui pr´eserve en m´emoire le contenu des
´ev`enements syst`emes ajout´es par du code noyau (via la fonction printk) lors
de la pr´ec´edente ex´ecution du syst`eme. Son contenu est accessible via le fichier
/proc/last kmsg. Sous Linux, le contenu du journal des ´ev`enements syst`emes
sont stock´es de mani`ere persistante dans les fichiers sous le r´epertoire /var/log/.
Ce n’est pas le cas sous Android et en cas de crash du syst`eme par exemple,
il devient impossible de r´ecup´erer les ´ev`enements qui ont amen´e au crash. RAM
Console est ainsi ´et´e cr´e´e pour r´esoudre cette limitation du syst`eme de journalisation
sous Android.
1. Noyau utilis´e par les distributions de type Linux telles que Debian et Ubuntu2.1. SYSTEME ANDROID ` 7
Paranoid Network est un m´ecanisme contrˆolant l’acc`es des applications au
r´eseau. Sous Linux, toute application a le droit d’utiliser les sockets et acc´eder
au r´eseau. La socket est la structure de base li´ee aux op´erations r´eseaux sous
Linux. Sous Android, l’inverse est la r`egle car seule les applications avec une
autorisation explicite sont autoris´ees `a cr´eer des sockets et communiquer sur le
r´eseau.
2.1.1.2 Espace utilisateur
L’espace utilisateur sous Android peut ˆetre divis´e en plusieurs parties comme
illustr´e sur la figure 2.1.
La couche Applications renferme les applications fournies par d´efaut sur le
t´el´ephone ainsi que celles qui seront install´ees plus tard par l’utilisateur. Il s’agit
des applications avec lesquelles l’utilisateur pourra interagir en g´en´eral (ex :
application de messagerie et gestion des contacts). Les applications Android sont
principalement ´ecrites en Java. Android donne cependant la possibilit´e d’´ecrire
du code natif et de l’appeler au sein de l’application grˆace `a une interface appel´ee
Java Native Interface dont le rˆole est d’interfacer du code Java avec du code
natif ´ecrit en C.
Android framework est l’ensemble des services et ressources fournies par le
syst`eme Android. Il s’agit principalement de services tournant dans quelques
processus cl´es du syst`eme Android tels que system server et mediaserver. La
commande service list retourne sous Android la liste des services pr´esents
dans le syst`eme. Sous Android 2.3, la commande retourne une liste de 50 services
et sous Android 4.2 68 services. Parmi ces services nous pouvons citer ServiceManager,
LocationManager. ServiceManager recense tous les autres services
tournant sur le t´el´ephone et joue un rˆole d’annuaire pour les applications souhaitant
acc´eder `a un service en particulier sur le t´el´ephone. Lorsqu’une application
de navigation souhaite par exemple connaˆıtre la localisation de l’utilisateur,
elle va dans un premier temps demander au Service-Manager la r´ef´erence de
Location Service. Une fois cette r´ef´erence r´ecup´er´ee, elle pourra demander `a
Location Service les donn´ees de g´eolocalisation. Surfaceflinger est un autre
service avec un rˆole crucial sous Android. C’est lui qui est charg´e de composer
et dessiner ce que les diff´erentes applications souhaitent afficher `a l’´ecran de
l’appareil.
Android runtime est l’environnement d’ex´ecution des applications Android.
Il contient la biblioth`eque Java utilisable par les applications ainsi qu’une machine
virtuelle appel´ee Dalvik. La biblioth`eque reprend une partie de la biblioth`eque
Java standard plus quelques biblioth`eques suppl´ementaires propres
`a Android. La machine virtuelle Dalvik elle interpr`ete le bytecode dans lequel
les applications Android ont ´et´e compil´ees. Le bytecode dalvik est diff´erent du
bytecode Java d’o`u l’usage de Dalvik `a la place des machines virtuelles Java
standard. Depuis Android 4.4, une deuxi`eme machine virtuelle, ART [85, 99],
qui est livr´ee sous forme exp´erimentale avec la plateforme.
Libraries renferme les biblioth`eques natives du syst`eme. Elles sont g´en´eralement
utilis´ees par les applications natives du syst`eme. Parmi les biblioth`eques nous8 CHAPITRE 2. ETAT DE L’ART ´
Kernel
Libraries HAL
Android framework Android runtime
Applications
Binder Audio
driver
ext4
Power
management
Ashmem
Dalvik VM
Bionic OpenGL
Webkit SSL
Camera HAL
Audio HAL
... ...
Surface
Flinger
Camera
Service
Package
Manager
Native tools
and
daemons
Wakelock
...
Core libraries
Location
Service
...
Clock Contacts Launcher Email ...
Display driver LSM Bluetooth
driver
SMS
SQLite
Service
Manager Figure 2.1 – Architecture de la plateforme Android
pouvons par exemple citer bionic qui renferme entre autres une biblioth`eque C
et une biblioth`eque pour le support du C++. Selon la page Wikip´edia sur
bionic [3], il s’agit d’une version modifi´ee de la biblioth`eque standard C de
BSD et est propre `a Android.
Si les applications utilisateurs sont des applications ´ecrites en Java, il existe
tout de mˆeme quelques applications natives dans le syst`eme. Il s’agit de services
propres au syst`eme et de quelques outils en ligne de commande qui peuvent
s’av´erer utiles pour un d´eveloppeur. Ces applications n’ont pas pour but d’ˆetre
utilis´ees par l’utilisateur lambda.
HAL ou Hardware Abstraction Layer sert d’interface standard entre le syst`eme
et les pilotes des p´eriph´eriques pr´esents sur l’appareil (ex : cam´era, capteur etc).
Les constructeurs ´ecrivent ainsi les pilotes `a leur guise mais doivent fournir les
m´ethodes correspondant aux interfaces HAL pour que le syst`eme puisse utiliser
les p´eriph´eriques.2.1. SYSTEME ANDROID ` 9
2.1.1.3 Communications entre processus
Android est un environnement d’ex´ecution o`u les applications sont pouss´ees
`a collaborer pour fonctionner. Le but de cette collaboration est de limiter la duplication
de code dans les applications et de proposer un ensemble assez grand
de fonctionnalit´es aux diff´erentes applications du syst`eme. Un exemple illustrant
cette collaboration est l’application cam´era. Pour utiliser la cam´era d’un
appareil, une application doit connaˆıtre son mode de fonctionnement exact sachant
qu’une cam´era peut ˆetre diff´erente d’un mod`ele de t´el´ephone `a un autre.
Pour faciliter la tˆache au d´eveloppeur de l’application, l’application cam´era du
t´el´ephone propose une interface permettant aux autres applications de prendre
des photos ou enregistrer des vid´eos `a leur place puis leur transmettre le r´esultat.
Ce syst`eme de collaboration repose plusieurs fonctionnalit´es du syst`eme. Du
point de vue des d´eveloppeurs d’application, la collaboration repose sur l’usage
des intents et des composants Content Provider pour ´echanger des messages
et partager du contenu. Nous donnons plus de d´etail sur ces m´ecanismes dans
la section 2.1.2.1. A un niveau plus bas, la collaboration repose sur deux fonc- `
tionnalit´es d’Android que sont Binder et Ashmem. Comme nous l’avons ´ecrit en
section 2.1.1, ces deux m´ecanismes servent `a effectuer des appels distants de
proc´edure et partager des zones de m´emoire entre processus.
2.1.2 Applications Android
2.1.2.1 Architecture d’une application : les diff´erents composants
Une application Android est ´ecrite en Java. Contrairement aux applications
Java standard, une application Android peut poss´eder plusieurs points
d’entr´ee. Plus pr´ecis´ement, une application Android peut avoir plusieurs composants
et chacun d’eux peut-ˆetre un point d’entr´ee dans le programme. Il
existe quatre types de composants : Activity, ContentProvider, Service et
BroadcastReceiver.
Activity Un composant Activity est une interface utilisateur. Une application
de messagerie ´electronique peut par exemple avoir trois composants
Activity : un pour naviguer entre les r´epertoires de la messagerie, le deuxi`eme
pour l’affiche d’un message et le dernier pour l’´edition et l’envoi.
ContentProvider Un ContentProvider est un composant servant au partage
de donn´ees d’une application. Son rˆole est de servir d’interface entre l’application
souhaitant acc´eder aux donn´ees et les donn´ees. Ces donn´ees sont
g´en´eralement stock´ees dans une base de donn´ees locale SQLite mais aucune
restriction n’est impos´ee sur la mani`ere de stocker les donn´ees. La liste des
contacts est par exemple stock´ee dans une base de donn´ees locales dont l’acc`es
se fait `a travers un composant de type ContentProvider.10 CHAPITRE 2. ETAT DE L’ART ´
Service Un service est un composant effectuant des tˆaches en arri`ere plan. Il
est utilis´e pour effectuer de longue tˆaches internes `a l’application ou `a ex´ecuter
une tˆache `a la demande d’une application. Dans un client File Transfer Protocol,
un service est utilis´e pour envoyer les donn´ees sur le r´eseau `a les recevoir. Cela
´evite de bloquer l’application jusqu’`a la fin de l’envoi.
BroadcastReceiver Un BroadcastReceiver est un composant utilis´e pour
´ecouter les messages en large diffusion sur le syst`eme. Un exemple de ce type de
message est la r´eception d’un nouveau SMS. Lorsqu’un nouveau SMS est re¸cu
par le t´el´ephone, le syst`eme envoie un message en broadcast pour notifier les
diff´erentes applications d’envoi et r´eception de SMS. Ce composant ne poss`ede
aucune interface graphique et n’est pas cens´e ex´ecuter de longues tˆaches.
2.1.2.2 Intents : communication entre composants
Un intent est un message utilis´e par les composants des applications pour
communiquer entre eux. Plus pr´ecis´ement, il est utilis´e pour ex´ecuter que le
destinataire ex´ecute une requˆete `a la demande de l’´emetteur. Le composant
´emettant l’intent et celui la recevant ne font pas forc´ement partie de la mˆeme
application. Un intent a deux usages principaux : lancer un composant Activity
ou Service et diffuser un message dans le syst`eme aux composants BroadcastReceiver.
Nous parlerons alors dans ce cas de broadcast intent. Il existe
diff´erentes m´ethodes fournies par l’API Android lancer un composant Activity
ou Service et diffuser un intent dans le syst`eme. Ces m´ethodes peuvent ˆetre
class´ees selon le type de composant cibl´e. Les m´ethodes utilis´ees pour envoyer
un intent `a un composant de type Activity et Service sont les m´ethodes
dont le nom commencent respectivement par startActivity et startService.
Quant aux m´ethodes utilis´ees pour diffuser un intent `a des composants BroadcastReceiver,
leur noms sont pr´efix´es par sendBroadcast.
Un intent peut avoir plusieurs attributs dont quatre principaux : component
name, action, data et category. Ces attributs servent `a d´efinir le(s) destinataire(s)
de l’intent et les donn´ees `a transmettre. Component name d´esigne le
nom du composant destin´e `a recevoir le message. Si une valeur est associ´ee `a cet
attribut, l’intent est dit explicite. Dans le cas contraire, il est dit implicite et il
appartient au syst`eme de d´efinir le destinataire du message. S’il existe plusieurs
destinataires possibles, le syst`eme demandera `a l’utilisateur de choisir le destinataire
`a qui le message sera envoy´e. Ce m´ecanisme est appliqu´e uniquement
lorsque les destinataires possibles sont de type Activity. S’il s’agit de Service,
le syst`eme fera lui-mˆeme le choix. Dans le code du listing 2.1 par exemple, la
fonction sharePage ´emet un intent afin de partager une URL sans d´efinir le
composant destinataire. A son ´emission, le syst`eme d´eterminera donc une liste `
de destinataires pouvant recevoir l’intent et proposera `a l’utilisateur de choisir
parmi les ´el´ements de cette liste. Pour ce type d’action, Android proposera
au moins dans la liste l’application de messagerie ´electronique, le presse papiers
et le bluetooth. Pour les messages de type broadcast intent, le syst`eme
enverra `a tous les composants Broadcast Receiver ´eligibles. Action est une2.1. SYSTEME ANDROID ` 11
chaˆıne de caract`ere et d´esigne l’action demand´ee par l’application. Data est
une adresse pointant vers la donn´ee `a traiter ou le type de donn´ees `a traiter.
Category d´esigne une ou plusieurs cat´egories de composants cens´es recevoir le
message. Les cat´egories n’ont aucun lien avec les quatre types de composant
d’une application Android. A partir de ces attributs, le syst`eme d´efinit le ou les `
destinataires de l’intent.
Deux autres attributs peuvent s’ajouter aux quatre pr´ec´edents : les flags
et les extras. Le syst`eme ne les utilise pas pour d´efinir le ou les destinaire(s) de
l’intent. Les flags sont des attributs destin´es plus au syst`eme qu’au destinataire
du message. Une analyse rapide de la liste des flags fournis par Android
montre qu’ils ont un usage assez vari´e. Ils servent par exemple `a d´el´eguer une permission
d’acc`es en lecture ou ´ecriture aux donn´ees associ´ees `a l’intent ou `a choisir
des groupes d’applications pouvant recevoir le message. Nous ne donnerons
pas plus de d´etail sur cet attribut dans cette th`ese mais la liste des flags fournis
par Android sont disponibles dans la documentation de la m´ethode setFlags
de la classe Intent [84]. Les extras permettent de transmettre des informations
additionnelles au destinataire du message. Il s’agit d’une liste de couple cl´e valeur.
Dans le code du listing 2.1, l’intent ´emis par la fonction contient quatre
attributs de type extras. Ces attributs servent dans cet exemple `a transmettre
des donn´ees li´ees `a l’URL de la page `a partager : le titre de la page, une icˆone
et une capture d’´ecran.
1 static final void sharePage(Context c, String title, String url,
2 Bitmap favicon, Bitmap screenshot) {
3 Intent send = new Intent(Intent.ACTION_SEND);
4 send.setType("text/plain");
5 send.putExtra(Intent.EXTRA_TEXT, url);
6 send.putExtra(Intent.EXTRA_SUBJECT, title);
7 send.putExtra(Browser.EXTRA_SHARE_FAVICON, favicon);
8 send.putExtra(Browser.EXTRA_SHARE_SCREENSHOT, screenshot);
9 try {
10 c.startActivity(Intent.createChooser(send, c.getString(
11 R.string.choosertitle_sharevia)));
12 } catch(android.content.ActivityNotFoundException ex) {
13 // if no app handles it, do nothing
14 }
15 }
Listing 2.1 – Partage d’une page web grˆace `a un intent implicite. Extrait du
code du navigateur par d´efaut d’Android
Remarque : Afin qu’un composant A puisse recevoir un intent d’un composant
appartenant `a une application autre que la sienne, il faut que ce composant
A soit d´eclar´e avec l’attribut exported dans le fichier AndroidManifest.xml de12 CHAPITRE 2. ETAT DE L’ART ´
son application (section 2.1.2.4). Cet attribut est cependant implicite lorsqu’un
intent filter est d´eclar´e pour ce composant.
2.1.2.3 Intent-filter
Dans la section pr´ec´edente, nous avons pr´esent´e les intents, un type de
message utilis´e par les composants d’une application pour communiquer avec
d’autres composants. Lors de l’´emission de l’intent, le syst`eme calcule `a partir
des attributs associ´es `a l’intent le(s) destinataire(s) du message. Deux
cas peuvent se pr´esenter. Dans le premier cas, l’´emetteur a d´efini explicitement
le destinataire (explicit intent). Le message est donc transmis directement
au destinataire choisi par l’´emetteur. Dans le second cas, l’´emetteur n’a pas
d´efini de destinataire et il appartient au syst`eme de le d´efinir (implicit intent).
Lorsque ce cas se pr´esente, le syst`eme d´efinit la liste des destinataires possibles
grˆace `a un filtre d´eclar´e par chaque application appel´ee intent filter.
Ce dernier d´efinit pour chaque composant quels sont les intents que le composant
souhaite recevoir et est d´eclar´e dans le fichier AndroidManifest.xml
qui accompagne chaque application Android. Nous donnons plus de d´etail sur
le contenu de ce fichier dans la section 2.1.2.4 et nous nous contentons ici
d’expliquer la partie sur les intent filters. Chaque composant d’une application
est d´eclar´ee dans ce fichier et chaque d´eclaration est accompagn´ee
de diverses informations telles que l’intent filter. L’intent filter d´eclare
au syst`eme les intents que chaque composant peut traiter. Ce filtrage est
d´ecrit par une liste d’attributs d’intents que les intents transmis aux composants
doivent avoir. Dans le listing 2.2 par exemple, l’application filtre les
intents que deux de ses composants peuvent recevoir. Le premier composant,
App, ne peut recevoir que les intents dont les attributs action et category
ont respectivement comme valeur associ´ee android.intent.action.MAIN et
android.intent.category.LAUNCHER. Quant au deuxi`eme composant, BillingReceiver,
il ne peut recevoir que des intents auquel l’attribut action est
associ´e `a la valeur com.android.vending.billing.RESPONSE CODE.
2.1.2.4 Android Package
Android Package est la forme sous laquelle une application est propos´ee `a
l’utilisateur. Il s’agit d’une archive, commun´ement appel´ee apk, contenant le
code de l’application et les ressources qu’elle utilise. Nous pr´esentons dans ce
qui suit le contenu principal d’un apk.
AndroidManifest.xml
AndroidManifest.xml est un fichier xml contenant les informations li´ees `a
l’application qui sont n´ecessaires au syst`eme. Il est cr´e´e par le d´eveloppeur de
l’application. Parmi les informations qu’il contient, nous pouvons citer :
— le nom du package de l’application
— le composant Activity `a lancer au lancement de l’application2.1. SYSTEME ANDROID ` 13
— la liste des composants de l’application et les informations qui sont li´es
aux composants (ex : permission pour acc´eder `a un composant Service
sensible, les Intents attendus par les composants de l’application etc)
— les permissions demand´ees par l’application (ex : read sms pour lire les
SMS)
— les permissions d´eclar´ees par l’application
— les biblioth`eques utilis´ees par l’application
— le niveau minimal du SDK Android pour que l’application puisse fonctionner
Le listing 2.2 pr´esente le fichier AndroidManifest.xml d’une version d’Angry
Birds Space. A la deuxi`eme ligne, sont d´efinis l’endroit o`u l’application sera `
install´ee (ici laiss´e au choix du syst`eme) et le nom du package de l’application.
De la ligne 4 `a la ligne 11 sont ensuite list´ees les permissions demand´ees par
l’application. Ici l’application demande par exemple acc`es `a la m´emoire externe,
au r´eseau, aux informations li´ees au t´el´ephone, aux donn´ees de g´eolocalisation
et au syst`eme de payement propos´e par Google.
La ligne 13 d´ecrit comment l’application sera pr´esent´ee dans le menu des
applications une fois install´ee : l’icˆone `a utiliser et le nom `a afficher. Le reste du
fichier liste les composants de l’application et les informations qui y sont li´ees.
L’application a ainsi quatre composants dont deux de type Activity, un de type
Service et un de type BroadcastReceiver. Comme expliqu´e pr´ec´edemment,
filtrer les messages Intent `a destination des composants de l’application est possible.
Dans AndroidManifest.xml, cela se fait via les entr´ees intent-filter.
Ainsi le premier Activity ne recevra que les intents dont l’attribut action a la
valeur android.intent.action.MAIN et la cat´egorie est android.intent.category.LAUNCHER.
Cela signifie que c’est ce composant qui sera lanc´e lorsque
l’utilisateur cliquera sur l’icˆone de l’application dans le menu de son t´el´ephone.
Quant au Broadcast Receiver, il ne r´eagira qu’aux intents dont l’attribut
action vaut com.android.vending.billing.RESPONSE CODE
Classes.dex
Le code de chaque classe d’une application Java standard est stock´e dans des
fichiers .class diff´erents. Sous Android, ce n’est pas le cas. Tout est stock´e dans
un seul et unique fichier qui est classes.dex. De plus, si le code des applications
Java est lui compil´e en bytecode Java, celui des applications Android est lui
compil´e dans un autre format qui est le bytecode dalvik. C’est le contenu de ce
fichier, ou plus pr´ecis´ement une version optimis´ee de celui-ci, qui sera interpr´et´e
par la machine virtuelle Dalvik pour ex´ecuter l’application.
Autres
Un apk contient d’autres entr´ees telles que les r´epertoires META-INF, res,
jni et lib. Le r´epertoire META-INF contient ainsi des fichiers li´es au contrˆole
d’int´egrit´e de l’application et `a l’identification de son d´eveloppeur. Le r´epertoire res
contient les ressources utilis´ees par l’application telles que des images, sons, etc.14 CHAPITRE 2. ETAT DE L’ART ´
Les r´epertoires jni et lib contiennent les biblioth`eques utilis´ees par l’application.
Nous avons pr´esent´e dans cette section le syst`eme Android : le noyau, l’espace
utilisateur en insistant sur les applications et la mani`ere dont ils coop`erent.
Dans la section qui suit, nous pr´esentons les diff´erents m´ecanismes de s´ecurit´e
prot´egeant ce syst`eme.2.1. SYSTEME ANDROID ` 15
1
5
9
21
22
27
32
33
36
37
40
42
43
44
Listing 2.2 – Fichier AndroidManifest.xml d’Angry Birds Space16 CHAPITRE 2. ETAT DE L’ART ´
2.2 S´ecurit´e du syst`eme Android
Nous avons ´ecrit dans la section pr´ec´edente que le noyau d’Android ´etait
un noyau Linux avec un ensemble de modifications et d’ajouts. Une partie des
m´ecanismes de s´ecurit´e offerts par Android proviennent ainsi du syst`eme Linux
auxquels s’ajoutent des m´ecanismes propres `a Android. Ces m´ecanismes ont
pour but de prot´eger les applications les unes des autres, les communications
entre applications et les ressources sensibles disponibles dans le syst`eme.
2.2.1 M´ecanismes issus de Linux
Le noyau d’Android est une version modifi´ee du noyau Linux. Il b´en´eficie
ainsi des m´ecanismes offerts par les noyaux et syst`emes Linux : syst`eme multiutilisateur,
contrˆole d’acc`es (lecture, ´ecriture et ex´ecution) bas´e sur les utilisateurs
et isolation par processus.
2.2.1.1 Syst`eme multi-utilisateur et contrˆole d’acc`es
Android supporte l’existence de plusieurs utilisateurs dans le syst`eme et
utilise le m´ecanisme de contrˆole d’acc`es fourni par Linux. L’acc`es aux diff´erentes
ressources dans le syst`eme est ainsi d´efini par des droits d’acc`es en lecture,
´ecriture et ex´ecution. Ces acc`es sont d´efinis pour trois entit´es : le propri´etaire,
le groupe propri´etaire et les autres.
Il existe un ensemble pr´ed´efini d’utilisateurs par d´efaut sur les syst`emes Android
dont une partie est associ´ee au fonctionnement interne du syst`eme. Parmi
ces utilisateurs nous pouvons citer root qui est l’utilisateur avec les droits les
plus ´elev´es dans les syst`emes de type Linux et Android et l’utilisateur system qui
est associ´e aux diff´erentes ressources n´ecessaires au fonctionnement du syst`eme
tels que les biblioth`eques natives partag´ees. Tout au long de l’ex´ecution du
syst`eme, la liste des utilisateurs peut ensuite ´evoluer. En effet, d’autres utilisateurs
sont cr´e´es `a chaque fois qu’une application est install´ee sur le syst`eme 2
.
Ces utilisateurs ont g´en´eralement des droits restreints `a savoir qu’ils ont uniquement
acc`es aux ressources appartenant `a l’application `a laquelle ils sont
associ´es. Cette restriction ´evite ainsi que les donn´ees de fichier appartenant `a
une application ne soit lues ou modifi´ees par une autre application.
2.2.1.2 Isolation des applications
En plus d’associer des utilisateurs diff´erents `a chaque application, Android
les cloisonne ´egalement en les ex´ecutant dans des processus diff´erents et en leur
attribuant des r´epertoires diff´erents dans lesquels les applications stockent les
donn´ees qu’il manipulent. Les processus associ´es `a chaque application s’ex´ecutent
avec les droits de l’utilisateur associ´e `a l’application et les r´epertoires appartiennent
´egalement `a l’utilisateur auquel l’application est associ´ee. Ce cloison-
2. Il existe une exception `a cette r`egle o`u une application peut demander `a partager le
mˆeme identifiant d’utilisateur que d’autres applications. Voir la section 2.1.2.4.2.2. SECURIT ´ E DU SYST ´ EME ANDROID ` 17
Type Description
normal Valeur par d´efaut des permissions. Elle est automatiquement
accord´ee a toute application la demandant.
dangerous N´ecessite une validation de la part de l’utilisateur
afin d’accorder la permission. Exemple : read sms
pour l’acc`es aux SMS.
signature Permission accord´ee uniquement si l’application
la demandant est sign´ee avec le certificat du
d´eveloppeur ayant d´eclar´ee la permission.
signatureOrSystem Permission accord´ee uniquement aux applications
system, plus pr´ecis´ement celles dans la partition
system, ou `a celles ayant ´et´e sign´ees avec le mˆeme
certificat que l’application ayant d´eclar´ee la permission.
Table 2.1 – Types de permission Android
nement ´evite ainsi qu’une application interf`ere avec l’ex´ecution d’une autre application
ou qu’elle modifie les donn´ees d’une autre application.
2.2.1.3 Chiffrement de la partition de donn´ees
Depuis la version 3.0 d’Android, le syst`eme offre la possibilit´e de chiffrer la
partition data. Cette partition contient l’ensemble des applications du t´el´ephone,
`a l’exception des applications fournies par d´efaut que l’utilisateur ne peut d´esinstaller,
ainsi que les donn´ees qu’elles manipulent. Le chiffrement est r´ealis´e grˆace
au module dm-crypt [15] fourni par le noyau.
2.2.2 M´ecanismes propres `a Android
2.2.2.1 Permissions
Android propose un ensemble de ressources sensibles aux applications install´ees
sur le t´el´ephone (r´eseau, cam´era, syst`eme de g´eolocalisation, bluetooth,
etc.). Pour les utiliser, une application devra d´eclarer les permissions correspondantes.
Une application souhaitant lire les sms devra par exemple avoir la
permission read sms. A l’installation, l’utilisateur valide les permissions de- `
mand´ees par l’application. Pour que l’installation se fasse, il doit toutes les accepter.
Une fois l’application install´ee, plus aucune validation n’est n´ecessaire de
la part de l’utilisateur. La seule exception est l’envoi de messages `a des num´eros
surtax´es o`u l’utilisateur doit valider 3
chaque envoi. Il existe quatre types de
permission que nous r´esumons dans le tableau 2.1.
3. fonctionnalit´e disponible depuis Android 4.218 CHAPITRE 2. ETAT DE L’ART ´
Name: AndroidManifest.xml
SHA1-Digest: 9FiHXTmeVecbFb3enszaSlXIZp0=
Name: res/layout/hello_activity.xml
SHA1-Digest: BJz/aHbKT/Or0LwKJZ/jxN+WzmE=
Name: resources.arsc
SHA1-Digest: khWw+6lJ8dfajIaKkvbCuQ7YYzI=
Name: classes.dex
SHA1-Digest: +aR5lPSRcAvOrX+OhsxELXB1qGg=
Figure 2.2 – Fichier MANIFEST.MF de l’application HelloActivity
2.2.2.2 Signature des applications
Android requiert que chaque application soit sign´ee afin d’ˆetre install´ee sur
le t´el´ephone. Les d´eveloppeurs signent ainsi leur application avec un certificat
dont la cl´e priv´ee leur est propre.
Les applications Android sont sign´ees avec l’outil jarsigner. Il prend en
entr´ee une archive jar ou zip et un certificat. Il donne en sortie l’archive `a
laquelle ont ´et´e ajout´es deux fichiers : un fichier avec l’extension .sf et un autre
fichier avec l’extension .rsa ou .dsa selon les cl´es utilis´ees. L’entˆete du premier
fichier correspond au hash du fichier MANIFEST.MF. Le reste de son contenu
est similaire au fichier meta-inf/manifest.mf qui est pr´esent dans chaque
archive jar. MANIFEST.MF recense pour chaque fichier pr´esent dans l’archive
son nom, son hash et l’algorithme de hachage utilis´e. La figure 2.2 est le fichier
manifest.mf de l’application HelloActivity fourni en exemple avec le kit de
d´eveloppement Android. Pour chaque fichier pr´esent dans l’archive nous avons
son nom, un algorithme de hachage et le hash du fichier. Le fichier .SF contient
les mˆemes types d’information que MANIFEST.MF. Pour chaque fichier pr´esent
dans l’archive nous avons une entr´ee constitu´ee du nom du fichier, un algorithme
de hachage et un hash. Contrairement `a un hash dans MANIFEST.MF, il s’agit
cette fois-ci du hash de l’entr´ee correspondant au fichier dans MANIFEST.MF.
La figure 2.3 liste le contenu du fichier cert.sf de l’application HelloActivity.
Le fichier .rsa lui contient la signature du fichier .sf ainsi que la cl´e publique
correspondant `a la cl´e priv´ee utilis´ee pour la signature.
La signature des applications Android a plusieurs objectifs. Elle sert `a filtrer
les applications qui peuvent ˆetre install´es sur le t´el´ephone. Par d´efaut, seules les
applications provenant de Google Play peuvent ˆetre install´ees sur le t´el´ephone.
Il s’agit plus pr´ecis´ement des applications dont le d´eveloppeur a un certificat
reconnu sur Google Play. Toute application avec une signature inconnue sera
bloqu´ee `a l’installation `a moins que l’utilisateur n’autorise explicitement l’installation
d’applications provenant d’autres plateformes.
La signature identifie ´egalement toutes les applications d’un mˆeme d´eveloppeur.
Si celui-ci est malveillant, il est ainsi possible d’enlever ses applications de Google2.2. SECURIT ´ E DU SYST ´ EME ANDROID ` 19
Signature-Version: 1.0
Created-By: 1.0 (Android SignApk)
SHA1-Digest-Manifest: Qenbz+ZjLsHBpHWbAHMYhLpfies=
Name: AndroidManifest.xml
SHA1-Digest: uziqi6KmjjgyRnooQ7j5ZHIKVTw=
Name: res/layout/hello_activity.xml
SHA1-Digest: who+PyjjYjRHN6maNog494Cr+CE=
Name: resources.arsc
SHA1-Digest: WlDZ0LWZ+zrAmxUTKZuz99hUoZo=
Name: classes.dex
SHA1-Digest: QjwcQAkf4iVckku4qf7kiLRSndo=
Figure 2.3 – Fichier .SF de l’application HelloActivity
Play et des t´el´ephones des utilisateurs.
La signature assure ´egalement que l’application n’a pas ´et´e modifi´ee par
une tierce personne avant d’ˆetre publi´ee. La v´erification se fait `a l’installation
de l’application. Le syst`eme v´erifie que le fichier .SF a bien ´et´e g´en´er´e par le
d´eveloppeur. Il v´erifie ensuite que le fichier MANIFEST.MF n’a pas ´et´e modifi´e
en comparant son empreinte avec celui list´e dans le fichier .SF. Il v´erifie enfin
l’int´egrit´e des fichiers dans l’archive en comparant leur empreite avec les valeurs
list´ees dans le fichier MANIFEST.MF. L’installation est arrˆet´ee si une incoh´erence
est d´etect´ee.
Par d´efaut, les applications Android tournent avec des UIDs diff´erents dans
des processus distincts. Un d´eveloppeur peut cependant vouloir faire tourner
ses applications avec le mˆeme UID ou dans un seul processus. Il suffit pour
cela qu’il le d´eclare dans le fichier AndroidManifest.xml de son application.
Plus pr´ecis´ement, le d´eveloppeur d´eclare un alias d’UID qui sera partag´e s’il
souhaite utiliser le mˆeme UID pour plusieurs de ses applications. S’il souhaite
faire tourner ses applications au sein d’un mˆeme processus, il d´eclare un alias
de nom de processus.
Pour ´eviter que des d´eveloppeurs ne s’attribuent ´egalement le mˆeme UID ou
ne s’attache au processus faisant tourner les applications d’un autre d´eveloppeur,
le syst`eme v´erifie que l’application demandant `a partager le mˆeme UID ou `a
ˆetre ex´ecut´e dans le processus qu’une autre application soit sign´ee par le mˆeme
d´eveloppeur.
2.2.2.3 Analyse des applications
Google analyse r´eguli`erement les applications propos´ees en t´el´echargement
sur Google Play ainsi que celles en instance d’ˆetre install´ees sur les t´el´ephones des
utilisateurs. Si aucune information sur la nature exacte des analyses n’est fournie20 CHAPITRE 2. ETAT DE L’ART ´
par Google, nous savons qu’une analyse statique et dynamique des applications
sont faites pour d´etecter des motifs synonymes de menace dans l’application ou
des comportements malveillants. J. Oberheide et C. Miller ont montr´e dans [78]
que les applications soumises sur Google Play sont ex´ecut´ees dans une machive
virtuelle et qu’il ´etait possible de construire un profil de cette machine.
2.2.2.4 Protection de l’appareil et de ses donn´ees
Android poss`ede un ensemble d’outils destin´es aux d´eveloppeurs du syst`eme.
Parmi ces outils nous pouvons citer adb et fastboot. La commande adb permet
de communiquer avec un ´emulateur Android ou un t´el´ephone. Parmi les
fonctions propos´ees, il y a l’ouverture d’un shell distant sur le t´el´ephone, l’installation
ou la suppression d’application et le transfert de fichier. Pour prot´eger
le t´el´ephone de tout usage malveillant de ces outils, la communication est possible
uniquement si le mode debug est activ´e. Une authentification par cl´e de
l’ordinateur aupr`es du t´el´ephone s’ajoute ´egalement `a cela depuis la version 4.2
d’Android afin de filtrer les machines pouvant communiquer avec le t´el´ephone via
adb. La commande fastboot sert `a effacer/remplacer le contenu des diff´erentes
partitions sur le t´el´ephone. Afin de l’utiliser, l’utilisateur doit dans un premier
temps d´ebloquer cette fonctionnalit´e au d´emarrage et ce processus de d´eblocage
implique la suppression du contenu de la partition data du t´el´ephone. Cette
partition contient les donn´ees de l’utilisateur ainsi que des diff´erentes applications.
L’action de remplacer le contenu d’une partition est souvent d´esigner par
l’expression flasher une image, l’image ´etant le nouveau contenu de la partition.
Un attaquant d´esirant ainsi remplacer une partie des composants logiciels du
syst`eme via fastboot ne pourra ainsi acc´eder aux donn´ees de l’utilisateur.
2.2.2.5 Administration de l’appareil
Android propose depuis sa version 2.2 une API permettant de d´evelopper des
applications afin d’administrer les t´el´ephones [83]. L’API permet de renforcer la
politique sur les mots de passe (ex : taille, expiration et nombre de tentatives),
imposer le chiffrement des partitions, activer / d´esactiver la cam´era (fonctionnalit´e
disponible depuis Android 4.0), demander la cr´eation d’un nouveau mot de
passe, verrouiller le t´el´ephone et remettre le t´el´ephone `a la configuration d’usine.
Nous avons pr´esent´e dans cette section les m´ecanismes de s´ecurit´e d’Android.
Ces m´ecanismes ont pour but de prot´eger les applications, les ressources qu’elles
utilisent et les communications entre ces processus. Ces m´ecanismes ne sont
cependant pas parfaits et nous montrons dans la section qui suit leur limites
ainsi qu’un aper¸cu des menaces que repr´esentent les malware Android.2.3. LIMITES DES MECANISMES DE S ´ ECURIT ´ E ANDROID ´ 21
2.3 Limites des m´ecanismes de s´ecurit´e Android
2.3.1 Abus de permission
Les permissions donnent acc`es aux ressources sensibles du t´el´ephone aux
applications. Si l’utilisateur souhaite installer une application, il doit lui accorder
toutes les permissions qu’elle a demand´ees. Si les permissions filtrent l’acc`es
aux ressources sensibles, il n’existe cependant aucune v´erification au niveau de
l’usage de ces ressources. Seule la confiance aux d´eveloppeurs de l’application
permet de s’assurer qu’il n’y aura aucun abus. Les attaques les plus simples
utilisent ainsi les permissions de mani`ere abusive et c’est le cas de la plupart
des malware ayant pour but de faire fuir des donn´ees sensibles du t´el´ephone. Un
exemple r´ecent est une application ayant ´et´e d´etect´ee comme un logiciel espion 4
qui cible des manifestants `a Hong Kong [26]. L’application demande un ensemble
assez large de permissions pour espionner les utilisateurs des t´el´ephones sur
lesquels l’application est install´ee. Les permissions demand´ees donnent acc`es
aux SMS, aux appels, `a la localisation de l’utilisateur, au micro pour enregistrer
l’utilisateur, etc.
Une application avec trop de permissions peut paraˆıtre suspecte aux yeux
des utilisateurs avertis. Afin de ne pas ´eveiller la suspicion des utilisateurs, une
solution pour les d´eveloppeurs de malware consiste `a utiliser d’autres applications
pr´esentes sur le syst`eme pour mener l’attaque ou `a diviser l’attaque entre
plusieurs applications qui collaboreront pour ex´ecuter l’attaque.
2.3.2 Permissions : attaques par d´el´egation et attaques
par collusion
Une attaque par d´el´egation [49] consiste `a d´el´eguer l’ex´ecution de la tˆache
n´ecessitant une permission que l’application malveillante ne poss`ede pas `a une
autre application qui elle la poss`ede. Par exemple, une application n’ayant pas
la permission de communiquer sur le r´eseau pourrait se servir du navigateur
pour poster des informations ou t´el´echarger des fichiers. Les ´echantillons de
BadNews [91] font par exemple appel au navigateur du t´el´ephone afin de lancer
le t´el´echargement d’applications sur le t´el´ephone. Une attaque par collusion
consiste en une coop´eration entre plusieurs applications pour mener une attaque.
Il n’existe aucun malware utilisant ce type d’attaque `a notre connaissance. Cependant,
J. Boutet et T. Leclerc ont montr´e la faisabilit´e d’une telle attaque
dans [28].
2.3.3 Communication entre composants via les intents
Les intents sont des messages ´echang´es entre les composants des applications
pour transmettre des requˆetes. La possibilit´e d’envoyer des intents
entre deux deux composants de deux applications diff´erentes apporte une surface
d’attaque suppl´ementaire. Dans [34], Chin et al. d´ecrivent en se basant sur
4. Empreinte MD5 :15e5143e1c843b4836d7b6d5424fb4a522 CHAPITRE 2. ETAT DE L’ART ´
leur analyse du fonctionnement des ^ıntents des sc´enarios d’attaques qui pourraient
exploiter cette surface d’attaque afin d’espionner les ´echanges de message
entre application, les bloquer, les modifier, ´elever ses privil`eges et influencer sur
le comportement d’une application.
Interception des messages diffus´es dans le syst`eme
Les broadcast intents sont des messages diffus´es dans tout le syst`eme.
Ils peuvent ainsi avoir un ou plusieurs destinataires. L’une des vuln´erabilit´es
qu’introduit ce type de communication est la possibilit´e d’observer les informations
diffus´ees dans le syst`eme et ´eventuellement les intercepter, bloquer
ou modifier. Lorsqu’une application diffuse un broadcast intent, elle d´efinit
un ensemble d’attributs qui permettent au syst`eme d’identifier les composants
BroadcastReceiver pr´esents dans le syst`eme qui attendent ce type de message.
Pour observer les messages attendus par le composant BroadcastReceiver
d’une application, il suffit ainsi `a une application malveillante de d´eclarer un
composant du mˆeme type avec le mˆeme intent-filter. Pour observer les
messages re¸cus par le composant BillingReceiver d´eclar´e dans le listing 2.2,
une application malveillante n’a qu’`a d´eclarer un composant du mˆeme type en
pr´ecisant que ce composant n’accepte que les intents avec un attribut action
dont la valeur associ´ee est com.android.vending.billing.RESPONSE CODE.
Un broadcast intent peut ˆetre transmis de mani`ere simultan´e `a tous les
destinataires ou en suivant un ordre. Dans le cas de ce dernier, l’intent est
transmis d’un composant `a l’autre dans un ordre d´efini par le syst`eme. Chaque
composant BroadcastReceiver peut ainsi modifier ou bloquer les informations
transmises avant que le message ne soit transmis au prochain destinataire. Si une
application malveillante se trouve au milieu de la chaˆıne de transmission, elle
peut donc modifier le contenu de l’intent ´emis et envoyer de fausses donn´ees
aux composants en attente du message. Elle peut ´egalement d´ecider de ne pas
faire suivre le message et empˆecher les autres composants de le recevoir.
D´etournement des intents `a destination des composants Activity et
Service
Lorsqu’une application ´emet un intent, il peut soit d´efinir explicitement le
destinataire soit laisser le syst`eme le d´efinir `a sa place. Dans le deuxi`eme cas,
l’´emetteur n’a aucune garantie sur l’identit´e du destinataire ce qui donne ainsi
la possibilit´e de d´etourner les messages du destinataire l´egitime. Une application
malveillante souhaitant intercepter un implicit intent n’a donc qu’`a d´eclarer
un composant ayant un intent filter correspondant `a l’intent qu’il souhaite
d´etourner. Par exemple, une application malveillante souhaitant d´etourner le
partage de page effectu´ee dans le listing 2.1 n’a qu’`a d´eclarer un composant
Activity avec un intent filter correspondant aux attributs de l’intent `a
intercepter : un attribut action et un attribut data auxquels sont associ´es
respectivement les valeurs ACTION SEND et text/plain.2.3. LIMITES DES MECANISMES DE S ´ ECURIT ´ E ANDROID ´ 23
Si le d´etournement est th´eoriquement possible, il n’a en r´ealit´e qu’une probabilit´e
de succ`es. Lorsqu’il existe plusieurs destinataires possibles de l’intent, un
choix qui est ind´ependant de l’application malveillante est effectu´e. Si l’intent
a ´et´e ´emis pour un composant de type Activity, le syst`eme demande `a l’utilisateur
de choisir le destinataire parmi la liste des applications pouvant recevoir
l’intent. Si l’intent a ´et´e ´emis pour un composant de type Service, le syst`eme
effectuera lui-mˆeme le choix et ce choix est effectu´e de mani`ere al´eatoire.
Vol/abus des permissions
Nous avons ´ecrit en section 2.1.2.2 que les intents pouvaient ´egalement servir
`a transmettre des permissions pour acc´eder `a des donn´ees au destinataire du
message. Positionner le flasg FLAG GRANT WRITE URI PERMISSION donne par
exemple l’acc`es en lecture aux donn´ees li´ees `a l’intent au destinataire du message.
Une application malveillante interceptant des intents transmettant des
permissions peut ainsi abuser de ces permissions et voler ou modifier les donn´ees
auxquelles les permissions donnent acc`es.
Intents malveillants
Le but de cette attaque est d’envoyer des requˆetes malveillantes `a traiter par
un composant cible. Un composant qui peut recevoir des intents d’autres applications
n’est pas seulement expos´e aux applications que son d´eveloppeur pensait
servir mais `a toutes applications sur le syst`eme. Cette exposition `a toutes les
applications du syst`eme offre ainsi une surface d’attaque aux applications malveillantes
qui elles aussi peut demander au composant de traiter une requˆete,
mˆeme si cette requˆete est malicieuse. Les navigateurs web sous Android ont par
exemple un composant Activity qui ouvre les URL `a la demande d’autres applications.
Cette fonctionnalit´e peut ainsi ˆetre d´etourn´ee par une application qui
n’a pas acc`es au r´eseau afin de faire fuir des donn´ees ou t´el´echarger des fichiers.
Pour cela l’application malveillante ´emettra un intent `a destination du navigateur
afin que ce dernier ouvre une adresse web. Les ´echantillons de BadNews [91]
utilisent par exemple cette approche afin de t´el´echarger des applications sur le
t´el´ephone.
2.3.4 Failles logicielles : ´el´evation de privil`ege
Comme tout programme, le syst`eme Android a ´egalement des failles logicielles.
Exploiter certaines d’entre elles permet d’´elever les privil`eges d’une application
et ainsi ex´ecuter des op´erations sensibles que nous ne pouvions faire.
Obtenir les droits root permet par exemple de modifier le contenu de la partition
system sous Android pour installer des applications syst`eme ou les remplacer.
Le noyau Android ´etant bas´e sur un noyau Linux, il h´erite ainsi de ses
vuln´erabilit´es. Certaines d’entre elles [5, 4] ont par exemple ´et´e exploit´ees obtenir
des acc`es root sur les t´el´ephones.24 CHAPITRE 2. ETAT DE L’ART ´
Des failles permettant d’´elever les privil`eges des applications existent ´egalement
dans l’espace utilisateur. D’apr`es les travaux de Y. Zhou et X. Jiang [113], six
vuln´erabilit´es permettant d’´elever les privil`eges des applications existaient au
moment de leur analyse (voir tableau 2.2) et quatre d’entre elles ´etaient effectivement
utilis´ees par les malware pour ´elever leurs privil`eges : Asroot [1],
exploid [31], RATC / Zimperlich [93] et GingerBreak [32]. Plus r´ecemment,
J. Forristal a pr´esent´e `a la Black Hat 2013 une vuln´erabilit´e [51] concernant la
v´erification des signatures des applications Android `a l’installation. La vuln´erabilit´e
permet d’installer une version modifi´ee d’une application dont la signature reste
celle de la version originale. Si la vuln´erabilit´e ne permet pas d’obtenir les droits
root (aucune application ne tourne avec l’UID root), elle rend cependant caduque
les protections offertes par la signature en section 2.2.2. Un d´eveloppeur
malveillant peut faire ex´ecuter son code avec les mˆemes droits que l’application
originale qu’il a modifi´ee. Il peut ´egalement faire tourner son code dans le
mˆeme processus ou avec le mˆeme UID qu’une autre application. S’il n’est pas
possible d’obtenir les droits root, il est cependant possible d’obtenir les droits
des applications system. Ces applications ont acc`es `a plus de permissions que
les applications tierces et de plus sont persistantes sur le syst`eme. Un utilisateur
ne peut les enlever sans avoir un acc`es root sur son t´el´ephone.
Bien que Google mette `a jour r´eguli`erement le code d’Android, les constructeurs
eux mettent plus de temps `a proposer des mises `a jour pour leur t´el´ephone.
La fenˆetre d’exploitation des vuln´erabilit´es est ainsi bien plus large que sur les
ordinateurs.
Nous avons pr´esent´e dans cette section, les limitations des m´ecanismes de
s´ecurit´e sous Android. Ces limitations peuvent ˆetre class´ees en trois groupes. Le
premier groupe concerne les limites de la s´ecurit´e offerte par les permissions. Le
second concerne les risques introduits par les communications entre composants
via les intents. Le troisi`eme groupe concerne les failles logicielles dans le code
d’Android qui permettent d’´elever les privil`eges des applications dans le syst`eme.
Dans la section suivante, nous pr´esentons les malware Android et les menaces
qu’ils repr´esentent.
2.4 Malware Android
2.4.1 D´efinitions
Nous appelons malware un programme ou un code dont le but est de nuire
`a un syst`eme donn´e. Dans le reste du document nous ferons souvent usage des
termes ´echantillon de malware et famille de malware. Un ´echantillon d’un malware
est une application, comprendre ici application Android correspondant `a
un fichier apk, qui contient ce malware. Quant `a une famille de malware, il s’agit
de l’ensemble des ´echantillons d’un malware. Analyser un malware revient ainsi2.4. MALWARE ANDROID 25
`a analyser un ou plusieurs de ses ´echantillons afin d’extraire des informations
li´ees au malware et d´etecter un malware revient `a d´ecider si une application
donn´ee est un ´echantillon d’un malware.
Les premiers travaux qui ont consist´e `a dresser un bilan des menaces que
repr´esentent les malwares Android sont les travaux de Y. Zhou et X. Jiang
dans [113]. Leurs travaux sont bas´es sur l’analyse de plus de 1200 ´echantillons
de malware qu’ils ont collect´e de 2010 `a 2011. Dans ce qui suit, nous pr´esentons
les r´esultats de cette analyse et l’enrichissons avec une analyse plus r´ecente bas´ee
sur les menaces que repr´esentent les malware Android en 2013.
2.4.2 Malwares Android : 2010 `a 2011 [113]
M´ethode d’infection
Pour infecter les t´el´ephones des utilisateurs, les d´eveloppeurs de malware
ajoutent leur code malveillant `a des applications existantes et proposent leur
version modifi´ee sur des plateformes de t´el´echargement : Google Play ou toute
autre plateforme alternative. Les applications infect´ees sont pr´esent´ees comme
une version gratuite d’une application payante ou des versions avec plus de fonctionnalit´es.
86% des ´echantillons r´ecolt´es sont ainsi des applications originales
auxquelles un code malveillant a ´et´e ajout´e. Le type d’application infect´ee est
vari´e : application payante, jeux populaires, outils tels que des mises `a jour de
s´ecurit´e ainsi que des applications pour adultes. Un des ´echantillons de DroidKungFu2
est par exemple une version modifi´ee d’une application simulant un
scanner d’empreinte pour d´everrouiller le t´el´ephone. En arri`ere plan, le code
malveillant exploite une vuln´erabilit´e [92, 93] pour ´elever ses privil`eges et installer
des binaires sur le t´el´ephone `a l’insu de l’utilisateur.
Tout le code malveillant ne se trouve pas forc´ement ajout´e `a l’application
originale. Certains ´echantillons ne contiennent ainsi qu’une partie du code malveillant
dont le reste sera r´ecup´er´e `a l’ex´ecution. Ce dernier peut ˆetre stock´e
en tant que ressource de l’application ou sur un serveur distant que l’application
infect´ee devra t´el´echarger. L’avantage ´etant que le code malveillant ne
pourra ˆetre d´etect´e lors de la soumission de l’application sur les plateformes de
t´el´echargement. Les ´echantillons d’AnserverBot [112] ont ainsi une charge cach´ee
en tant qu’image dans les ressources des applications et r´ecup`erent ´egalement
une autre application malveillante sur un serveur distant.
D´eclenchement du code malveillant
Le d´eclenchement du code malveillant ne se fait pas forc´ement d`es le lancement
de l’application. Le code malveillant peut attendre des ´ev`enements
sp´ecifiques tels que l’arriv´ee d’un sms ou l’´ecoulement d’un certain laps de temps
avant de s’ex´ecuter. Parmi les ´ev`enements les plus utilis´es pour d´eclencher le
code malveillant, nous pouvons citer la fin d’initialisation au d´emarrage du26 CHAPITRE 2. ETAT DE L’ART ´
Programme
vuln´erable
Exploit Date Malware les
utilisant
Noyau Asroot 2009/08/16 Asroot
init (ď 2.2) Exploid 2010/07/15 DroidDream,
zHash, DroidKungFu*
adbd (ď 2.2.1)
zygote
(ď 2.2.1)
RATC / Zimperlich 2010/08/21
2011/02/24
DroidDream,
BaseBridge,
DroidKungFu,
DroidDeluxe,
DroidCoupon
ashmem
(ď 2.2.1)
KillingInTheNameOf 2011/01/06 Aucun
vold (ď 2.3.3) GingerBreak 2011/04/21 GingerMaster
libsysutils
(ď 2.3.6)
zergRush 2011/10/10 Aucun
Table 2.2 – Exploits root connus et leur usage par les malware Android de
2010 `a 2011
syst`eme. Quand le syst`eme est prˆet `a ex´ecuter des applications Android, il
le signale en envoyant un intent avec le message boot completed `a tous
les composants BroadcastReceiver `a l’´ecoute cet ´ev`enement. Les autres messages
´ev`enements servant de d´eclencheur sont la r´eception de message, les appels,
les ´ev`enements li´es aux applications (ex : ajout, suppression, mise `a jour
et red´emarrage), l’´etat de la batterie, l’´etat de la connectivit´e r´eseau, et des
´ev`enements syst`emes (ex : carte sim remplie, changement de clavier). Le d´eveloppeur
du code malveillant ajoute un composant de type BroadcastReceiver pour intercepter
l’un de ces ´ev`enements et ex´ecuter par la suite le code malveillant.
Actions effectu´ees
Les actions effectu´ees par les codes malveillants peuvent ˆetre r´eparties dans
quatre groupes : ´el´evation de privil`ege, contrˆole `a distance, charge financi`ere et
vol de donn´ees.
Comme ´evoqu´e en section 2.2.2, Android poss`ede des vuln´erabilit´es qui sont
exploit´ees par les d´eveloppeurs malveillants pour effectuer des op´erations sensibles.
Le tableau 2.2 montre d’ailleurs une tendance `a utiliser les exploits
exploid [31], RageAgainstTheCage [92] et Zimperlich [93] afin ´elever les privil`eges
des applications malveillantes durant l’attaque. Le but de cette ´el´evation
de privil`eges est d’effectuer des op´erations sensibles telles que monter la partition
system avec l’option d’´ecriture pour y installer de nouvelles applications.
1172 ´echantillons soit 93% des ´echantillons analys´es sont contrˆolables `a distances.
Plus pr´ecis´ement, 1171 ´echantillons utilisent le protocole HTTP pour recevoir
des commandes des serveurs de commande et contrˆole C&C. Les adresses2.4. MALWARE ANDROID 27
des serveurs sont stock´ees en clair ou chiffr´ees dans le code.
En dehors des ´el´evations de privil`eges et communication avec des serveurs
de C&C, les ´echantillons analys´es peuvent imputer des charges financi`eres `a
l’utilisateur. Android tournant principalement sur les smartphones, les applications
ont ainsi acc`es aux fonctions d’appels et de sms. 4.4% des ´echantillons
´etudi´es envoient ainsi des messages `a des num´eros surtax´es. Les num´eros sont
soit stock´es en dur dans le code de l’application soit r´ecup´er´es `a partir des
serveurs de C&C.
En plus des actions pr´ec´edentes, les malware r´ecup`erent ´egalement les donn´ees
sensibles sur le t´el´ephone. Les donn´ees cibl´ees sont principalement les sms, la
liste de contact, et les informations sur le compte de l’utilisateur. SndApps [62]
collecte par exemple les adresses courriel de l’utilisateur et les envoie vers un
serveur distant.
Evolution des malware ´
Si les premiers malware Android sont simples, l’analyse effectu´ee dans [113]
montre que les techniques utilis´ees tendent `a se complexifier : charge utile, techniques
contre l’analyse d’application, serveurs C&C.
Tout le code malveillant est int´egr´e dans une mˆeme application dans les
premiers malware. L’analyse des ´echantillons r´ecolt´es montre une tendance `a le
diviser, mettre une partie dans l’application servant `a l’infection et le reste des
morceaux dans une ou plusieurs charges utiles. Ces charges sont int´egr´ees directement
dans l’application ayant servi `a infecter le t´el´ephone ou t´el´echarger et
apr`es l’installation de l’application. Les ´echantillons de DroidKungFu ont ainsi
deux charges utiles cach´ees en tant que ressources des applications infect´ees qui
seront install´ees dans la partition system une fois l’´echantillon lanc´e. L’installation
de ces charges sur le t´el´ephone offre une pr´esence constante sur le t´el´ephone
mˆeme si la premi`ere application est enlev´ee du t´el´ephone. De plus, si les applications
sont install´ees sur la partition syst`eme, il n’existe aucun moyen pour
l’utilisateur de les enlever sans avoir les droits root sur le t´el´ephone.
Afin d’´eviter toute d´etection, les d´eveloppeurs de malware utilisent diverses
techniques telles que le chiffrement des charges utiles, le chiffrement de certaines
valeurs utilis´ees par le malware, l’usage de techniques d’obfuscation de
code et l’usage de code natif. Le chiffrement permet de cacher la nature exacte
des donn´ees manipul´ees (ex : adresses des serveur de C&C) par l’application
et r´eduit ainsi la possibilit´e de d´etection. Les d´eveloppeurs de DroidKungFu1
chiffrent ainsi les charges utiles de leur malware afin que leur malware ne soit
d´etect´e facilement. Si une cl´e de chiffrement diff´erente est utilis´ee par chaque
´echantillon, l’analyse sera encore plus compliqu´ee. Certains d´eveloppeurs de
malware obfusquent ´egalement leur code afin de complexifier son analyse [39].
Ils modifient par exemple le nom des m´ethodes et des classes Java de l’application.
Il est cependant `a noter que le kit de d´eveloppement Android (Android
SDK) contient un outil fournissant le mˆeme type de service [87]. L’usage de code
natif complexifie ´egalement l’analyse des applications. En effet, la plupart des
outils d’analyse d’application Android se concentrent uniquement sur le code28 CHAPITRE 2. ETAT DE L’ART ´
´ecrit en Java car c’est le langage principal pour d´evelopper une application Android.
En utilisant du code natif, les d´eveloppeurs de malware se donnent ainsi
la possibilit´e de cacher une partie du code malveillant durant l’analyse.
Certains malware int`egrent ´egalement des modules cens´es pr´evenir toute
d´etection. Les ´echantillons d’AnserveBot analysent ainsi son environnement
d’ex´ecution `a la recherche d’antivirus pour Android. De plus, ces ´echantillons
tirent ´egalement profit du chargement dynamique de code [36]. Le code des
applications Android se trouve dans le fichier classes.dex de leur apk. Ce
m´ecanisme permet de charger du code en dehors de ce fichier et ce de mani`ere
dynamique rendant l’analyse de l’application plus difficile. D’autres malwares
v´erifient ´egalement que le code n’a pas ´et´e modifi´e pour d´etecter toute tentative
d’analyse du code. AnserveBot v´erifie par exemple l’int´egrit´e de son code avant
de lancer le code malveillant.
Enfin, l’analyse montre ´egalement l’usage des serveurs de C&C afin de contrˆoler
le comportement des ´echantillons de malware. Le comportement exact des
premiers malware sont dict´es `a l’avance par leur d´eveloppeur. Durant leur analyse,
Y Zhou et X Jiang ont cependant constat´e que dans le cas de certains
malware, leur comportement ´etait plutˆot dict´e par un serveur distant. Le malware
se connectait ainsi p´eriodiquement au serveur qui lui envoyait par la suite
l’action qu’il devait ex´ecuter. Sur les 49 malwares ´etudi´es, 27 utilisent ainsi un
serveur de C&C pour recevoir les commandes `a ex´ecuter sur le t´el´ephone infect´e.
L’usage de telles approches permet aux d´eveloppeurs de garder une flexibilit´e
sur les diff´erentes actions `a ex´ecuter et les faire ´evoluer en cas de besoin.
2.4.3 Malwares Android en 2013
Si les travaux de [113] pr´esent´es pr´ec´edemment concernent uniquement les
malwares de 2010 `a 2011, la r´ecente analye de V. Chebyshev et R. Unuchek
dans [33] montre une continuit´e dans les types d’action men´ee par les malware.
La distribution des malwares se fait toujours via les plateformes de t´el´echargement
ou les serveurs de C&C. A cela s’ajoute, l’usage des techniques telles `
que le drive-by download qui consiste `a faire t´el´echarger automatiquement puis
installer une application au t´el´ephone lorsque l’utilisateur visite une page web.
L’usage de techniques contre les protections anti-malware s’intensifie ´egalement.
L’´etude montre ainsi que les d´eveloppeurs de malware continuent leur
investissement dans les diverses techniques d’obfuscation de code. Un outil commercial
d’obfuscation de code aurait ´et´e par exemple utilis´e sur Opfak.bo et
Obad.a [98]. Obad.a est consid´er´e comme le malware Android le plus complexe
`a ce jour. Parmi les caract´eristiques de ce malware, nous pouvons citer l’introspection,
le chiffrement de chaine des chaines de caract`eres, l’exploitation de
vuln´erabilit´es qui affectent le syst`eme Android et dex2jar qui est un outil utilis´e
pour analyser les applications Android. Plus pr´ecis´ement, cet outil transforme
le bytecode dalvik en bytecode Java permettant par la suite d’obtenir un code
Java “´equivalent“. Selon wikibooks [12], “la r´eflexion permet l’introspection des
classes, c’est-`a-dire de charger une classe, d’en cr´eer une instance et d’acc´eder
aux membres statiques ou non (appel de m´ethodes, lire et ´ecrire les attributs)2.4. MALWARE ANDROID 29
sans connaˆıtre la classe par avance“. Le listing 2.3 pr´esente un bout code en
Java utilisant la r´eflexion et son ´equivalent sans r´eflexion. . La deuxi`eme ligne
initialise la variable foo en une instance de la classe Foo et est ´equivalente `a
la septi`eme ligne. La troisi`eme et la quatri`eme lignes initialisent r´ecup`erent la
m´ethode hello de foo et l’invoque. Elles correspondent `a la huiti`eme ligne.
1 // Avec reflexion
2 Object foo = Class.forName("complete.classpath.and.Foo").
3 newInstance();
4 Method m = foo.getClass().getDeclaredMethod("hello",
5 new Class>[0]);
6 m.invoke(foo);
7
8 // Sans reflexion
9 Foo foo = new Foo();
10 foo.hello();
Listing 2.3 – Exempe de code Java avec et sans r´eflexion
L’usage des vuln´erabilit´es reste toujours d’actualit´e au niveau des malware.
Les raisons principales de cet usage est la n´ecessit´e d’effectuer des actions
sensibles sans validation de l’utilisateur (ex : installation d’application sur le
t´el´ephone) ou le maintien d’une pr´esence pertinente du malware sur l’appareil
(ex : installation d’une application dans la partition system afin d’empˆecher
sa d´esinstallation 5
). Parmi les vuln´erabilit´es ´emun´er´es par les auteurs, il y a
la vuln´erabilit´e Master Key [51] et celle li´ee aux applications avec les droits
d’administration sur le t´el´ephone.
La vuln´erabilit´e Master Key permet de modifier une application existante
sans que la modification ne soit d´etect´ee lors de la v´erification de la signature de
l’application (section 2.2.2.2). Pour exploiter cette vuln´erabilit´e, le d´eveloppeur
malveillant ajoute de nouveaux fichiers `a l’apk tel que chaque nouveau fichier
ait le mˆeme nom qu’un fichier existant dans l’apk d’origine. Il peut par exemple
ajouter un autre fichier nomm´e classes.dex. Une fois les nouveaux fichiers
ajout´es, il publie l’apk modifi´e tout en gardant la signature de l’apk d’origine.
A cause de la vuln´erabilit´e, le syst`eme ne remarque pas l’existence des doublons `
dans l’apk et v´erifie uniquement l’int´egrit´e des fichiers qui ´etaient pr´esents dans
l’apk d’origine tandis qu’`a l’installation il installera les fichiers ajout´es par le
d´eveloppeur malveillant. Cette vuln´erabilit´e a deux cons´equences directes. La
premi`ere est le vol de l’identit´e des d´eveloppeurs dont l’application a ´et´e modifi´ee.
En gardant la signature de l’application originale, le d´eveloppeur malveillant
se cache derri`ere l’identit´e des d´eveloppeurs des applications modifi´ees.
Le risque pour ces derniers est d’ˆetre accus´e `a tord comme ´etant malveillant et
voir toutes leurs applications supprim´ees des plateformes de t´el´echargement tels
5. Un utilisateur ne peut d´esinstaller les applications dans la partition system car cette
partition est mont´ee en lecture seule30 CHAPITRE 2. ETAT DE L’ART ´
que Google Play. La deuxi`eme cons´equence de cette vuln´erabilit´e est la possibilit´e
de contourner toutes les m´ecanismes de s´ecurit´e bas´ees sur les signatures
de applications. En plus de servir `a la v´erification de l’int´egrit´e des applications
`a leur installation, les signatures servent ´egalement `a appliquer des contraintes
sur certaines demandes des applications. Ils peuvent par exemple servir `a restreindre
les applications `a qui une permission peut ˆetre accord´ee (tableau 2.1)
ou les applications qui ont le droit de partager le mˆeme utilisateur. En gardant
la signature de l’application qu’il a modifi´ee, le d´eveloppeur malveillant s’assure
ainsi que sa version modifi´ee de l’application ait les mˆemes privil`eges que
l’application d’origine.
La deuxi`eme vuln´erabilit´e permet de garder une pr´esence persistante sur le
t´el´ephone grˆace aux droits d’administration. Lorsqu’une application obtient les
droits d’administration sur le t´el´ephone, il devient impossible pour l’utilisateur
de lui r´evoquer ces droits ou le d´esinstaller. Si jamais l’utilisateur tentait de
r´evoquer les droits d’administration, le syst`eme se contentait de masquer le fait
que l’application poss`ede ces droits mais ne les r´evoquait pas. L’application
reste ainsi install´ee sur le t´el´ephone avec les droits d’administration sans que
l’utilisateur ne soit au courant.
Si les diff´erents types d’attaque pr´esent´es dans [113] restent toujours d’actutait´e,
l’analyse montre cependant une tendance pour les attaques ayant un
impact financier sur l’utilisateur. Aux applications abusant des services de SMS
en envoyant des messages `a des num´eros surtax´es s’ajoutent ainsi les applications
se faisant passer pour des applications bancaires afin de voler les donn´ees
bancaires des utilisateurs telles que leur num´ero de compte.
2.5 Renforcement de la s´ecurit´e sous Android
2.5.1 Protection des ressources sensibles
2.5.1.1 TaintDroid
Dans [46], Enck et al. pr´esentent TaintDroid une version modifi´ee d’Android
capable de suivre les flux d’information dans le syst`eme. Le but de leur travail
est d’´etudier si les applications Android font fuir des donn´ees sensibles vers des
entit´es distantes. Pour cela, ils s´electionnent un ensemble d’informations qu’ils
jugent sensibles telles que la liste de contact et les donn´ees de g´eolocalisation
et observent comment elles se propagent dans le syst`eme. Ils ont analys´e 30 des
applications les plus populaires de Google Play et ont montr´e que 2{3 d’entre
elles faisaient fuir des informations sensibles vers des serveurs distants.
Pour suivre les flux d’information dans le syst`eme, ils utilisent une m´ethode
dite de tainting qui consiste `a marquer les informations sensibles afin d’en suivre
la propagation. Chaque fois qu’une information sensible se propage, le conteneur
destination re¸coit la marque de l’information sensible pour caract´eriser son nouveau
contenu. Dans TaintDroid, le suivi de flux d’information se fait `a diff´erents
niveaux : `a l’int´erieur de l’application, entre les applications et entre applications
et fichiers du syst`eme. Pour suivre les flux `a l’int´erieur des applications, Enck et2.5. RENFORCEMENT DE LA SECURIT ´ E SOUS ANDROID ´ 31
al. ont modifi´e la machine virtuelle Dalvik. Lorsqu’une application Android est
ex´ecut´ee, son code est interpr´et´e par la machine virtuelle Dalvik. TaintDroid suit
ainsi les flux d’information entre les conteneurs d’information que la machine
Dalvik utilisent. Ces conteneurs sont les variables locales d’une m´ethode, ses
param`etres, les champs statiques d’une classe, les champs des instances d’une
classe et les tableaux. A chaque fois qu’une instruction d´ecrivant un flux d’in- `
formation explicite entre deux ou plusieurs conteneurs est interpr´et´ee par la
machine virtuelle Dalvik, TaintDroid consid`ere que le conteneur destination du
flux contient le m´elange des informations provenant des conteneurs source. Par
exemple, l’affectation `a la variable vs de la valeur de la variable vd une mise `a
jour de la marque associ´ee vs. Lorsque cette affectation est interpr´et´ee par la
machine virtuelle Dalvik, TaintDroid consid`ere que vs les informations contenues
dans vs ont ´et´e remplac´ees par celles dans vd et TaintDroid affecte ainsi la
marque associ´ee `a vd `a vs.
Le suivi de flux d’information entre les applications et entre une application
et un fichier est plus simple. Le suivi de flux d’information entre les applications
est assez trivial. Comme il existe un ensemble de classes et de m´ethodes
Java fourni par Android pour impl´ementer les m´ecanismes de communication,
TaintDroid se contente de marquer les objets avec un contenu sensible quand ils
sortent d’une application et `a marquer le destinataire d’une information provenant
d’une application externe `a l’application. Les marques de chaque conteneur
sont stock´es dans une m´emoire adjacente au conteneur et propag´ees `a chaque
fois que ces conteneurs sont envoy´ees vers d’autres application. Quant aux flux
d’information entre une application et un fichier, TaintDroid utilise les attributs
´etendus. Les attributs ´etendus sont des fonctionnalit´es offertes par les syst`emes
de fichier tels que ext2/ext3/ext4 (syst`eme de fichier utilis´e principalement sur
Android) permettant de stocker des m´eta-donn´ees li´ees aux fichiers. TaintDroid
stocke ainsi dans les attributs ´etendus d’un fichier les marques des informations
sensibles qu’il contient. Lorsqu’une application acc`ede `a un fichier, TaintDroid
met `a jour la marque associ´ee au fichier (´ecriture) ou `a la variable recevant le
contenu du fichier (lecture).
Si TaintDroid est capable de suivre les flux d’information dans une application,
entre les applications Android et entre une application et un fichier,
sa port´ee est cependant limit´ee aux applications ´ecrites en Java. En effet, le
m´ecanisme de suivi de flux dans TaintDroid repose principalement sur la machine
virtuelle Dalvik. Or, il est possible d’utiliser du code natif sous Android.
Cela se fait, soit en utilisant le m´ecanisme de JNI [86] soit en ex´ecutant une
application compil´ee en code natif. Lorsque ces cas se pr´esentent, TaintDroid
devient ainsi incapable de suivre les flux d’information caus´es par le code natif
car il n’est pas interpr´et´e par la machine virtuelle Dalvik.
2.5.1.2 Contrˆole d’acc`es aux ressources sensibles `a l’ex´ecution : MockDroid
et AppFence
Sous Android, l’utilisateur valide les permissions `a l’installation des applications.
A l’ex´ecution, il n’a plus aucun contrˆole sur les acc`es et ne peut que faire `32 CHAPITRE 2. ETAT DE L’ART ´
confiance aux applications pour ne pas utiliser de mani`ere malintentionn´ee les
ressources et donn´ees auxquelles elles ont acc`es. Afin de palier cette limite d’Android,
MockDroid [24] et AppFence [59] proposent `a l’utilisateur de contrˆoler
l’acc`es effectu´e par les applications durant leur ex´ecution. Lorsqu’une application
souhaite acc´eder `a une donn´ee ou ressource sensible, le syst`eme demande
une validation de la part de l’utilisateur. L’acc`es aux informations et ressources
sensibles se font via des fonctions de l’API Android. Les auteurs de MockDroid
et d’AppFence ont ainsi modifi´e Android afin d’intercepter les appels `a ces fonctions
et introduire le m´ecanisme de validation lors de leur appel. Selon l’information
ou la ressource demand´ee par l’application, si l’utilisateur lui en refuse
l’acc`es, le syst`eme soit lui notifiera son indisponibilit´e ou son inexistence, soit
lui renverra une donn´ee factice. Les informations et ressources sensibles dont
l’acc`es est renforc´e sont les donn´ees de g´eolocalisation, la liste de contact, les
informations li´ees `a l’identit´e du t´el´ephone, les SMS, l’envoi de message de type
broadcast intent (MockDroid), les journaux d’´ev`enement (AppFence) et les
donn´ees de navigation internet (AppFence).
En cas de refus d’un acc`es `a une information sensible, MockDroid et AppFence
renvoient une donn´ee vide `a l’application. L’exception est l’acc`es aux
donn´ees identifiant l’appareil. En cas de refus, le syst`eme renverra une donn´ee
factice `a l’application. Dans AppFence l’exception s’´etend aux donn´ees de g´eolocalisation
o`u le syst`eme enverra les mˆemes coordonn´ees factices `a chaque fois.
En cas de refus d’un acc`es r´eseau, le syst`eme simule l’indisponibilit´e du r´eseau.
AppFence fait par exemple croire `a l’application que le t´el´ephone est en mode
avion.
Si AppFence et MockDroid ont les mˆemes objectifs et approches, la diff´erence
entre les deux r´eside dans le fait qu’AppFence propose ´egalement un meilleur
m´ecanisme pour prot´eger les fuites de donn´ees vers des serveurs distant. Pour
empˆecher toute fuite de donn´ee, MockDroid simulera l’indisponibilit´e du r´eseau
`a toute tentative de connexion. AppFence propose une approche plus fine en
demandant uniquement une validation quand une donn´ee sensible est susceptible
de quitter le syst`eme. Pour ce faire, AppFence int`egre le m´ecanisme de suivi de
flux d’information impl´ement´e dans TaintDroid [46]. TaintDroid est capable de
suivre les flux d’information au sein d’une application, entre les applications et
entre les applications et les fichiers. Ainsi AppFence ne demande la validation
de l’utilisateur uniquement quand les flux observ´es au sein d’une application
indiquent une fuite d’information vers l’ext´erieur. Si c’est le cas et en cas de
refus de l’utilisateur, AppFence bloquera l’envoi en simulant l’indisponibilit´e du
r´eseau ou omettra l’envoi des donn´ees sensibles tout en faisant croire le contraire
`a l’application.
2.5.1.3 Protection de contenu : Porscha
Dans [79], Ongtang et al. proposent un m´ecanisme de protection de contenu
pour Android du nom de Porscha. Porscha permet de lier des donn´ees sensibles
`a un appareil et un ensemble d´efini d’applications. A l’´emission d’un contenu `
sensible, sa source lui associe une politique de s´ecurit´e qui d´efinit les destina-2.5. RENFORCEMENT DE LA SECURIT ´ E SOUS ANDROID ´ 33
taires du contenu et les conditions sous lesquelles le contenu peut ˆetre acc´ed´e.
Une politique peut par exemple ˆetre une liste d’empreinte MD5 des applications
autoris´ees `a acc´eder au contenu prot´eg´e ainsi que des coordonn´ees GPS
auxquelles le t´el´ephone doit se trouver au moment de l’acc`es au contenu. Le
contrˆole d’acc`es aux donn´ees sensibles se fait `a diff´erents niveaux : `a la transmission
des donn´ees vers le t´el´ephone et la transmission des donn´ees aux applications
sur le t´el´ephone. Pour prot´eger le contenu lors de sa transmission vers
un t´el´ephone, Ongtang et al. proposent de chiffrer le message en utilisant un
syst`eme de chiffrement bas´e sur l’identit´e du destinataire [27]. Dans leur travail,
l’identit´e est soit le num´ero du t´el´ephone soit une adresse mail. Les messages
contenant un contenu prot´eg´e sont ainsi chiffr´es et ne peuvent ˆetre lus que par
leurs destinataires.
Sur le t´el´ephone, Porscha v´erifie l’acc`es aux donn´ees sensibles en ajoutant
des points de contrˆole dans les m´ecanismes de communication Android : `a la
transmission des donn´ees sensibles aux applications de messagerie et lors des
communications entre applications. A la r´eception des MMS et des courriels, `
Porscha v´erifie si une politique de s´ecurit´e est associ´ee au contenu du message.
Si c’est le cas, il transmet uniquement le contenu du message aux applications
autoris´ees `a le recevoir. Dans le cas des MMS, les applications non autoris´ees
ne recevront pas le message. Dans le cas des courriels, le message est transmis `a
toutes les applications courriels mais celles qui ne sont pas autoris´ees `a acc´eder
aux donn´ees sensibles ne recevront que le message vid´e de son contenu. Une fois
les donn´ees sensibles stock´ees sur le t´el´ephone, une application peut souhaiter
partager les donn´ees sensibles `a d’autres applications de confiance sur le syst`eme.
Afin de contrˆoler ce partage, Porscha contrˆole les communications et partages
de donn´ees utilisant les intents, les composants de type ContentProvider et
les appels de m´ethodes distantes. Pour prot´eger les donn´ees transmises via ces
m´ecanismes, une application attache la politique de s´ecurit´e des donn´ees au
message servant `a transmettre les donn´ees. Lors de la transmission du message,
Porscha v´erifie la pr´esence d’une politique de s´ecurit´e dans le message et si c’est
le cas limite la transmission aux destinataires autoris´es par la politique.
Pour r´esumer, le syst`eme de protection de contenu offert par Porscha permet
de d´efinir de mani`ere plus fine `a qui des donn´ees sensibles peuvent ˆetre
transmises et sous quelles conditions. Cependant, contrairement `a AppFence ou
TaintDroid qui suivent la propagation des informations dans tout le syst`eme
(applications ´ecrites en Java et fichiers), Porscha ne r´esout pas le probl`eme de
l’usage de l’information. En effet, Porscha ne prot`ege les donn´ees que lorsqu’elles
partent de leur application source (application partageant les donn´ees en leur
associant une politique de s´ecurit´e). Une fois que les donn´ees sont transmises
`a d’autres applications, il n’y a plus de contrˆole sur l’usage qui est en est fait.
Le destinataire peut ainsi faire fuir les donn´ees sans que le syst`eme ne soit au
courant.34 CHAPITRE 2. ETAT DE L’ART ´
2.5.1.4 AppIntent
Une fuite d’information ne signifie pas forc´ement qu’une attaque ait eu lieu.
Selon les cas, la fuite peut ˆetre intentionnelle (ex : partage de coordonn´ees
g´eographiques par messagerie), c’est-`a-dire faite par l’utilisateur mˆeme, ou ex´ecut´ee
par l’application sans r´eelle intervention de l’utilisateur. Dans le cas d’une
fuite intentionnelle, le risque d’une attaque est moindre. Dans le second cas,
fuite des donn´ees sans que l’utilisateur n’ait initi´e l’action, la probabilit´e qu’une
attaque ait lieu est ´elev´ee car l’utilisateur n’a pas conscience de la fuite.
Dans [106], Yang et al. pr´esentent AppIntent, un outil qui analyse les applications
Android afin de d´eterminer les ´ev`enements et entr´ees attendus par
une application et entraˆınant une fuite d’information. Le but d’AppIntent est
de fournir `a un analyste les ´ev`enements et entr´ees attendus par une application
menant `a la fuite d’une information afin que l’analyste puisse statuer de la
nature de la fuite : intentionnelle ou non (risque d’une attaque).
Pour calculer les ´ev`enements et entr´ees entraˆınant une fuite, l’outil analyse
statiquement le code de l’application. Dans un premier temps, il construit son
graphe de flux de contrˆole puis d´etermine `a partir de ce graphe les chemins
d’ex´ecution contenant une fuite d’information. Une fuite d’information est un
ensemble d’instruction qui r´ecup`erent une donn´ee sensible puis la fait fuir. Une
fois ces chemins calcul´es, AppIntent calcule la suite d’´ev`enements ainsi que
les entr´ees attendues qui m`enent `a l’ex´ecution de la fuite d’information. Les
´ev`enements sont les cr´eations et ex´ecutions des composants d’une application
(ex : cr´eation et ex´ecution d’un composant Activity ou la reprise d’ex´ecution du
composant) ainsi que les interactions avec l’interface utilisateur (ex : validation
d’un formulaire) et les entr´ees sont les donn´ees li´ees `a ces ´ev`enements tels que
les attributs d’un intent utilis´e pour lancer l’ex´ecution d’un composant ou les
valeurs des champs d’un formulaire.
A partir des ´ev`enements et entr´ees calcul´es, AppIntent cr´ee ensuite des tests `
unitaires qui correspondent qui ex´ecutent ces suites d’´ev`enement et donnent `a
l’application les entr´ees menant `a la fuite d’une information. Pour d´eterminer
de la nature des fuites d’information, l’analyste n’a ainsi qu’`a ex´ecuter ces tests
unitaires et statuer si lors de l’observation d’une fuite, les actions men´ees `a cette
fuite sont intentionnelles ou non.
Pour ´evaluer leur outil, Yang et al. ont analys´e 750 ´echantillons de malware
et 1000 applications parmi les plus populaires dans la section des applications
gratuites sur Google Play. Sur les 750 ´echantillons malware, AppIntent a d´etect´e
219 fuite de donn´ees non intentionnelles et 17 fuites intentionnelles (faites par
l’utilisateur). Quant aux applications de GooglePlay, AppIntent a d´etect´e 26 cas
de fuites de donn´ees non intentionnelles et 29 cas de fuites intentionnelles. En
comparaison, TaintDroid a d´etect´e moins de fuites de donn´ees : 125 dans le cas
des ´echantillons de malware et 40 pour les applications de Google Play.2.5. RENFORCEMENT DE LA SECURIT ´ E SOUS ANDROID ´ 35
2.5.2 Communication entre processus et entre composants
La d´el´egation d’une partie de l’attaque `a d’autres applications pr´esentes
sur le syst`eme et la collaboration entre applications permettent aux applications
malveillantes de cacher leur v´eritable nature aux yeux des utilisateurs.
Par exemple, une application demandant acc`es aux photos, aux donn´ees de
g´eolocalisation, `a la liste de contacts et `a internet paraˆıt suspecte car elle poss`ede
assez de permission pour faire fuir les donn´ees li´ees `a l’utilisateur. Par contre, la
mˆeme application avait l’acc`es internet en moins paraˆıt moins suspecte car rien
n’indique qu’elle pourrait communiquer avec une entit´e distante. Or comme nous
l’avons expliqu´e dans la section ??, les applications peuvent utiliser d’autres
applications ou collaborer avec d’autres applications pour mener une action
qu’elles ne pouvaient faire toutes seules. Dans ce qui suit, nous pr´esentons ainsi
les travaux visant `a bloquer ce type d’attaque sur Android en contrˆolant les
communications entre applications.
2.5.2.1 ComDroid
Nous avons pr´esent´e en section 2.3.3 le r´esultat d’une analyse sur les vuln´erabilit´es
introduites par les communications bas´ees sur les intents. Pour d´etecter
ces vuln´erabilit´es, Chin et al. ont ainsi pr´esent´e dans [34] un outil d’analyse d’application
du nom de ComDroid. ComDroid effectue deux types d’analyse sur le
code des applications et leur fichier AndroidManifest.xml.
La premi`ere analyse consiste `a analyser le code des applications. Durant cette
analyse, ComDroid ´etudie comment les intents sont cr´e´es puis ´emis par une application.
ComDroid ´emet une alerte `a chaque fois qu’il d´etecte qu’un implicit
intent est ´emis avec une restriction trop faible sur les destinataires. Une restriction
est faible si aucun filtrage bas´e sur les permissions du destinataire n’est
impos´e ou si les permissions impos´ees sont de type normal (voir tableau 2.1).
Une permission de type normal est une permission automatiquement accord´ee
`a toute application la demandant.
La deuxi`eme analyse consiste `a analyser les composants des applications afin
de d´eterminer s’il y a un risque que les composants re¸coivent des requˆetes malveillantes
via les intents. ComDroid consid`ere qu’il y a une possibilit´e pour
qu’un composant soit vuln´erable si ce dernier peut recevoir des intents provenant
d’autres applications 6
telles qu’il n’y ait aucune restriction bas´ee sur les
permissions ou une restriction trop faible sur les ´emetteurs de l’^ıntent. Tout
comme dans la premi`ere analyse, une restriction trop faible bas´ee sur les permissions
est une restriction bas´ee uniquement sur les permissions de type normal.
Si l’analyse des communications via les intents montre les risques que
ces communications introduisent, il n’existe cependant pas de m´ethode pour
d´eterminer si ce qui a ´et´e d´etect´e comme un risque de s´ecurit´e est une vuln´erabilit´e
de l’application ou une fonctionnalit´e impl´ement´ee par le d´eveloppeur. En effet,
le fait qu’un implicit intent soit utilis´e ou qu’un composant soit expos´e
au reste du syst`eme peut traduire une volont´e de s’adapter aux applications
6. Un attribut exported ou un intent filter est d´efini pour le composant36 CHAPITRE 2. ETAT DE L’ART ´
pr´esentes dans le syst`eme. L’exemple typique est l’ouverture d’une page web `a
partir d’une application autre que le navigateur.
Du cˆot´e du d´eveloppeur de l’application demandant l’ouverture de la page
web, le choix d’envoyer un implicit intent au lieur de d´efinir explicitement le
navigateur permet de s’assurer que le lien soit ouvert qu’importe le navigateur
sur le syst`eme. Il existe plusieurs navigateurs web sur Android (ex : Google
Chrome et Firefox) et l’utilisateur a la possibilit´e de choisir quel navigateur
installer et utiliser sur le t´el´ephone. D´efinir explicitement le destinataire de la
requˆete pour ouvrir le lien revient ainsi `a courir le risque que le lien ne soit pas
ouvert car le navigateur cibl´e n’est pas pr´esent sur le t´el´ephone. Au contraire,
en envoyant un implicit intent que tous les navigateurs peuvent recevoir,
le d´eveloppeur s’assure que le lien sera ouvert s’il existe un navigateur sur le
t´el´ephone.
Le mˆeme choix se pr´esente ´egalement aux d´eveloppeurs de navigateurs web.
En exposant leur navigateur `a toute application pr´esente dans le syst`eme, les
d´eveloppeurs s’assurent que leur application soit compatible avec toute application
souhaitant ouvrir une page web.
2.5.2.2 Saint
Les permissions sont les bases du filtrage des communications entre applications
Android pour prot´eger l’acc`es `a des ressources sensibles. Le contrˆole de
leur attribution et de leur usage est cependant assez faible sur Android. En
effet, une application ne peut restreindre l’attribution d’une permission qu’elle
a d´eclar´ee `a l’installation d’une nouvelle application qu’en d´eclarant la permission
comme ´etant signature. Dans ce cas, la permission n’est accord´ee que si
l’application la demandant a ´et´e sign´ee par le mˆeme d´eveloppeur que celui de
l’application l’ayant d´eclar´ee. Une fois l’application demandant la permission
install´ee sur le t´el´ephone, il n’existe ´egalement aucune restriction sur son usage.
Le d´eveloppeur d’une application pourrait par exemple souhaiter que les applications
communiquant avec la sienne ne puisse le faire que dans des contextes
pr´ecis tels qu’une plage d’horaire.
Partant de ce constat, Ongtang et al. proposent dans [80] une extension de
s´ecurit´e `a Android du nom de Saint dont le but est de donner plus de contrˆole
sur l’attribution des permissions et leur usage. L’apport de Saint consiste en un
module permettant des restrictions suppl´ementaires en plus des permissions `a
l’installation des applications et `a leur ex´ecution, ou plus pr´ecis´ement lors des
communications entre processus.
Saint permet aux applications de d´efinir une politique de s´ecurit´e qui contrˆole
l’attribution des permissions prot´egeant leurs interfaces `a l’installation. Par
d´efaut, la seule mani`ere de limiter l’´eligibilit´e d’une application pour l’obtention
d’une permission est de d´eclarer cette derni`ere comme ´etant de type signature
7
. Ce type de permission n’est accord´ee qu’aux applications sign´ees avec
la mˆeme cl´e que l’application ayant d´eclar´e la permission. Grˆace `a Saint, les
7. Voir le tableau 2.1 pour la liste des types de permission2.5. RENFORCEMENT DE LA SECURIT ´ E SOUS ANDROID ´ 37
applications peuvent d´eclarer des restrictions plus fine sur l’attribution des permissions
`a l’installation. Elles peuvent ainsi imposer une restriction sur une
liste d´eveloppeurs au lieu d’un seul qui est le d´eveloppeur de l’application ayant
d´eclar´ee la permission, les autres permissions demand´ees par l’application, son
num´ero de version, etc. La politique d’attribution d´efinit un comportement par
d´efaut (attribuer ou refuser) et les crit`eres qui y font exception. Une application
peut ainsi d´eclarer qu’une permission n’est accord´ee `a une autre application que
si elle satisfait un ensemble de conditions ou `a l’inverse d´eclarer que la permission
est accord´ee `a toute application sauf celles qui satisfont cet ensemble de
conditions.
A l’ex´ecution, Saint permet aussi de contrˆoler les communications entre `
applications en d´efinissant grˆace aux mˆemes types de politique de s´ecurit´e.
L’´emetteur et le destinataire peuvent tout deux d´efinir cette politique. Comme
`a l’installation, l’application d´efinit un comportement par d´efaut (autoriser ou
bloquer) et les conditions qui y font exception. La diff´erence par rapport `a
l’installation est que l’application peut d´efinir des contextes d’ex´ecution comme
condition dans la politique. Ces contextes peuvent par exemple ˆetre des plages
horaires, l’´etat de connexion au r´eseau ; la localisation du t´el´ephone, etc.
Saint offre aux applications un contrˆole plus fin sur l’attribution et l’usage des
permissions qu’ils d´eclarent pour prot´eger leurs composants. A l’ex´ecution, Saint `
souffre cependant des mˆemes limitations que Porscha [79]. En effet, la protection
offerte par Saint se limite `a l’acc`es direct au composant de l’application prot´eg´ee
par la politique de s´ecurit´e. Si une application autoris´ee par la politique de
s´ecurit´e est par exemple utilis´ee lors d’une attaque par d´el´egation pour acc´eder
au composant prot´eg´e, Saint ne verrait pas que l’acc`es est en fait r´ealis´e par
une autre application qui elle n’est peut-ˆetre pas autoris´ee par la politique de
s´ecurit´e.
2.5.2.3 Quire
Pour prot´eger les acc`es `a des composants sensibles, les travaux pr´ec´edents
se contentent de contrˆoler l’acc`es direct au composant. Ces solutions sont ainsi
inefficaces pour lutter contre les attaques par d´el´egation. Dans [42], Dietz et
al. proposent Quire une extension de s´ecurit´e `a Android dont le but est de
d´etecter et bloquer les attaques par d´el´egation. Quire modifie les m´ecanismes
de communication entre applications afin qu’`a chaque requˆete ´emise, l’´emetteur
puisse joindre la chaine d’appel ayant men´e `a l’´emission de cette requˆete et
que le destinataire de la requˆete puisse v´erifier que tous les ´el´ements de la
chaine d’appel ont les permissions n´ecessaires pour demander le traitement de la
requˆete. Par exemple, si une application A envoie une requˆete `a une application
B qui `a la suite de la r´eception de la requˆete envoie une requˆete `a l’application C
alors la chaine d’appel une fois arriv´ee `a C est A Ñ B. Si C `a la r´eception de la
requˆete effectue une op´eration sensible, elle peut v´erifier si les applications dans
la chaine d’appel ayant men´e `a l’ex´ecution cette op´eration ont les permissions
n´ecessaires. Aini, en supposant que B ait la permission n´ecessaire pour envoyer
la requˆete et que A ne l’ait pas, C peut d´ecider en connaissance de cause si oui ou38 CHAPITRE 2. ETAT DE L’ART ´
non elle ex´ecute l’op´eration demand´ee. Si l’op´eration sensible ex´ecut´ee par C est
par exemple l’´edition de la liste de contact, alors C v´erifiera que les applications
A et B poss`edent la permission pour ´editer les contacts (WRITE CONTACTS).
2.5.2.4 IPC Inspection
Porter et al. ont adopt´e une approche similaire `a Quire pour bloquer les
attaques par d´el´egation. Dans [49], ils pr´esentent IPC Inspection un m´ecanisme
qui contrˆole les communications entre applications sous Android. Quand une
application re¸coit un message, le syst`eme consid`ere que ses permissions sont
r´eduites `a l’intersection de l’ensemble de ses permissions avant la r´eception du
message et l’ensemble des permissions de l’´emetteur. En agissant ainsi, le destinataire
ne peut plus effectuer d’action sensible `a la demande de l’´emetteur si ce
dernier n’a pas la permission n´ecessaire pour effectuer l’action. Le destinataire
des messages voit ainsi ses permissions `a l’ex´ecution se r´eduire au fur et `a mesure
qu’elle re¸coit des messages de diff´erente applications avec des permissions
diff´erentes.
Quelques r`egles existent afin d’´eviter que les applications destinataires des
messages ne perdent leur permission d´efinitivement et deviennent inutilisables.
Les applications syst`emes font partie de la base de confiance. Tout message provenant
de ces applications n’entraˆınent donc aucune r´eduction des permissions.
Un intent peut servir `a demander d’ex´ecuter une action particuli`ere et `a ˆetre
notifi´e `a la fin d’ex´ecution de cette tˆache. La notification se fait par l’envoi d’un
intent `a l’´emetteur du pr´ec´edent message. Lors de la r´eception de la notification,
le syst`eme consid`ere qu’il n’y a pas risque d’attaque et n’effectue aucune
r´eduction de permission. Enfin, IPC Inspection force l’usage de multiples instances
d’une mˆeme application pour traiter les messages qui lui sont adress´es.
Le destinataire d’un message a ainsi une instance avec ses permissions d’origine
et d’autres instances qui traiteront chacun des messages et dont les permissions
seront r´eduites.
2.5.2.5 Pr´evention des attaques par d´el´egation et par collusion
Quire [42] et IPC Inspection [49] ne ciblent que les attaques par d´el´egation.
De plus, le seul m´ecanisme de communication pris en compte est celui bas´e sur
binder en utilisant les intents. Dans [30], Bugiel et al. pr´esentent une nouvelle
extension de s´ecurit´e `a Android qui est param´etr´ee par une politique de s´ecurit´e
et dont le but est de bloquer les attaques par d´el´egation ainsi que les attaques
par collusion. Contrairement aux travaux pr´ec´edents, ils prennent en compte
la possibilit´e que la communication entre les applications se fasse ´egalement
`a travers les m´ecanismes standard de communication sous Linux (fichiers et
sockets). Ils ´etendent un framework de s´ecurit´e pour Android d´evelopp´e dans
un travail ant´erieur [29] afin d’observer les interactions entre les applications,
composants du syst`eme (ContentProvider et services), fichiers et sockets. A`
chaque fois qu’une interaction est observ´ee, ils v´erifient qu’il n’y a pas un risque
d’attaque. La d´etection des attaques utilisent une repr´esentation sous forme2.5. RENFORCEMENT DE LA SECURIT ´ E SOUS ANDROID ´ 39
de graphe des interactions entre les applications, les fichiers, les sockets et des
composants du syst`eme (ContentProvider et services). La politique de s´ecurit´e
d´ecrit des propri´et´es sur ce graphe qui permettent de statuer si une interaction
correspond `a une attaque ou non. Par exemple, une attaque par d´el´egation est
d´ecrite par le fait qu’il existe un chemin `a partir du nœud repr´esentant une
application A vers le nœud repr´esentant une application B tel que B poss`ede
des permissions critiques que A ne poss`ede pas. Une attaque par collusion est
d´ecrite par le fait qu’il existe une chemin entre les nœuds de deux applications
A et B tel que l’union des permissions de A et B soit critique. Les auteurs ne
d´efinissent pas ce qu’est un ensemble critique de permissions et laisse plutˆot le
soin de le d´efinir `a l’utilisateur qui d´efinit la politique de s´ecurit´e.
Contrairement `a Quire, Bugiel et al. laissent le choix `a l’utilisateur de d´efinir
ce qu’est une attaque via la politique de s´ecurit´e, ce qui apporte `a la fois
un avantage et un inconv´enient `a l’approche. La possibilit´e de d´efinir avec
pr´ecision les sc´enarios d’attaque a l’avantage de limiter les faux positifs lors
de l’ex´ecution du syst`eme, c’est-`a-dire des communications jug´ees comme dangereuses
alors qu’elles ne le sont pas. Un des cas souvent ignor´e dans les travaux
pr´ec´edents est qu’une application puisse intentionnellement fournir un service `a
une autre application. L’inconv´enient dans cette approche est que l’utilisateur
n’a pas forc´ement les comp´etences n´ecessaires pour d´efinir une bonne politique
de s´ecurit´e ce qui pourrait ˆetre exploiter par une application malveillante afin
d’´echapper `a la d´etection.
2.5.3 Abus des permissions
2.5.3.1 Kirin
L’approche basique utilis´ee par les applications malveillantes sous Android
est de demander toutes les permissions qui leur sont n´ecessaires pour effectuer
leur tˆache malveillante. Par exemple, les applications espions dont le but est de
tracer l’utilisateur du t´el´ephone demande l’acc`es aux donn´ees de g´eolocalisation
et l’acc`es `a internet.
Afin de bloquer ce type d’attaque, Enck et al. proposent un syst`eme nomm´e
Kirin dans [47]. Le but de Kirin est de v´erifier qu’une application n’a pas un
ensemble de permissions jug´e dangereux. Par exemple, l’acc`es aux donn´ees de
g´eolocalisation et `a internet permet de faire fuir les d´eplacements de l’utilisateur
de t´el´ephone. Ainsi, Kirin v´erifie `a l’installation les permissions demand´ees
par une application. Si elle contient un ensemble dangereux, l’installation est
bloqu´ee. Il appartient `a l’utilisateur ou `a l’administrateur de l’appareil de d´efinir
les ensembles de permission dangereux.
2.5.3.2 Woodpecker
Les permissions filtrent l’acc`es aux ressources sensibles sous Android. Une
application sans la permission READ SMS ne peut par exemple lire la base de
donn´ees des SMS. Dans [54], Grace et al. ont analys´e les applications livr´ees avec40 CHAPITRE 2. ETAT DE L’ART ´
8 t´el´ephones Android et montr´e que certaines exposaient sans aucune restriction
les ressources sensibles. Les auteurs ont identifi´e deux m´ethodes.
La premi`ere m´ethode, qu’ils disent explicite, consiste `a exposer les m´ethodes
pour acc´eder aux ressources sensibles via des interfaces publiques dont l’acc`es
est plus laxiste que celui de la m´ethode prot´eg´ee. Ils consid`erent comment interface
les composants expos´es publiquement `a d’autres applications. La deuxi`eme
m´ethode, cette fois-ci implicite, consiste `a partager le mˆeme identifiant d’utilisateur
entre deux applications. Cela est possible en associant la mˆeme valeur
`a l’attribut sharedUserId dans le fichier AndroidManifest.xml des deux applications.
Les deux applications tournant avec le mˆeme identifiant utilisateur,
elles se retrouvent ainsi `a l’ex´ecution avec l’union des permissions que les deux
applications poss`edent.
Grace et al. ont ainsi d´evelopp´e Woodpecker un outil pour analyser les applications
et trouver d’´eventuelles expositions de ressources sensibles. Woodpecker
d´efinit les points d’entr´ee de l’application `a partir de son fichier AndroidManifest.xml,
construit son graphe de flux de contrˆole (Control Flow Graph en
anglais) et `a partir du CFG calcule tous les chemins d’ex´ecution possibles. L’outil
consid`ere qu’une ressource sensible est expos´ee explicitement si un chemin
d’ex´ecution partant d’une interface non prot´eg´ee contient un appel `a une fonction
sensible et qu’aucun contrˆole n’est fait avant l’appel. Pour le deuxi`eme cas,
une alerte est lev´ee si une application indique partager son identifiant utilisateur
et s’il existe un appel `a une fonction sensible dans le code de l’application telle
que la partie contenant cette fonction puisse ˆetre atteinte.
2.5.3.3 Aurasium
La plupart des approches visant `a contrˆoler le comportement des applications
se font en modifiant le syst`eme. Dans [105], Xu et al. proposent cette fois-ci
de laisser le syst`eme intact et d’ajouter le code n´ecessaire au contrˆole dans l’application.
Ils ont ainsi d´evelopp´e un service appel´e Aurasium 8 qui prend en
entr´ee une application et retourne sa version renforc´ee. Cette version renforc´ee
int`egre du code interceptant les appels aux fonctions sensibles sous Android
afin de renforcer une politique de s´ecurit´e. Les fonctions concern´ees servent `a
acc´eder `a des ressources sensibles sur le t´el´ephone et internet, et `a ex´ecuter
des op´erations potentiellement dangereuses telles que le chargement d’une biblioth`eque
ou l’ex´ecution d’un binaire.
Bien que ce genre de fonctions soient d´efinies au sein de l’API Java d’Android,
Aurasium intercepte leur appel `a un niveau plus bas, plus pr´ecis´ement au
niveau des fonctions de la biblioth`eque C du syst`eme et de la machine virtuelle
dalvik. Il existe par exemple diff´erentes fonctions dans l’API pour communiquer
sur le r´eseau. Cependant, au niveau syst`eme tout cela se traduit par un
ensemble restreint d’appels syst`eme tels que connect et sendmsg. Il en est de
mˆeme pour les IPCs bas´es sur le binder qui se font via l’appel syst`eme ioctl
/dev/binder/. Lorsque l’appel `a une fonction sensible est d´etect´ee, l’application
8. http://aurasium.com2.6. SUIVI DE FLUX D’INFORMATION 41
en informe l’utilisateur et demande `a l’utilisateur de valider l’appel s’il souhaite
qu’il se poursuive.
Pour ´evaluer la capacit´e de leur service `a instrumenter les applications et `a
fournir une version toujours fonctionnelle, ils ont soumis un ensemble de 3491
applications de Google Play et 1260 ´echantillons de malware `a leur service. Nous
entendons par version fonctionnelle, une application qui se lance sans erreur
au d´emarrage et qui `a l’ex´ecution montre bien des interceptions `a des appels
de fonction sensible. Leur ´evaluation a montr´e qu’Aurasium ´etait capable de
fournir une version fonctionnelle des applications dans plus de 99% des cas.
Aucune ´evaluation ne permet cependant d’appr´ecier la capacit´e d’Aurasium `a
intercepter les appels de fonction correspondant aux attaques sur un syst`eme.
Nous avons pr´esent´e dans cette section diff´erents travaux inh´erents `a la
s´ecurit´e d’Android. Partant du constat des limites des m´ecanismes de s´ecurit´e
Android, principalement celles li´ees `a l’acc`es aux ressources sensibles et aux
communications entre applications, les auteurs de ces travaux ont propos´e des
extensions de s´ecurit´e `a Android et des outils d’analyse d’application. Ces extensions
et outils ont pour but de d´etecter les tentatives exploitant les limites
du m´ecanisme de s´ecurit´e du syst`eme ainsi que les risques de s´ecurit´e introduit
par les m´ecanismes de communication Android. Parmi les attaques cibl´ees,
ils ciblent principalement le vol de donn´ees sensibles, l’usage malveillant des
permissions accord´ees aux applications, les attaques par d´el´egation et les attaques
par collusion. Ces travaux concernent ainsi des classes d’attaque connue
et essayent de les d´etecter ou les pr´evenir.
Dans cette th`ese, nous avons une approche diff´erente. Au lieu de d´etecter
les malware en nous basant sur les limites connues du m´ecanisme de s´ecurit´e
d’Android, nous souhaitons dans un premier temps caract´eriser les malware
(comment leur attaque fonctionne) et nous baser sur ce que nous aurons appris
pour les d´etecter. Notre approche est bas´ee sur les flux d’information que causent
les malware dans le syst`eme. Dans la section qui suit, nous introduisons ainsi la
notion de flux d’information et pr´esentons quelques travaux utilisant le suivi de
flux d’information pour d´etecter des attaques.
2.6 Suivi de flux d’information
Suivre les flux d’information consiste `a observer comment les informations
se propagent dans un environnement donn´e. En s´ecurit´e, le suivi de flux d’information
est utilis´e pour d´etecter des attaques visant soit la confidentialit´e soit
l’int´egrit´e de donn´ees dans un environnement donn´e. En plus de d´etecter des
attaques, il peut ´egalement servir `a les bloquer. Il s’agit dans ce cas de contrˆole
de flux d’information.42 CHAPITRE 2. ETAT DE L’ART ´
2.6.1 Suivi de flux au sein d’une application
Suivre les flux d’information au sein d’une application permet d’avoir une
vue fine de la mani`ere dont les informations sensibles sont trait´ees par un
programme. A l’exception du langage Perl, les langages de programmation `
n’int`egrent cependant pas de m´ecanisme de suivi ou de contrˆole de flux d’information.
Divers travaux se sont ainsi concentr´es sur le suivi et le contrˆole de flux
dans les applications soit en proposant une extension au langage de programmation
utilis´e soit en instrumentant l’environnement dans lequel l’application
tourne.
Les applications Android sont principalement ´ecrites en Java. Dans [74, 73],
Myers et Liskov pr´esentent un mod`ele de suivi de flux d’information qu’ils
impl´ementent dans Jif [75], une extension du langage Java capable de contrˆoler
les flux d’information `a l’int´erieur d’une application. Techniquement, Jif est un
pr´eprocesseur effectuant une analyse statique du code source pour contrˆoler la
conformit´e des flux d’information dans un programme par rapport `a une politique
de flux. La politique est repr´esent´ee par des labels qui sont associ´es aux
variables et fonctions dans le code. A chaque objet est assign´e un label o`u sont `
d´eclar´es l’ensemble des propri´etaires de l’information et les entit´es que chaque
propri´etaire autorise `a acc´eder `a l’information. Etant donn´e que chaque pro- ´
pri´etaire d´eclare une liste de lecteurs autoris´es, la liste des lecteurs effectifs est
ensuite calcul´ee en faisant l’intersection de la liste que chaque propri´etaire a
d´eclar´ee. Le label L “ to1 : r1, r2; o2 : r2, r3u signifie par exemple que l’objet
auquel il est attach´e contient des informations dont o1 et o2 sont propri´etaires.
o1 et o2 n’autorisent respectivement que r1 ou r2 et r2 ou r3 `a acc´eder `a l’information.
Le lecteur effectif est donc ici r2. Lors pr´etraitement du code, Jif,
qui est un pr´eprocesseur Java, calcul les flux d’information dans le programme
et v´erifie que les politiques de s´ecurit´e associ´ees aux variables sont v´erifi´ees.
L’approche propos´ee par Myers et Liskov est une approche statique qui
consiste `a annoter le code source des applications puis `a l’analyser pour contrˆoler
les flux d’information dans l’application. Un des avantages de l’analyse statique
par rapport `a l’analyse dynamique est qu’il couvre tous les chemins d’ex´ecution
possibles et permet en une seule analyse d’identifier toutes les violations `a une
politique de flux d’information. Une limite `a cette approche est cependant la
n´ecessit´e d’avoir acc`es au code source de l’application pour l’analyser, ce qui est
rarement le cas pour les applications Android et limite l’usage de cette approche.
Le code des applications Android est livr´e sous la forme de dalvik bytecode
et il est parfois obfusqu´e afin d’empˆecher des entit´es tierces de retrouver le code
original `a partir duquel le dalvik bytecode a ´et´e g´en´er´e. Ce bytecode est obtenu
en compilant dans un premier temps le code source de l’application en
bytecode Java puis en compilant ce dernier en bytecode compr´ehensible par
la machine virtuelle Dalvik.
Si les travaux pr´ec´edents s’attachent `a ajouter une extension de contrˆole
de flux d’information dans le langage de programmation et contrˆoler les flux
d’information de mani`ere statique, d’autres se sont pench´es sur une modification
de l’environnement d’ex´ecution pour suivre et contrˆoler les flux d’information `a2.6. SUIVI DE FLUX D’INFORMATION 43
l’ex´ecution des applications. Dans [46], Enck et al. proposent TaintDroid, une
version modifi´ee d’Android avec un m´ecanisme de suivi de flux d’information `a
l’ex´ecution des applications. Leur but ´etait d’´etudier si les applications Android
font fuir des donn´ees sensibles du t´el´ephone via le r´eseau ou par SMS. Ils ont
d´efini dans leur outil un ensemble d’information `a surveiller (ex : identifiants
de l’appareil et donn´ees de g´eolocalisation) et s´electionn´e les 30 applications
Android les plus populaires pour les analyser. Ils ont montr´e que plus de 2{3
d’entre elles faisaient fuir des donn´ees sensibles, principalement les identifiants
du t´el´ephone. Pour suivre les flux d’information, Enck et al. ont modifi´e la
machine virtuelle Dalvik. Ils ont impl´ement´e une m´ethode dite de tainting qui
consiste `a marquer les objets selon la nature de leur contenu. Dans la machine
virtuelle Dalvik, les objets pouvant contenir des informations sont les variables
d’une m´ethode, ses param`etres et les champs d’une classe ainsi que des ses
instances. Lorsqu’un flux est obser´e, les marques associ´ees aux objets dont le
contenu a ´et´e modifi´e est mis `a jour pour prendre en compte la nature de leur
nouveau contenu.
Contrairement `a Myers et Liskov, Enck et al. ont opt´e pour une approche dynamique
pour suivre les flux d’information au sein d’une application durant son
ex´ecution. A cause de la nature de l’analyse (dynamique), une des principales `
limitations de TaintDroid est l’impossibilit´e d’observer tous les flux d’information
possibles en une seule analyse. Seuls les flux d’information explicites qui
ont lieu durant l’ex´ecution de l’application sont d´etect´es. Si TaintDroid a une
vue plus limit´ee des flux d’information dans une application, il poss`ede cependant
un avantage non n´egligeable par rapport aux approches statiques qui est
qu’il ne n´ecessite pas l’acc`es au code source des applications analys´ees. Il est
donc plus adapt´e pour analyser les applications destin´ees `a tourn´ees dans un
environnement tels qu’Android.
2.6.2 Suivi de flux au niveau syst`eme
Un autre niveau d’observation des flux d’information est le syst`eme d’exploitation
o`u les objets du syst`eme tels que les processus et les fichiers sont
vus comme des conteneurs d’information et les interactions entre eux des flux
d’information. Dans [109, 110], Zeldovich et al. proposent HiStar, un syst`eme
d’exploitation qui int`egre un m´ecanisme de contrˆole de flux d’information au
niveau syst`eme. Le but de HiStar est de fournir un syst`eme capable de bloquer
les attaques visant `a voler ou corrompre les donn´ees sur le syst`eme. Pour suivre
et contrˆoler les flux d’information, HiStar utilise les labels Asbetos [45]. Un label
´etablit une correspondance entre une cat´egorie d’information et un niveau
marquage. Par exemple, le label L “ tw3, c2, 1u signifie que le niveau associ´e
aux cat´egories w et c sont respectivement 3 et 2. Le niveau par d´efaut est 1. Un
label est associ´e `a chaque objet du syst`eme pouvant contenir de l’information.
Le label repr´esente pour chaque objet son niveau d’acc`es pour les diff´erentes
cat´egories d’information. Lorsqu’un flux d’information d’un objet A vers un
objet B a lieu, HiStar v´erifie que le niveau d’acc`es de B pour les cat´egories
d’information d´efinies dans le label de A est sup´erieur ou ´egal au niveau d’acc`es44 CHAPITRE 2. ETAT DE L’ART ´
de A pour ces mˆemes cat´egories. Si c’est le cas, le flux est autoris´e. Dans le cas
contraire, il est bloqu´e. Par exemple, si le label de A vaut tw3, c2, 1u et que celui
de B vaut tw2, c3, h2, 1u alors B ne peut acc´eder au contenu de A car le niveau
d’acc`es de B aux `a la cat´egorie d’information w, ici 2, est inf´erieur au niveau
d’acc`es de A, ici 3, `a la mˆeme cat´egorie.
Pour contrˆoler les flux d’information dans le syst`eme, HiStar associe des
niveaux d’acc`es aux diff´erents objets du syst`eme. Contrairement `a TaintDroid
ou AppFence, il se contente d’´etablir des niveaux d’acc`es aux informations mais
ne suit pas leur propagation dans le syst`eme. Cela limite son utilit´e pour analyser
comment les donn´ees d’une application se propagent dans le syst`eme, ce qui est
l’un des nos objectifs.
Dans cette th`ese, nous utilisons un moniteur de flux d’information au niveau
du syst`eme pour observer les flux d’information. Ce moniteur est la version
Android d’un moniteur de flux d’information pour Linux, Blare [37], dont la
version actuelle a ´et´e d´evelopp´ee par Christophe Hauser. Plus pr´ecis´ement, Blare
est un outil de d´etection d’intrusion pour les syst`emes Linux param´etr´e par
une politique de flux d’information. La politique d´efinit les flux autoris´es dans
le syst`eme et toute violation de cette politique constitue une intrusion. Pour
suivre et contrˆoler les flux d’information, Blare utilise deux labels, itag et ptag,
qui sont attach´es aux objets du syst`eme. L’itag repr´esente la contamination
courante d’un objet et le ptag repr´esente sa contamination maximale autoris´ee.
L’itag d’un objet est ainsi mis `a jour `a chaque fois qu’un flux d’information
modifiant le contenu de l’objet a lieu tandis que le ptag est d´efini lors de la
cr´eation de la politique de flux. Lorsqu’un flux d’information d’un objet A vers
un objet B a lieu, Blare consid`ere que les informations de A vont dans B et v´erifie
si l’itag de A est autoris´e par le ptag de B. Si c’est le cas, il met `a jour l’itag
de B pour prendre en compte son nouveau contenu. Sinon il l`eve une alerte.
Blare ne pr´evient pas les intrusions mais les d´etecte. Il ne bloque pas le flux en
cas de violation d’une politique mais se contente de lever une alerte. Comme
HisTar, le niveau d’observation de Blare se limite au niveau syst`eme. Il voit les
objets du syst`eme comme des boˆıtes noires et effectue une surapproximation
des flux observ´es. Quand un flux d’un objet A vers un objet B est observ´e par
Blare, il consid`ere que toutes les informations dans A se propagent dans B.
Cette vision est moins fine que ce que proposerait un suivi de flux au niveau
des applications. Cependant il a l’avantage de ne pas d´ependre d’un langage
en particulier tel que le Java et ne se limite pas aux instances d’une machine
virtuelle. Il a ainsi une vue compl`ete des flux d’information directs entre les
objets du syst`eme par rapport `a TaintDroid qui est limit´e aux flux impliquant
uniquement les applications ´ecrites en Java.
2.6.3 Suivi de flux au niveau hardware
Dans [108], Yin et al. proposent un environnement virtuel bas´e sur Quemu
d’analyse dynamique d’application Windows appel´e Panorama. Panorama suit
les flux d’information au niveau machine tout en ayant connaissance des informations
li´ees aux objets du syst`eme tels que les processus et les fichiers. Le but du2.6. SUIVI DE FLUX D’INFORMATION 45
travail r´ealis´e est de d´eterminer si une application acc`ede `a une donn´ee sensible
du syst`eme et si c’est le cas comment elle l’utilise. Les donn´ees sensibles peuvent
ˆetre des donn´ees frapp´ees au clavier, des donn´ees du disque ou le contenu de paquets
r´eseaux. Dans le cadre de l’analyse, ces donn´ees sont suppos´ees ne pas ˆetre
acc´ed´ees par l’application analys´ee. Pour analyser une application, ils installent
ainsi l’application dans l’environnement d’analyse, introduisent des donn´ees sensibles
dans le syst`eme, et suivent comment ces donn´ees se propagent. A partir `
des flux observ´es, ils construisent un graphe de flux d’information repr´esentant
comment les donn´ees sensibles se sont propag´ees dans le syst`eme. Les nœuds
et les arcs du graphe repr´esentent respectivement les objets du syst`eme et les
flux d’information entre eux. L’application analys´ee est consid´er´ee comme malveillante
si un nœud la repr´esentant est pr´esent dans le graphe. Cela signifie qu’`a
un moment donn´e, l’application a acc´ed´ee aux donn´ees sensibles. Si c’est le cas,
ils analysent ensuite o`u les donn´ees se propagent `a partir du nœud repr´esentant
l’application analys´ee.
Dans des travaux plus r´ecents, Yin et al. ont propos´e DroidScope [106] qui
est un environnement d’analyse d’application Android qui est l’´equivalent de
Panorama pour Android. DroidScope suit ´egalement les flux d’information au
niveau hardware mais contrairement `a Panorama, il n’a pas seulement acc`es aux
informations li´ees aux objets du syst`eme mais ´egalement `a des donn´ees li´ees `a
l’ex´ecution des applications dans la machine virtuelle Dalvik. Il a ainsi une vue
plus fine de ce qui se passe dans une application telle que les m´ethodes qui sont
utilis´ees pour acc´eder `a une information.
Suivre les flux d’information au niveau hardware permet d’avoir une vue fine
des flux d’information s’op´erant sur un syst`eme. Le niveau de granularit´e pour le
stockage et l’acc`es `a une information peut-ˆetre r´eduit `a un octet ou un bit, ce qui
est l’unit´e de stockage des donn´ees. Avoir une telle granularit´e a cependant un
coˆut ´elev´e en terme de temps d’ex´ecution qui limite cette approche aux environnements
virtuels d’analyse d’application. Les auteurs de Panorama ont mesur´e
un temps d’ex´ecution des applications de 30 `a 40 fois plus lents que leur temps
d’ex´ecution normal. Notre but est de capturer le comportement malveillant des
malware Android et de les d´etecter. Sachant que certains malware essayent de
d´etecter la pr´esence d’environnement virtuels pour ´echapper `a toute d´etection,
ce niveau d’observation ne nous paraˆıt donc pas comme un choix viable.
Il existe diff´erents niveaux d’observation pour suivre les flux d’information
sur un syst`eme : application, syst`eme d’exploitation et hardware. Dans ce th`ese,
nous optons pour un suivi de flux au niveau du syst`eme d’exploitation afin
d’avoir une vue compl`ete des flux d’information entre les diff´erents composants
du syst`eme. Suivre les flux d’information `a l’int´erieur des applications a une
meilleure granularit´e mais suppose que nous ayons, soit acc`es au code source de
toutes les applications `a analyser, soit que toutes les applications soient ´ecrites
en Java et interpr´et´ees par la machine virtuelle Dalvik. Aucune de ces suppositions
ne s’av`ere ˆetre vraie dans la r´ealit´e. Suivre les flux d’information au niveau46 CHAPITRE 2. ETAT DE L’ART ´
du hardware apporte ´egalement une vue plus fine et contrairement au niveau
application ne n´ecessite pas d’acc`es au code source ou l’usage d’un seul langage
pour ´ecrire toutes les applications. Cependant, comme nous l’avons ´ecrit
pr´ec´edemment, il n’est adapt´e qu’aux environnements virtuels, ce qui pose le
probl`eme de la d´etection de l’environnement d’analyse [68]. Dans cette th`ese,
nous avons ainsi fait le choix de suivre les flux d’information au niveau syst`eme
afin d’ˆetre ind´ependant de la disponibilit´e du code source des applications et du
langage utilis´e pour les d´evelopper tout en ayant une vue compl`ete des flux d’information
entre les objets du syst`eme. A partir des flux d’information observ´es `
dans le syst`eme, nous proposons de calculer le profil d’un malware et apprendre
son comportement. L’approche est similaire `a de l’apprentissage. Dans la section
qui suit, nous pr´esentons donc comment des m´ethodes d’apprentissage ont ´et´e
appliqu´es pour classifier et d´etecter des malware.
2.7 Classification et d´etection de malware
La d´etection de malware se fait g´en´eralement en utilisant des signatures ou
des profils comportementaux. La signature d’un malware est un ensemble de
propri´et´es communes aux fichiers des ´echantillons du malware. Dans le cas des
applications Android, ces fichiers sont les apk. Le profil comportemental d’un
malware est un ensemble de propri´et´es communes `a l’ex´ecution des ´echantillons
du malware. Ces signatures et profils sont construits `a partir des informations
obtenues en analysant, statiquement ou dynamiquement, les ´echantillons de malware.
La tendance actuelle consiste `a utiliser des m´ethodes d’apprentissage afin
de classifier et d´etecter des malwares. Dans notre cas, nous souhaitons extraire
le profil d’un malware et son comportement `a partir des flux d’information
qu’ils causent dans le syst`eme. Dans ce qui suit, nous pr´esentons ainsi quelques
travaux ayant adopt´e cette approche. L’apprentissage consiste `a apprendre des
propri´et´es li´ees `a un jeu de donn´ees.
Il existe diff´erents travaux sur l’analyse statique d’application afin de d´etecter
des instances de malware (ex : [35] et [58]). Les signatures sont des propri´et´es
li´ees au malware telles que des chaines de caract`eres, des ressources dans l’application,
des appels `a des fonctions sp´ecifiques, ou simplement l’empreinte d’un
fichier. Sous Android, Arp et al. ont propos´e DREBIN [22] pour d´etecter les
´echantillons de malware Android sur les t´el´ephones. Les propri´et´es prises en
compte lors de l’analyse d’une application sont les permissions demand´ees, les
composants mat´eriels requis, ses composants, les filtres d’intent pour activer
les composants, les appels aux fonctions sensibles, les permissions utilis´ees, les
appels de fonction suspects et les adresses de serveur pr´esents dans le code de
l’application. Pour classifier les applications, ils utilisent une machine `a vecteurs
de support [41, 48] qui est une m´ethode d’apprentissage supervis´ee. Un apprentissage
supervis´e consiste `a calculer `a partir d’ensembles distincts un mod`ele
permettant de d´efinir l’appartenance d’un ´el´ement `a un de ces ensembles. A`
partir de deux ensembles distincts d’applications, l’une contenant des applications
malveillantes et l’autre contenant des applications b´enignes, ils calculent2.7. CLASSIFICATION ET DETECTION DE MALWARE ´ 47
ainsi un mod`ele de d´etection qui diff´erencie les applications malveillantes des
applications b´enignes. Ce mod`ele est ensuite utilis´e sur le t´el´ephone afin de
d´etecter les applications malveillantes. L’´evaluation effectu´ee par les auteurs de
DREBIN sur la capacit´e de d´etection montre que leur outil atteint un taux
de d´etection de 93.90% sur un ensemble de 1834 ´echantillons de malware. Le
taux de d´etection d´efinir pourcentage d’´echantillons d´etect´es sur tout le jeu de
donn´ees. Le r´esultat est proche des meilleurs r´esultats obtenus par les produits
anti-virus qu’ils ont test´e sur le mˆeme jeu de donn´ees. Les meilleurs taux de
d´etection sont de 96.41% et de 93.71% tandis que le pire est de 3.99%.
La d´etection par analyse statique montre cependant ses limites lorsque les
d´eveloppeurs de malware utilisent des techniques d’obfuscation [21, 23, 70] afin
de cacher la v´eritable nature de leurs application ou des techniques de polymorphisme
et de m´etamorphisme [50] afin de changer l’aspect du code des diff´erentes
instances d’un malware. Les d´eveloppeurs du malware Obad.a [98] utilisent par
exemple des chaines al´eatoires pour les noms de variables, m´ethode et classes. Ils
utilisent ´egalement des fonctions de chiffrement afin de masquer les chaines de
caract`eres utilis´ees dans le malware et ces fonctions changent d’un ´echantillon
`a l’autre.
Contrairement `a l’approche statique, l’approche dynamique repose uniquement
sur l’ex´ecution des applications pour d´etecter les ´echantillons de malware
et n’est pas ainsi affect´ee par ces m´ethodes d’´evasion. Dans [67], Bayer et al.
appliquent une m´ethode d’apprentissage non supervis´ee afin de classifier les
applications et d´etecter les ´echantillons de malware. L’apprentissage non supervis´ee
consid`ere qu’il n’y a pas de groupement pr´ed´efinis des ´el´ements dans le jeu
de donn´ees et calcule lui-mˆeme les regroupements possibles de ces ´el´ements.
Les applications `a classifier sont analys´ees dans Anubis [69] afin d’en extraire
un profil. Le profil est constitu´e des diverses interactions avec le syst`eme tels
que les acc`es aux fichiers et registres ainsi que les communications r´eseaux.
Ils appliquent ´egalement une m´ethode de tainting afin d’observer comment les
informations issues du syst`eme sont utilis´ees dans les prochains appels syst`eme.
Cela s’av`ere utile pour filtrer les informations `a extraire. Par exemple, si le
programme utilise la date du syst`eme pour g´en´erer le nom d’un nouveau fichier,
il ne sert `a rien de stocker le nom car il sera diff´erent `a chaque ex´ecution.
Dans [90], Rieck et al. proposent d’utiliser les interactions entre les applications
analys´ees et le reste du syst`eme afin de les classifier et de se servir du
mod`ele obtenu lors de l’apprentissage pour d´etecter d’autres ´echantillons de
malware. Pour obtenir les interactions des applications avec le reste du syst`eme,
ils ex´ecutent les applications dans CWSandbox [101], un environnement d’analyse
dynamique d’application. Ils construisent ensuite un vecteur repr´esentant
le comportement de l’applications analys´ee `a partir des interactions observ´ees
o`u chaque dimension repr´esente une suite d’interaction et utilisent ces vecteurs
afin de classifier de mani`ere non supervis´ee les applications analys´ees. Les classes
obtenues `a la suite de cette ´etape servent ensuite de mod`ele afin de d´etecter de
nouvelles instances de malware.
Rieck et al. ont compar´e la qualit´e des classes cr´ees durant l’apprentissage
rapport `a celle de Bayer et al. et ont montr´e que leur approche obtient un48 CHAPITRE 2. ETAT DE L’ART ´
meilleur score, 0.950, par rapport `a celle de Bayer et al., 0.881. Le score calcul´e,
appel´e F-Score [8], combine `a la fois la qualit´e de la pr´ecision ainsi que
du rappel des classes calcul´ees durant l’apprentissage. La pr´ecision mesure la
correspondance entre les classes calcul´ees et les familles de malware tandis que
le rappel mesure l’´eparpillement des ´echantillons d’un malware dans plusieurs
classes. Une pr´ecision ´elev´ee signifie que chaque classe correspond `a une famille
de malware. Un rappel ´elev´e signifie que chaque famille de malware correspond
`a une classe. La valeur maximale du F-score est de 1 tandis que la pire est de
0. Plus le score est ´elev´e, plus la qualit´e de l’apprentissage est meilleure.
Les travaux pr´esent´es ont mont´e que l’apprentissage pouvait servir `a calculer
des mod`eles afin de classifier et d´etecter des malware. Cet apprentissage
est effectu´e `a partir des propri´et´es li´ees aux fichiers contenant les applications
`a analyser ou de leurs traces d’ex´ecution. Dans notre cas, l’apprentissage est
effectu´e sur les flux engendr´es par les ´echantillons de malware dans le syst`eme.
Nous ex´ecutons ainsi chaque ´echantillon de malware pour capturer ces flux d’information.
Un des buts de notre approche est d’identifier le comportement malveillant
des malware. Pour cela, il faut capturer ce comportement durant l’analyser.
Pour nous en assurer, nous avons analys´e statiquement les ´echantillons de
certains malware pour identifier les ´ev`enements d´eclenchant l’ex´ecution du code
malveillant. Dans la section qui suit, nous pr´esentons donc un ensemble d’outils
li´es `a l’analyse d’applications Android.
2.8 Analyse d’applications Android
Analyser une application a pour but d’extraire des informations li´ees `a
l’application telles que son comportement, les ressources qu’elle utilise et les
´ev`enements attendus pour ex´ecuter une partie de son code.
2.8.1 D´esassembleur, d´ecompilateur
Afin de comprendre le fonctionnement d’une applications sans avoir `a l’ex´ecuter,
un analyste a souvent recours `a un d´esassembleur ou un d´ecompilateur.
D´esassembler le code d’une application consiste `a le retranscrire dans un langage
bas niveau dont les instructions et celles de l’architecture cens´ee interpr´et´ee le
code `a d´esassembler ont une forte correspondance. L’architecture interpr´etant le
code d’une application Android est la machine virtuelle Dalvik. Parmi les outils
pour d´esassembler les applications Android, nous pouvons citer dedexer [6],
apktool, qui utilise smali [13], Androguard [97] et IDA Pro [9]. Le listing 2.4 est
un extrait du code de l’application JetBoy disponible dans le SDK Android. Le
listing 2.5 est la partie correspondante, ´ecrite en smali, apr`es avoir d´esassembl´e
l’application avec apktool. La syntaxe des langages utilis´es par ces outils est
assez explicite pour comprendre ce que fait l’application et avoir une id´ee de
l’aspect du code Java d’origine. Nous remarquons par exemple que l’instruction
`a la ligne 4 dans le listing 2.4 correspond aux instructions de la ligne 24 `a 28 du
listing 2.5.2.8. ANALYSE D’APPLICATIONS ANDROID 49
1 public void onClick(View v) {
2 // this is the first screen
3 if (mJetBoyThread.getGameState() == JetBoyThread.STATE_START) {
4 mButton.setText("PLAY!");
5 mTextView.setVisibility(View.VISIBLE);
6
7 mTextView.setText(R.string.helpText);
8 mJetBoyThread.setGameState(JetBoyThread.STATE_PLAY);
9 }
10 ...
11 }
Listing 2.4 – Extrait du code de l’application JetBoy fourni avec le SDK Android
D´ecompiler une application revient `a le retranscrire dans un langage haut niveau
(ex : Java et C). Les applications Android ´etant ´ecrites en Java, le but de la
d´ecompilation sera ici d’obtenir un code Java `a partir du dalvik bytecode. Parmi
les outils notables nous pouvons citer Androguard et la combinaison dex2jar [43]
et JD-Gui [10]. Androguard int`egre un d´ecompilateur natif, dad, mais il peut
´egalement faire appel `a d’autres d´ecompilateurs. dex2jar est un outil qui transforme
le dalvik bytecode en java bytecode et JD-Gui est un outil graphique de
d´ecompilation de java bytecode. D´ecompiler une application Android en optant
pour la combinaison de ces outils revient ainsi `a extraire le fichier classes.dex
de l’apk, cr´eer avec dex2jar un fichier jar (Java Archive) et `a d´ecompiler ce
dernier avec JD-Gui. Un avantage que JD-Gui a sur Androguard est la possibilit´e
d’exporter le r´esultat de la d´ecompilation dans les fichiers .class. Le
listing 2.6 liste le code produit par la d´ecompilation de l’application JetBoy avec
Androguard. Une diff´erence notable avec le code orignal est l’usage des valeurs
`a la place des variables constantes pr´esentes dans le code original.
Si le r´esultat de la d´ecompilation a le m´erite d’ˆetre dans un langage haut
niveau, cette op´eration int`egre cependant le risque d’une erreur de transcription.
Lors de la d´ecompilation de certaines applications, nous avons ainsi d´etecter des
erreurs dans le r´esultat de la d´ecompilation pour les deux outils.
2.8.2 Comparaison d’applications
Une autre fonctionnalit´e int´eressante d’Androguard est sa capacit´e `a ´evaluer
la similarit´e entre deux applications. Androguard compare le code des deux
applications et calcule quelles sont les m´ethodes qui sont identiques, similaires et
celles qui sont pr´esentes dans l’une mais pas dans l’autre. L’un des cas d’usage de
cette fonctionnalit´e est par exemple de trouver le code rajout´e `a une application
entre deux versions. Elle peut ´egalement servir `a identifier les applications vol´ees
`a leur auteur original.50 CHAPITRE 2. ETAT DE L’ART ´
2.8.2.1 Extraction de m´etadonn´ees
L’analyse peut ´egalement avoir pour but d’extraire des m´etadonn´ees li´ees `a
l’application. Dans le cas de applications Android, ces donn´ees sont g´en´eralement
le contenu du fichier AndroidManifest.xml. Ce fichier contient diff´erentes informations
: permissions utilis´ees par l’application, son num´ero de version, la
liste de ses composants, etc. L’acc`es `a son contenu ne n´ecessite pas forc´ement un
outil particulier car il s’agit d’un fichier XML. Androguard ou les outils d’analyse
dynamique d’application tels que Andrubis propose cependant d’extraire
automatiquement ces donn´es.
2.8.2.2 Scanner de virus
Il existe plusieurs scanners de virus sous Android dont certains sont disponibles
directement sur Google Play. Il existe cependant pour les analystes
des services permettant d’analyser les applications Android pour d´etecter les
´echantillons de malware sans avoir `a les analyser avec une application dans un
t´el´ephone. VirusTotal [14] est un exemple de ce type d’outil en ligne. Pour effectuer
une analyse, les utilisateurs soumettent le fichier `a analyser via une page
de soumission. Chaque fichier soumis est ensuite analys´e par diff´erents produits
anti-virus afin de d´etecter si oui ou non il est malveillant. VirusTotal utilise
`a ce jour 49 produits anti-virus. Le r´esultat des analyses de chaque anti-virus
est ensuite retourn´ee `a l’utilisateur. AndroTotal [2] est un autre outil similaire
`a VirusTotal. Comme son nom l’indique, AndroTotal est uniquement d´edi´e `a
l’analyse d’application Android alors que VirusTotal n’impose aucune restriction
sur le type de fichier `a analyser. Ce type d’outil peut s’av´erer utile pour
identifier rapidement des ´echantillons de malware. Zhou et al. ont par exemple
utilis´e VirusTotal afin de classifier les ´echantillons de malware qu’ils ont analys´e
dans [113].
2.8.2.3 Analyse dynamique d’application
Analyser dynamiquement une application consiste `a l’ex´ecuter pour observer
son comportement. L’ex´ecution se fait g´en´eralement `a l’int´erieur d’un environnement
virtuel simulant un environnement d’ex´ecution tel qu’un syst`eme
d’exploitation ou une machine. Ils existent plusieurs environnements d’analyse
d’application Android. Certains d’entre eux sont disponibles via leur code source
(ex : DroidBox) ou en tant que service en ligne (ex : Andrubis). Ils ont souvent
une base commune d’informations surveill´ees : permissions utilis´ees, appels de
fonction sensible de l’API Android, composants de l’application qui ont ´et´e
ex´ecut´ees, acc`es aux syst`emes de fichier, communications r´eseaux, et ´emissions
d’appel et SMS.
Pour observer toutes ces informations, les auteurs de ces outils ont recours
`a diff´erentes techniques : r´e´ecriture de code, suivi de flux d’information, observation
des appels syst`eme, introspection de l’environnement virtuel d’ex´ecution
et stimulation d’entr´ee.2.8. ANALYSE D’APPLICATIONS ANDROID 51
La r´e´ecriture de code consiste `a injecter le code n´ecessaire `a l’analyse dans
l’application avant de l’ex´ecuter. Durant l’ex´ecution, le code inject´e renseignera
sur les comportements d’int´erˆet. Les auteurs de DroidBox ont par exemple opt´e
pour cette m´ethode afin d’observer les appels aux diff´erentes fonctions sensibles
de l’API Android.
Le suivi de flux d’information permet d’observer comment une information
se propage dans un environnement donn´e. Un appareil Android contient un certain
nombre d’informations sensibles (ex : liste de contact) dont l’usage par une
application aurait une certaine utilit´e pour un analyste. Andrubis, AppsPlayground
et DroidBox int`egrent ainsi TaintDroid afin de suivre les flux d’information
dans les applications Android pour d´etecter toute fuite d’information.
DroidScope a son propre moniteur de flux d’information
Ces environnements d’analyse dynamique d’application peuvent ˆetre fournis
sous deux formes. Soit leurs auteurs fournissent un acc`es en tant que service,
l’analyse est effectu´ee en soumettant l’application `a analyser et l’utilisateur
r´ecup`ere le r´esultat de l’analyse sous forme de page web ou de fichiers XML ou
JSON, soit ils fournissent l’environnement en t´el´echargement afin que l’utilisateur
l’ex´ecute sur sa proche machine.
DroidBox [7] est un environnement d’analyse dynamique d’application Android
`a t´el´echarger et ex´ecuter sur sa propre machine. Durant l’ex´ecution de
l’application, l’outil enregistre les communications r´eseaux effectu´ees par l’application,
les acc`es aux fichiers, les services lanc´es, les composants Broadcast Receiver,
les classes charg´ees, les op´erations cryptographiques via l’API Android,
les messages et les appels ´emis. Afin de suivre le rythme d’´evolution d’Android,
DroidBox instrumente le code des applications pour intercepter l’appel des fonctions
d’int´erˆet. DroidBox int`egre ´egalement une version de TaintDroid afin de
d´etecter les ´eventuelles fuites d’information sensible. Son rapport int`egre ainsi
les fuites d’information via le r´eseau et par SMS que l’application aurait pu faire.
Le lancement de l’application est automatique mais il appartient `a l’utilisateur
d’interagir avec l’application.
Andrubis [100], version Android d’Anubis, est un service d’analyse d’application
en ligne. Il fournit les mˆemes types d’information que DroidBox. Si
DroidBox se limite aux fonctions de l’API Android, Andrubis lui consid`ere le
fait que les applications puissent ´egalement utiliser du code natif. Ils enregistrent
ainsi dans leur rapport l’usage des appels syst`eme utilis´es par l’application. Une
autre diff´erence par rapport `a DroidBox est la g´en´eration d’´ev`enements afin de
couvrir tout le code. DroidBox se contente de lancer l’application en ex´ecutant
son Activity principal. Andrubis prend en compte le fait que chaque composant
d’une application est un point d’entr´ee du programme et essaie de tous les
lancer.
D’apr`es l’´etude effectu´ee par Neuner et al. dans [77], DroidBox aurait ´et´e utilis´e
comme base pour d’autres environnements d’analyse tels qu’ANANAS [44]
et Mobile Sandbox [94]. Il existe ´egalement d’autres environnements ind´ependants
de DroidBox tels que SmartDroid [111], CopperDroid [88], DroidScope [106]
AASandbox [25] etc.52 CHAPITRE 2. ETAT DE L’ART ´
1 .method public onClick(Landroid/view/View;)V .locals 5
2 .parameter "v"
3 .prologue const v4, 0x7f050004
4 const/4 v3, 0x4
5 const/4 v2, 0x0
6 .line 92 iget-object v0, p0,
7 Lcom/example/android/jetboy/JetBoy;->mJetBoyThread:
8 Lcom/example/android/jetboy/JetBoyView$JetBoyThread;
9 invoke-virtual {v0},
10 Lcom/example/android/jetboy/JetBoyView$JetBoyThread;
11 ->getGameState()I
12 move-result v0
13 const/4 v1, -0x1
14 if-ne v0, v1, :cond_0
15 .line 93 iget-object v0, p0,
16 Lcom/example/android/jetboy/JetBoy;->
17 mButton:Landroid/widget/Button;
18 const-string v1, "PLAY!"
19 invoke-virtual {v0, v1},
20 Landroid/widget/Button;->setText(Ljava/lang/CharSequence;)V
21 .line 94 iget-object v0, p0,
22 Lcom/example/android/jetboy/JetBoy;->mTextView:
23 Landroid/widget/TextView;
24 invoke-virtual {v0, v2},
25 Landroid/widget/TextView;->setVisibility(I)V
26 .line 96 iget-object v0, p0,
27 Lcom/example/android/jetboy/JetBoy;->mTextView:
28 Landroid/widget/TextView;
29 invoke-virtual {v0, v4},
30 Landroid/widget/TextView;->setText(I)V
31 .line 97 iget-object v0, p0,
32 Lcom/example/android/jetboy/JetBoy;->mJetBoyThread:
33 Lcom/example/android/jetboy/JetBoyView$JetBoyThread;
34 invoke-virtual {v0, v2},
35 Lcom/example/android/jetboy/JetBoyView$JetBoyThread;->
36 setGameState(I)V
Listing 2.5 – Extrait du code smali de l’application JetBoy2.8. ANALYSE D’APPLICATIONS ANDROID 53
1 public void onClick(android.view.View p6)
2 {
3 if(this.mJetBoyThread.getGameState() != 15) {
4 ...
5 } else {
6 this.mButton.setText("PLAY!");
7 this.mTextView.setVisibility(0);
8 this.mTextView.setText(1.76787404569e+38);
9 this.mJetBoyThread.setGameState(0);
10 }
11 return;
12 }
Listing 2.6 – Extrait du code r´esultant de la d´ecompilation de l’application
JetBoy avec le d´ecompilateur par d´efaut d’Androguard54 CHAPITRE 2. ETAT DE L’ART ´
Nous avons pr´esent´e dans ce chapitre le syst`eme Android et introduit la base
de connaissance n´ecessaire pour comprendre notre approche. Au lieu de d´etecter
des sc´enarios d’attaque pr´ed´efinis, nous souhaitons en d´ecouvrir de nouvelles et
les d´etecter. La premi`ere ´etape `a l’atteinte de cet objectif est d’analyser les flux
d’information caus´es par les ´echantillons de malware Android. Pour observer
ces flux, nous utilisons un moniteur de flux d’information Blare que nous avons
port´e sous Android. Dans le chapitre suivant, nous pr´esentons ce moniteur et
expliquons les ajouts effectu´es `a Blare lors du portage sous Android.Chapitre 3
Blare : un moniteur de flux
d’information pour Linux et
Android
Pour suivre les flux d’information, nous utilisons Blare [37], un syst`eme de
d´etection d’intrusion param`etr´e par une politique de flux d’information. La politique
de flux d’information d´ecrit les flux autoris´es dans le syst`eme et l`eve une
larte `a chaque violation de la politique. Blare est bas´e sur un mod`ele d´ecrit en
section 3.1 et est impl´ement´e pour les syst`emes de type Linux comme d´ecrit
en section 3.3. Android int´egrant des fonctionnalit´es qui lui sont propres, le
premier apport de la th`ese a donc consist´e `a modifier Blare pour prendre en
compte certaines fonctionnalit´es d’Android. La prise en compte de ces fonctionnalit´es
donne une vue plus compl`ete des flux d’information sous Android. La
section 3.4 d´ecrit les modifications apport´ees `a Blare. Le r´esultat de ce portage,
AndroBlare, nous sert d’environnement d’analyse dynamique d’application afin
d’apprendre le comportement des applications `a partir des flux d’information
qu’elles causent dans le syst`eme. Dans la section 3.5, nous expliquons ainsi comment
nous analysons les applications dans cet environnement.
3.1 Mod`ele th´eorique
Le mod`ele th´eorique de Blare [55, 56] d´ecrit comment suivre et contrˆoler
les flux d’information au niveau du syst`eme. Pour suivre les flux d’information,
il utilise une m´ethode de marquage qui consiste `a marquer les objets selon
la nature de leur contenu. Il existe ainsi une distinction importante entre les
conteneurs d’information et leur contenu.
5556 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
Taille 8 16 32 64
Intervalle r´2
7
, 2
7 ´ 1s r´2
15
, 2
15 ´ 1s r´2
31
, 2
31 ´ 1s r´2
63
, 2
63 ´ 1s
Table 3.1 – Intervalle de valeur du type int selon sa taille en bits
3.1.1 Conteneurs d’information
Blare suit les flux d’information au niveau du syst`eme d’exploitation. Il a
ainsi une vue des flux entre les objets du syst`eme. Le mod`ele de Blare d´efinit trois
types de conteneur d’information : les conteneurs persistants, les conteneurs volatiles
et les utilisateurs. Un conteneur persistant est un conteneur qui peut exister
sur plusieurs cycles d’ex´ecution du syst`eme. Un fichier est l’exemple typique
d’un conteneur persistant. Un conteneur volatile est conteneur qui n’existe que
le temps d’un cycle d’ex´ecution du syst`eme. Il n’est cr´e´e qu’apr`es le d´emarrage
du syst`eme et est d´etruit `a l’arrˆet. Les sockets sont des exemples de conteneurs
volatiles. Les utilisateurs sont les utilisateurs du syst`eme. A chacun de `
ces conteneurs sera associ´e un ensemble de marques ou tags qui permettent de
suivre et contrˆoler les flux d’information. Nous noterons par la suite C l’ensemble
des conteneurs d’information, PC l’ensemble des conteneurs persistants,
VC l’ensemble des conteneurs volatiles et U l’ensemble des utilisateurs.
3.1.2 Information et contenu courant d’un objet : itag
Il existe deux types d’information dans le mod`ele de Blare. Le premier
est l’information morte qui correspond `a toute donn´ee non ex´ecut´ee sur le
syst`eme. Le contenu d’un fichier est l’exemple typique d’une information morte.
Le deuxi`eme est l’information ex´ecut´ee qui correspond `a toute donn´ee ex´ecut´ee.
Nous ne la retrouvons que dans les processus car seuls les processus peuvent
ex´ecuter des donn´ees. A chaque donn´ee dont nous souhaitons contrˆoler la pro- `
pagation est associ´ee un entier unique l’identifiant. L’ensemble des identifiants
d’information morte est not´ee I “ t1, 2, . . .u et correspond l’ensemble des entiers
strictement positifs. L’ensemble des identifiants d’information ex´ecut´ee est not´ee
X “ t´1, ´2...u et correspond `a l’ensemble des entier strictement n´egatifs. En
th´eorie, il est possible de suivre autant d’information que souhait´e mais dans la
pratique l’impl´ementation imposera toujours une valeur maximale et minimale
des identifiants. Les identifiants sont repr´esent´es par des entiers sign´es de type
int dans la version actuelle de Blare. La taille des types varie selon l’architecture
du syst`eme (chapitre 11 de Linux Device Drivers [40]), ce qui rend impossible
de d´efinir une intervalle de valeur fixe pour les identifiants. Le tableau 3.1 liste
les intervalles de valeur pour un int selon le nombre de bits utilis´es pour le
stocker. Il est `a noter que le type int d´esigne un entier sign´e et le dernier bit
de sa repr´esentation en m´emoire est ainsi utilis´e pour coder son signe.
Si I et X sont deux ensembles distincts, il existe cependant une relation entre
leurs ´el´ements. Pour chaque ´el´ement n de I, ´n identifie la donn´e identifi´ee par
n lorsqu’elle est ex´ecut´ee dans un processus. Par exemple, si nous supposons que3.1. MODELE TH ` EORIQUE ´ 57
le contenu du fichier /system/bin/cat 1
est identifi´e par 1 alors le processus qui
ex´ecutera cat contiendra l’information identifi´ee par ´1.
Itag Le mod`ele de Blare marque chaque conteneur d’information par tag appel´e
itag pour caract´eriser son contenu. Sa valeur est un sous ensemble de I YX
et pour tout conteneur c, itagpcq “ ti1, . . . inu signigie que le contenu de c
contient les informations initialement identifi´ees par i1, . . . in.
@c P C, itagpcq P PpI Y Xq
3.1.3 Politique de flux d’information : pxqptag
Blare est param´etr´e par une politique de flux d’information. Cette politique
d´efinit les flux autoris´es entre les conteneurs d’information et est repr´esent´ee
par l’ensemble des ptags dans le syst`eme. A chaque conteneur d’information `
est ainsi associ´e un deuxi`eme tag : ptag. Le ptag d´efinit les diff´erents contenus
maximaux autoris´es pour le conteneur. Sa valeur est une collection de sousensemble
de I Y X et chacun de ses ´el´ements repr´esente un contenu maximal
l´egal pour le conteneur.
@c P C, ptagpcq P PpPpI Y Xqq
Le contenu courant d’un conteneur c est l´egal si itagpcq est inclus dans au
moins un des ´el´ements de ptagpcq. Le ptag d’un conteneur est nul par d´efaut. Le
conteneur n’a donc pas le droit d’acc´eder `a une donn´ee `a laquelle un identifiant
a ´et´e associ´e. Toute information n’ayant aucun identifiant associ´e est consid´er´e
comme non sensible et a le droit de se propager dans n’importe quel conteneur.
Le contenu de c est l´egal si De P ptagpcq tel que itagpcq Ď e
Par exemple, si le ptag d’un conteneur vaut tt1, 2u, t2, 3uu cela signifie que
l’ensemble des contenus l´egaux possibles pour ce conteneur sont H, t1u, t2u,
t3u, t1, 2u et t2, 3u.
Politique d’un programme, politique d’un processus : xptag
Une distinction importante est faite entre programme et processus. Toute
donn´ee pouvant ˆetre ex´ecut´ee dans le syst`eme est un programme tandis qu’un
processus est une instance d’un programme ou plus pr´ecis´ement une entit´e
ex´ecutant un programme. Le contenu d’un fichier com.android.browser.dex
est un exemple de programme Android et le processus com.android.browser
est une instance de ce programme.
1. cat est une application en ligne de commande qui concat`ene et affiche le contenu de
fichiers58 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
USER PID PPID NAME
root 1 0 /init
drm 179 1 /system/bin/drmserver
media 180 1 /system/bin/mediaserver
install 181 1 /system/bin/installd
keystore 183 1 /system/bin/keystore
radio 186 1 /system/bin/netmgrd
nobody 187 1 /system/bin/sensors.qcom
root 190 1 /system/bin/thermal-engine-hh
root 1678 1 /system/xbin/su
Figure 3.1 – Extrait de la sortie de la commande ps sous Android 4.4
xptag La politique d’un programme est exprim´ee par un troisi`eme tag appel´e
xptag qui est attach´e au conteneur stockant le programme. Tout comme le ptag,
le xptag est ´egalement une collection de sous-ensemble de I Y X. Il n’est pas
utilis´e pour v´erifier la l´egalit´e d’un contenu mais plutˆot `a calculer la valeur du
ptag des processus.
@c P C, xptagpcq P PpPpI Y Xqq
Un processus est une instance d’un programme `a l’ex´ecution. Dans les syst`emes
Unix/Linux, les processus peuvent ˆetre list´es avec la commande ps. La figure 3.1
pr´esente un extrait de la sortie de la commande ps sous Android. Les informations
d’int´erˆet sont celles de la premi`ere, la deuxi`eme et la derni`ere colonnes.
Chaque ligne liste des informations sur un processus. La premi`ere colonne identi-
fie l’utilisateur ex´ecutant le processus. La deuxi`eme colonne liste les identifiants
des processus. Enfin la derni`ere colonne liste les programmes ex´ecut´es par les
processus. Ainsi, le programme /init est ex´ecut´ee par l’utilisateur root dans
le processus identifi´e par 1.
Un processus ´etant le r´esultat de l’ex´ecution d’un programme par un utilisateur,
sa politique est calcul´ee `a partir de celle de l’utilisateur et celle du
programme qu’il ex´ecute. Nous noterons execpc, uq le processus r´esultant de
l’ex´ecution du programme c par l’utilisateur u par la suite. Plus pr´ecis´ement, la
politique d’un processus r´esulte de l’intersection de la politique de l’utilisateur
et de celle du programme qu’il souhaite ex´ecuter. Soient un programme c et un
utilisateur u. La politique associ´ee au processus execpc, uq est l’intersection des
´el´ements de la politique de c avec ceux de la politique de u.
@p P P rog et @u P U, ptagpexecpc, uqq “ tec X euu, ec P ptagpcq et eu P ptagpuqu
Parmi les processus list´es par la commande ps dans la figure 3.1 se trouve un
processus ex´ecut´e par l’utilisateur media et ex´ecutant le programme dans le fi-3.1. MODELE TH ` EORIQUE ´ 59
chier /system/bin/mediaserver. En supposant que la politique associ´ee respectivement
au programme et `a l’utilisateur soit tt1, 2, 3u, t3, 4uu et tt2, 3, 5u, t5, 12uu,
alors la politique associ´ee au processus serait tt2, 3uu. Cet unique ´el´ement de
la politique r´esulte de l’intersection du premier ´el´ement de la politique du programme
avec celui de l’utilisateur. Les autres intersections sont toutes vides.
Cela signifie que le processus peut contenir tout au plus les informations identifi´ees
par 2 et 3.
3.1.4 Suivi et contrˆole de flux d’information
Le contenu courant d’un objet et sa politique de flux sont repr´esent´es respectivement
par l’itag et le ptag attach´es `a l’objet. L’itag caract´erisant le contenu
courant d’un objet, sa valeur ´evoluera en fonction de l’´evolution du contenu de
l’objet auquel il est attach´e. Le ptag par contre lui n’´evoluera que si la politique
de flux d’information n’´evolue. Le suivi et le contrˆole de flux d’information se
fait en deux ´etapes. La premi`ere ´etape consiste `a la mise `a jour de l’itag de
l’objet dont le contenu a ´et´e modifi´e suite au flux observ´e. La deuxi`eme ´etape
consiste `a v´erifier la l´egalit´e du flux observ´e. Un flux est l´egal si le contenu
des objets modifi´es par le flux est l´egal. La v´erification de la l´egalit´e se fait en
comparant la nouvelle valeur de l’itag de l’objet modifi´e suite au flux avec la
politique associ´ee `a l’objet, `a savoir son ptag.
3.1.4.1 Suivi de flux d’information
Blare observe les ´ev`enements du syst`eme provoquant des flux d’information
et `a chaque flux observ´e, il met `a jour l’itag des objets dont le contenu a ´et´e
modifi´e par le flux. Ces flux peuvent ˆetre class´es dans diff´erents groupes comme
list´e dans le tableau 3.2. Chaque ligne d´ecrit l’interaction entre deux objets du
syst`eme causant un flux d’information et la mani`ere dont les tags sont mis `a
jours quand Blare observe le flux. Non seulement l’itag de l’objet modifi´e est
mis `a jour mais aussi son xptag, sauf dans le cas de l’ex´ecution d’un programme.
Le xptag repr´esente la politique d’un programme. Or un programme est une
donn´ee stock´ee dans un conteneur. Un programme peut ainsi ˆetre propag´e dans
le syst`eme lors des flux d’information. Afin de s’assurer que la politique d’un
programme reste associ´ee `a ce programme malgr´e le fait qu’il puisse ˆetre copi´e
dans d’autres conteneurs, Blare propage le xptag des fichiers en mˆeme temps
que l’itag du fichier.
A chaque fois Blare observe un flux d’information, il effectue une suraproxi- `
mation du flux observ´e. Il consid`ere le pire des cas qui est que le contenu entier
de la source du flux d’information s’est propag´e vers le conteneur destination.
Nous expliquons ci-dessous ces mises `a jour effectu´ees par Blare list´ees dans le
tableau 3.2.
Lorsqu’un processus p lit le contenu d’un conteneur f, Readpp, fq, Blare
consid`ere que le contenu de f s’est propag´e dans p. Le contenu du processus
est modifi´e par le flux et son itag change de valeur. Le pire des cas ´etant que
tout contenu de f se soit propag´e dans p, Blare consid`ere alors que le nouveau60 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
Type d’´ev`enement Description Mise `a jour des tags
Readpp, fq Lecture de f par p itagppq Ð itagppq Y itagpfq
xptagppq Ð xptagpfq X xptagppq
W ritepp, fq Ecriture de ´ f par p itagpfq Ð itagppqzX
xptagpfq Ð xptagppq
W riteapppp, fq Ecriture de ´ f par p itagpfq Ð pitagppqzXq Y itagpfq
xptagpfq Ð xptagpfq X xptagppq
Execpp, fq Ex´ecution du
contenu de f par p
itagppq Ð t´nu, n P itagpfq
ptagppq Ð xptagpfq
Table 3.2 – Blare : m´ethode de suivi de flux
contenu de p est un m´elange de son ancien contenu et du contenu de f. La
nouvelle valeur de l’itag de p est donc l’union de son ancien itag avec celui
de f. L’exemple typique de ce type de flux est la lecture d’un fichier par un
processus. Les fichiers ne sont cependant pas les seuls conteneurs d’information
du syst`eme `a partir duquel un processus peut lire des donn´ees. Un processus
peut ´egalement lire des donn´ees `a partir d’un socket ou d’un message via les files
de message [65]. Le conteneur f ne repr´esente donc pas uniquement un fichier
mais tout autre conteneur `a partir duquel un processus peut lire des donn´ees.
Lorsqu’un processus p ´ecrit dans un conteneur f, W ritepp, fq, Blare consid`ere
que les informations dans p se propagent vers le conteneur f. Le contenu de f
change et Blare met `a jour son itag. Le pire des cas ´etant que tout le contenu
de p se propage dans f, le nouveau contenu de f est en cons´equent un m´elange
de son ancien contenu avec le contenu de p `a l’exception des donn´ees ex´ecut´ees.
Blare consid`ere qu’un processus ne propage pas le code qu’il ex´ecute. Les identi-
fiants n´egatifs ne sont donc pas propag´es dans l’itag du destinataire. La nouvelle
valeur de l’itag de f est ainsi l’union de son ancienne valeur avec l’ensemble des
identifiants positifs dans l’itag de p.
Comme expliqu´e en section 3.1.2, les donn´ees sensibles ex´ecut´ees dans un
processus sont identifi´ees par un entier strictement n´egatif. Lorsqu’un processus
ex´ecute un programme, Blare consid`ere que son contenu courant est remplac´e
par le code provenant du fichier contenant le programme. Son itag devient ainsi
l’ensemble des valeurs n´egatives des identifiants pr´esents dans l’itag du fichier.
Les interactions entre les objets d’un syst`eme ne se limite `a la lecture, ´ecriture
et l’ex´ecution. D’autres ´ev`enements tels que la cr´eation de conteneur ou l’envoi
de signaux existent ´egalement. Ces ´ev`enements n’engendrent pas de flux
d’information explicites entre les objets et sont ignor´es par Blare. Il est cependant
techniquement possible de se servir de ces ´ev`enements pour faire fuir des
informations et ainsi ´echapper au contrˆole effectu´e par Blare.
3.1.4.2 Contrˆole de flux d’information
Un flux d’information est l´egal si le contenu de l’objet qui a ´et´e modifi´e par
le flux est l´egal. Le contrˆole d’un flux d’information se fait en deux ´etapes.3.1. MODELE TH ` EORIQUE ´ 61
c1 c2 ptag = {{1, 2, 3}} ptag = {{1,2}, {2,3}}
itag = {3} itag = {1}
c1 c2 ptag = {{1,2}, {2,3}}
itag = {3} itag = {1,3}
c1 c2 ptag = {{1,2}, {2,3}}
itag = {3} itag = {1,3}
(a)
(b)
(c)
ptag = {{1, 2, 3}}
ptag = {{1, 2, 3}}
Figure 3.2 – Exemple de contrˆole de flux d’information effectu´e par Blare
1. Mise `a jour de l’itag de l’objet dont le contenu a ´et´e chang´e.
2. Contrˆole de la l´egalit´e du nouveau contenu de l’objet modifi´e par le flux.
Si le contenu est ill´egal alors, Blare consid`ere que le flux observ´e est ill´egal
et l`eve une alerte.
La figure 3.2 illustre un exemple de contrˆole de flux lorsque Blare observe la
lecture d’un fichier c1 par un processus c2. (a) Les deux conteneurs sont marqu´es
pr´ealablement avant la lecture. (b) Lors de la lecture du fichier, Blare consid`ere
que le contenu de c1 se propage vers c2. Il met ainsi `a jour la valeur de itagpc2q
comme d´ecrit dans le tableau 3.2 pour la lecture de fichier. La valeur de itagpc2q
devient t2, 3u. (c) Apr`es la mise `a jour de l’itag, Blare contrˆole la l´egalit´e du
nouveau contenu afin de d´eterminer si le flux observ´e est l´egal ou non. Il n’existe
pas d’´el´ement de ptagpc2q qui inclut itagpc2q. Le nouveau contenu est ill´egal, ce
qui signifie que le flux observ´e est ill´egal. Une alerte est donc lev´ee.
Blare est outil de d´etection d’intrusion param´etr´e par une politique de flux
d’information. Pour d´etecter une intrusion, il faut ainsi dans un premier temps
d´efinir une politique de s´ecurit´e qui identifie les informations `a prot´eger et o`u
ces informations ont le droit de se propager. Dans la section suivante, nous
pr´esentons une mani`ere de d´efinir cette politique de flux sous Android.62 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
3.2 D´efinition d’une politique de flux d’information
Prot´eger un syst`eme avec un outil tel que Blare signifie qu’il faut dans un
premier temps d´efinir une politique de s´ecurit´e. Dans le cas de Blare, cette
politique est une politique de flux d’information. Elle identifie les informations
`a prot´eger et comment les prot´eger, c’est-`a-dire la liste des conteneurs o`u elles
ont le droit de se propager. D´efinir une politique de flux d’information pour
Blare se r´esume en quatre ´etapes.
1. Identifier les informations sensibles `a prot´eger.
2. Associer `a chacune de ces informations un identifiant unique.
3. Identifier les conteneurs l´egaux pour ces informations.
4. D´efinir la valeur des ptags `a associer `a ces conteneurs.
Il existe deux approches pour d´efinir la politique de s´ecurit´e. La premi`ere
consiste `a la calculer `a partir d’une autre politique existante telle qu’une politique
de contrˆole d’acc`es. Dans [56], Geller et al. ont propos´e un algorithme
qui transforme une politique de contrˆole d’acc`es mandataire App Armor en une
politique de flux d’information Blare. Les politiques App Armor d´efinissent des
profils de programme limitant leur acc`es aux autres objets du syst`eme tels que
les fichiers. L’algorithme propos´e prend en entr´ee un ensemble de profils App
Armor et donne en sortie leur ´equivalent en terme de politique Blare. Cette
approche a le m´erite d’ˆetre automatique et rapide mais elle ne permet pas d’exploiter
toute l’expressivit´e d’une politique Blare. Un exemple de ce manque
d’expressivit´e est la restriction sur les m´elanges d’information. Un conteneur a
le droit d’acc´eder aux informations i et j mais n’a pas le droit de les m´elanger,
c’est-`a-dire que le conteneur contient soit i soit j mais pas les deux en mˆeme
temps. Le listing 3.1 pr´esente une politique App Armor pour le programme
apache. Cette politique autorise le programme `a lire le contenu des fichiers
apache2.conf et index.php. La politique de flux qui peut ˆetre d´eduite de cette
politique est que les donn´ees dans les deux fichiers ont tout deux le droit de se
propager vers le programme apache. Cependant, le propri´etaire du contenu de
ces deux fichiers peut souhaiter que le contenu de ces fichiers ne se m´elangent
pas. Cette contrainte ne peut-ˆetre exprim´ee avec une politique App Armor et
une politique de flux exprimant une telle restriction ne peut donc ˆetre calcul´ee
`a partir d’une politique App Armor.
{/usr/bin/apache,
{(/etc/apache2.conf, w),
(/etc/apache2.conf, r),
(/www/index.php,r), (/usr/bin/ftpd, px)}
}
Listing 3.1 – Exemple de politique App Armor3.2. DEFINITION D’UNE POLITIQUE DE FLUX D’INFORMATION ´ 63
La deuxi`eme approche consiste `a d´efinir manuellement la politique de flux
d’information. Cette approche est plus longue car elle implique une analyse
compl`ete du syst`eme mais permet d’exploiter toute l’expressivit´e d’une politique
Blare.
Construction manuelle d’une politique pour Android
Dans [16], nous avons propos´e une politique de flux d’information pour le
syst`eme Android. La politique a ´et´e construite `a la main en se basant sur une
analyse manuelle du syst`eme. Le but ´etait de fournir une politique `a taille r´eelle
pour un syst`eme entier. Comme ´ecrit pr´ec´edemment, la d´efinition d’une politique
de flux se fait en quatre ´etapes.
La premi`ere ´etape est l’identification des informations sensibles `a surveiller.
Nous avons construit la liste des informations sensibles `a partir des donn´ees que
nous avons jug´ees sensibles sur le syst`eme Android. Ces informations incluent les
donn´ees li´ees `a l’utilisateur (ex : liste de contact et donn´ees de g´eolocalisation)
mais aussi celles li´ees aux applications (ex : code et param`etres de configuration).
Les donn´ees sensibles ont ´et´e identifi´ees en analysant manuellement le contenu
des fichiers sur le syst`eme et en prenant en compte celles qui sont prot´eg´ees par
le m´ecanisme de permission. Notre politique recense 150 informations sensibles
m´elangeant donn´ees non ex´ecut´ees et code ex´ecut´e `a l’int´erieur des processus. Il
existe encore plus d’information sur un syst`eme Android 2 mais nous avons jug´e
cette quantit´e d’information `a surveiller suffisante pour construire une politique
de flux d’information pour tout un syst`eme.
La deuxi`eme ´etape consiste `a identifier les conteneurs d’information. La liste
des fichiers et programmes install´ees sur un syst`eme Android est assez simple `a
construire. Grˆace `a la commande find, nous pouvons lister tous les fichiers du
syst`eme. Quant aux applications, les applications livr´ees sous forme d’apk sont
connues grˆace `a la commande pm et les applications natives sont stock´ees dans
/system/bin et /system/xbin. La liste des utilisateurs est elle par contre moins
´evidente `a construire car contrairement `a un syst`eme Linux standard, il n’existe
pas de fichier /etc/passwd ni de fichier /etc/shadow. Android d´efinit en dur
un ensemble restreint d’utilisateur n´ecessaire au fonctionnement de base du
syst`eme tels que root, radio et system. Puis pour chaque application non native
install´ee sur le syst`eme, il associe un utilisateur unique. Pour ´etablir la liste des
utilisateurs associ´es aux applications, nous nous sommes bas´es sur le contenu
des fichiers /data/system/packages.list ou /data/system/packages.xml.
Ils recensent les informations li´ees aux applications install´ees sur le t´el´ephone
dont l’utilisateur qui leur associ´e.
Une fois les donn´ees sensibles et conteneur identifi´es, nous avons ensuite
construit la politique de flux. La politique de chaque programme a ´et´e construite
en analysant ses sources pour comprendre `a quelles informations il acc`ede. La
politique de chaque utilisateur a ´et´e obtenue en faisant l’union des politiques
des programmes qu’il peut ex´ecuter. Dans la plupart des cas, il n’y aura qu’un
2. Il existe plus des milliers de fichiers r´eguliers lors de l’ex´ecution du syst`eme.64 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
Identifiant des informations
11 -44 10 6 -55 -39 3 9 37 -37
Fichiers
calendar.db ˆ
contacts2.db ˆ ˆ
mms.db ˆ
telephony.db ˆ
TelephonyProvider.apk ˆ
Programmes
com.android.calendar ˆ ˆ
com.android.providers.contact
ˆ ˆ ˆ
com.android.providers.telephony
ˆ ˆ ˆ
Utilisateurs
10024 ˆ ˆ
10004 ˆ ˆ ˆ ˆ
1001 ˆ ˆ ˆ
Table 3.3 – Un extrait de la politique de flux d’information
seul programme car en dehors des utilisateurs syst`eme les autres utilisateurs
n’ex´ecuteront que l’application `a laquelle ils ont ´et´e associ´es. La politique des
fichiers a ´et´e construite `a partir des donn´ees qu’elles contiennent lors de l’analyse
et de la politique des programmes qui y acc`edent. Si une donn´ee sensible a ´et´e
trouv´ee dans un fichier, nous avons suppos´e que ce fichier avait le droit de
contenir la donn´ee. A ces donn´ees s’ajoutent celles auxquelles les applications `
qui ont le droit d’´ecriture au fichier peuvent acc´eder. Nous avons suppos´e que
toute application avait le droit de stocker les donn´ees contenues dans les fichiers
auxquels l’application a un acc`es l´egal. G´en´eralement, il s’agit des fichiers dans
le r´epertoire local de l’application. Pour les 150 informations identifi´ees lors de
la premi`ere ´etape, nous avons identifi´e 186 conteneurs d’information pouvant
acc´eder `a ces informations o`u les stocker. La politique contient donc 186 ptags.
La politique finale a ´et´e repr´esent´ee sous la forme d’une matrice dont un
extrait est pr´esent´ee dans le tableau 3.3. Le chemin complet des fichiers a ´et´e
omis pour une meilleure lisibilit´e. Une croix `a l’intersection d’une ligne et d’une
colonne signifie que le conteneur correspondant `a la ligne a le droit de stocker
l’information correspondant `a la ligne. L’ensemble des croix sur une ligne l
d´etermine ainsi le contenu maximal autoris´e pour le conteneur correspondant `a
l. L’utilisateur 10004 (avant derni`ere ligne) a par exemple le droit d’acc´eder aux
informations identifi´ees par 6, 10, ´39 et ´55. Autrement dit, son ptag vaut
tt´55, ´39, 6, 10uu.
Si la pertinence de la politique n’a pas ´et´e ´evalu´ee dans ce travail, le travail
effectu´e a cependant permis de mettre en ´evidence deux points. Le premier est3.3. KBLARE : SUIVI ET CONTROLE DE FLUX VIA LSM ˆ 65
la difficult´e de la cr´eation de la politique `a la main car elle a n´ecessite une
analyse compl`ete du syst`eme pour identifier les informations sensibles et leurs
conteneurs l´egaux. Le deuxi`eme point est le nombre d’information sensible sur
le syst`eme. Contrairement `a ce que les permissions Android pourraient laisser
croire, il peut y avoir un nombre assez cons´equent d’information sensible sur le
syst`eme. La politique que nous avons construite recense 150 informations mais
il y a encore plus d’information que cela dans un syst`eme.
3.3 KBlare : suivi et contrˆole de flux via LSM
Le cœur de Blare a ´et´e d´evelopp´ee en tant que module de s´ecurit´e Linux.
Il r´eside dans le noyau et est appel´e KBlare. Dans le reste du document, nous
d´esignons par KBlare l’impl´ementation de Blare dans le noyau et Blare tout
l’environnement d’ex´ecution Blare (KBlare plus les outils en espace utilisateur
li´e `a Blare). Les flux d’information au niveau du syst`eme se font via les interactions
entre les objets du syst`eme et plus pr´ecis´ement via les appels syst`eme
effectu´es par les processus. Pour contrˆoler les flux d’information, KBlare intercepte
ainsi les appels syst`eme en utilisant les hooks LSM [103, 102]. LSM est
un framework de s´ecurit´e dans le noyau utilis´e pour impl´ementer les modules
de s´ecurit´e Linux. Les hooks sont des appels aux modules de s´ecurit´e du noyau.
Ils sont plac´es dans le flux d’ex´ecution des appels syst`eme afin que les modules
de s´ecurit´e puisse intercepter et contrˆoler ces appels. Pour intercepter un appel
syst`eme, un module de s´ecurit´e enregistre une fonction `a associer au hook correspondant
`a l’appel syst`eme. A chaque fois que ce ` hook est atteint, le noyau
appelle la fonction enregistr´ee afin que le module de s´ecurit´e effectue le contrˆole
souhait´e.
La figure 3.3 illustre le fonctionnement g´en´eral de LSM. Lors d’un appel
syst`eme, le noyau v´erifie si l’acc`es demand´e est autoris´e pour le processus effectuant
l’appel. Il commence par v´erifier la conformit´e avec la politique DAC
du syst`eme. Ensuite, il donne la main `a LSM qui lui demande au module de
s´ecurit´e actif 3
s’il autorise ou non l’acc`es demand´e. Cette ´etape correspond au
moment o`u un hook est atteint dans le flux de traitement de l’appel syst`eme.
La fonction enregistr´ee au hook est ainsi appel´ee et statue si l’acc`es est autoris´e.
Lorsqu’un processus fait un appel syst`eme, KBlare intercepte l’appel, calcule le
flux correspondant, met `a jour les tags des objets modifi´es et contrˆole la l´egalit´e
du flux observ´e. KBlare se contente cependant de d´etecter les intrusions mais ne
les pr´evient pas. Mˆeme en cas de violation de la politique de flux d’information,
il autorise le noyau `a continuer le traitement de l’appel syst`eme.
Le tableau 3.4 liste les hooks utilis´es par KBlare dont l’op´eration correspondante
peut engendrer des flux d’information. La premi`ere colonne liste les
hooks, le deuxi`eme les op´erations intercept´ees via le hook et la derni`ere colonne
les types de flux que KBlare peut observer. D’autres hooks sont utilis´es pour
le fonctionnement interne de KBlare mais les op´erations correspondantes n’induisent
aucun flux d’information.
3. En g´en´eral un seul module LSM est actif66 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
process
Syscall #n
Security
module
DAC
LSM
User space
Kernel space
exec syscall
authorize?
Figure 3.3 – Design de Linux Security Module3.3. KBLARE : SUIVI ET CONTROLE DE FLUX VIA LSM ˆ 67
Hook Op´eration Flux possible observ´e
file permission Lecture/´ecriture `a un fi-
chier ouvert
Entre le processus et le
fichier acc´ed´e
file mmap Chargement en m´emoire
du contenu d’un fichier
Du fichier vers le processus
inode permission Acc`es `a un i-node Entre un pipe et un processus
bprm set creds Ex´ecution d’une application
native
Du fichier contenant
l’application vers le
processus
socket sock rcv skb R´eception d’un paquet
r´eseau
De paquet re¸cu vers le
processus
socket sendmsg Envoi d’un message
dans un socket r´eseau
Du processus vers le socket
et le paquet
socket recvmsg R´eception d’un message
via un socket
Du socket vers le processus
unix may send Envoi d’un message via
un socket UNIX
Du processus vers le socket
UNIX
msg queue msgrcv R´eception d’un message
via une file de message
Du processus vers le
message envoy´e
msg queue msgsnd Envoi d’un message
dans une file de message
Du message re¸cu vers
le processus destinataire
du message
Table 3.4 – Liste des hooks LSM utilis´es par KBlare pouvant engendrer un flux
d’information
Stockage des tags
KBlare repr´esente les tags des objets du syst`eme avec des structures contenant
l’itag, le ptag et le xptag associ´es aux objets. En dehors des hooks, LSM a
´egalement modifi´e les structures repr´esentant les objets du syst`eme pour ajouter
un champ appel´e security. Ce champ est un pointeur g´en´erique destin´e `a
ˆetre utilis´e par les modules de s´ecurit´e. KBlare utilise ce champ pour stocker le
pointeur vers la structure repr´esentant les tags.
Les structures repr´esentant l’ensemble des tags existent uniquement en m´emoire
et n’existent donc que le temps d’un cycle d’ex´ecution du syst`eme. Afin
de stocker de mani`ere persistante les tags associ´es aux fichiers, KBlare stocke
´egalement leurs tags dans les attributs ´etendus des fichiers. Les attributs ´etendus
sont des zone de m´emoire sur le disque qui sont utilis´ees par les syst`emes de
fichier pour stocker des m´eta-donn´ees li´ees aux fichiers.68 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
KBlare contrˆole les flux d’information en interceptant les appels syst`eme
et pour intercepter les appels syst`eme il utilise les hooks LSM. Ces appels permettent
les interactions entre les objets du syst`eme : acc`es aux fichiers, ex´ecution
de code natif et communication entre processus. Le noyau d’Android est bas´e
sur celui de Linux mais contient des fonctionnalit´es en plus. Dans la section
suivante, nous pr´esentons comment nous avons modifi´e KBlare afin de prendre
en compte les fonctionnalit´es sp´ecifiques `a Android.
3.4 AndroBlare : Blare sous Android
Le premier apport de cette th`ese est le portage de Blare sous Android. Nous
avons montr´e pr´ec´edemment que Blare contrˆolait les flux d’information traduisant
les acc`es aux fichiers, les ex´ecution de code et les communications entre
processus. Ces contrˆoles sont bas´es uniquement sur les interactions possibles
entre les objets du syst`eme sous Linux. Or, Android int`egre des fonctionnalit´es
qui lui sont propres pouvant engendrer des flux d’information. Ces fonctionnalit´es
sont l’ex´ecution des applications par les machines virtuelles Dalvik et les
communications via le Binder.
Le Binder est un m´ecanisme de communication impl´ement´e principalement
dans le noyau Android. Il est la base des communications entre processus propos´es
par le framework Android tels que les intents. Android n’utilise pas
les m´ecanismes de communication offerts par Linux. Les communications entre
applications ´etaient donc invisibles `a KBlare.
Les applications que nous avons d´esign´ees par la couche Applications sur
la figure 2.1 sont livr´ees sous la forme de dalvik bytecode et interpr´et´ees par la
machine virtuelle Dalvik. Elles ne sont donc pas ex´ecut´ees de mani`ere native.
A leur ` ex´ecution, le processus contenant la machine virtuelle qui va interpr´eter
le code n’effectue pas d’appel syst`eme execve mais se contente de lire puis
charger le code de l’application en m´emoire. Aucun appel syst`eme traduisant
l’ex´ecution d’une application n’ayant lieu, KBlare ne voyait donc pas l’ex´ecution
des applications. En cons´equent, aucune politique ne pouvait ˆetre appliqu´ee aux
applications Android et aucun processus n’´etait marqu´e comme ex´ecutant une
application lorsque le code de cette application ´etait associ´ee `a un identifiant.
Limitations de Blare
(1) Il n’y avait aucune visibilit´e sur les communications entre
applications Android.
(2) KBlare ne d´etectait pas l’ex´ecution des applications Android.
Les tags des processus n’indiquaient jamais l’ex´ecution
d’une application dont le code est sensible et aucune politique
ne pouvait ˆetre appliqu´ee aux applications.
Dans ce qui suit, nous pr´esentons comment nous avons modifi´e Blare pour
combler ce manque de visibilit´e au niveau des flux d’information sous An-3.4. ANDROBLARE : BLARE SOUS ANDROID 69
droid. Nous pr´esentons le fonctionnement du Binder puis comment nous avons
impl´ement´e le suivi des flux d’information via ce m´ecanisme. Ensuite, nous expliquons
comment les applications Android sont ex´ecut´ees et comment nous
avons ajout´e a prise en compte de leur ex´ecution dans Blare.
3.4.1 Communication entre processus : Binder
3.4.1.1 Fonctionnement
Les applications Android tournent dans des processus distincts mais communiquent
souvent entre elles grˆace `a divers m´ecanismes IPC tels que les intents
et les Content Providers. Ces m´ecanismes sont fournis par le framework Java
Android mais se basent tous `a un niveau plus bas sur le Binder. Le Binder est un
m´ecanisme IPC qui permet `a une application d’appeler une m´ethode distante,
c’est-`a-dire impl´ement´ee au sein d’une autre application tournant dans un autre
processus. Le cœur de ce m´ecanisme est impl´ement´e dans le noyau sous forme
de driver 4 dans le noyau. Par la suite nous adopterons les termes suivants. Le
Binder fait r´ef´erence au code du Binder dans le noyau. Un service est une application
dont les m´ethodes peuvent ˆetre appel´ees par d’autres applications. Un
client est une application qui appelle une m´ethode d’un service.
La figure 3.4 illustre le fonctionnement du binder lors de l’appel d’une
m´ethode distante. Tout client doit avoir une r´ef´erence du service impl´ementant
la m´ethode qu’il souhaite invoquer. Le client commence ainsi par demander la
r´ef´erence du service cibl´e `a un autre service appel´e Context. Context, impl´ement´e
sous Android par le Service Manager, est un service d’annuaire qui fait correspondre
`a chaque nom de service une r´ef´erence unique. Chaque service doit
s’enregistrer aupr`es du Service Manager afin que ses m´ethodes puissent ˆetre invoqu´ees
par d’autres applications. Lorsqu’un client souhaite obtenir la r´ef´erence
d’un service, il appelle ainsi la m´ethode getService du Service Manager en lui
donnant en argument le nom du service. Une fois la r´ef´erence du service obtenu,
le client appelle la m´ethode. L’invocation de la m´ethode n’est pas directe. Le
client ne communique pas directement avec le serveur mais transmet l’appel au
binder qui lui le transmet au serveur. Une fois l’appel re¸cu puis ex´ecut´e par le
serveur, ce dernier renvoie le r´esultat au binder qui lui le transmet au client.
3.4.1.2 Impl´ementation du Binder dans le noyau
Techniquement parlant, le Binder est impl´ement´e sous forme de driver dans
le noyau. Cela signifie qu’il est pr´esent´e dans l’espace utilisateur en tant que
fichier, /dev/binder, et que les seules interactions possibles sont des appels
syst`eme sur ce fichier. Le listing 3.2 liste les op´erations sur les fichiers, voir le
chapitre 3 de [40], support´es par Binder. Elles sont list´es dans une structure
appel´ee file operations qui associe `a chaque op´eration support´ee la fonction
correspondante. Par exemple, la valeur du champ open correspond `a la fonc-
4. /drivers/staging/android/binder.c70 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
Client App Context Binder Driver Service App
get service
service ref
call func(param)
relay call func(param)
call return
relay call return
Figure 3.4 – Appel d’une m´ethode distante grˆace au Binder
tion, ici binder open, qui sera appel´ee `a chaque fois qu’un processus ouvre
/dev/binder.
Celle qui a int´erˆet pour nous est la fonction binder ioctl (listing 3.3). Elle
est appel´ee quand un processus effectue un appel syst`eme ioctl et prend les
arguments de l’appel syst`eme. Le deuxi`eme argument de la fonction, cmd, correspond
`a la commande `a ex´ecuter par le Binder. Binder reconnaˆıt 5 commandes.
— BINDER WRITE READ est la commande la plus importante. Elle sert `a l’envoi
et r´eception de donn´ees.
— BINDER SET MAX THREADS d´efinit le nombre maximal de threads par processus
pour traiter les messages re¸cus via le Binder.
— BINDER SET CONTEXT MGR d´efinit le Context Manager. Une fois d´efini, il
ne peut ˆetre modifi´e.
— BINDER THREAD EXIT notifie l’arrˆet d’un thread utilis´e pour le traitement
des messages re¸cus via le Binder.
— BINDER VERSION retourne le num´ero de version du Binder.
Lorsqu’un processus envoie la commande BINDER WRITE READ dans le but
d’envoyer des donn´ees, il d´efinit une deuxi`eme commande pr´ecisant le type
d’envoi. Il existe 14 commandes 5
li´ees `a l’envoi de donn´ees mais seules deux
d’entre elles correspondent `a l’envoi des transactions : BINDER TRANSACTION
et BINDER REPLY. BINDER TRANSACTION correspond `a l’´emission d’une transaction
d’un processus client appelant une m´ethode distante. BINDER REPLY correspond
`a l’envoi du r´esultat de l’appel par le processus ayant ex´ecut´e la fonction.
L’envoi d’un message ayant un de ces deux types initie l’appel `a la fonction
binder transaction qui impl´emente la troisi`eme et la cinqui`eme ´etapes de l’appel
d’une m´ethode distante comme d´ecrit sur la figure 3.4 : call func(param)
et call return. Toute action ex´ecut´ee par le noyau se fait dans le contexte
5. Voir la fonction binder thread write3.4. ANDROBLARE : BLARE SOUS ANDROID 71
d’un processus `a l’exception des interruptions 6
. Dans le cas des appels syst`eme,
le contexte d’ex´ecution est celui du processus ayant fait l’appel ce qui signifie
que l’envoi des transactions se fait dans le contexte de l’´emetteur.
Lorsque le Binder transmet une transaction `a un processus, il l’ajoute `a une
liste de tˆache `a traiter par ce processus. Les processus en attente de transaction
consultent ainsi cette liste de tˆache pour traiter les transactions qui lui ont
´et´e transmises grˆace `a la commande BINDER WRITE READ. Chacune des tˆaches a
un type d´efini. Il existe 6 types de tˆache en tout dont BINDER WORK TRANSACTION
qui correspond au traitement d’une transaction en attente. A la r´eception `
d’une tˆache de ce type, les informations li´ees `a la transaction sont envoy´ees au
processus en espace utilisateur afin qu’il puisse ex´ecuter l’appel.
Le Binder est le cœur des IPC sous Android mais son usage n’´etait pas
contrˆol´e par KBlare. Il y a deux raisons `a cela. La premi`ere est que son usage
se fait via l’appel syst`eme ioctl or KBlare n’utilise pas le hook permettant
d’intercepter cet appel. La deuxi`eme raison est que Binder est un m´ecanisme
propre `a Android. Aucun travail ne s’est donc int´eress´e `a ´etendre LSM afin de
pouvoir contrˆoler l’usage du Binder au moment o`u nous nous sommes int´eress´es
au Binder durant la th`ese. A cause de ces raisons, KBlare ignorait les flux `
d’information via le Binder et ne pouvait observer les communications entre
applications Android. Nous pr´esentons dans la section qui suit comment KBlare
a ´et´e ´etendu pour suivre les flux d’information caus´es par son usage.
1 static const struct file_operations binder_fops =
2 {
3 .owner = THIS_MODULE,
4 .poll = binder_poll,
5 .unlocked_ioctl = binder_ioctl,
6 .mmap = binder_mmap,
7 .open = binder_open,
8 .flush = binder_flush,
9 .release = binder_release,
10 };
Listing 3.2 – Liste des op´erations sur les fichiers support´ees par Binder
1 static long binder_ioctl(struct file *filp, unsigned int cmd, unsigned long arg);
Listing 3.3 – Signature de la fonction binder ioctl
6. Ce n’est jamais notre cas dans le Binder72 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
3.4.2 Suivi de flux d’information dans le Binder
Pour suivre les flux d’information li´ees aux transactions via le Binder, deux
solutions ont ´et´e envisag´ees. La premi`ere solution est d’intercepter l’appel syst`eme
ioctl grˆace au hook file ioctl. Cette solution est limit´ee car elle ne
permettrait de voir que l’interaction entre les processus et /dev/binder. Or nous
avons expliqu´e que le v´eritable flux s’op´erait entre processus et non entre un
processus et /dev/binder. Cette limitation pourrait cependant ˆetre contourn´e
en impl´ementant tout le m´ecanisme de traitement des commandes envoy´ees via
ioctl au Binder mais cette approche est assez lourde.
La deuxi`eme solution, celle que nous avons retenu, consiste `a ´etendre LSM
afin de permettre aux modules de s´ecurit´e de contrˆoler l’envoi et la r´eception des
transactions via le Binder. L’extension de LSM que nous avons apport´e consiste
`a rajouter un champ security `a la structure repr´esentant les transactions et
deux nouveaux hooks pour intercepter l’envoi et la r´eception de transaction.
Tout comme les messages envoy´es dans les files de message, nous consid´erons que
les transactions sont des conteneurs volatiles. Nous avons ainsi ajout´e un champ
g´en´erique security `a la structure les repr´esentant. KBlare utilisera ensuite ce
champ pour r´ef´erencer les tags associ´es `a la transaction. Les deux nouveaux
hooks ont ´et´e rajout´es dans le code de Binder 7
. Quant aux hooks, nous les avons
ajout´e dans le corps du Binder pour intercepter les ´echanges de transaction.
Plus pr´ecis´ement, nous avons ajout´e un hook pour intercepter l’envoi d’une
transaction et une autre pour la r´eception. Sous Android, KBlare utilise ces
hooks pour suivre et contrˆoler les flux d’information 8 via le Binder.
Interception de l’envoi d’une transaction binder transaction write
Nous avons ins´er´e ce hook dans le corps de la fonction binder transaction.
Cette fonction est utilis´ee par Binder pour transmettre les transactions ´emises
par les processus. C’est dans cette fonction que la nouvelle tˆache correspondant
`a la transaction est ajout´ee `a la liste de tˆache en attente du destinataire. Le
hook est ins´er´e avant l’ajout de la nouvelle tˆache.
Dans KBlare, nous avons d´eclar´e une fonction correspondant `a ce hook qui
propage les tags du processus vers la transaction. La fonction cr´ee une instance
de la structure contenant le tag des conteneurs d’information, l’associe `a la transaction
et copie les tags du processus (itag et xptag) vers la structure contenant
les tags de la transaction. Nous consid´erons que les transactions ont le droit de
contenir n’importe quelle information. Aucun contrˆole n’est ainsi effectu´e.
Interception de la r´eception d’une transaction binder thread read
Le deuxi`eme hook est ins´er´e dans le corps de la fonction binder thread
read. Cette fonction est utilis´ee pour r´ecup´erer et transmettre au processus
destinataire en espace utilisateur les tˆaches dans la liste d’attente. La fonction
7. drivers/staging/android/binder
8. Fonctions correspondantes impl´ement´ees dans security/blare/binder ops.c3.4. ANDROBLARE : BLARE SOUS ANDROID 73
associ´ee `a ce hook propage les tags (itag et xptag) associ´es `a la transaction vers
le processus destinataire. Un contrˆole de la l´egalit´e du flux est effectu´ee. Si le flux
est ill´egal alors une alerte est lev´ee. Afin que l’alerte soit plus compr´ehensible,
le flux correspondant `a l’alerte est d´ecrite comme un flux de processus ayant
´emis la transaction vers le processus destinataire. De plus, une transaction est un
conteneur volatile impl´ement´e sous la forme d’une structure uniquement connue
du noyau. Sa description dans une alerte n’apportera ainsi aucune information
utile `a un analyste. Selon les transactions, les informations li´ees `a l’´emetteur ne
sont pas ajout´ees dans la transaction. C’est le cas, par exemple des r´eponses
retourn´ees par un appel distant. Nous avons modifi´e le Binder afin que cette
information soit toujours comprise dans la transaction.
Remarque sur le suivi de flux d’information dans le Binder
Une autre mani`ere de propager les tags entre les processus aurait ´et´e de
le faire directement `a l’envoi de la transaction par le processus ´emetteur. Cependant,
nous avons opt´e pour un suivi de flux en deux temps. Les tags sont
propag´es du processus ´emetteur vers la transaction puis de la transaction vers
le processus destinataire. Chaque action effectu´ee par le noyau se fait toujours
dans le contexte d’un processus. Pour les appels syst`eme, il s’agit du processus
ayant effectu´e l’appel syst`eme. Lors de l’envoi de la transaction, le Binder
s’ex´ecute ainsi dans le contexte du processus ´emetteur. Propager directement
les tags `a l’envoi signifie modifier la structure associ´ee au processus destinataire
tout en ´etant dans le contexte de l’´emetteur. Cette pratique n’est cependant
pas conseill´ee dans la programmation noyau. Nous aurions ´egalement pu faire
la propagation lors du traitement des tˆaches de la liste d’attente. Cela se fait
dans le contexte du processus destinataire mais le risque est la possibilit´e de
changement du contenu du processus ´emetteur entre l’envoi et la r´eception de la
transaction. Cela pourrait par exemple permettre d’´echanger des donn´ees tout
en faisant croire `a KBlare qu’aucune d’entre elles n’est sensible.
En optant pour la propagation en deux temps des tags, nous ne modifions
pas la structure d’un processus autre que celui qui sert de contexte d’ex´ecution
et nous maintenons une coh´erence entre les identifiants des informations partant
du processus ´emetteur et ceux des informations r´ecup´er´ees par le destinataire.
Afin de prendre en compte les flux d’information s’op´erant via le Binder,
nous avons ´etendu le framework LSM. Nous avons ajout´e deux nouveaux hooks
permettant d’intercepter l’envoi et la transmission des transactions. Dans le
code du Binder, les transactions repr´esentent les appels de m´ethodes distantes
ainsi que le retour de ces appels. Nous avons ensuite ajout´e deux fonctions
suppl´ementaires `a KBlare qui correspondent `a ces nouveaux hooks et effectuent
la propagation des tags entre les applications qui communiquent via le Binder.74 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
3.4.3 Ex´ecution des applications Android
3.4.3.1 Interpr´etation de code vs ex´ecution
Dans Blare, la prise en compte de l’ex´ecution d’un code se fait en interceptant
les appels syst`eme execve et mmap quand la page est marqu´ee comme
´etant ex´ecutable. Sous Android, `a l’exception des applications n´ecessaires au
fonctionnement syst`eme, les applications tournent au sein d’instance de la machine
virtuelle dalvik. Pour comprendre comment ces instances sont cr´e´ees, il
est n´ecessaire de comprendre la s´equence de d´emarrage d’Android. La figure 3.5
illustre cette s´equence.
Comme pour les syst`emes de type Linux, le premier processus lanc´e est
init qui est en charge d’initialiser l’environnement Android. Les initialisations
qu’il effectue sont d´efinies dans les fichiers init.*rc `a la racine du syst`eme
de fichier. Il d´efinit par exemple les variables d’environnement et monte les
partitions. Il lance ´egalement les diff´erents processus d´emons du syst`eme tels
que servicemanager, surfaceflinger et Zygote. A son lancement, ce dernier `
lance une instance de la machine virtuelle dalvik, cr´ee un socket serveur, charge
un ensemble de ressources et classes Java, se duplique pour cr´eer le processus
system server et attend les connexions sur le socket cr´e´e. System server est le
processus qui ex´ecute les diff´erents services du syst`eme (ex : Activity Manager).
A sa cr´eation, il les lance donc et les enregistre aupr`es de ` servicemanager afin
qu’ils puissent ˆetre appel´es par les diff´erentes applications du syst`eme.
Zygote est un processus cl´e pour l’ex´ecution des diff´erentes applications Android
car c’est `a partir de ce processus que les autres applications sont lanc´ees.
Par exemple, lorsque l’utilisateur lance une nouvelle application via le menu
principal du t´el´ephone, l’application Lancher appelle la fonction startActivity
d´efinie dans Activity Manager. A l’ex´ecution de la m´ethode, ce dernier envoie `
une requˆete `a Zygote pour lancer l’application. A la r´eception de la requˆete, ce `
dernier se duplique 9
et lance dans le processus fils la nouvelle application.
Au l’ex´ecution d’une nouvelle application, le processus l’ex´ecutant charge le
code de l’application en m´emoire. Ce code est sous format dalvik et n’est pas
ex´ecut´e, comprendre via l’appel syst`eme execve ou mmap et marqu´e ex´ecutable,
mais charg´e comme une simple donn´ee en m´emoire. L’ex´ecution des applications
se traduit par la lecture de leur code en m´emoire et son interpr´etation par la
machine virtuelle dalvik. Comme aucun appel syst`eme synonyme d’ex´ecution
de code pour Blare n’est effectu´e alors Blare, dans sa version avant nos modi-
fications, ne d´etectait jamais l’ex´ecution des applications Android. Cela avait
deux cons´equences directes. Premi`erement, l’ex´ecution des applications Android
dont le code est marqu´e comme sensible ne causait pas le marquage des processus
comme ex´ecutant du code sensible. L’itag des processus ex´ecutant les
applications Android ne contenait jamais d’identifiant n´egatif. Ensuite, il ´etait
impossible d’appliquer une politique par application car du point de vue de
Blare ils ex´ecutent tous le mˆeme programme (app process).
9. appel syst`eme fork3.4. ANDROBLARE : BLARE SOUS ANDROID 75
Native daemons
- servicemanager
-netd
-vold
-mediaserver
- app_process -X
Init
- Set up env
variables
- mount partitions
-
Zygote
- etc
start native
daemons
- etc
Zygote
- Start a dalvik virtual machine
- Execute main function of zygote
- Create a server socket
- Preload resources and classes
- Start system_server
- Wait for application launch request
system_server
- Launch services
(Activity Manager,
Clipboard etc)
- Register services
App App
App
startActivity
fork
fork
Figure 3.5 – S´equence de d´emarrage d’Android76 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
3.4.3.2 Prise en compte de l’ex´ecution des applications Android
Pour d´etecter l’ex´ecution des applications, nous avons introduit un syst`eme
de coop´eration entre la machine virtuelle Dalvik et KBlare. Il permet `a la machine
virtuelle de notifier KBlare quand elle va interpr´eter du code et donc
permettre `a KBlare de voir quand une application est ex´ecut´ee. A la r´eception `
de la notification, KBlare met ainsi `a jour les tags convenablement et applique
la politique de flux associ´ee `a l’application.
L’ex´ecution d’une application se traduit par le chargement des ressources de
l’application en m´emoire ainsi que de son code. Lorsqu’une application Android
est install´ee, le syst`eme extrait `a partir de son apk une version optimis´ee du code.
C’est cette version optimis´ee qui est charg´ee en m´emoire et interpr´et´ee par la
machine virtuelle. Un bon point d’insertion pour la notification semble ainsi
ˆetre le chargement de cette version optimis´ee. Aucune documentation technique
n’existe sur le fonctionnement de Dalvik mais en analysant son code source, nous
trouvons que le chargement est effectu´e par la fonction dvmDexFileOpenFromFd
(listing 3.4). Cette fonction charge en m´emoire le code optimis´e d’une application
et analyse syntaxiquement son contenu. Elle est appel´ee par deux autre
fonctions 10 qui ouvrent un fichier jar ou dex, cr´ee la version optimis´ee du code
`a partir du contenu du fichier ouvert et le charge en m´emoire. Cela correspond
bien `a l’ex´ecution d’une application. Nous avons ainsi ajout´e la notification,
fonction odex is mapped, au corps de la fonction dvmDexFileOpenFromFd.
La figure 3.6 illustre les diff´erentes ´etapes de la prise en compte de l’ex´ecution
de l’application. Les tags vert et bleu correspondent respectivement au contenu
du fichier .dex et `a ce mˆeme contenu lorsqu’il est ex´ecut´e par un processus. Le
tag marron correspond `a la politique de s´ecurit´e de l’application. Le syst`eme
de notification est similaire `a une architecture client/serveur. Au d´emarrage du
syst`eme, KBlare se met en ´ecoute des notifications provenant des machines virtuelles
Dalvik. (a) Lorsqu’un processus initie l’ex´ecution d’une application (chargement
du fichier .dex en m´emoire), elle charge le contenu du fichier .dex en
m´emoire. KBlare voit ce chargement et marque le processus qui va ex´ecuter l’application
comme contenant le contenu du fichier .dex. (b) La machine virtuelle
notifie ensuite KBlare qu’elle va interpr´eter le contenu du fichier .dex, c’est-
`a-dire l’ex´ecuter. (c) et (d) A la r´eception de la notification, KBlare consid`ere `
que le processus contenant la machine virtuelle ayant envoy´ee la notification va
ex´ecuter l’application dont le code est stock´e dans le fichier .dex. KBlare met
donc `a jour les tags du processus. Il indique que le processus contient la version
ex´ecut´ee du contenu du fichier .dex et applique `a ce processus la politique de
flux associ´ee au code que la machine virtuelle va interpr´eter.
Impl´ementation de la notification de l’ex´ecution d’une application
La notification est envoy´ee grˆace `a un canal de communication entre la machine
virtuelle Dalvik et KBlare. Ce canal est impl´ement´e avec Generic Net-
10. dvmJarFileOpen et dvmRawDexFileOpen respectivement d´efinies dans
dalvik/vm/JarFile.cpp et dalvik/vm/RawDexFile.cpp3.4. ANDROBLARE : BLARE SOUS ANDROID 77
VM init :
- Load
ressources
- Load optimzed
dex
- Notify KBlare
- ...
KBlare :
- Listen to notification
- Upon notification:
* Get tags associated to
the odex file
* Update tags associated
to the process
odex file (a)
(b)
(c)
(d)
Figure 3.6 – M´ecanisme de notification de l’ex´ecution d’une application Android
link [52] qui lui utilise les sockets Netlink [63]. Netlink est un m´ecanisme de
communication qui permet de faire communiquer entre eux des morceaux de
code qui sont dans le noyau ou en espace utilisateur. La communication entre
ces diff´erentes entit´es se font dans des bus Netlink, appel´es ´egalement protocoles.
Il existe un nombre d´efini de bus dans les syst`emes Linux et leur nombre
maximum est limit´e `a 32. Certains d’entre eux sont par exemple utilis´es par
des outils de gestion du trafic r´eseau tels que iproute2 [53]. Generic Netlink
est un m´ecanisme de communication bas´e sur Netlink et plus pr´ecis´ement un
multiplexeur construit au dessus d’un bus Netlink [76]. Les canaux de communication
sont appel´es familles et il est possible d’en d´efinir jusqu’`a 65520 pour
un seul et mˆeme bus Netlink. Nous pr´esentons dans ce qui suit le syst`eme de
coop´eration permettant de faire communiquer les machines virtuelles Dalvik
et KBlare. Plus pr´ecis´ement, nous pr´esentons la d´eclaration de la famille servant
de canal de communication, le comportement associ´e `a la r´eception d’une
notification et la mise en attente.
Comme ´ecrit pr´ec´edemment, le syst`eme de notification est une architecture
client/serveur. KBlare est le serveur qui se met en attente des notifications
d’ex´ecution d’application et les machines virtuelles Dalvik sont les clientes qui
envoient les notifications au serveur. La cr´eation d’un serveur d’´ecoute avec
Generic Netlink se fait en trois ´etapes : cr´eation d’une famille, d´efinition des
commandes reconnues par le serveur et enregistrement de la famille.
Afin que KBlare puisse recevoir les notifications, nous d´efinissons dans son
code une famille servant de canal de communication. Le listing 3.5 montre la
d´eclaration de la famille. Nous d´eclarons en premier les attributs possibles d’un
message. Nous en d´eclarons deux : DOC EXMPL A MSG et DOC EXMPL A INT. Ensuite,
nous d´efinissons le type associ´e aux attributs. Le premier attribut est une78 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
1 int dvmDexFileOpenFromFd(int fd, DvmDex** ppDvmDex)
2 {
3 DvmDex* pDvmDex;
4 DexFile* pDexFile;
5 MemMapping memMap;
6 int parseFlags = kDexParseDefault;
7 int result = -1;
8
9 if (gDvm.verifyDexChecksum)
10 parseFlags |= kDexParseVerifyChecksum;
11
12 if (lseek(fd, 0, SEEK_SET) < 0) {
13 ALOGE("lseek rewind failed");
14 goto bail;
15 }
16
17 if (sysMapFileInShmemWritableReadOnly(fd, &memMap) != 0) {
18 ALOGE("Unable to map file");
19 goto bail;
20 }
21
22 // Nofify KBlare
23 odex_is_mapped(fd);
24 ...
25 }
Listing 3.4 – Fonction de chargement en m´emoire du code d’une application
chaˆıne de caract`ere et le second un entier non sign´e sur 32 bits. Enfin, nous
d´eclarons la famille : variable doc exmpl gnl family. Chaque famille doit avoir
un identifiant unique 11. Le champ id contient l’identifiant num´erique de la famille.
En lui associant la valeur GENL ID GENERATE, nous laissons au syst`eme le
choix de l’identifiant. Le champ hdrsize d´efinit la taille de l’en-tˆete des messages
transitant par cette famille. Nous n’avons besoin d’aucune en-tˆete sp´ecifique.
Nous le mettons ainsi `a 0. Le champ name d´efinit le nom de la famille. Chaque
nom doit ˆetre unique et elle permet aux clients de r´ecup´erer l’identifiant de la
chaine. Les champs restant d´efinissent le num´ero de version de la famille et le
nombre d’attributs.
Une fois la famille d´efinie, il faut ensuite d´eclarer les commandes qu’elle supporte
ainsi que les fonctions qui leur sont associ´ees. Les commandes d´efinissent
les op´erations support´ees par le serveur. Nous en d´efinissons un, DOC EXMPL EXEC
DEX, dans le listing 3.6 qui correspond `a la notification de l’ex´ecution d’une
application. A cette commande, nous associons la fonction ` doc exmpl exec dex.
11. champ id3.4. ANDROBLARE : BLARE SOUS ANDROID 79
1 // USE GENERIC NETLINK
2 /* Family declaration */
3 /* attributes */
4 enum {
5 DOC_EXMPL_A_UNSPEC,
6 DOC_EXMPL_A_MSG,
7 DOC_EXMPL_A_INT,
8 __DOC_EXMPL_A_MAX,
9 };
10 #define DOC_EXMPL_A_MAX (__DOC_EXMPL_A_MAX - 1)
11
12 /* attribute policy */
13 static struct nla_policy doc_exmpl_genl_policy[DOC_EXMPL_A_MAX + 1] = {
14 [DOC_EXMPL_A_MSG] = { .type = NLA_NUL_STRING },
15 [DOC_EXMPL_A_INT] = { .type = NLA_U32 },
16 };
17
18 #define VERSION_NR 1
19 static struct genl_family doc_exmpl_gnl_family = {
20 .id = GENL_ID_GENERATE,
21 .hdrsize = 0,
22 .name = "BLARE_COOP", // family name
23 .version = VERSION_NR, //version number
24 .maxattr = DOC_EXMPL_A_MAX,
25 };
26 /* End of family declaration */
Listing 3.5 – D´eclaration d’une famille Generic Netlink dans le noyau pour le
m´ecanisme de coop´eration
Cette fonction r´ecup`ere `a partir de la charge utile du message re¸cu par le serveur
un entier repr´esentant le descripteur du fichier charg´e par la machine virtuelle
(ligne 24 `a 26). A partir de ce descripteur, il r´ecup`ere la structure correspondant `
au fichier puis met `a jour les tags associ´es au processus (ligne 36 `a 38).
Enfin, nous enregistrons la famille et les op´erations qu’elle supporte (listing
3.7). Ces enregistrements sont effectu´es dans la fonction netlink init qui
est appel´ee pendant l’initialisation des modules de noyau (ligne 22).
Du cˆot´e client, la communication avec KBlare est plus simple. Elle se traduit
par l’envoi d’un message avec la commande DOC EXMPL EXEC DEX et le descripteur
de fichier correspondant au code charg´e en m´emoire. La biblioth`eque
libnl [11] offre une API les sockets Netlink et Generic Netlink. Cependant,
dans la version actuelle du code, nous avons utilis´e les fonctions d´efinies dans
l’exemple du client fourni par A. Keller dans [64]. Le listing 3.8 pr´esente une
version ´epur´ee 12 du code servant `a la notification de l’ex´ecution des applications
Android. La variable req est le message Netlink `a envoyer dans le noyau.
12. sans v´erification des codes d’erreur80 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
Il contient l’en-tˆete du message Netlink, celui de Generic Netlink et la charge
utile du message. Rappelons que Generic Netlink n’est qu’un multiplexeur au
dessus d’un bus Netlink. L’envoi d’une notification se fait en plusieurs ´etapes.
1. R´ecup´erer l’identifiant du canal de communication (lignes 13, 14). Il est
n´ecessaire afin d’envoyer le message dans le bon canal de communication.
2. Initialiser les en-tˆetes Netlink et Generic Netlink. Dans le cas de Generic
Netlink, il s’agit de d´efinir la commande `a envoyer, DOC EXMPL EXEC DEX.
3. Composer le message. Cela consiste `a d´efinir les attributs `a passer dans
le message ainsi que la valeur qui leur est associ´ee. Nous d´efinissons ainsi
comme attribut un entier et le descripteur du fichier dex comme valeur
associ´ee (ligne 23 `a 28).
4. Envoyer le message. Generic Netlink est un multiplexeur au dessus d’un
bus Netlink. Nous d´eclarons ainsi un socket Netlink et envoyons le message
avec ce socket.
Lorsqu’une machine virtuelle va interpr´eter le contenu d’un fichier .dex, il
appelle la fonction odex is mapped (listing 3.4) en lui donnant en param`etre le
descripteur du fichier .dex. Cette fonction envoie un message, via une famille
de communication Generic Netlink, au noyau et plus pr´ecis´ement `a KBlare. Le
message contient deux informations. La premi`ere est une commande qui permet
au destinataire de choisir le traitement `a effectuer `a la r´eception du message. La
deuxi`eme information est le descripteur du fichier .dex. Il permettra `a KBlare
d’identifier le fichier dont le contenu va ˆetre interpr´et´e par la machine virtuelle et
propager les tags de ce fichier vers le processus contenant la machine virtuelle.
A la r´eception du message dans le noyau, ce dernier extrait du message la `
commande que le message contient. KBlare ayant associ´ee `a la commande, la
fonction doc exmpl dex (listing 3.6), le noyau transfert le traitement du message
`a cette fonction. La fonction r´ecup`ere `a partir du message le descripteur de fichier
et `a partir de ce descripteur, il r´ecup`ere la structure repr´esentant le fichier
contenant le code qui va ˆetre interpr´et´e. A partir de cette structure, KBlare `
r´ecup`ere les tags associ´es aux fichiers et les propage comme dans le cas d’une
ex´ecution au processus ayant envoy´e la notification. A la r´eception du message, `
KBlare tourne dans le contexte du processus ayant envoy´e la notification. Ce
sont donc les tags de ce processus qui sont mis `a jour.3.4. ANDROBLARE : BLARE SOUS ANDROID 81
1 /* commands: enumeration of all commands (functions),
2 * used by userspace application to identify command to be executed
3 */
4 enum {
5 DOC_EXMPL_C_UNSPEC,
6 DOC_EXMPL_C_EXEC_DEX,
7 __DOC_EXMPL_C_MAX,
8 };
9
10 #define DOC_EXMPL_C_MAX (__DOC_EXMPL_C_MAX - 1)
11
12 static int doc_exmpl_exec_dex(struct sk_buff *skb_2, struct genl_info *info) {
13 struct nlattr *na;
14 struct sk_buff *skb;
15 int rc;
16 void *msg_head;
17 int * mydata;
18 struct file * dexfile;
19 struct blare_file_struct *fstruct;
20
21 if (info == NULL)
22 goto out;
23
24 na = info->attrs[DOC_EXMPL_A_INT];
25 if (na) {
26 mydata = (int *) nla_data(na);
27 if (!mydata)
28 printk(KERN_INFO "[BLARE_NETLINK] error while"
29 "receiving data\n");
30 } else {
31 printk(KERN_INFO "[BLARE_NETLINK] no fd from userspace");
32 goto out;
33 }
34
35 rcu_read_lock();
36 dexfile = fcheck(*mydata);
37 if (dexfile) {
38 interp_exec(dexfile);
39 } else {
40 printk(KERN_INFO "[BLARE_NETLINK] could not find"
41 "struct file of %d\n", *mydata);
42 }
43 rcu_read_unlock();
44 out:
45 return 0;
46 }
47
48 /* Map command and function */
49 struct genl_ops doc_exmpl_gnl_ops_exec_dex = {
50 .cmd = DOC_EXMPL_C_EXEC_DEX,
51 .flags = 0,
52 .policy = doc_exmpl_genl_policy,
53 .doit = doc_exmpl_exec_dex,
54 .dumpit = NULL,
55 };
Listing 3.6 – D´efinition d’une commande Generic Netlink pour notifier
l’ex´ecution d’une application82 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
1 static int __init netlink_init() {
2 int rc;
3 printk(KERN_INFO "Blare init generic netlink");
4
5 /* register new family */
6 rc = genl_register_family(&doc_exmpl_gnl_family);
7 if (rc != 0)
8 goto failure;
9
10 /* register operations */
11 genl_register_ops(&doc_exmpl_gnl_family,
12 &doc_exmpl_gnl_ops_exec_dex);
13
14 return 0;
15
16 failure:
17 printk(KERN_INFO "[BLARE_NETLINK] an error occured while"
18 "inserting the generic netlink example module\n");
19 return -1;
20 }
21
22 __initcall(netlink_init);
Listing 3.7 – Enregistrement de la famille servant `a la notification d’ex´ecution
des applications3.4. ANDROBLARE : BLARE SOUS ANDROID 83
1 int odex_is_mapped(int fd) {
2 int nl_sd; // Netlink socket
3 int id;
4 int r;
5 struct {
6 struct nlmsghdr n;
7 struct genlmsghdr g;
8 char buf[256];
9 } req;
10 struct nlattr *na;
11
12 /* Get the identifier of the family */
13 nl_sd = create_nl_socket(NETLINK_GENERIC,0);
14 id = get_family_id(nl_sd);
15
16 /* Init netlink header */
17 ...
18
19 /* Init generic netlink header */
20 req.g.cmd = DOC_EXMPL_EXEC_DEX;
21
22 /* Compose message */
23 na = (struct nlattr *) GENLMSG_DATA(&req);
24 na->nla_type = DOC_EXMPL_A_INT;
25 int mlength = sizeof(int);
26 na->nla_len = mlength + NLA_HDRLEN;
27 memcpy(NLA_DATA(na), &fd, mlength);
28 req.n.nlmsg_len += NLMSG_ALIGN(na->nla_len);
29
30 /* Send message */
31 struct sockaddr_nl nladdr;
32 memset(&nladdr, 0, sizeof(nladdr));
33 nladdr.nl_family = AF_NETLINK;
34 r = sendto(nl_sd, (char *)&req, req.n.nlmsg_len, 0,
35 (struct sockaddr *) &nladdr, sizeof(nladdr));
36 close(nl_sd);
37 return 0;
38 }
Listing 3.8 – Notification de l’ex´ecution d’une application par la machine virtuelle
Dalvik84 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
3.4.4 Description des flux observ´es
KBlare d´ecrit les flux impliquant des donn´ees sensibles dans un format assez
verbeux et sans fournir assez d’information parfois. La figure 3.7 est un
exemple de description de flux ´emis par KBlare lorsqu’il d´etecte un flux d’un
fichier vers un processus. Parmi les informations que nous aurions aim´e avoir
´etaient le chemin complet du fichier, son identifiant et les informations li´ees au
processus. Avoir le chemin complet du fichier permet `a un analyste d’identifier
avec pr´ecision le fichier impliqu´e dans le flux. L’identifiant du fichier, son inode,
peut ´egalement s’av´erer utile si le nom du fichier est amen´e `a changer au cours
de l’ex´ecution du syst`eme.
Sous Android, nous avons ainsi mis les alertes sous la forme d´ecrite en fi-
gure 3.8. Un message est d´ecoup´e en trois parties s´epar´ees par le caract`ere ’>’.
Les deux premi`eres parties d´ecrivent le conteneur source et destination du flux.
C TYPE repr´esente le type du conteneur (fichier, socket et processus). C NAME est
le nom du conteneur. Dans le cas des sockets, il s’agit de l’adresse IP associ´ee `a la
socket. Dans le cas des processus, nous donnons `a la fois le nom du thread courant
et du processus. Les deux noms peuvent diff´erer. Par exemple, les services
dans system server tournent dans des threads avec des noms diff´erents. Avoir
le nom des deux peut ainsi aider `a comprendre quelle partie de l’application est
`a l’origine du flux.
3.4.5 Outils en espace utilisateur
Il existe sous Linux des outils en ligne de commande pour manipuler les tags
Blare associ´es aux fichiers. Leur code est disponible dans la branche master
du d´epˆot kblare-tools [38]. Ces outils ont ´et´e port´es sous Android, branche
android version du mˆeme d´epˆot, et une version sous forme d’extension d’un
navigateur de fichier Android a ´egalement ´et´e d´evelopp´ee lors d’un stage de 2
mois par Q. Dion. L’extension permet de manipuler via l’interface tactile d’un
appareil Android les tags associ´es aux fichiers et ´evite ainsi d’avoir `a ouvrir
une interface en ligne de commande. Dans le cadre d’un autre stage, T. Saliou
a d´evelopp´e Blare Policy Manager (BPM). BPM impl´emente les fonctions de
composition et de v´erification des politiques ´ecrites en BSPL et applique la
politique r´esultant de la composition sur le syst`eme. Nous avons utilis´e BPM
dans [20] pour composer et appliquer les politiques d’application tierce sur un
t´el´ephone avec l’environnement AndroBlare.
Process with pid 98 running cat made an illegal READ access to
file toto.txt
Figure 3.7 – Exemple de message lev´e par Blare sous Linux3.5. ANDROBLARE : ANALYSE D’APPLICATIONS ANDROID 85
C TYPE C NAME C ID > C TYPE C NAME C ID > ITAG
Figure 3.8 – Format des flux observ´es par Blare sous Android
3.5 AndroBlare : environnement d’analyse d’applications
Android
Dans cette th`ese, nous avons utilis´e AndroBlare en tant que environnement
d’analyse d’application Android. La figure 3.9 illustre l’environnement ainsi que
l’usage que nous en aurons dans les chapitres suivants. Pour analyser les applications,
nous utilisons un t´el´ephone Nexus S faisant tourner la version AOSP
d’Android Ice Cream Sandwich. Nous avons ajout´e au t´el´ephone tout l’environnement
AndroBlare : le module de s´ecurit´e dans le noyau, le syst`eme de notification
d’ex´ecution d’application Android et les outils utilisateurs pour manipuler
les tags. Nous avons ´egalement rajout´e les application Super User afin de recevoir
une notification visuelle `a chaque fois qu’une application demande les acc`es
root ainsi que busybox, un ´equivalent plus complet de toolbox.
Dans cet environnement, nous ex´ecutons toute application dont nous souhaitons
analyser le comportement. Ce comportement est la propagation des donn´ees
de l’application dans le syst`eme et est obtenu grˆace au suivi de flux d’information
effectu´e par AndroBlare. Pour chaque application `a analyser, nous r´ep´etons le
processus suivant. Nous installons l’application sur le t´el´ephone puis marquons
son fichier apk avec un identifiant unique. Nous consid´erons que le fichier apk
est la source des donn´ees appartenant `a l’application car il contient `a la fois son
code et les ressources qu’elle utilise telles que les images. Nous ex´ecutons ensuite
l’application et observons avec AndroBlare comment les donn´ees de l’application
se propagent dans le syst`eme. A partir des flux observ´es, nous pouvons effectuer `
deux types d’action : construire une repr´esentation compacte et humainement
compr´ehensible des flux observ´es (chapitre 4) ou d´etecter l’ex´ecution d’instance
de malware (chapitre 5).
Nous laissons les tags des autres conteneurs d’information `a leur valeur par
d´efaut, ensemble vide, sauf pour les fichiers servicemanager et surfaceflinger
dans /system/bin. A l’exception de ces deux fichiers, les autre conteneurs ne `
contiennent donc aucune information sensible du point de vue d’AndroBlare
et n’ont aucune politique de flux d’information. Quant aux deux fichiers, nous
leur assignons l’itag t0u pour signifier que les processus les ex´ecutant sont `a
ignorer pendant le suivi de flux d’information. L’identifiant 0 n’est pas utilit´e
dans le mod`ele de Blare pour identifier une information `a surveiller. Dans
l’impl´ementation, nous nous servons de cette valeur pour indiquer `a Blare quand
ignorer des flux d’information. Le but est d’´eviter une trop grande surapproximation
des flux observ´es par AndroBlare. Les applications servicemanager et surfaceflinger
sont deux processus cl´es du syst`eme Android. Le premier est un
service d’annuaire r´epertoriant tous les autres services du syst`eme. Les applications
souhaitant utiliser ces services doivent demander au servicemanager leur
r´ef´erence avant de pouvoir les utiliser. Le second est en charge de dessiner sur86 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
l’´ecran toute interface graphique. Les applications sont uniquement conscients
de ce qu’ils veulent afficher `a l’´ecran. Elles le transmettent `a surfaceflinger
qui lui composera les affichages des diff´erentes applications et affichera le rendu
final sur l’´ecran de l’appareil.3.5. ANDROBLARE : ANALYSE D’APPLICATIONS ANDROID 87
Android Kernel
User space
BLARE
Analyzed
application
Information
container 1 ... Information
container n
Analysed
application apk file
Blare log
Parser
Malware
detection
Trusted containers
surfaceflinger servicemanager
Figure 3.9 – AndroBlare : environnement d’analyse d’application Android88 CHAPITRE 3. BLARE : UN MONITEUR DE FLUX D’INFORMATION
R´esum´e
Dans ce chapitre, nous avons pr´esent´e Blare un syst`eme de d´etection d’intrusion
param´etr´e par une politique de flux d’information, le mod`ele sur lequel
il est bas´e et le processus de portage de Blare sous Android (AndroBlare). AndroBlare
utilise le mˆeme mod`ele th´eorique que Blare mais diff`ere de ce dernier
au niveau de l’impl´ementation. Lors du portage de Blare sous Android, nous
avons ajout´e la prise en compte de deux types de flux d’information : flux d’information
via le Binder et l’interpr´etation du code des applications Android
par la machine virtuelle Dalvik. Les applications Android n’utilisent pas les
m´ecanismes de communication fournis par le noyau Linux pour communiquer
entre elles. A la place, elles utilisent diff´erents m´ecanismes fournis par le frame- `
work Java qui reposent tous sur le Binder. Afin de suivre les flux d’information
entre les applications, nous avons pris en compte ce m´ecanisme de communication
dans AndroBlare. Sa prise en compte a consist´e `a ajouter deux nouveaux
hooks `a LSM et `a d´efinir dans le code de KBlare les fonctions correspondant `a
ces hooks. Le deuxi`eme type de flux d’information pris en compte dans AndroBlare
concerne l’ex´ecution des applications et plus pr´ecis´ement l’interpr´etation
de leur code par la machine virtuelle Dalvik. Les applications Android ne sont
pas des applications natives et leur ex´ecution ´etait donc invisible `a Blare. Lorsqu’une
application est ex´ecut´ee, son code est en r´ealit´e interpr´et´ee par la machine
virtuelle Dalvik. Le probl`eme pos´e par cette interpr´etation du code est
que l’ex´ecution ´etait invisible et donc KBlare ne pouvait mettre `a jour correctement
les tags des processus ex´ecutant du code sensible. Aucun processus n’´etait
marqu´e comme ex´ecutant du code et aucune politique ne pouvait ˆetre appliqu´ee
par application. Afin de permette `a KBlare d’observer l’ex´ecution d’une application
Android, nous avons ainsi ajout´e un m´ecanisme de coop´eration entre la
machine virtuelle Dalvik et KBlare. Cette coop´eration consiste `a notifier KBlare
via les sockets Netlink de l’ex´ecution d’une application par la machine virtuelle.
Lors de la pr´esentation du mod`ele de Blare, nous avons ´egalement expliqu´e
comment nous avons d´efini manuellement une politique de flux d’information
pour le syst`eme Android. La politique identifie 150 informations `a prot´eger et
186 conteneurs d’information pouvant acc´eder `a ces informations ou les stocker.
Cette politique a fait l’objet d’une publication `a ICC 2012 [16].Chapitre 4
Graphes de flux syst`eme
Pour chaque flux d’information observ´e qui implique une donn´ee sensible,
Blare ajoute une entr´ee d´ecrivant le flux dans un journal. Au fur et `a mesure
que le syst`eme s’ex´ecute, le taille du journal augmente et peut devenir rapidement
difficile `a analyser pour un ˆetre humain. Quelques minutes d’ex´ecution
du syst`eme peut suffire pour avoir des milliers d’entr´ees dans le journal de
Blare. Nous proposons donc dans ce chapitre une structure appel´ee System
Flow Graph pour repr´esenter les flux observ´es de mani`ere plus compacte et plus
compr´ehensible.
4.1 Graphe de flux syst`eme
Un graphe de flux syst`eme, que nous abr´egeons SFG (System Flow Graph)
dans le reste du document, est un multigraphe orient´e G “ pV, Eq o`u les nœuds
repr´esentent des conteneurs d’information et les arcs des flux d’information entre
les conteneurs.
Un nœud v P V a trois attributs v.type, v.name et v.id qui repr´esentent
respectivement le type du conteneur (fichier, processus et socket) correspondant
au nœud, son nom et son identifiant du conteneur dans le syst`eme. Selon le
type du conteneur, le nom du nœud est soit le chemin complet du fichier, le
nom du processus concat´en´e `a celui du thread ou l’adresse IP associ´ee `a la
socket. L’identifiant est le num´ero d’i-node pour les fichiers et le PID pour les
processus.
Un arc e P E a deux attributs e.timestamp et e.flow qui correspondent
respectivement `a la liste des moments auxquels le flux a ´et´e observ´e et les
identifiants des informations impliqu´ees dans le flux. Un arc repr´esente un flux
d’information unique du conteneur repr´esent´e par sa source vers le conteneur
repr´esent´e par sa destination. Le flux peut ˆetre observ´e plusieurs fois et inclut
`a chaque observation les mˆemes informations sensibles, i.e les identifiants des
informations qui se propagent sont les mˆemes `a chaque observation.
Un SFG est un multigraphe car il peut contenir des arcs parall`eles. Des arcs
8990 CHAPITRE 4. GRAPHES DE FLUX SYSTEME `
[1] file blob 18 > process cat 19 > {1, 2}
[2] process woman 20 > file blob 18 {3}
[3] process woman 20 > file blob 18 {3}
[4] file blob 18 > process cat 19 > {1, 2, 3}
Figure 4.1 – Exemple de flux d’information causant l’apparition d’arcs parall`eles
dans les SFG
�������� ������ �����������
�������������
�������� �����������
Figure 4.2 – Exemple de SFG avec des arcs parall`eles
parall`eles sont des arcs reliant les mˆeme nœuds. Un SFG a deux arcs parall`eles
lorsque Blare a observ´e deux flux d’information ayant la mˆeme source et la
mˆeme destination mais n’impliquant pas les mˆemes informations sensibles. La
figure 4.1 d´ecrit des flux d’information causant la cr´eation d’arcs parall`eles dans
les SFG. La premi`ere et derni`ere entr´ees d´ecrivent des flux ayant la mˆeme source
et la mˆeme destination : de blob `a cat. Cependant, le contenu de blob a ´et´e
modifi´e par le deuxi`eme et troisi`eme flux observ´es par Blare et ainsi le dernier
flux implique une information en plus par rapport `a la premi`ere. Ces deux flux
ne peuvent donc ˆetre consid´er´es comme un flux unique et sont repr´esent´es avec
deux arcs. Le deuxi`eme et le troisi`eme flux impliquent les mˆemes informations
sensibles et repr´esentent donc un flux d’information unique. Ils sont repr´esent´es
par un unique arc.
Graphe de flux syst`eme vs. graphe de d´ependance
Dans [66], Samuel T. King et Peter M. Chen utilisent un graphe de d´ependance
pour analyser les intrusions dans un syst`eme. Un graphe de d´ependance d´ecrit
sous la forme d’un graphe les flux d’information entre les objets du syst`eme. Les
nœuds sont les objets du syst`eme et un arc entre deux nœuds signifie qu’il y a eu
un flux d’information entre les objets repr´esent´es par les nœuds source et destination
de l’arc. Lorsqu’une intrusion a ´et´e d´etect´ee sur un objet du syst`eme,
ils construisent le graphe de d´ependance et l’analysent afin d’avoir un d´ebut
de diagnostic de l’intrusion. Le graphe de d´ependance est construit `a partir
des flux d’information qui ont eu lieu jusqu’`a la d´etection de l’intrusion et sa
construction est similaire `a celle d’un SFG.
Si un SFG et un graphe de d´ependance d´ecrivent tous les deux des flux4.1. GRAPHE DE FLUX SYSTEME ` 91
d’information entre les objets du syst`eme, le SFG apporte cependant plus de
pr´ecision car il est plus centr´e sur les informations que ne l’est un graphe de
d´ependance. Un graphe de d´ependance prend en compte tout flux d’information
s’op´erant dans le syst`eme et ne fait aucune distinction entre les informations qui
se propagent. Par contre, un SFG lui ne prendra en compte que les flux d’information
impliquant les donn´ees `a surveiller dans le syst`eme ce qui permet
de mieux filtrer les flux d’information `a analyser lors d’une intrusion et raccourcir
la dur´ee de l’analyse. Nous d´emontrons ce gain en repr´esentant la suite
d’´ev`enement suivante avec un SFG et un graphe de d´ependance pour analyser
une intrusion.
Soient un processus server ex´ecutant une application traitant des donn´ees
`a la demande d’applications clientes et f ilex un fichier dont l’acc`es est limit´e `a
server et dont l’int´egrit´e doit ˆetre pr´eserv´ee. Sur le mˆeme syst`eme tournent n
processus b´enins ex´ecutant diff´erents clients de server. A chaque requˆete cliente `
que server re¸coit, server se duplique et attribue le traitement de la requˆete au
processus fils r´esultant de la duplication. Un autre processus attacker ex´ecute
´egalement une application cliente de server sur le syst`eme mais contrairement
aux autres clients, il s’agit d’un processus malveillant dont le but de corrompre
le contenu de f ilex. Pour corrompre le contenu de f ilex, il envoie une requˆete
malicieuse `a server qui lors de son traitement va forcer le processus fils de server
`a corrompre f ilex. Nous supposons que la d´etection ait lieu au moment de la
corruption et que l’attaque soit men´ee seulement apr`es que les n processus aient
chacun envoy´e au moins une requˆete au serveur. Cette derni`ere supposition
permet d’avoir le pire des cas dans lors de l’analyse car tous les clients sont
d’´eventuels suspects.
En supposant que ces ´ev`enements se soient pass´es dans l’environnement
d’analyse utilis´ee dans [66], nous construisons le graphe de d´ependance illustr´e
dans la figure 4.3.a. En analysant ce graphe, le seul diagnostic que nous d´eduisons
est que l’un des processus clients a pu influencer le serveur `a modifier le contenu
de f ilex. Tous les processus clients sont de potentiels suspects car ils ont tous
envoy´es des donn´ees au serveur avant que l’attaque ne soit d´etect´ee.
Si nous supposons cette fois que les mˆeme ´ev`enements se soient produits
dans un environnement (Andro)Blare et que pour chaque client un identifiant
unique est associ´e aux donn´ees qu’il envoie alors nous aurions un SFG illustr´e
dans la figure 4.3.b. Nous supposons que l’identifiant x est associ´e aux donn´ees
provenant de l’application malveillante. En analysant le SFG, nous d´eduisons
que f ilex a ´et´e contamin´e avec des donn´ees identifi´ees par x. En filtrant le
SFG pour ne garder que les arcs impliquant les donn´ees identifi´ees par x, nous
obtenons la partie en gras du SFG qui indique clairement que le processus
attacker est `a l’origine de l’attaque.92 CHAPITRE 4. GRAPHES DE FLUX SYSTEME `
proc 1
server
... proc n attacker
child 1 ... child n child
filex
proc 1
server
{1}
... proc n
{n}
attacker
{x}
child 1
{1}
... child n
{n}
child
{x}
filex
{x}
(a) (b)
Figure 4.3 – Graphe de d´ependance et SFG repr´esentant les flux d’information
ayant pr´ec´ed´e la corruption d’un fichier f ilex
4.2 Quelques op´erations utiles sur les SFG
Dans les chapitres suivants, nous effectuerons certaines op´erations sur les
SFG. Nous pr´esentons dans cette section ces op´erations qui nous serviront par
la suite.
4.2.1 Intersection de deux SFG : g1 [ g2
L’intersection de deux SFG est le SFG dont les arcs sont l’ensemble des arcs
en commun aux deux SFG. La notion d’arcs en commun de deux SFG d´esigne
le fait qu’une partie des arcs des deux SFG sont les mˆemes. Nous consid´erons
qu’un arc e1 P g1 est le mˆeme qu’un arc e2 P g2 si :
— les deux arcs impliquent les mˆeme informations dans le flux d´ecrit par
chacun des arcs ;
— leurs nœuds de d´epart respectifs repr´esentent le mˆeme conteneur d’information
;
— leurs nœuds d’arriv´ee respectifs repr´esentent le mˆeme conteneur d’information.
Deux nœuds repr´esentant le mˆeme conteneur d’information doivent avoir le
mˆeme type et le mˆeme nom. Nous ne prenons pas en compte l’identifiant syst`eme
des conteneurs d’information car ils sont sp´ecifiques `a chaque syst`eme ou `a
une ex´ecution. Un processus n’existe tout au plus que le temps d’ex´ecution du
syst`eme. Son identifiant est donc li´e `a cette ex´ecution. L’identifiant d’un fichier
est li´e au syst`eme o`u il se trouve. Il est g´en´er´e automatiquement `a la cr´eation du
fichier. Un mˆeme fichier sur deux syst`emes diff´erents a donc deux identifiants
diff´erents.4.3. CONSTRUCTION D’UN GRAPHE DE FLUX SYSTEME ` 93
4.2.2 Inclusion d’un SFG dans un autre : g1 Ď g2
Soient deux SFG g1 et g2. Nous consid´erons que g1 est inclus dans g2 si tous
les arcs de g1 sont des arcs en commun avec g2.
4.2.3 Nœuds et arcs d’un SFG
Nous d´efinissions ´egalement les fonctions node et edges comme ´etant les
fonctions retournant respectivement l’ensemble des nœuds et des arcs d’un SFG.
4.3 Construction d’un graphe de flux syst`eme
Pour obtenir la repr´esentation compacte du journal de Blare, nous avons
d´evelopp´e un outil qui prend en entr´ee un journal de Blare et donne en sortie la
repr´esentation sous forme de SFG. L’algorithme 1 d´ecrit la transformation du
journal en SFG. Nous d´efinissons la fonction to edge comme ´etant une fonction
qui calcule l’arc correspondant `a une entr´ee d’un journal de Blare et utilisons
l’op´eration pour exprimer le fait que deux arcs repr´esentent le mˆeme flux
d’information unique. Deux arcs repr´esentent le mˆeme flux d’information unique
si leurs nœuds sources repr´esentent le mˆeme conteneur d’information ainsi que
leurs nœud de destination. Durant la construction d’un SFG, nous consid´erons
que deux nœuds v1 et v2 repr´esentent le mˆeme conteneur d’information si l’un
des cas suivants est vrai :
— v1 et v2 sont des fichiers, v1.id est ´egal `a v2.id et les fichiers correspondant
sont sur la mˆeme partition ;
— v1 et v2 sont des processus et v1.id est ´egal `a v2.id ;
— v1 et v2 sont des sockets qui sont li´ees `a la mˆeme adresse IP.
Nous utilisons l’identifiant au lieu des noms dans le cas des processus et
des fichiers car les noms peuvent changer durant l’ex´ecution du syst`eme. Les
identifiants identifient de mani`ere unique chaque objet et ne changent pas durant
l’ex´ecution du syst`eme. Utiliser le nom aurait ainsi cr´e´e une confusion pour
l’analyste car il ne pourrait plus retracer correctement la propagation des flux
dans le syst`eme. Par exemple, durant l’installation d’une application, un fichier
avec un nom al´eatoire est cr´e´e dans /data/dalvik-cache. Ce fichier contient
la version optimis´ee du code de l’application `a installer et est renomm´e en se
basant sur le nom de l’application `a la fin de l’installation. Si le conteneur est
impliqu´e dans un flux d’information avant et apr`es son renommage, nous aurions
un seul et mˆeme nœud pour le repr´esenter avec les identifiants alors que nous
aurions deux nœuds diff´erents en utilisant les noms.
Pour chaque entr´ee du journal de Blare, nous v´erifions si il existe un arc e1
correspondant au flux d´ecrit par l’entr´ee. Si c’est le cas, alors nous ajoutons le
timestamp de l’entr´ee courante `a la liste des timestamps de e1. Si ce n’est pas
le cas, nous ajoutons l’arc correspondant `a l’entr´ee courante au SFG. L’ajout
d’un nouvel arc implique ´egalement l’ajout de ses nœuds s’ils n’existaient pas
dans le SFG ; c’est-`a-dire qu’aucun des nœuds du SFG n’´etait ´egal aux nœuds94 CHAPITRE 4. GRAPHES DE FLUX SYSTEME `
source et destination du nouvel arc. La construction s’arrˆete quand il n’y a plus
d’entr´ee `a traiter et l’algorithme retourne le SFG.
Algorithme 1 : Construction d’un SFG `a partir des entr´ees d’un journal
de Blare
Input : Journal de Blare
Output : SFG correspondant aux flux d´ecrits dans le journal donn´e en
entr´ee
begin
g Ð empty SFG;
forall the entry ent in Blare log do
e0 Ð to edgepentq;
found Ð F alse;
forall the e1 P g do
if e0 e1 then
e1.timestamp Ð e1.timestamp Y e0.timestamp;
found Ð T rue;
break;
if found then
Add e0 to g;
return g;
Compacit´e du SFG
Nous avons avanc´e au d´ebut de ce chapitre que le premier atout du SFG
´etait de repr´esenter de mani`ere plus compacte les flux d’information observ´es par
Blare. Cette compacit´e a pour cons´equence de faciliter l’analyse des flux observ´es
afin de comprendre ce qui se passe dans le syst`eme. Durant la th`ese nous avons
analys´e plus d’une centaine d’application dont certaines ´etaient malicieuses et
d’autres non. L’analyse de chacune d’entre elles a dur´e entre 2 `a 5 minutes selon
les applications et le journal de Blare obtenu `a la fin de l’analyse contenait
quelques milliers d’entr´ee, c’est-`a-dire que Blare a observ´e des milliers de flux
d’information et chacun des flux observ´es par une entr´ee dans le journal. A titre `
d’exemple, l’analyse de 65 applications provenant de Google Play a produit en
moyenne plus de 130000 entr´ees dans le journal de Blare alors que les SFG
produits `a partir de chaque journal ont en moyenne une centaine d’arcs. La
raison de ce gain en compacit´e est que certains flux sont observ´es plusieurs fois
durant l’ex´ecution du syst`eme. Les ´echanges entre une application et le processus
system server sont par exemple r´ep´et´es plusieurs fois car ce processus h´eberge
les applications services du syst`eme fournies aux autres applications. Un autre
exemple de ces flux r´ep´et´es est la lecture ou l’´ecriture de donn´ees volumineuses
dans un fichier.4.4. SFG : PROFIL COMPORTEMENTAL D’UNE APPLICATION 95
4.4 Graphe de flux syst`eme : profil comportemental
d’une application
Un SFG repr´esente de mani`ere compacte les flux d’information observ´es par
(Andro)Blare. Dans cette th`ese, nous proposons d’utiliser le SFG en tant que
profil d’une application. Plus pr´ecis´ement, nous proposons d’utiliser le SFG pour
d´ecrire comment une information provenant d’une application se propage dans
le syst`eme entier. Afin de construire le SFG, nous analysons avec AndroBlare
comment l’information provenant d’une application sous surveillance se propage
dans le syst`eme. Nous installons l’application, assignons un nouvel identifiant
i `a ses donn´ees, marquons son apk avec un itag ´egal `a tiu, l’ex´ecutons et analysons
avec Blare comment ses donn´ees se propagent dans le syst`eme. Nous
assignons un nouvel identifiant aux donn´ees de l’application afin d’identifier les
flux d’information impliquant les donn´ees de l’application. L’apk contient toutes
les ressources d’une application. Nous le consid´erons donc comme l’origine des
donn´ees d’une application et le marquons avec l’itag tiu. A chaque fois que `
Blare observe un flux d’information impliquant une donn´ee identifi´ee par i il
rajoute une entr´ee d´ecrivant le flux observ´e. En utilisant l’algorithme 1, nous
construisons ensuite le SFG correspondant aux flux observ´es. Le SFG r´esultant
peut ensuite ˆetre analys´e afin de comprendre les actions d’une application. Dans
ce qui suit, nous proposons d’analyser un ´echantillon d’un malware Android.
4.4.1 Analyse de DroidKungFu1 avec AndroBlare
DroidKungFu1 [61] est un malware Android d´ecouvert en 2011 sur les plateformes
de t´el´echargement alternatives `a Google Play. Il m`ene deux types d’attaque
: le vol des donn´ees li´ees au t´el´ephone (IMEI, num´ero du t´el´ephone et
version du syst`eme d’exploitation) et l’ajout d’application sur le t´el´ephone. Le
vol des donn´ees est une attaque basique car l’application demande `a l’installation
les permissions requises pour acc´eder aux donn´ees et communiquer sur
le r´eseau. Une fois install´ee, l’application collecte les donn´ees sensibles et les
envoie dans une requˆete HTTP vers un serveur distant. En revanche, l’ajout
d’application est plus complexe et les permissions demand´ees ne laissent en
rien pr´esager l’installation d’une nouvelle application. Pour installer d’autres
applications, le malware ´el`eve ses privil`eges en exploitant une vuln´erabilit´e du
syst`eme Android [31] ou en utilisant le binaire su 1
.
L’´echantillon que nous utilisons 2 provient de la collection Contagio [82] et
a ´et´e propos´e comme un client VoIP sur des plateformes alternatives `a Google
Play. La figure 4.4 est une capture d’´ecran des permissions demand´ees `a l’utilisateur
par l’´echantillon. Parmi les acc`es demand´es, nous remarquons l’acc`es `a
l’identit´e du t´el´ephone (ex : IMEI et num´ero de t´el´ephone) et l’acc`es au r´eseau.
Nous analysons l’´echantillon avec AndroBlare comme d´ecrit en section 3.5. Nous
l’installons sur un t´el´ephone, marquons son apk, l’ex´ecutons et analysons avec
1. switch user
2. Empreinte MD5 : 39d140511c18ebf7384a36113d48463d96 CHAPITRE 4. GRAPHES DE FLUX SYSTEME `
Figure 4.4 – Permissions demand´ees par un ´echantillons de DroidKungFu
AndroBlare comment ses informations se propagent dans le syst`eme.
Le code malveillant dans l’application est automatiquement ex´ecut´e d`es que
nous lan¸cons l’application. Super User notifie que l’application a obtenu les
droits root et au bout de quelques secondes, nous remarquons une nouvelle
application, Google SSearch, dans le menu principal du t´el´ephone (figure 4.5).
Nous arrˆetons l’analyse et cr´eons `a partir du journal de Blare le SFG de l’application.
Le nombre d’entr´ees cr´e´ees dans le journal est de 3563 et `a partir de ces
entr´ees nous construisons le SFG que nous analysons dans la section suivante.
4.4.2 Analyse du SFG de DroidKungFu1
La figure 4.6 illustre un extrait du SFG de l’´echantillon 39d140511c18ebf7384a36113d48463d.
Le SFG entier est plus grand (106 arcs et 76 nœuds)
mais la figure montre la partie la plus importante du point de vue de l’attaque
(partie en gras). Le SFG a deux types de nœuds. Les ellipses repr´esentent des
processus tandis que les boˆıtes repr´esentent des fichiers. Les arcs repr´esentent
toujours des labels mais pour des raisons esth´etiques, nous nous sommes limit´es
`a afficher le nombre de fois que les flux correspondants aux arcs ont ´et´e observ´es4.4. SFG : PROFIL COMPORTEMENTAL D’UNE APPLICATION 97
Figure 4.5 – Liste des applications dans le menu du t´el´ephone apr`es l’installation
d’une nouvelle application par un ´echantillon de DroidKungFu98 CHAPITRE 4. GRAPHES DE FLUX SYSTEME `
/data/app/com.aijiaoyou.android.sipphone-1.apk
system_server
1 - 98081668
ndroid.sipphone
82 - 98349271
11 - 98341815
/data/system/packages.xml
1 - 313591933
.google.ssearch
7 - 319549869
82 - 98347483
/data/data/com.aijiaoyou.android.sipphone/gjsvro
2 - 100112038
/data/data/com.aijiaoyou.android.sipphone/legacy
1 - 312461265 1 - 100158896
gjsvro
3 - 121963546
/proc/sys/kernel/hotplug
1 - 121959054
/system/bin/gjsvr
2 - 121963729
/system/app/com.google.ssearch.apk
11 - 312503997
2 - 312993777
dexopt
1 - 313427486
2 - 319553901
cat
11 - 312938978
/data/dalvik-cache/system@app@com.google.ssearch.apk@classes.dex
2 - 313429554 1 - 313573503
1 - 319567573
7 - 319548445
12 - 312503806 12 - 312938674
Figure 4.6 – Extrait du SFG d’un ´echantillon de DroidKungFu4.4. SFG : PROFIL COMPORTEMENTAL D’UNE APPLICATION 99
ainsi que le timestamp de la premi`ere observation. L’application que nous avons
analys´e est le processus ndroid.sipphone. En analysant le SFG, nous pouvons
d´eduire que deux applications ont ´et´e install´ees sur le t´el´ephone.
Lorsque l’´echantillon s’ex´ecute, il cr´ee deux fichiers /data/data/com.aijaoyou.sipphone/gjsvro
et /data/data/com.aijaoyou.sipphone/legacy. A par- `
tir du contenu de ces fichiers, deux processus, gjsvro et cat, cr´eent deux
nouveaux fichiers dans la partition system : /system/bin/gjsvro et /system/app/com.google.search.apk.
Cela indique l’installation d’une application
native, gjsvro, et d’une application Android, com.google.search.apk.
Ces deux fichiers n’existent pas par d´efaut sous Android, ce qui laisse supposer
qu’ils ont ´et´e cr´e´es par l’´echatillon du malware que nous analysons. Les flux qui
suivent renforcent cette hypoth`ese car le contenu du fichier apk se propage vers
le processus system server qui lui le propage dans le fichier packages.xml.
Le processus system server ex´ecute divers services du syst`eme dont celui en
charge de l’installation des nouvelles applications, Package Manager. Package
Manager observe la cr´eation de nouveaux fichiers dans le r´epertoire /system/app
qui stocke les applications syst`eme. Si un fichier est cr´e´e dans ce r´epertoire, il
lance l’installation du fichier. Le fichier packages.xml contient la liste des applications
install´ees sur le t´el´ephone. De plus, le contenu du fichier apk est
´egalement lu par le processus dexopt qui est en charge d’extraire la version
optimis´ee du code d’une application `a partir de son apk. Un nouveau processus,
google.search acc`ede ensuite `a cette version optimis´ee ainsi qu’`a l’apk cr´e´e
par le malware ce qui indique l’ex´ecution d’une nouvelle application.
Pour confirmer l’installation, nous analysons le fichier packages.xml. En calculant
la diff´erence de son contenu avant et apr`es l’analyse de l’´echantillon, nous
remarquons une entr´ee d´ecrivant une nouvelle application com.google.ssearch
(listing 4.1). L’entr´ee indique que le code de l’application correspond au fichier
com.google.ssearch.apk dans la partition system. Elle indique aussi l’UID
associ´e `a l’application : 10059. A l’installation d’une application, le syst`eme lui `
associe un nouvel UID dont la valeur est le dernier UID associ´e `a une application
incr´ement´e de 1. L’UID associ´e `a l’´echantillon que nous avons analys´e est
10058. Cela signifie donc que l’application com.google.ssearch a ´et´e install´ee
apr`es l’´echantillon que nous avons analys´e.
481
484
485
486
487
488
Listing 4.1 – Entr´ee dans le fichier packages.xml ajout´ee suite `a l’installation
d’une nouvelle application par un ´echantillon de DroidKungFu100 CHAPITRE 4. GRAPHES DE FLUX SYSTEME `
Avant de cr´eer les fichiers dans la partition system, le processus gjsvro
´ecrit dans un fichier hotplug. Ce fichier est une entr´ee du procfs, un syst`eme
de fichier servant d’interface pour acc´eder `a des informations sur les processus
et d’autres ´el´ements du syst`eme tels que le noyau. Si l’´ecriture de donn´ee dans
le fichier hotplug ne signifie pas forc´ement une attaque, elle est cependant
inhabituelle et correspond `a l’exploitation de la vuln´erabilit´e pour obtenir les
droits root sur le syst`eme [31].
Un SFG est un multigraphe orient´e qui repr´esente de mani`ere compacte les
flux d’information observ´es par AndroBlare. Comme nous l’avons montr´e `a la
fin de la section 4.3, une centaine de milliers d’entr´ee dans le journal d’AndroBlare
se r´eduit en un graphe avec un moyenne une centaine d’arcs. Grˆace `a
sa compacit´e, cette structure facilite l’analyse des flux observ´es dans le syst`eme
afin de comprendre le comportement d’une application. Dans le cas d’analyse de
malware, cette fonctionnalit´e s’av`ere int´eressant pour ´etablir un d´ebut de diagnostic
d’une attaque. Pour illustrer cela, nous avons analys´e avec AndroBlare
un ´echantillon du malware DroidKungFu1 et construit le SFG correspondant
aux flux observ´es durant l’analyse. Nous avons d´eduit `a partir du SFG que
l’´echantillon analys´e installait deux applications dans le syst`eme : une native
et une sous forme d’apk. Ces deux applications sont install´ees dans la partition
system, ce qui rend leur pr´esence persistante sur le t´el´ephone. Un utilisateur
normal ne peut d´esinstaller une application dans la partition system sans les
droits root or ils ne sont pas disponibles par d´efaut sur les t´el´ephones. Le SFG a
´egalement mis en ´evidence l’exploitation de la vuln´erabilit´e pour avoir les droits
root (´ecriture de donn´ees sensibles dans le fichier hotplug).
Revenons sur le travail effectu´e dans [16] et pr´esent´e en section 3.2. Le but
de ce travail ´etait de d´efinir manuellement une politique de flux d’information
pour le syst`eme Android. Sa r´ealisation a cependant mis en ´evidence la difficult´e
d’une telle approche. L’un des pr´e-requis `a cette d´emarche est une connaissance
approfondie du syst`eme. Or ce n’est pas souvent le cas pour les d´eveloppeurs
d’application et d´efinir une politique de flux pour des applications cens´ees tourner
dans un environnement AndroBlare pourrait s’av`erer difficile. Avec T. Saliou,
nous avons ainsi propos´e dans [20] une approche semi-automatique pour
assister un d´eveloppeur dans la cr´eation de la politique d’une application.
4.5 Cr´eation d’une politique de flux d’information
`a partir d’un System Flow Graph
La difficult´e dans la d´efinition d’une politique est de connaˆıtre tous les conteneurs
l´egaux des informations `a surveiller. Lors de la d´efinition de la politique
d’une application, il s’agit donc d’identifier tous les conteneurs pouvant acc´eder
ou stocker les donn´ees de cette application. Pour les identifier, nous proposons4.5. POLITIQUE DE FLUX D’INFORMATION A PARTIR D’UN SFG ` 101
d’analyser les applications pour construire leur profil sous forme de SFG. A par- `
tir du SFG, nous d´eduisons ensuite les conteneurs l´egaux des donn´ees surveill´ees
car le SFG d´ecrit o`u les informations surveill´ees se propagent dans le syst`eme.
La construction de la politique se fait en deux ´etapes. Dans un premier
temps, le d´eveloppeur analyse son application dans un environnement AndroBlare
et construit le profil de son application comme d´ecrit en section 4.4. Le
but de cette ´etape est d’obtenir dans le SFG tous les flux d’information possibles
que l’application peut causer. Le d´eveloppeur ´etant celui qui connaˆıt le mieux
son application, il est le mieux plac´e pour stimuler son application et couvrir
ainsi toutes les fonctionnalit´es offertes par l’application.
Une fois le SFG obtenu, nous calculons la politique de flux de l’application.
L’algorithme 2 d´ecrit le processus de calcul. Les fonctions cont, ptag, xptag,
inedges et bin retournent respectivement le conteneur d’information associ´e `a
un nœud, le ptag d’un conteneur, son xptag, les arcs entrants d’un nœud et
le fichier contenant l’application ex´ecut´ee par un processus. Pour chaque nœud
du SFG, nous consid´erons que le conteneur d’information qu’il repr´esente est
un conteneur l´egal de toutes les information sensibles impliqu´ees dans les arcs
entrants du nœud. Nous consid´erons que toutes ces informations peuvent se
m´elanger dans le conteneur. Par exemple, si deux arcs e0 et e1 sont les arcs
entrants d’un nœud n alors nous consid´erons que le conteneur repr´esent´e par n
est un conteneur l´egal des informations impliqu´ees dans les flux d´ecrits par les
deux arcs.
Algorithme 2 : Calcul d’une politique de flux d’information Blare `a partir
d’un SFG
Input : Un SFG G
Output : Une politique de flux d’information
begin
ptag (socket) Ð H;
foreach n P nodes (G) do
ids Ð H ;
foreach e P inedges (n) do
ids Ð ids Y e.flow ;
switch type (n) do
case file
ptag (cont (n)) Ð tidsu;
break;
case process
xptag (bin (cont (n))) Ð tidsu;
break;
case socket
ptag (socket) Ð ptag (socket) Y tidsu;
break;102 CHAPITRE 4. GRAPHES DE FLUX SYSTEME `
En utilisant cette approche, nous avons construit la politique de trois applications
issues de Google Play : Angry Birds, Finger Scanner et Knife Game.
La politique produite est ´ecrite en BSPL [57] et le listing 4.2 est un extrait de
l’une des politiques BSPL produites. Ecrire la politique en BSPL permet de ´
la composer avec d’autres politiques, notamment celle du syst`eme sur lequel
l’application est install´ee. La politique liste les conteneurs d’information pris en
compte par la politique, les donn´ees sensibles `a surveiller et pour chaque donn´ee
sensible la liste des conteneurs l´egaux ainsi que les informations avec lesquelles
elles peuvent se m´elanger dans le conteneur.
Evaluation des politiques produites ´
Nous avons men´e deux types d’exp´erience afin d’´evaluer les politiques de flux
produites `a partir de notre approche. La premi`ere exp´erience consiste `a valider
la prise en compte des flux que l’application engendre durant son ex´ecution
par sa politique de flux. Nous nous assurons qu’aucune alerte n’est lev´ee par
AndroBlare lorsque nous ex´ecutons l’application et appliquons sa politique. La
deuxi`eme exp´erience consiste `a valider la capacit´e de d´etection de la politique
en cas d’intrusion dans le syst`eme. Plus pr´ecis´ement, nous v´erifions que la politique
de s´ecurit´e permet la d´etection des d´eviations par rapport au comportement
d’origine de l’application. Nous consid´erons ici le cas des applications
malveillantes qui sont `a l’origine des applications b´enignes mais auxquelles du
code malveillant a ´et´e rajout´e. Ce mode d’infection est le plus utilis´ee par les
auteurs de malware selon l’analyse dans [113].
Dans les deux types d’exp´eriences, nous appliquons la proc´edure suivante.
Nous installons l’application, appliquons sa politique et l’utilisons comme un
utilisateur normal l’utiliserait. En parall`ele, nous v´erifions avec AndroBlare si
les flux caus´es par l’application violent la politique de flux du mise en œuvre.
Lors de la premi`ere exp´erience, nous utilisons la version de l’application ayant
servi lors de la cr´eation de la politique et v´erifions qu’aucune alerte n’est lev´ee
lors de l’utilisation de l’application. Si aucune alerte n’est lev´ee, cela signifie que
la politique couvre tous les flux que l’application cause durant son ex´ecution.
Lors de la deuxi`eme exp´erience nous utilisons des versions infect´ees des applications
utilis´ees dans l’exp´erience pr´ec´edente. Ces versions infect´ees sont des r´eels
´echantillons de malware provenant de la collection Contagio [82]. Les versions
infect´ees d’Andry Birds, Finger Scanner et Knife Game sont respectivement des
´echantillons d’une variante de LeNa [104], DroidKungFu1 [61] et Bad News [91].
Chacun de ces malwares essaient d’installer des applications sur le t´el´ephone
soit en usant des privil`eges demand´ees `a l’installation soit en exploitant des
vuln´erabilit´es dans le syst`eme. Le but de la deuxi`eme exp´erience est donc de
d´etecter ces comportements.
Le tableau 4.1 liste le nombre d’alertes lev´ees lors de l’´evaluation des politiques
des trois applications. Lors de la premi`ere exp´erience, AndroBlare n’a
l´ev´e aucune alerte pour les 3 applications. Les politiques respectives des trois applications
couvrent donc tous les flux qu’elles engendrent durant son ex´ecution.
Lors de la deuxi`eme exp´erience, AndroBlare a lev´e des alertes pour chacune4.5. POLITIQUE DE FLUX D’INFORMATION A PARTIR D’UN SFG ` 103
des versions infect´ees des applications utilis´ees durant la premi`ere exp´erience.
Les alertes lev´ees ´etant nombreuses, nous ne les mettrons pas dans le pr´esent
document mais la figure 4.7 est un extrait de ces alertes. Elle liste les alertes
lev´ees par AndroBlare lors de l’analyse de la version infect´ee de Finger Scanner.
La version infect´ee d’Angry Birds est un ´echantillon de LeNa. Les analyses
sur LeNa indiquent que le malware exploitent une vuln´erabilit´e du syst`eme
afin d’obtenir les privil`eges root puis installer une nouvelle application. Lors
de l’analyse de l’´echantillon, AndroBlare a lev´e des alertes indiquant l’acc`es en
lecture et ´ecriture `a des fichiers dans le r´epertoire de l’application par d’autres
applications : logo et logcat. Logo est une application binaire incluse par l’auteur
du malware dans l’application. Logcat est une application qui permet de
lire le contenu du journal du syst`eme. Ces deux applications lisent et ´ecrivent
dans les fichiers logo, crashlog, flag, exec et .e1240987052d situ´es dans
le r´epertoire de l’application analys´ee. Si ces acc`es n’indiquent pas forc´ement une
intrusion dans le syst`eme, elles correspondent cependant `a la premi`ere ´etape de
l’attaque men´ee par le malware, l’exploitation de la vuln´erabilit´e sur le syst`eme.
L’analyse effectu´ee dans [95] indique que l’application installe ou remplace les
binaires situ´ees dans /system/bin. AndroBlare n’a lev´e aucune alerte indiquant
de tels comportements. Pour s’assurer qu’il ne s’agit pas de faux n´egatif, nous
avons list´e le contenu du r´epertoire et v´erifi´e si de nouveaux binaires ont ´et´e
cr´e´es ou si le contenu des fichiers pr´esents ont ´et´e chang´e pendant l’analyse de
l’application. Notre analyse a montr´e qu’aucun fichier n’a ´et´e cr´e´e ni modifi´e.
La version infect´ee de Finger Scanner est un ´echantillon de DroidKungFu 1.
Tout comme LeNa, DroidKungFu1 exploite une vuln´erabilit´e dans le syst`eme
Android afin d’´elever ses privil`eges et installer deux applications sur le t´el´ephone :
une native et une application Android. Lors de l’analyse de l’´echantillon de
DroidKungFu 1, AndroBlare a lev´e des alertes indiquant l’´ecriture de donn´ees
sensibles dans une entr´ee de procfs 3
, deux fichiers dans la partition system et
la propagation des donn´ees sensibles vers le fichier contenant la liste des applications
du t´el´ephone, l’application en charge d’une partie de l’installation des
nouvelles applications sur le t´el´ephone et un nouveau processus dont le nom est
une partie du nom d’un des nouveaux fichiers cr´e´es dans la partition system.
Ces alertes sont list´ees dans la figure 4.7. Ces alertes correspondent `a l’exploitation
de la vuln´erabilit´e par DroidKungFu 1 ainsi que l’ajoute de nouvelles
applications dans le syst`eme. La premi`ere alerte correspond `a l’exploitation de
la vuln´erabilit´e par le malware. Les alertes qui restent d´ecrivent l’ajout des
deux nouvelles applications system ainsi que l’ex´ecution de l’une d’entre elles
(com.google.ssearch.apk).
La version infect´ee de Savage Knife Game est un ´echantillon de BadNews.
BadNews est un malware dont le comportement est dict´e par un serveur de
commande. En analysant le code de l’´echantillon avec Androguard [97], nous
avons d´ecouvert que le malware peut recevoir X types de commande : installer
une application, afficher une notification `a l’utilisateur, changer l’adresse
des serveurs de commande, t´el´echarger des fichiers et ajouter des raccourcis
3. Syst`eme de fichier servant d’interface `a des donn´ees du syst`eme, y compris le noyau104 CHAPITRE 4. GRAPHES DE FLUX SYSTEME `
[POLICY_VIOLATION] process gjsvro:gjsvro 984 > file /proc/sys/kernel/
hotplug 4827 > itag[-3]
[POLICY_VIOLATION] process gjsvro:gjsvro 984 > file /system/bin/gjsvr
16738 > itag[-3 3]
[POLICY_VIOLATION] process gjsvro:gjsvro 984 > file /system/app/
com.google.ssearch.apk 8330 > itag[-3 3]
[POLICY_VIOLATION] process cat:cat 990 > file /system/app/com.google.
ssearch.apk 8330 > itag[3]
[POLICY_VIOLATION] process gjsvro:gjsvro 984 > socket (127.0.0.1) 0 > itag[-3 3]
[POLICY_VIOLATION] file /system/app/com.google.ssearch.apk 8330 > process
dexopt:dexopt 991 > itag[3]
[POLICY_VIOLATION] process dexopt:dexopt 991 > file /data/dalvik-cache/
system@app@com.google.ssearch.apk@classes.dex 24632 > itag[3]
[POLICY_VIOLATION] file /data/dalvik-cache/system@app@com.google.ssearch.apk
@classes.dex 24632 > process dexopt:dexopt 991 > itag[3]
[POLICY_VIOLATION] process droid.gallery3d:droid.gallery3d 995 > file /data/data/
com.android.gallery3d/shared\_prefs/com.android .gallery3d\_preferences.xml
57603 > itag[3]
[POLICY_VIOLATION] file /system/app/com.google.ssearch.apk 8330 > process
.google.ssearch:.google.ssearch 1059 > itag[3]
[POLICY_VIOLATION] file /data/dalvik-cache/system@app@com.google.ssearch.apk
@classes.dex 24632 > process .google.ssearch:.google.ssearch 1059 > itag[3]
Figure 4.7 – Extrait des alertes lev´ees par l’´echantillon de DroidKungFu1 lors
de l’´evaluation de la politique de Finger Scaner
Version originale Version infect´ee
Angry Birds 0 15
Finger scanner 0 11
Knife game 0 209
Table 4.1 – Nombre d’alertes lev´ees par Blare lors de l’ex´ecution des versions
originales et infect´ees de trois applications en appliquant une politique BSPL
soit vers des pages web soit vers des fichiers sur le t´el´ephone. Lors de l’analyse
de l’´echantillon, AndroBlare a lev´e 209 alertes. Une partie d’entre elles
correspondent au t´el´echargement de deux applications, leur installation et leur
ex´ecution sur le t´el´ephone. L’une des applications est pr´esent´ee comme ´etant
Adobe Flash mais est en r´ealit´e un jeu et l’autre application est une version
infect´ee du jeu Doodle Jump. L’autre partie des alertes d´ecrivent l’´echange de
donn´ees sensibles du navigateur avec d’autres objets du syst`eme. Ces alertes
sont dues au fait que l’´echantillon analys´e utilise le navigateur pour initier le
t´el´echargement des applications. Pour cela, il ´emet un intent pour ouvrir les
adresses web pointant vers les applications `a t´el´echarger. A partir ce moment, le `
navigateur se trouve ainsi marqu´e comme contenant une donn´ee sensible et tout
´echange qu’il aura avec les autres ´el´ements du syst`eme est vu par AndroBlare
comme impliquant une donn´ee sensible.4.5. POLITIQUE DE FLUX D’INFORMATION A PARTIR D’UN SFG ` 105
1
2
3
4
5
12
13
16
19
22
25
26 ...
27 ...
28
29
30
31
32
40
41
43
44 ...
45 ...
46
47
48
49
Listing 4.2 – Extrait de la politique BSPL de l’application Finger Scanner106 CHAPITRE 4. GRAPHES DE FLUX SYSTEME `
R´esum´e
Nous avons pr´esent´e dans ce chapitre une structure de donn´ees, SFG, repr´esentant
sous la forme de multigraphe orient´e les flux d’information qu’AndroBlare
d´etecte durant l’ex´ecution du syst`eme. Cette structure est le deuxi`eme
apport de la th`ese et la deuxi`eme ´etape vers l’accomplissement de notre objectif
principal qui est de classifier et d´etecter les malware Android. Dans l’exemple
propos´e en section 4.4, nous avons obtenu un SFG contenant moins de 100 arcs
`a partir de plus de 3000 flux observ´es. Grˆace `a sa compacit´e, le SFG permet de
comprendre rapidement les ´ev`enements qui se passent dans le syst`eme. L’analyse
du graphe obtenu `a partir des flux engendr´es par un ´echantillon de DroidKungFu
1 nous a ainsi permis d’identifier l’installation de deux applications
par le malware. En plus d’utiliser cette structure comme profil d’une application,
nous avons ´egalement montr´e qu’il ´etait possible de s’en servir pour cr´eer
la politique Blare d’une application. Nous avons test´e cette approche sur trois
applications populaires de Google Play et montr´e que les politiques produites
capturaient bien les flux caus´ees par les applications durant leur ex´ecution et
permettaient de d´etecter les d´eviations de comportement dues `a tout code malveillant
introduit dans les applications.
Le contenu de ce chapitre a fait l’objet de deux publications. La premi`ere
a ´et´e publi´ee `a WISG13 [18] et pr´esente la structure SFG ainsi que la mani`ere
dont elle peut ˆetre utilis´ee pour comprendre le comportement d’une application.
La deuxi`eme publication a ´et´e publi´ee `a IAS13 [20] et ´etendue dans un article
du journal [19]. Elle pr´esente la m´ethode de cr´eation de politique BSPL `a partir
d’un SFG ainsi que son ´evaluation.Chapitre 5
Caract´erisation et d´etection
de malware Android
Nous avons pr´esent´e dans le chapitre pr´ec´edent une structure de donn´ee qui
d´ecrit de mani`ere compacte comment les informations surveill´ees par AndroBlare
se propagent dans le syst`eme et propos´e d’utiliser cette structure pour
d´ecrire comment une application propage ses donn´ees dans le syst`eme. En analysant
le graphe d’un ´echantillon de DroidKungFu 1, nous avons montr´e qu’une
partie du graphe correspondait `a l’attaque effectu´ee par le malware. Selon l’analyse
effectu´ee dans [113], plus de 86% des ´echantillons de malware Android sont
des applications existantes auxquelles du code malveillant a ´et´e ajout´e. Cela
signifie donc que les ´echantillons d’un mˆeme malware ont un comportement partiellement
commun dˆu au code malveillant qui leur a ´et´e inject´e. Un ´echantillon
d’un malware est une application consid´er´ee comme ´etant une ´echantillon de
ce malware. Une partie des flux qu’ils causent devraient ainsi ˆetre les mˆemes.
En supposant que l’attaque observ´ee dans le graphe de l’´echantillon de DroidKungFu
1 soit dˆu `a un code qui a ´et´e inject´e dans l’application d’origine et
d’autres applications, peut-on ainsi retrouver ce sous-graphe dans le graphe des
autres ´echantillons ? Nous avons g´en´eralis´e ce probl`eme et r´epondons dans ce
chapitre aux deux questions suivantes.
1. Existe-t-il des sous-graphes communs aux SFG des applications malveillantes
telles que cette partie commune corresponde au comportement
introduit par le code malveillant dans ces applications ?
2. Si un tel sous graphe existe, permet-il de d´etecter d’autres ´echantillons
du malware ?
Afin de r´epondre `a ces questions, nous pr´esentons et ´evaluons dans ce chapitre
une m´ethode pour calculer ce sous-graphe en commun et une m´ethode de
d´etection utilisant les flux d’information et les sous-graphes en commun pour
d´etecter l’ex´ecution d’´echantillon de malware.
107108 CHAPITRE 5. CARACTERISATION ET D ´ ETECTION DE MALWARE ´
5.1 Caract´erisation de malware Android : classi-
fication d’applications malveillantes Android
Nous proposons de caract´eriser un malware avec le(s) sous-graphe(s) en
commun aux SFG de ses ´echantillons qui d´ecrit son comportement malveillant.
Afin d’extraire cette partie commune, nous calculons les arcs en commun aux
SFG des ´echantillons de malware comme d´ecrit par l’algorithme 3. Le calcul effectu´e
peut ˆetre vu comme un processus de classification non supervis´ee o`u nous
cherchons `a regrouper les SFG, implicitement les applications correspondantes,
ayant des parties communes et parall`element `a calculer un profil pour chaque
classe qui caract´erise ses ´el´ements. Id´ealement, les ´echantillons d’un mˆeme malware
seraient regroup´ees au sein d’une mˆeme classe et donc caract´eris´es par
un seul profil. Contrairement aux autres approches effectuant des classifications
non supervis´ees sur les ´echantillons de malware ou des applications en
g´en´eral [67, 89, 90, 22], nous n’utilisons aucune notion de distance entre chaque
´el´ement pour d´eterminer s’ils devraient faire partie d’une mˆeme classe. A la `
place, nous consid´erons que deux ´el´ements, ici des SFG, font partie d’une mˆeme
classe s’ils ont une partie commune non nulle.
Une classification consiste `a apprendre `a partir d’un jeu de donn´ees un
mod`ele d´efinissant comment ces donn´ees sont ou peuvent ˆetre regroup´ees. Ici
nous souhaitons calculer des classes de SFG et les profils caract´erisants les
´el´ements de chaque classe. Ce jeu de donn´ees est repr´esent´e par la premi`ere
liste donn´ee en param`etre de l’algorithme 3. Une deuxi`eme liste est donn´ee en
param`etre mais elle sert uniquement `a filtrer les arcs qui pourraient faire partie
des profils que nous calculons. Ce filtrage est effectu´e par la fonction clean au
d´ebut de la classification. Nous donnerons plus de d´etail sur cet aspect plus
tard.
Initialement, la classification associe une classe diff´erente `a chacun des SFG
des applications. Le r´esultat renvoy´e par l’algorithme, c’est-`a-dire la classifi-
cation finale, est obtenue en calculant un point fixe sur l’´evolution de cette
classification. Le calcul du point fixe est repr´esent´e par la boucle while tandis
que la mise `a jour de la classification est op´er´ee par la fonction one-step-classification
(algorithme 4). Cette fonction prend en entr´ee une liste de classe
en param`etre et fusionne les paires de classes dont les profils ont une partie
commune. En supposant ainsi qu’il y ait n classes dans la classification donn´ee
en param`etre, elle v´erifie pour toute combinaison de deux classes si leurs profils
respectifs ont une partie commune non nulle. Cela se traduit par C
2
n
calculs d’intersection
de deux SFG. Si c’est le cas, elle fusionne les deux classes et associe
comme profil `a la classe r´esultante cette partie commune non nulle. Aux ´el´ements
des deux classes ayant ´et´e fusionn´ees s’ajoutent les ´el´ements des autres classes
dont le profil contient l’intersection des profils des deux classes fusionn´ees. Si
une classe n’a ´et´e fusionn´ee avec aucune autre classe, elle est ajout´ee telle quelle
dans la nouvelle classification.5.1. CARACTERISATION DE MALWARE ANDROID ´ 109
Algorithme 3 : Calcul des parties communes de SFG d’application caract´erisant
son comportement malveillant et regroupement de ces SFG
Input :
[g0,. . . ,gn] une liste de SFG
white une liste blanche de SFG
Output : [(s0,[g01
,. . . ,g0i
]),. . . ,(sm,[gm1
,. . . ,gmk
])] une liste de couple
associant les sous-graphes communs aux graphes les contenant
begin
assoc Ð H;
new assoc Ð [(clean (g0, white),[g0]),. . . ,(clean (gn, white),[gn])];
while passoc ‰ new assocq do
assoc Ð new assoc;
new assoc Ð one-step-classificationpassocq;
return assoc;
Algorithme 4 : One-step-classification function
Input :
assoc une liste de SFG
Output : une liste d’association de SFG
begin
new assoc Ð rs ;
tmp Ð H;
forall the g1 P keyspassocq do
forall the g2 P keyspassocqztg1u do
if pg1, g2q P tmp or pg2, g1q P tmp then
continue;
tmp Ð tmp Ytpg1, g2qu;
s Ð g1 [ g2 ;
if s “ H then
v Ð valuepassoc, g1q ` valuepassoc, g2q ;
forall the g P keyspassocqztg1, g2u do
if s Ď g then
v Ð v + value (assoc, g)
new assoc Ð addpnew assoc,ps, vqq;
return new assoc;110 CHAPITRE 5. CARACTERISATION ET D ´ ETECTION DE MALWARE ´
Pr´e-traitement des ´el´ements `a classifier : filtrage des arcs
des SFG
Nous avons mentionn´e pr´ec´edemment que la deuxi`eme liste donn´ee en entr´ee
de l’algorithme 3 ´etait utilis´ee par la fonction clean pour filtrer les arcs pouvant
faire partie des profils que nous calculons. Filtrer les arcs pouvant faire partie
des profils est une n´ecessit´e car une partie des SFG des applications Android
est la mˆeme que ces applications soient b´enignes ou non. Nous filtrons ainsi
les arcs `a prendre en compte dans les profils afin de ne pas calculer des profils
g´en´eriques d´ecrivant toute application Android au lieu de profils de malwrare
d´ecrivant leur comportement malveillant.
Cette partie commune entre les SFG des applications Android est due `a
la mani`ere dont les applications sont ´ecrites et `a la mani`ere dont l’environnement
Android fonctionne. En effet, les composants des applications Android
sont des composants qui ´etendent des classes pr´ed´efinies dans Android, `a savoir
Activity, BroadcastReceiver, Service et ContentProvider. Les composants
h´eritent ainsi des fonctionnalit´es de ces classes. Ainsi, ils ont tous par exemple
la mˆeme r´ef´erence au ContextManager, classe servant `a demander les r´ef´erences
des diff´erents services du syst`eme. Cette classe effectue la requˆete au processus
servicemanager par d´efaut. De plus, l’interaction avec le reste du syst`eme se
fait souvent avec des fonctions fournies par l’API Android ce qui peut causer des
flux similaires aux applications. Pour cr´eer ou acc´eder aux pr´ef´erences de l’application,
les applications utilisent souvent la fonction getSharedPreferences
par exemple. L’usage des pr´ef´erences est conseill´e dans divers cas tels que la sauvegarde
des donn´ees lorsqu’une applications est mise en pause par le syst`eme.
Le fichier stockant les pr´ef´erences est localis´e dans le r´epertoire local de l’application
par d´efaut et son acc`es via l’API d’Android est ainsi le mˆeme pour toutes
les applications.
A cause de ce caract`ere commun, des comportements communs sont par- `
tag´es entre les applications qu’elles soient b´enignes ou non. Ce qui implique
qu’une partie des flux d’information qu’elles causent sont les mˆemes. En calculant
simplement le sous-graphe commun aux graphes des ´echantillons de malware
sans effectuer de filtrage, nous risquerions d’obtenir un graphe en commun
caract´erisant n’importe quelle application Android et tout comportement malveillant
sera ainsi absent de ce graphe. Pour palier `a ce probl`eme, il est ainsi
n´ecessaire de filtrer les ´el´ements `a prendre en compte dans les sous-graphes en
commun que nous calculons. Dans les exp´eriences men´ees en section 5.2, nous
filtrons les arcs `a prendre en compte dans les profils de malware. Nous ignorons
les arcs qui d´ecrivent un flux impliquant les processus system server, celui
ex´ecutant l’application de galerie d’images et les fichiers dans /acct/uid 1
. A`
ces flux s’ajoutent ceux d´ecrits par les ´el´ements de la deuxi`eme liste donn´ee
en entr´ee de l’algorithme 3. Les ´el´ements de cette liste sont des SFG d’applications
b´enignes que nous consid´erons comme repr´esentant les comportements
communs que nous ne souhaitons pas ˆetre pris en compte durant le calcul des
1. Voir les pages manuel de acct sous Linux5.2. EVALUATION DE LA M ´ ETHODE DE CLASSIFICATION ´ 111
profils. Nous calculons dans la section 5.3 le r´esultat obtenu quand aucun filtrage
n’est appliqu´e et montrons que les classes produites ainsi que les profils calcul´es
sont trop g´en´eriques pour refl´eter un quelconque malware. Dans la section 5.3,
nous montrons l’utilit´e de ce filtrage en r´ep´etant la classification effectu´ee en
section 5.2.
5.2 Evaluation de la m´ethode de classification ´
5.2.1 Jeu de donn´ee
Afin d’´evaluer notre algorithme de calcul de sous-graphe, nous proposons
de l’appliquer sur 19 ´echantillons de malware : 5 ´echantillons de BadNews [91],
7 de DroidKungFu1 [61], 3 de DroidKungFu2 [60] et 5 de jSMSHider [96]. En
plus de ces 19 ´echantillons, nous utilisons ´egalement 7 applications provenant
de Google Play dont les SFG constitueront la liste blanche. Ces applications
sont compos´es de quatre jeux (Angry birds, Little Dentist, Finger Scanner et
Crazy Jump), un navigateur web (Firefox), deux utilitaires (Android Term et
Busybox Free) et une application de fond d’´ecran (Ironman 3 live).
BadNews est un malware qui infecte les syst`emes Android sous la forme
d’applications l´egitimes. En analysant manuellement les 5 ´echantillons avec Androguard,
nous avons d´etermin´e que BadNews est un malware dont le comportement
est dict´e par un serveur de commande et contrˆole (C&C). A l’ex´ecution `
du code malveillant, il contacte le serveur afin d’obtenir la prochaine commande
`a ex´ecuter. D’apr`es l’analyse effectu´ee, il comprend plusieurs commandes : t´el´echarger
et installer une application, afficher des informations sous forme de
notification (page web `a visiter, mise `a jour d’une application etc), installer
de nouveaux icˆones qui m`enent vers une page web ou une application Android
qui aurait ´et´e pr´ealablement t´el´echarg´ee et changer l’adresse du serveur C&C.
Durant les p´eriodes d’exp´erimentation que nous avons men´ees, le serveur ´etait
toujours actif et envoyait les mˆemes commandes `a chaque fois : t´el´echarger deux
applications et afficher des notifications de mises `a jour `a l’utilisateur qui une
fois cliqu´ees causent l’installation des applications. Les deux applications sont
une version infect´ee de Doodle Jump et un jeu en Russe qui est pr´esent´e comme
´etant une version d’Adobe Flash pour Android.
DroidKungFu1 est un malware d´ecouvert en 2011 qui installe furtivement
des applications sur le t´el´ephone en exploitant des vuln´erabilit´es du syst`eme ou
grˆace `a la commande su. Les applications sont install´ees sur la partition system
afin de rendre permanente leur pr´esence sur le t´el´ephone. Cette partition est par
d´efaut mont´ee en lecture seule et par d´efaut un utilisateur ne peut en changer
le contenu. Un acc`es root est n´ecessaire pour cela.
DroidKungFu2 a un comportement similaire `a DroidKungFu1. Il exploite
´egalement une vuln´erabilit´e du syst`eme pour ´elever ses privil`eges et installer
des applications sur le t´el´ephone.
jSMSHider est un malware qui installe ´egalement d’autres applications sur
le t´el´ephone de mani`ere furtive. Contrairement aux deux malwares pr´ec´edents,112 CHAPITRE 5. CARACTERISATION ET D ´ ETECTION DE MALWARE ´
il n’exploite aucune vuln´erabilit´e dans le syst`eme pour installer les applications.
A la place, son d´eveloppeur a sign´e les ´echantillons du malware avec la cl´e ayant `
servie `a signer les applications syst`eme dans les images non officielles d’Android.
Ces images sont cr´e´ees par des d´eveloppeurs de la communaut´e Android qui
d´eveloppent des versions personnalis´ees du syst`eme. L’un des plus connus est
Cyanogen Mod. Cette cl´e est celle qui est pr´esente dans les d´epˆots du code source
d’Android et est ainsi accessible `a tous. Elle n’est cependant utilis´ee pour signer
les applications dans les ROM officielles. En signant les ´echantillons avec cette
cl´e, les ´echantillons obtiennent ainsi des droits r´eserv´es aux applications syst`eme
telles que l’installation d’une application sur le t´el´ephone.
5.2.2 Exp´erimentation et r´esultat
Analyse des applications
Afin d’obtenir les SFG des ´echantillons, il faut dans un premier temps les
analyser pour observer comment leurs donn´ees se propagent dans le syst`eme.
Nous avons utilis´e l’environnement d’analyse d´ecrit en section 3.5 : un t´el´ephone
Android faisant tourner la version 4.0 d’Android Ice Cream Sandwich auquel a
´et´e ajout´e l’environnement AndroBlare, c’est-`a-dire le noyau modifi´e ainsi que
les applications en espace utilisateur.
Pour chaque application, nous r´ep´etons le processus suivant. Nous l’installons
sur le t´el´ephone, associons un identifiant unique `a ses donn´ees en marquant
son apk avec cet identifiant et l’ex´ecutons. Nous utilisons chaque application
comme un utilisateur lambda le ferait selon les fonctionnalit´es propos´ees par
l’application.
En addition `a cela, nous introduisons des ´ev`enements dans le syst`eme qui
sont les ´el´ements d´eclencheurs des codes malveillants pr´esents dans les ´echantillons
´etudi´es. Ces ´ev`enements ont ´et´e d´ecouverts en analysant le code de quelques
´echantillons de ces malwares. Nous pr´esentons dans ce qui suit ces ´ev`enements
d´eclencheurs mais invitons le lecteur `a lire l’annexe A pour l’analyse d´etaill´ee
ayant men´e `a leur d´ecouverte.
Afin d’´eviter ou de retarder toute d´etection, les d´eveloppeurs de malware
ajoutent parfois des conditions `a l’ex´ecution de leur code. Le code malveillant
dans BadNews ne s’ex´ecute par exemple que lorsque le composant MainService
ne re¸coit un intent lui signifiant de s’ex´ecuter. Pour ´eviter que le composant ne
soit lanc´e `a la r´eception de n’importe quel intent, le d´eveloppeur de BadNews
ajoute une v´erification suppl´ementaire lors de la r´eception du message. Il v´erifie
que l’intent re¸cu contienne un param`etre update et que la valeur associ´ee `a
ce param`etre vaut true. Nous envoyons ainsi manuellement un intent avec un
param`etre update dont la valeur associ´ee vaut true `a ce composant afin que le
code malveillant s’ex´ecute et que nous puissions observer les flux d’information
qu’il cause. Nous effectuons l’envoi grˆa ce `a la commande am, accessible `a partir
du shell d’Android comme le montre la commande ci-dessous.
$ am startservice APP_NAME/PACKAGE_NAME.AdvService \
--ez update 15.2. EVALUATION DE LA M ´ ETHODE DE CLASSIFICATION ´ 113
Dans le cas de DroidKungFu1 et DroidKungFu2, certains ´echantillons ont
une dur´ee minimale d’attente avant d’ex´ecuter le code malveillant. Cette dur´ee
est obtenue en soustrayant l’heure du syst`eme avec une date stock´ee dans un
fichier sstimestamp.xml dans le r´epertoire local de l’application. Le listing 5.1
est le contenu du fichier avant toute modification pour un des ´echantillons de
DroidKungFu1. En rempla¸cant la valeur stock´ee dans ce fichier par une valeur
assez petite, par exemple 1, nous for¸cons l’ex´ecution du code malveillant.
Nous changeons ici le contenu du fichier sstimestamp.xml lors de l’analyse des
´echantillons de DroidKungFu1 et DroidKungFu2 afin de s’assurer que le code
malveillant soit ex´ecut´e.
1
2
Listing 5.1 – Contenu du fichier sstimestamp.xml d’un ´echantillon de DroidKungFu1
Quant aux ´echantillons de jSMSHider, il n’est pas n´ecessaire d’introduire
un quelconque ´ev`enement car le code malveillant est ex´ecut´e d`es le lancement
de l’application. Une fois les applications analys´ees, nous construisons les SFG
correspondants et calculons les parties qui leur sont communes avec un outil
impl´ementant l’algorithme 3. Nous pr´esentons dans ce qui suit les r´esultats
obtenus.
R´esultats
A partir des SFG obtenus, nous avons calcul´e 4 profils, c’est-`a-dire 4 SFG. `
A chacun d’entre eux est associ´e un sous-ensemble des SFG donn´es en entr´ee. `
Le tableau 5.1 pr´esente les r´esultats du calcul. La premi`ere colonne liste les
´echantillons utilis´es. La deuxi`eme colonne indique la famille `a laquelle l’´echantillon
appartient selon la classification effectu´ee par les auteurs de la collection d’o`u il
provient. La troisi`eme colonne indique la collection d’o`u provient l’´echantillon.
Les colonnes restantes repr´esentent chacune un profil qui a ´et´e calcul´e `a partir
des SFG des ´echantillons. Pour chaque ´echantillon, une case non vide dans
l’une de ces colonnes signifie que le SFG de l’´echantillon contient le SFG correspondant
au profil. Par cons´equent, le profil caract´erise le comportement de
l’´echantillon. Les profils calcul´es sont illustr´es par les figures 5.1, 5.2, 5.3 et 5.4.
Le SFG de l’´echantillon live.photo.savanna.apk contient par exemple S0, le
SFG illustr´e par la figure 5.1. Sur les 19 ´echantillons utilis´es, 17 d’entre eux sont
regroup´es exactement selon leur classification dans leur base d’origine.
Le profil S0, figure 5.1, caract´erise les ´echantillons de BadNews. Il d´ecrit l’envoi
des donn´ees de l’application vers un deux serveurs distant, le t´el´echargement
de deux applications et une partie de leur installation ainsi que de leur ex´ecution.
L’envoi des donn´ees correspond aux flux partant du navigateur, android.brow-114 CHAPITRE 5. CARACTERISATION ET D ´ ETECTION DE MALWARE ´
Empreinte MD5 des ´echantillons Famille: Origine§ S0 S1 S2 S3
98cfa989d78eb85b86c497ae5ce8ca19 BN C
‘
e70964e51210f8201d0da3e55da78ca4 BN I
‘
4ecf985980bcc9b238af1fdadd31de48 BN I
‘
ccab22538dd030a52d43209e25c1f07b BN I
‘
3a648e6b7b3c5282da76590124a2add4 BN I
‘
994af7172471a2170867b9aa711efb0d DKF1 G
‘
39d140511c18ebf7384a36113d48463d DKF1 G
‘
7f5fd7b139e23bed1de5e134dda3b1ca DKF1 A
‘
107af5cf71f1a0e817e36b8deb683ac2 DKF1 A
‘
6625f4a711e5afaee5f349c40ad1c4ab DKF1 G
‘
6b7c313e93e3d136611656b8a978f90d DKF1 A
‘
4f6be2d099b215e318181e1d56675d2c DKF2 G
‘
72dc94b908b0c6b7e3cb293d9240393c DKF2 G
‘
f438ed38b59f772e03eb2cab97fc7685 DKF2 G
‘
ac2a5a483036eab1b363a7f3c2933b51 DKF1 A
‘
0417b7a90bb5144ed0067e38f7a30ae0 JSH G
‘
a3c0aacb35c86b4468e85bfb9e226955 JSH G
‘
d25008db2e77aae53aa13d82b20d0b6a JSH A
‘
24663299e69db8bfce2094c15dfd2325 JSH A
‘
: BN : BadNews, DKF1 : DroidKungFu1, DKF2 : DroidKunFu2, JSH : jSMSHider
§ C : Contagio, G : Genome Project, A : Androguard, I : Internet
Table 5.1 – Classification des 19 ´echantillons de malware.5.2. EVALUATION DE LA M ´ ETHODE DE CLASSIFICATION ´ 115
57664 - files/player
24642 - /data/dalvik-cache/data@app@com.realarcade.DOJ-1.apk@classes.dex
1047 - dexopt
*
1050 - .realarcade.DOJ
*
*
81 - mediaserver
*
*
*
57667 - files/stats
*
57663 - files/4200
*
57665 - files/4201
*
57666 - files/multi
* *
32791 - /data/app/com.realarcade.DOJ-1.apk
*
* *
320 - ndroid.launcher
*
57460 - downloads.db
*
577 - iders.downloads
57361 - data_3 0 - (82.x.x.x) 762 - id.defcontainer
7958 - /mnt/asec/smdl2tmp1/pkg.apk
*
1026 - ackageinstaller
*
15 - /sdcard/download/adobe.flash.apk
*
80 - drmserver
*
14 - /sdcard/download/doodle.jump.apk
*
275 - d.process.media
*
57378 - downloads.db-journal
*
973 - android.browser
*
* *
*
8237 - /data/drm/fwdlock/kek.dat
*
* *
0 - (213.x.x.x)
* *
* *
*
*
Figure 5.1 – S0 : sous-graphe en commun des ´echantillons de BadNews116 CHAPITRE 5. CARACTERISATION ET D ´ ETECTION DE MALWARE ´
ser, vers deux sockets r´eseaux. Sur la figure, nous avons intentionnellement
masqu´e une partie des adresses IP. Apr`es v´erification, l’une des adresses, 213.
x.x.x, est celle du serveur `a partir duquel les applications sont t´el´echarg´ees.
Le t´el´echargement est d´ecrit par l’´ecriture de donn´ees sensibles dans deux fi-
chiers apk par le processus iders.downloads. Ce dernier ex´ecute l’application
par d´efaut en charge des t´el´echargements de fichier. L’acc`es `a ces deux fichiers
par les processus id.defcontainer et packageinstaller indique leur installation
et la premi`ere composante connexe du SFG en partant du haut d´ecrit
l’ex´ecution d’une nouvelle application, une de celles qui ont ´et´e t´el´echarg´ees par
le malware. Ici, il s’agit de la version infect´ee de Doodle Jump. L’ex´ecution de
l’autre application n’est pas pr´esente dans le profil car il est install´e dans un
r´epertoire chiffr´e qui ne supporte pas les attributs ´etendus. Il est ainsi impossible
pour AndroBlare de suivre les flux d’information impliquant les fichiers dans ce
type de r´epertoire.
Le profil S1, figure 5.2, caract´erise les ´echantillons de DroidKungFu1 `a l’exception
de deux d’entre elles que nous expliquerons dans le paragraphe suivant.
S1 d´ecrit la copie de deux fichiers dans la partition system et l’ex´ecution de l’une
d’entre elles par la suite. Leur destination indique qu’il s’agit d’une application
native et d’une application Android.
8330 - /system/app/com.google.ssearch.apk
338 - ndroid.launcher
*
1106 - dexopt
*
57656 - /data/data/blare-anonym/gjsvro
1056 - gjsvro
*
*
0 - (127.0.0.1)
*
16735 - /system/bin/gjsvr
*
24640 - /data/dalvik-cache/system@app@com.google.ssearch.apk@classes.dex
*
1105 - cat
*
*
57660 - /data/data/blare-anonym/legacy
* *
Figure 5.2 – S1 : sous-graphe en commun des ´echantillons de DroidKungFu 1
Le profil S2, figure 5.3, caract´erise les ´echantillons de DroidKunFu2 ainsi
que deux ´echantillons de DroidKungFu1 qui ne sont pas caract´eris´es par S1. S2
indique l’acc`es du contenu de deux fichiers au contenu teint´es par les processus
secbino et cat. Si ces flux n’indiquent rien de malveillant en soi, elles correspondent
cependant au d´ebut de l’attaque effectu´ee par le malware. Ces processus
servent en effet `a la copie d’applications malveillantes dans le syst`eme. Comme5.2. EVALUATION DE LA M ´ ETHODE DE CLASSIFICATION ´ 117
mentionn´e pr´ec´edemment, deux ´echantillons de DroidKungFu1 sont ´egalement
caract´eris´es par S2. La raison est que ces ´echantillons partagent uniquement des
comportements en commun avec les ´echantillons de DroidKunFu2 en terme de
flux. Ainsi aucune fichier gjsvro ou com.google.search.apk, ni les processus
correspondants n’ont ´et´e cr´e´es durant leur analyse.
1111 - cat
57651 - /data/data/blare-anonym/mycfg.ini
1113 - cat
*
1073 - secbino
*
971 - secbino
57656 - /data/data/blare-anonym/WebView.db
* *
57652 - /data/data/blare-anonym/secbino
*
Figure 5.3 – S2 : sous-graphe en commun des ´echantillons de DroidKungFu 2
Le profil S3, figure 5.4, caract´erise les ´echantillons de jSMSHider et d´ecrit
l’installation ainsi que le d´ebut de l’ex´ecution d’une nouvelle application. L’acc`es
au fichier testnew.apk par le processus id.defcontainer indique l’installation
d’une nouvelle application. La lecture du fichier jSMSHider.apk par le processus
dexopt puis la cr´eation d’un fichier .dex par ce dernier indique l’ex´ecution d’une
nouvelle application. En effet, le processus dexopt est celui en charge d’extraire
le code des applications `a partir de l’apk et de cr´eer sa version optimis´ee.
A partir des SFG d’´echantillons de 4 familles de malware, nous avons extrait `
4 profils comportementaux sous la forme de SFG. Chacun de ces profils correspond
`a une famille de malware et d´ecrit une partie des comportements connus
de ces malwares. Le calcul de ces profils est rendu possible grˆace aux SFG de
7 applications b´enignes qui nous servent `a filtrer les ´el´ements faisant partie de
ces profils. La liste d’application est compos´ee de 5 jeux (Angry Birds, Crazy
Jump, Fingerprint scanner et Dentist), d’un navigateur internet (Firefox) et de
deux utilitaires (un terminal et la boˆıte `a outil busybox).
883 - dexopt
24640 - /data/dalvik-cache/data@app@j.SMSHider-1.apk@classes.dex
* *
32788 - /data/app/j.SMSHider-1.apk
*
748 - id.defcontainer
57659 - /data/data/blare-anonym/files/testnew.apk
*
Figure 5.4 – S3 : Sous-graphe en commun des ´echantillons de jSMSHider118 CHAPITRE 5. CARACTERISATION ET D ´ ETECTION DE MALWARE ´
Filtrage Nombre de groupe cr´e´es
Aucun filtrage 1
Sans la liste blanche 4
Filtre de base plus 7 SFG 4
20 applications de Google Play 4
Table 5.2 – Nombre de profils obtenus en variant le filtrage
5.3 De la n´ecessit´e du filtrage
Nous appliquons un processus de filtrage dans l’´evaluation effectu´ee en section
5.2.2. Ce filtre est compos´e des arcs d´ecrivant des flux avec les processus
system server et mediaserver ainsi que ceux des SFG de 7 applications. La
raison de ce filtrage est d’´eviter de calculer des classes et profils trop g´en´eriques
qui ne refl`etent aucun malware. Afin de montrer la n´ecessit´e de ce filtrage,
nous r´ep´etons l’exp´erience mais en faisant varier le filtrage. Nous avons r´ealis´e
l’exp´erience sans utiliser aucun filtre, c’est-`a-dire sans liste blanche ni les flux impliquant
les conteneurs cit´es en section 5.1, sans la liste blanche puis en utilisant
le filtrage de la section pr´ec´edente mais en ajoutant des SFG suppl´ementaires
`a la liste blanche. Le tableau 5.2 pr´esente les r´esultats obtenus. Chaque ligne
pr´esente le r´esultat obtenu selon le filtrage appliqu´e. La premi`ere colonne liste
les diff´erents filtrages et la seconde le nombre de profils/groupes cr´e´e. Nous
discutons dans ce qui suit de la pertinence des groupes cr´e´es.
En utilisant aucun filtrage, l’algorithme extrait un seul sous-graphe qui est
une partie commune aux SFG des 19 ´echantillons de malware utilis´es. La fi-
gure 5.5 illustre ce sous-graphe. Les flux d´ecrits par le sous-graphe indique
uniquement des ´echanges d’information entrele processus system server et
diff´erents processus. Le profil calcul´e est trop g´en´erique et ne d´ecrit aucun comportement
malveillant connu des malwares utilis´es.
En filtrant sans la liste blanche, nous obtenons 4 profils associ´es `a 4 groupes
diff´erents. Si le nombre de profils correspond au nombre de malwares utilis´es,
ils ne d´ecrivent cependant aucune action malveillante et les ´echantillons dans
chaque groupe sont des ´echantillons de malware diff´erent dont le comportement
en terme de flux d’information ne devrait pas ˆetre le mˆeme. Les figures 5.6,
5.7, 5.8 et 5.9 illustrent les profils calcul´es et d´ecrivent des flux tout `a fait
normaux dans le syst`eme. La premi`ere figure d´ecrit par exemple un simple
´echange d’information entre les applications syst`eme com.android.phone et
com.android.systemui.
En ´etendant la liste blanche utilis´ee en section 5.2.2 de 20 SFG suppl´ementaires,
nous obtenons les mˆemes profils et les mˆemes groupes que ceux calcul´es dans
la section 5.2.2. Augmenter le nombre d’´el´ements dans cette liste est inutile
et les SFG des applications qui la composent repr´esentent de mani`ere satisfaisante
les comportements g´en´eriques que nous souhaitions ignorer durant notre
classification.5.3. DE LA NECESSIT ´ E DU FILTRAGE ´ 119
326 - ndroid.launcher
135 - system_server *
82 - mediaserver
*
292 - m.android.phone
*
903 - app_process *
*
*
*
206 - ndroid.systemui
*
673 - ufou.android.su
*
310 - com.android.nfc
*
*
32783 - /data/app/blare-anonym-1.apk *
Figure 5.5 – Profil calcul´e lorsqu’aucun filtrage n’est r´ealis´e120 CHAPITRE 5. CARACTERISATION ET D ´ ETECTION DE MALWARE ´
308 - m.android.phone
221 - ndroid.systemui
Figure 5.6 – Premier profil calcul´e en utilisant aucune liste blanche
202 - ndroid.systemui
32781 - /data/app/blare-anonym-1.apk
Figure 5.7 – Second profil calcul´e en utilisant aucune liste blanche
276 - d.process.media
57526 - /data/data/com.android.providers.media/databases/external.db 57524 - /data/data/com.android.providers.media/databases/external.db-wal
Figure 5.8 – Troisi`eme profil calcul´e en utilisant aucune liste blanche
1400 - m.android.email
1416 - ndroid.exchange
57472 - /data/data/com.android.email/databases/EmailProvider.db 57473 - /data/data/com.android.email/databases/EmailProvider.db-journal
Figure 5.9 – Quatri`eme profil calcul´e en utilisant aucune liste blanche5.4. DETECTION D’EX ´ ECUTION DE MALWARE ANDROID ´ 121
L’algorithme 3 que nous avons propos´e dans cette section est algorithme de
classification qui regroupe les SFG des applications ayant des parties communes
non nulles et calcule `a la fois le profil correspondant `a chaque classe. Nous avons
´evalu´e cet algorithme avec un jeu de donn´ees de 19 ´echantillons provenant de 4
familles de malware diff´erentes. En appliquant l’algorithme sur les SFG des 19
´echantillons, nous avons calcul´e 4 profils tels que chaque profil corresponde `a une
famille de malware diff´erent et d´ecrit le comportement malveillant du malware
auquel il correspond. Dans la section qui suit, nous proposons une m´ethode
de d´etection d’´echantillon de malware en utilisant les profils calcul´es par notre
algorithme.
5.4 D´etection d’ex´ecution de malware Android
Les r´esultats pr´ec´edents, tableau 5.1, montrent que les ´echantillons de malware
peuvent ˆetre caract´eris´es par un SFG qui d´ecrit une partie de comportement
malveillant qu’ils ont. Dans cette section, nous proposons cette fois d’utiliser
ces profils SFG pour d´etecter l’ex´ecution d’autres ´echantillons de malware.
Plus pr´ecis´ement, nous proposons d’utiliser ces profils SFG en tant que profil
de r´ef´erence afin de d´etecter si les donn´ees d’une application sous surveillance
se propagent de la mˆeme mani`ere que celle d´ecrite par l’un des SFG.
L’algorithme 5 d´ecrit le processus de d´etection pour une application/information
donn´ee. Il prend en entr´ee les flux observ´es par AndroBlare ainsi qu’une
liste de profil SFG avec lesquels il compare les flux observ´es pour d´etecter
l’ex´ecution de malware. A l’initialisation du processus de d´etection, nous com- `
men¸cons par construire une liste d’association dans laquelle nous associons
chaque arc des profils donn´es en entr´ee avec la liste des profils SFG(s) o`u il
est pr´esent. Cette ´etape facilite la recherche d’une correspondance entre les flux
observ´es et les arcs des profils SFG. Lors de la phase de d´etection, nous comparons
ensuite chaque flux observ´e avec les arcs des diff´erents profils SFG afin de
trouver une similarit´e entre eux. Si une similarit´e est trouv´ee, nous levons une
alerte. Nous consid´erons qu’il y a une similarit´e entre un flux d’information et
un arc si les conteneurs d’information de d´epart et d’arriv´ee du flux observ´e sont
respectivement les mˆeme que ceux d´ecrits par les nœuds de d´epart et d’arriv´ee
de l’arc et que les informations qui se propagent dans le flux observ´e et celui du
flux d´ecrit par l’arc sont les mˆemes. Le conteneur d’information dans une entr´ee
de Blare est le mˆeme que celui repr´esent´e par un nœud d’un SFG lorsqu’ils ont
le mˆeme type et le mˆeme nom. Apr`es avoir lev´e l’alerte, nous enlevons l’arc de
la liste d’association afin de ne pas lever la mˆeme alerte plusieurs fois.122 CHAPITRE 5. CARACTERISATION ET D ´ ETECTION DE MALWARE ´
Algorithme 5 : D´etection de l’ex´ecution de malware Android bas´e sur les
flux d’information caus´e dans le syst`eme
Input : L journal de Blare, sig l liste de profils SFG
begin
notseen Ð empty association list;
forall the g P sig l do
forall the e P edgespgq do
if e R keyspnotseenq then
Add pe, tguq to notseen;
else
old Ð valuepe, notseenq;
Remove pe, oldq from notseen;
Add the association pe, old Y tguq to notseen;
forall the entry e P L do
if to edgepeq Plight keyspnotseenq then
l Ð valuepto edgepeq, notseenq;
forall the g P l do
Alert that a similarity with namepgq has been found;
Remove pto edgepeq, lq from notseen;
5.5 Evaluation de la capacit´e de d´etection ´
Afin d’´evaluer la capacit´e de d´etection de l’approche pr´esent´ee pr´ec´edemment,
nous proposons deux types d’exp´erience. Le premier consiste `a ´evaluer le taux
de faux positif, c’est-`a-dire calculer le taux de fausses alertes lev´ees lorsque des
applications b´enignes sont analys´ees. Le deuxi`eme consiste `a ´evaluer le taux de
vrai positif, c’est-`a-dire calculer le taux d’alertes lev´ees lorsque des applications
malicieuses sont ex´ecut´ees. Pour mener ces exp´eriences, nous proposons d’analyser
des applications, b´enignes et malicieuses, dans l’environnement d’analyse
pr´esent´e en section 3.5 et `a partir des flux observ´es d´etecter les ex´ecutions de
malware.
Jeu de donn´ees
Nous utilisons 70 des applications les plus populaires 2 dans Google Play pour
la premi`ere exp´erience et 39 ´echantillons de malware provenant des 4 familles de
malware utilis´ees dans la section 5.2.2. Nous supposons que les 70 applications
sont b´enignes car elles n’ont lev´e aucune alerte lorsque nous les avons soumises
`a la plateforme d’analyse de VirusTotal [14].
2. au mois de Juin 20135.5. EVALUATION DE LA CAPACIT ´ E DE D ´ ETECTION ´ 123
Analyse des applications et d´etection de l’ex´ecution de malware
Le processus d’analyse de chaque applications est le mˆeme qu’en section 5.2.2.
Il se traduit par son installation dans un environnement AndroBlare, le marquage
de son apk et son ex´ecution. Nous utilisons chaque application comme
un utilisateur normal le ferait et en parall`ele, nous introduisons les ´ev`enements
d´eclenchant le code malveillant dans les ´echantillons de malware. Introduire ces
´ev`enements nous assure que le code malveillant se d´eclenche durant l’analyse
afin de d´eterminer si oui ou non notre approche permet de d´etecter l’ex´ecution
du code malveillant.
Une fois les applications analys´ees, nous analysons les flux observ´es par
AndroBlare pour d´etecter l’ex´ecution de malware. La d´etection est r´ealis´ee
ult´erieurement `a l’analyse car nous souhaitions collecter les flux et ˆetre capables
de les r´eutiliser plus tard. L’outil utilis´e est cependant capable de faire
la d´etection en temps r´eel.
R´esultat de la d´etection
Lors de l’analyse des flux engendr´es par les diff´erentes applications, notre
outil a lev´e des alertes pour chacun des ´echantillons de malware et aucune
pour les applications b´enignes. Les tableaux 5.3 et 5.4 r´esument le r´esultat des
exp´eriences men´ees respectivement sur les applications b´enignes provenant de
Google Play et les ´echantillons de malware.
Le premier tableau pr´esente les r´esultats avec les applications b´enignes provenant
de Google Play. La premi`ere colonne liste les diff´erentes cat´egories d’application
utilis´ee durant l’exp´erience. La deuxi`eme indique le nombre d’´echantillons
utilis´es pour chaque cat´egorie. La troisi`eme indique les correspondances entre
les flux observ´es et l’une des profils utilis´es. La derni`ere indique le total des flux
observ´es lors de l’analyse des applications de chaque cat´egorie.
Le deuxi`eme tableau pr´esente les r´esultats obtenus avec les ´echantillons de
malware. La premi`ere colonne liste les ´echantillons. La deuxi`eme indique comment
l’´echantillon a ´et´e cat´egoris´e dans sa collection d’origine. La troisi`eme
indique la collection d’origine de l’´echantillon. La quatri`eme indique le nombre
de flux observ´es par AndroBlare durant l’analyse. Les colonnes restantes indiquent
le nombre de correspondance entre le profil SFG et les flux observ´es.
Plus pr´ecis´ement, les valeurs dans ces colonnes indiquent le nombre d’arc du
profil SFG qui correspondent `a au moins un des flux observ´es durant l’analyse
de l’´echantillon.
L’analyse des flux caus´es par les applications b´enignes montre que notre outil
n’a d´etect´e aucun flux qui correspond `a l’un des arcs des profils utilis´es. Sur les
70 applications b´enignes analys´ees, aucune n’a ´et´e d´etect´ee comme ex´ecutant
du code malveillant, ce qui nous donne un taux de faux positif nul.
Chaque ´echantillon de malware a caus´e la lev´ee d’alerte par notre outil de
d´etection. Plus pr´ecis´ement, chaque ´echantillon a ´et´e d´etect´e avec le profil SFG
correspondant `a la famille d’origine `a laquelle il est suppos´e appartenir. Ainsi,124 CHAPITRE 5. CARACTERISATION ET D ´ ETECTION DE MALWARE ´
Cat´egorie Echantillons ´ Signature Journal
match entries
Jeux 48 0 7386736
Utilitaires 8 0 403427
R´eseaux sociaux 5 0 567605
Photo / Vid´eo 5 0 579883
Magazine 3 0 169622
Table 5.3 – R´esultat de d´etection sur les applications b´enignes provenant de
Google Play. Taux de faux positif : 0%
les ´echantillons de BadNews, DroidKungFu1, DroidKungFu2 et jSMSHider ont
´et´e d´etect´es respectivement grˆace au profil S0, S1, S2 et S3. La majorit´e des
´echantillons a caus´e autant d’alerte que de nombre d’arc que le profil pour lequel
une correspondance a ´et´e trouv´e. L’´echantillon live.photo.drop.apk a
par exemple caus´e 36 flux diff´erents qui correspondent aux 36 arcs du pro-
fil SFG de BadNews. Cependant, quelques ´echantillons n’ont caus´e la lev´ee
d’alerte que pour une partie des arcs du profil SFG de la famille de malware
`a laquelle ils sont associ´es. Cela est dˆu au fait que durant leur analyse,
une partie du comportement attendu ne s’est pas ex´ecut´e. L’´echantillon
41f7b03a94d38bc9b61f8397af95a204 n’a par exemple caus´e que 4 correspondances
sur 11 entre les flux qu’il a engendr´es et les arcs de S1. Le profil S1
d´ecrit l’installation de deux applications, une native et une apk dans la partition
system du t´el´ephone. L’´echantillon n’a cependant install´e que l’application
native durant notre analyse car l’apk cens´e ˆetre install´e est un fichier vide et la
proc´edure d’installation est ainsi avort´ee par le syst`eme.5.5. EVALUATION DE LA CAPACIT ´ E DE D ´ ETECTION ´ 125
Empreinte MD5 des ´echantillons Label: Origin§ Log size S0; S1; S2; S3;
d25008db2e77aae53aa13d82b20d0b6a JSH A 79598 4{4
24663299e69db8bfce2094c15dfd2325 JSH A 179608 4{4
39d140511c18ebf7384a36113d48463d DKF1 A / G 3565 11{11
7f5fd7b139e23bed1de5e134dda3b1ca DKF1 A 5772 11{11
a81dc5210b3444b8e6f002605a97292d DKF1 A 3233 3{11
107af5cf71f1a0e817e36b8deb683ac2 DKF1 A 7257 11{11
ac2a5a483036eab1b363a7f3c2933b51 DKF1 A 3596 5{5
e741a9bc460793b9afdadc963d6e8c1d DKF1 A 3230 3{11
6b7c313e93e3d136611656b8a978f90d DKF1 A 7740 5{5
389b416fb0f505d661716b8da02f92a2 JSH G 179702 4{4
a3c0aacb35c86b4468e85bfb9e226955 JSH G 7527 4{4
0417b7a90bb5144ed0067e38f7a30ae0 JSH G 32145 4{4
d25008db2e77aae53aa13d82b20d0b6a JSH G 122951 4{4
f0fcef1c52631ae36f489351b1ba0238 JSH G 211823 4{4
06dea6a4b6f77167eaf7a42cb9861bbe DKF1 G 72706 6{11
994af7172471a2170867b9aa711efb0d DKF1 G 13959 11{11
107af5cf71f1a0e817e36b8deb683ac2 DKF1 G 187221 11{11
71fe80d5bf6d08890de3c76a3292fc09 DKF1 G 15709 11{11
ecc4aad77ab042a4fa1693fc77afb8ac DKF1 G 107910 11{11
b763bc07f641bb915a4e745f1deff315 DKF1 G 180984 8{11
6625f4a711e5afaee5f349c40ad1c4ab DKF1 G 4982 11{11
5c593a7ab5e61f76d2e0e61c870da986 DKF1 G 99363 11{11
41f7b03a94d38bc9b61f8397af95a204 DKF1 G 13474 4{11
f438ed38b59f772e03eb2cab97fc7685 DKF2 G 34906 5{5
4f6be2d099b215e318181e1d56675d2c DKF2 G 283990 5{5
805bbc6ff9ef376c4b5f2c1b1c1006d2 DKF2 G 49404 5{5
13a491126dd11f1ef51a4b067f10f368 DKF2 G 278425 5{5
72dc94b908b0c6b7e3cb293d9240393c DKF2 G 294163 5{5
e4d348e97db481507a0cea64232c8065 DKF2 G 64616 5{5
47ffc035dd1288bad27b3681535e68c8 BN I 298819 36{36
d8943ed5be382c22c9a206af0815ff0a BN I 363578 36{36
ccab22538dd030a52d43209e25c1f07b BN I 167837 36{36
3a648e6b7b3c5282da76590124a2add4 BN I 332519 36{36
4ecf985980bcc9b238af1fdadd31de48 BN I 125167 36{36
5b08c96794ad5f95f9b42989f5e767b5 BN C 132846 36{36
422d1290422ebfbf48ec34f0990fba21 BN I 634202 35{36
98cfa989d78eb85b86c497ae5ce8ca19 BN C 568920 36{36
e70964e51210f8201d0da3e55da78ca4 BN I 253320 36{36
8b9e8a2e93c3f3c18b8f5820f21e2458 BN I 149248 36{36
: BN : BadNews, DKF1 : DroidKungFu1, DKF2 : DroidKunFu2, JSH : jSMSHider
§ C : Contagio, G : Genome Project, A : Androguard, I : Internet
Table 5.4 – R´esultats de la d´etection sur 39 ´echantillons de malware. Taux de
Vrai Positif : 100%126 CHAPITRE 5. CARACTERISATION ET D ´ ETECTION DE MALWARE ´
Bilan et discussion
Nous avons pr´esent´e et ´evalu´e dans ce chapitre une nouvelle m´ethode de
classification et de d´etection des ´echantillons de malware bas´ee sur les flux d’information
qu’ils causent dans le syst`eme d´ecrits par leur SFG. La m´ethode de
classification propos´ee peut-ˆetre vue comme un apprentissage non supervis´e o`u
nous cherchons `a construire des classes d’´echantillons de malware o`u les SFG des
´el´ements d’une mˆeme classe partagent tous une partie commune. Cette partie
commune est cens´ee d´ecrire l’attaque men´ee par le(s) malware(s) et caract´eriser
les ´echantillons de la classe qu’elle repr´esente en tant que profil comportemental.
Nous avons ´evalu´e la m´ethode propos´ee en classifiant 19 ´echantillons de 4 malwares
diff´erents. La classification de ces ´echantillons a donn´e en sortie 4 classes
distinctes qui repr´esentent chacun un des 4 malwares et la partie commune des
SFG des ´el´ements de chaque classe d´ecrit une partie de l’attaque men´ee par les
mawares.
A partir des profils caract´erisant chaque classe, nous avons propos´e de d´etecter `
des ´echantillons des 4 malawres utilis´es durant la classification. La m´ethode
de d´etection consiste `a comparer les flux observ´es caus´es par les ´echantillons
analys´es avec les arcs des profils comportementaux calcul´es. A chaque fois `
qu’une correspondance est trouv´ee, une alerte est lev´ee. Nous avons ´evalu´e cette
m´ethode avec 36 ´echantillons de malware ainsi que 70 applications b´enignes provenant
de Google Play et avons obtenu un taux de vrai positif de 100% ainsi
qu’un taux de faux positif de 0%. Les ´echantillons de malware ont bien ´et´e
d´etect´e et aucune alerte n’a ´et´e lev´ee dans le cas des applications b´enignes. De
plus, chaque ´echantillon de malware a ´et´e d´etect´e grˆace au profil caract´erisant
la classe associ´ee au malware obtenue durant la classification.
La raison de la qualit´e des r´esultats obtenus aussi bien pour la classification
que pour la d´etection est que le profil calcul´e ne se limite pas aux processus
ex´ecutant les ´echantillons de malware. Il inclut ´egalement tout ´el´ement du
syst`eme ayant acc`es aux informations provenant des ´echantillons de malware.
Mˆeme si un malware change son aspect, le profil calcul´e ne sera que tr`es peu
impact´e car le malware n’a pas de contrˆole ou alors tr`es peu sur tous les autres
´el´ements du syst`eme ayant acc`es `a ses informations au d´ebut de l’attaque. Si le
cas contraire s’av´erait ˆetre vrai, c’est-`a-dire que le malware a un contrˆole total
sur tous les autres ´el´ements du syst`eme, alors il pourrait propager ses informations
de mani`ere diff´erente `a chaque ex´ecution et empˆecher notre algorithme de
calculer un profil ou de d´etecter l’ex´ecution de l’un de ses ´echantillons.
L’approche propos´ee se base sur une analyse dynamique des applications
afin d’observer les flux d’information qu’elles causent dans le syst`eme. Comme
toute approche dynamique, elle souffre ainsi de la mˆeme limitation qui est la
couverture de code durant l’analyse et qui, pour le moment, limite la possibilit´e
d’automatiser enti`erement tout le processus d’analyse et de classification des applications.
En effet, durant l’analyse nous stimulons les applications en interagissant
avec elles via leur interface graphique et introduisons des ´ev`enements dans
le syst`eme afin de d´eclencher le code malveillant dans les ´echantillons de malware.
Cette stimulation est r´ealis´ee manuellement. De plus, il nous a n´ecessit´e5.5. EVALUATION DE LA CAPACIT ´ E DE D ´ ETECTION ´ 127
d’analyser quelques ´echantillons de malware afin de d´eterminer les ´ev`enements
d´eclenchant le code malicieux pr´esents dans leur code. Il serait ainsi int´eressant
pour stimuler les applications et couvrir le maximum de code `a l’ex´ecution.
La m´ethode de caract´erisation de malware Android propos´ee dans ce chapitre
a fait l’objet d’une publication `a la conf´erence NSS 14 [17].128 CHAPITRE 5. CARACTERISATION ET D ´ ETECTION DE MALWARE ´Chapitre 6
Conclusion
Dans cette th`ese nous avons propos´e et ´evalu´e une nouvelle m´ethode afin de
caract´eriser / classifier et d´etecter les malwares Android. Afin d’y arriver, nous
sommes pass´es par plusieurs ´etapes qui ont consist´e `a porter un moniteur de flux
d’information sur Android, proposer une structure compacte et humainement
compr´ehensible des flux d’information que le moniteur observe qui puisse aider
un analyste `a comprendre le comportement d’une application et classifier ainsi
que d´etecter les ´echantillons de malware `a partir de cette structure.
La premi`ere ´etape de la th`ese a consist´e `a cr´eer AndroBlare, une version
Android de Blare. Blare a ´et´e initialement d´evelopp´e pour les syst`emes Linux,
et plus pr´ecis´ement pour les noyaux Linux. Si le syst`eme Android est proche
des syst`emes Linux, le noyau Android ´etant bas´e sur le noyau Linux et suit la
mˆeme num´erotation, il poss`ede cependant quelques fonctionnalit´es qui lui sont
propres et qu’il a fallu prendre en compte lors du portage de Blare vers Android.
Ces fonctionnalit´es sont l’ex´ecution des applications Android et le m´ecanisme de
communication entre processus via le Binder. Nous avons ainsi introduit deux
extensions dans AndroBlare pour prendre en compte ces deux fonctionnalit´es
d’Android. Ces extensions ajoutent la prise en compte des flux d’information
s’op´erant via le Binder et un m´ecanisme de coop´eration entre les instances de la
machine virtuelle Dalvik et KBlare. Ces deux extensions sont importantes car
elles permettent d’observer les flux d’information entre les applications Android
ainsi que l’ex´ecution des applications. Diff´erents m´ecanismes sont utilis´es par
les applications pour communiquer avec le reste des applications sur le syst`eme
et tous ces m´ecanismes reposent sur le Binder. Ces communications n’´etaient
cependant pas visibles avec la version Linux de Blare car Binder est sp´ecifique
`a Android et n’est donc pas pris en compte. La premi`ere extension comble donc
cette limitation de Blare en interceptant les ´emissions et r´eception de transaction
et en effectuant les op´erations de propagation et de contrˆole des flux d’information
correspondantes. Quant aux applications Android, leur ex´ecution est
´egalement invisible avec la version Linux de Blare. Le code de ces applications
´etant livr´e sous forme de dalvik bytecode, elles ne sont pas ex´ecut´ees directement
mais interpr´et´ees par la machine virtuelle Dalvik. La deuxi`eme extension permet
129130 CHAPITRE 6. CONCLUSION
donc, grˆace au m´ecanisme de coop´eration, de combler cette autre limitation de
la version Linux de Blare. Grˆace `a ce m´ecanisme de coop´eration, les instances
de la machine virtuelle Dalvik notifient KBlare dans le noyau `a chaque fois que
le code d’une application est sur le point d’ˆetre interpr´et´e. A la r´eception d’une `
notification, KBlare met `a jour le label du processus ex´ecutant la machine virtuelle
ayant ´emis la notification pour signifier le code qu’il ex´ecute et appliquer
la politique de flux d’information de l’application au processus.
La deuxi`eme ´etape a consist´e `a proposer une structure repr´esentant de
mani`ere plus compacte et plus compr´ehensible les flux d’information observ´es
par Blare que nous avons appell´e graphe de flux syst`eme ou SFG. Pour une information
donn´ee, le SFG d´ecrit comment elle est propag´ee dans tout le syst`eme.
Comme nous l’avons montr´e dans le chapitre 4, cette structure s’av`ere utile
sur trois aspects. Premi`erement, sa repr´esentation est plus compacte et facilite
l’analyse des flux d’information observ´es dans le syst`eme. A chaque fois qu’un `
flux d’information impliquant une donn´ee sensible, comprendre une donn´ee `a laquelle
un identifiant a ´et´e associ´e, est observ´e, Blare ajoute une entr´ee d´ecrivant
ce flux dans un journal. Or comme nous l’avons montr´e dans le chapitre 4, certains
de ces flux sont r´ep´et´es plusieurs fois durant l’analyse de l’application ce
qui au bout de quelques entraˆıne la cr´eation de milliers d’entr´ees dans le journal
de Blare alors qu’en r´ealit´e seule une centaine de flux d’information uniques
ont ´et´e observ´es. Ensuite, le SFG aide `a comprendre le comportement d’une
application. Dans notre cas, nous nous sommes int´eress´es aux applications malveillantes.
L’analyse d’un ´echantillon de DroidKungFu1 a montr´e qu’une partie
de son SFG d´ecrivait l’attaque men´ee par le malware, `a savoir tentative
d’´el´evation de privil`ege et installation de deux applications dans le syst`eme.
La troisi`eme et derni`ere ´etape a consist´e consiste en la classfication et d´etection
de malware. Dans cette ´etape, nous avons propos´e d’utiliser le profil sous
forme de SFG des applications afin d’extraire le profil d’un malware. Dans
l’´etape pr´ec´edente, nous avons montr´e que une partie du SFG de l’´echantillon de
DroidKungFu1 correspondait au comportement malveillant du malware. D’apr`es
les travaux de Zhou et al. dans [113], les d´eveloppeurs de malware ajoutent souvent
leur code malveillant dans plusieurs applications existantes pour infecter les
utilisateurs. Cela signifie donc que le mˆeme code malveillant peut ˆetre retrouv´e
dans les ´echantillons d’un mˆeme malware ou qu’une similarit´e en mati`ere de
comportement peut ˆetre retrouv´e dans le code malveillant de ces ´echantillons.
Partant de ce constat, nous avons ´emis l’hypoth`ese que si une partie du SFG
d’une application malveillante correspond au comportement malveillant et que
si la m´ethode d’infection principale des d´eveloppeurs de malware ´etait d’injecter
leur code malveillant dans des applications existantes alors une partie des SFG
des ´echantillons d’un mˆeme malware devrait ˆetre le mˆeme.
Direction pour des travaux futurs
Le premier apport de la th`ese est AndroBlare, le r´esultat du portage de
Blare sous Android. AndroBlare suit les flux d’information en consid´erant les131
objets du syst`eme comme des boˆıtes noires. Comme nous l’avons ´evoqu´e en
section 2.6, une observation au niveau syst`eme offre une vue compl`ete des flux
entre les diff´erents objets du syst`eme mais a une granularit´e moins fine qu’une
observation au niveau applicatif. Par exemple, dans le cas d’AndroBlare, un
flux d’un objet A vers un objet B signifie que toutes les informations dans A
se propagent vers B (pire des cas). Cela n’est pas forc´ement le cas et il se peut
qu’aucune information sensible ne se soit propag´ee. La granularit´e d’observation
n’est donc pas assez fine. Un axe `a explorer serait ainsi de combiner les niveaux
d’observation syst`eme et applicatif sous Android afin d’affiner la granularit´e des
flux observ´es. L’apport d’une telle est non n´egligeable dans le cas de certains
processus tels que system server car ce processus ex´ecute plusieurs services
avec qui les applications interagissent tous, ce qui est une source de l’explosion
des marques dans la version actuelle d’AndroBlare.
Un autre apport de la th`ese, qui est le principal, est l’usage des SFG en
tant que profil des malware. Pour calculer ce profil, nous calculons les intersections
des SFG des ´echantillons de malware. Cette intersection n’autorise aucune
d´eviation, mˆeme moindre, dans les flux observ´es. Par exemple, les flux
d´ecrivant un processus P1 communiquant avec un processus P2 via un fichier
et les flux d´ecrivant les mˆemes processus P1 et P2 communiquant cette fois
de mani`ere directe sont consid´er´es comme des flux diff´erents. Cependant, dans
la r´ealit´e, ils d´ecrivent la mˆeme action qui est la communication entre deux
processus. Nous parlons dans ce cas de flux similaire. Il serait ainsi int´eressant
d’explorer l’usage de la similarit´e `a la place d’une correspondance stricte entre
les flux d’information observ´es. L’usage de la similarit´e pourrait par exemple
r´ev´eler la ressemblance entre deux ou plusieurs malware. Il pourrait ´egalement
am´eliorer la r´esistance de l’approche face `a des d´eviations de comportement
dans les ´echantillons des malware.
L’approche que nous proposons pour classifier et d´etecter les malware est
une approche dynamique. Nous analysons dans un environnement AndroBlare
les applications afin de capturer les flux d’information qu’ils causent dans le
syst`eme. L’une des limites de cette approche est la couverture de code. Nous
couvrons durant l’ex´ecution qu’une partie de tout le code de l’application que
nous analysons. Dans le cas de l’analyse des ´echantillons de malware, nous avons
par exemple du analys´e statiquement leur code afin de trouver les ´ev`enements
d´eclenchant le code malveillant. Ces ´ev`enements ont ensuite ´et´e introduits durant
l’analyse des ´echantillons avec AndroBlare afin de s’assurer que leur comportement
malveillant soit captur´e. Quant aux applications b´enignes, nous les
avons utilis´e comme un utilisateur normal pendant cinq minutes mais cela ne
garantie pas une couverture optimale du code. Un axe `a explorer serait ainsi
une m´ethode pour couvrir tout le code des applications durant leur analyse
avec AndroBlare afin que tout leur comportement soit captur´e et d’automatiser
tout le processus d’analyse des applications. Cela ouvrirait ´egalement la voie `a
une exp´erimentation `a plus grande ´echelle des m´ethodes de classification et de
d´etection que nous avons propos´e dans cette th`ese.
Il est souvent plus difficile de finir que de commencer.132 CHAPITRE 6. CONCLUSIONAnnexe A
Analyse d’´echantillons de
malware : recherche des
´ev`enements d´eclenchant
leur code malveillant
Lors de la validation exp´erimentale des approches pour la caract´erisation et
la d´etection de malware Android, nous avons utilis´e des ´echantillons de 4 malwares
diff´erents : DroidKungFu1, DroidKungFu2, jSMSHider et BadNews. Le
but des exp´eriences men´ees ´etait de montrer qu’il ´etait possible de caract´eriser
sous forme de SFG le comportement malveillant des malware et d’utiliser ces
SFG pour d´etecter l’ex´ecution d’autres instances des malware que nous supposions
non-connues. Pour capturer et d´etecter ce comportement malveillant, ils
nous a fallu introduire des ´ev`enements dans le syst`eme afin de d´eclencher le code
malveillant. Nous pr´esentons dans ce qui suit l’analyse de quelques ´echantillons
de malware afin de d´eterminer ces ´ev`enements.
A.1 Outils
Pour analyser les ´echantillons de malware, nous utilisons principalement les
outils Androguard et apktool. Nous nous servons principalement d’Androguard
afin de d´ecompiler `a la vol´ee le code des applications Android et d’apktool
pour extraire le contenu des fichiers apk, d´ecoder en clair le contenu des fi-
chiers AndroidManifest.xml ainsi que pour d´esassembler en smali le code des
applications.
133134ANNEXE A. EV´ ENEMENTS D ` ECLENCHEURS DE CODE MALVEILLANT ´
A.2 BadNews
BadNews est un malware Android d´ecouvert en 2013 qui se r´epandait sousforme
d’applications existantes infect´ees par un code malveillant. Le rapport
d’analyse effectu´e dans [91] indique que le comportement de BadNews est dict´e
par un serveur C&C. Lorsqu’un client se connecte, le serveur lui envoie une
commande `a ex´ecuter et attend sa prochaine connexion pour lui indiquer la
prochaine action `a effectuer. Trouver l’´ev`enement d´eclencheur du comportement
malveillant des ´echantillons de BadNews revient ainsi `a trouver l’´ev`enement qui
d´eclenche le connexion vers le serveur puis le traitement de la commande `a
ex´ecuter.
Pour identifier les ´ev`enements d´eclencheurs du code malveillants de BadNews,
nous avons analys´e l’un de ses ´echantillons 1 provenant de la collection
Contagio. L’approche que nous avons adopt´e est de partir des diff´erents points
d’entr´ee de l’application afin d’identifier le code impl´ementant le comportement
de BadNews, puis d´eterminer l’´ev`enement attendu par l’application pour
d´eclencher l’ex´ecution du code. Les composants sont les points d’entr´ee d’une
application Android. A quelques exceptions pr`es, ils doivent tous ˆetre list´es dans `
le fichier AndroidManifest.xml. Le listing A.1 pr´esente le contenu de ce fichier
pour l’´echantillon analys´e. Il indique que l’application poss`ede cinq composants :
deux de type Activity, un Service et deux de type Receiver.
L’analyse du code des deux composants Receiver indique qu’ils ex´ecutent
tous deux la mˆeme action `a la r´eception d’un intent, listing A.2, `a savoir le lancement
du composant AdvService. L’analyse du code de AdvService s’av`ere
fructueuse car parmi les m´ethodes de ce composant se trouve une m´ethode
sendRequest, listing A.3, qui impl´emente le comportement attendu de BadNews
: envoi d’une requˆete vers un serveur distant et ex´ecution de diff´erentes
actions selon la r´eponse re¸cue : installation d’application, ajout de raccourci sur
le t´el´ephone, affichage de notification etc.
Le code ayant ´et´e identifi´e, il reste `a d´eterminer comment il est appel´e et sous
quelles conditions. L’une des fonctionnalit´es d’Androguard est de construire le
graphe d’appel des fonctions d’une application et de l’exporter sous un format de
graphe reconnu par des outils de visualisation et manipulation de graphe tels que
Gephi. Grˆace `a la commande androgexf dans Androguard, nous cr´eons ainsi un
graphe sous le format gexf d´ecrivant les appels de fonction dans l’´echantillon
analys´e et que nous pouvons ouvrir avec Gephi. La figure A.1 est un extrait
du graphe d’appel produit quand nous le visualisons sous Gephi. Chaque nœud
repr´esente une m´ethode dont le label comporte le nom de la classe o`u la m´ethode
est d´eclar´ee, son nom et sa signature. Quant aux arcs, ils repr´esentent les appels
de fonction entre les m´ethodes. Un arc de A vers B signifie que la m´ethode A appelle
la m´ethode B. Ainsi la m´ethode sendRequest est directement appel´ee par
getUpdate. En analysant la premi`ere composante connexe du graphe `a partir du
bas de la figure, nous remarquons que sendRequest est uniquement appel´e durant
l’ex´ecution d’un Thread impl´ement´e par la classe AdvService$1 2
. La com-
1. SHA sum : f1b351d1280422c5d1e3d2b1b04cb96a5d195f62
2. m´ethode runA.2. BADNEWS 135
19
21
26
27
28
29
30
31
34
36
38
39
40
41
42
44
45
46
47
48
49
51
Listing A.1 – Fichier AndroidManifest.xml d’un ´echantillon de BadNews
posante connexe en haut de la figure nous r´ev`ele ´egalement que le thread n’est
instanci´e que lors de l’ex´ecution de la m´ethode onStartCommand de AdvService,
c’est-`a-dire lorsqu’AdvService re¸coit un intent lui demandant de s’ex´ecuter.
L’analyse du code de onStartCommand, listing A.4 nous le confirme et nous
indique mˆeme la condition pour que le thread soit lanc´e. En effet pour qu’il
soit ex´ecut´e, il faut que l’intent re¸cu par AdvService contienne un param`etre
update dont la valeur doit ˆetre diff´erente de 0 3
.
Ainsi pour lancer l’ex´ecution du code malveillant de BadNews, il faut envoyer
un intent avec un param`etre update dont la valeur est `a true au composant
AdvService. Dans le cas de certains ´echantillons, le composant AdvService est
nomm´e diff´eremment. Il suffit dans ce cas d’envoyer l’intent `a ce composant.
La commande am permet l’envoi de l’intent `a partir de la ligne de commande
sous Android comme illustr´e ci-dessous. Il est n´ecessaire de pr´eciser `a la fois le
3. Les bool´eens sont consid´er´es comme des entiers sous Dalvik136ANNEXE A. EV´ ENEMENTS D ` ECLENCHEURS DE CODE MALVEILLANT ´
nom complet de l’application ainsi que celui du composant afin que le syst`eme
puisse d´eterminer le destinataire exact du message.
$ am startservice APP_NAME/PACKAGE_NAME.AdvService \
--ez update 1
1 public void onReceive(android.content.Context p4, android.content.Intent p5) {
2 v0 = new android.content.Intent();
3 v0.setAction("com.mobidisplay.advertsv1.AdvService");
4 v0.putExtra("update", 1);
5 p4.startService(v0);
6 return;
7 }
Listing A.2 – Code appel´e `a la r´eception d’un Intent par les composants de
type Receiver d’un ´echantillon de BadNewsA.2. BADNEWS 137
Figure A.1 – Extrait du graphe d’appel de fonction d’un ´echantillon de BadNews138ANNEXE A. EV´ ENEMENTS D ` ECLENCHEURS DE CODE MALVEILLANT ´
1 private void sendRequest(String p24) {
2 v12 = android.net.Proxy.getDefaultHost();
3 v13 = android.net.Proxy.getDefaultPort();
4 v4 = new java.net.URL(p24);
5 if(v13 <= 0) {
6 v5 = v4.openConnection();
7 } else {
8 v5 = v4.openConnection(new java.net.Proxy(java.net.Proxy$Type.HTTP,
9 new java.net.InetSocketAddress(v12, v13)));
10 }
11 v5.setDoInput(1);
12 v5.setDoOutput(1);
13 v5.setRequestMethod("POST");
14 v5.setConnectTimeout(10000);
15 this.tmett = (System.currentTimeMillis() / 1000.0);
16 v18 = new java.io.DataOutputStream(v5.getOutputStream());
17 v18.writeBytes(new StringBuilder("kurok=").append(this.ii)
18 .append("&taket=").append(this.pacNme).append("&phone=")
19 .append(this.phoNum).append("&vesn=").append(this.vesn)
20 .append("&sysname=").append(this.syNm).append("&operator=")
21 .append(this.opNm).append("&sdk=")
22 .append(android.os.Build$VERSION.SDK).append("&tmett=")
23 .append(this.tmett, 1000.0).append("&model=").append(this.phMl)
24 .append("&lg=").append(this.lg).append("&io=").append(this.io)
25 .append("&qyNm=").append(this.qyNm).append("&devicesid=")
26 .append(android.provider.Settings$Secure.getString(this
27 .getBaseContext().getContentResolver(), "android_id"))
28 .toString());
29 v18.flush(); v18.close(); v5.connect();
30 v6 = v5.getInputStream();
31 if(v6 != 0) {
32 this.increaseQueryNum();
33 v19 = new java.io.InputStreamReader;
34 v19(v6, "UTF-8");
35 v14 = new java.io.BufferedReader(v19);
36 v3 = new StringBuilder();
37 while(true) {
38 v8 = v14.readLine();
39 if(v8 == 0) break;
40 v3.append(v8).append("\x0a");
41 }
42 v16 = new org.json.JSONTokener;
43 v16(v3.toString());
44 v7 = new org.json.JSONObject(v16);
45 v15 = v7.getString("status");
46 if(v15.equalsIgnoreCase("news") != 0) {
47 this.parseNews(v7);
48 }
49 if(v15.equalsIgnoreCase("install") != 0) {
50 this.parseInstall(v7);
51 }
52 ...
Listing A.3 – Extrait du code de la m´ethode sendRequest d’un ´echantillon de
BadNewsA.2. BADNEWS 139
1 public int onStartCommand(android.content.Intent p3, int p4, int p5) {
2 this.log("AdvService Started");
3 if(p3 == 0) {
4 this.startUpdater();
5 } else {
6 if(p3.getExtras() == 0) {
7 this.startUpdater();
8 } else {
9 if(p3.getExtras().getBoolean("update") != 0) {
10 this.startUpdateThread();
11 }
12 }
13 }
14 return 1;
15 }
16
17 private void startUpdateThread() {
18 new Thread(new com.mobidisplay.advertsv1.AdvService$1(this)).start();
19 return;
20 }
Listing A.4 – Code appel´e `a l’ex´ecution du composant AdvService d’un
´echantillon de BadNews140ANNEXE A. EV´ ENEMENTS D ` ECLENCHEURS DE CODE MALVEILLANT ´
A.3 DroidKungFu1
DroidKungFu1 [61] est un malware d´ecouvert en 2011. Certains de ses ´echantillons
n’ex´ecutent pas automatiquement le code malveillant d`es le lancement
de l’application dans laquelle ils se trouvent. Nous avons ainsi analys´e l’un des
´echantillons de ce malware 4 afin de trouver l’´ev`enement d´eclenchant le code
malveillant.
Selon l’analyse qui en a ´et´e r´ealis´ee par X. Jiang dans [61], le code malveillant
du malware est stock´e dans un service qui est ajout´e `a des applications
existantes pour infecter les utilisateurs. Les captures effectu´ees dans le rapport
montrent que le service en question s’appellerait com.google.searchservice
et que l’envoi de donn´ees sensibles vers l’ext´erieur et l’installation de nouvelles
applications se font respectivement grˆace aux fonctions doSearchReport et
cpLegacyRes. L’analyse du fichier AndroidManifest.xml, listing A.5, confirme
qu’un tel service existe dans l’application et une analyse rapide du code de ce
composant indique la pr´esence de ces deux m´ethodes. Il reste ainsi `a d´eterminer
comment ces m´ethodes sont appel´ees.
Comme dans le cas de BadNews, nous construisons le graphe d’appel de
fonction de l’application pour identifier comment ces m´ethodes sont appel´ees.
La figure A.2 est un extrait du graphe d’appel et indique que les deux m´ethodes
sont appel´ees durant la cr´eation du composant SearchService, plus pr´ecis´ement
par la m´ethode onCreate de ce composant. L’analyse du code de cette m´ethode,
listing A.6, indique que l’ex´ecution de l’attaque ne se fait qu’apr`es un laps
de temps. A la cr´eation du composant, l’application r´ecup`ere la valeur du pa- `
ram`etre start dans ses pr´ef´erences et la compare avec le temps du syst`eme. Si
la diff´erence est inf´erieure `a 14400000.0ms alors l’attaque n’est pas lanc´ee et la
valeur de start est initialis´ee au temps du syst`eme. Dans le cas contraire, l’attaque
est lanc´ee. La condition pour que l’attaque soit ex´ecut´ee est ainsi qu’au
moins 14400000.0ms se soit ´ecoul´e depuis le changement de la valeur du param`etre
start. Ce param`etre est stock´e dans le fichier sstimestamp.xml, voir
listing A.7, situ´e dans un sous-r´epertoire du r´epertoire local de l’application. En
modifiant sa valeur, nous pouvons ainsi faire croire `a l’application que plus de
14400000.0ms s’est ´ecoul´e et forcer l’ex´ecution du code malveillant.
4. MD5 : 7f5fd7b139e23bed1de5e134dda3b1caA.3. DROIDKUNGFU1 141
Figure A.2 – Extrait du graphe d’appel de fonction d’un ´echantillon de DroidKungFu142ANNEXE
A. EV´ ENEMENTS D ` ECLENCHEURS DE CODE MALVEILLANT ´
1
2
4
5
6
7
8
9
10
13
14
15
16
17
18
19
20
21
Listing A.5 – Extrait du contenu du fichier AndroidManifest.xml d’un
´echantillon de DroidKungFu1
1 public void onCreate() {
2 super.onCreate();
3 v5 = this.getSharedPreferences("sstimestamp", 0);
4 v3 = v5.getLong("start", 0.0, v8);
5 v0 = System.currentTimeMillis();
6 if(v3 != 0.0) {
7 if((v0 - v3) >= 14400000.0) {
8 this.mPreferences = this.getSharedPreferences("permission", 0);
9 if(com.google.ssearch.Utils.isConnected(this) != 0) {
10 this.doSearchReport();
11 }
12 this.getPermission();
13 this.provideService();
14 } else {
15 this.stopSelf();
16 }
17 } else {
18 v2 = v5.edit();
19 v2.putLong("start", v0, v1);
20 v2.commit();
21 this.stopSelf();
22 }
23 return;
24 }
Listing A.6 – M´ethode onCreate du composant SearchService d’un ´echantillon
de DroidKungFu1A.3. DROIDKUNGFU1 143
1
2
Listing A.7 – Contenu du fichier sstimestamp.xml d’un ´echantillon de DroidKungFu1144ANNEXE
A. EV´ ENEMENTS D ` ECLENCHEURS DE CODE MALVEILLANT ´
A.4 DroidKungFu2
DroidKungFu2 [60] est un malware d´ecouvert en 2011 et consid´er´e comme
ayant ´et´e ´ecrit par le mˆeme groupe de d´eveloppeurs que DroidKungFu1. Le
rapport sur son analyse indique qu’ils ont d’ailleurs un comportement similaire
car ils exploitent tous deux des vuln´erabilit´es dans le syst`eme pour ´elever leur
privil`eges et installer de nouvelles applciations sur le t´el´ephone. La diff´erence
entre les attaques sont les applications qu’ils installent sur le t´el´ephone. En
analysant un des ´echantillons de DroidKungFu2 5
, nous remarquons rapidement
que leur mode d’ex´ecution est le mˆeme. Voir listing A.8. Dans DroidKungFu2, le
code malveillant est ´ex´ecut´e lors de la cr´eation d’un service et sous la condition
qu’un certain temps se soit ´ecoul´e. Nous pouvons aussi d’ailleurs remarquer
que le nom de certaines m´ethodes appel´ees sont exactement les mˆemes (ex :
getPermission).
Il suffit de modifier la valeur du param`etre start dans sstimestamp.xml
pour faire ainsi croire `a l’application que plus de 1800000.0ms se sont ´ecoul´ees
et forcer l’ex´ecution du code malveillant.
1 public void onCreate() {
2 super.onCreate();
3 v5 = this.getSharedPreferences("sstimestamp", 0);
4 v3 = v5.getLong("start", 0.0, v8);
5 v0 = System.currentTimeMillis();
6 if(v3 != 0.0) {
7 if((v0 - v3) >= 1800000.0) {
8 this.mPreferences = this.getSharedPreferences("permission", 0);
9 this.updateInfo();
10 this.getPermission();
11 this.provideService();
12 } else {
13 this.stopSelf();
14 }
15 } else {
16 v2 = v5.edit();
17 v2.putLong("start", v0, v1);
18 v2.commit();
19 this.stopSelf();
20 }
21 return;
22 }
Listing A.8 – M´ethode onCreate d’un composant service d’un ´echantillon de
DroidKungFu2
5. MD5 : f438ed38b59f772e03eb2cab97fc7685A.5. JSMSHIDER 145
A.5 jSMSHider
Les ´echantillons de jSMSHider ex´ecutent tous leur code malveillant d`es le
lancement de l’application. Il n’y a ainsi nul besoin d’introduire manuellement
des ´ev`enements dans le syst`eme.146ANNEXE A. EV´ ENEMENTS D ` ECLENCHEURS DE CODE MALVEILLANT ´Publications
V Viet Triem Tong, R Andriatsimandefitra, S Geller, S Boche, F Tronel, C Hauser.
Mise en œuvre de politiques de protection des flux d’information dans l’environnement
Android. Computer & Electronics Security Applications Rendezvous,
2011. Rennes, France.
Radoniaina Andriatsimandefitra, St´ephane Geller, Val´erie Viet Triem Tong. Designing
information flow policies for android’s operating system. IEEE International
Conference on Communications, 2012 (ICC 2012). Ottawa, Canada
R Andriatsimandefitra, V. Viet Triem Tong, L M´e. Diagnosing intrusions in Android
operating system using system flow graph. Workshop Interdisciplinaire
sur la S´ecurit´e Globale, 2013 (WISG 2013). Troyes, France.
M Jaume, R Andriatsimandefitra, V. Viet Triem Tong, L M´e. Secure States versus
Secure Executions. 9th International Conference on Information Systems
Security, 2013 (ICISS 2013). Kolkata, India.
R Andriatsimandefitra, V Viet Triem Tong, T Saliou. Information Flow Policies
vs Malware. International Conference on Information Assurance and Security,
2013 (IAS 2013). Yassmine Hammamet, Tunisia.
R Andriatsimandefitra and V Viet Triem Tong. Capturing Android Malware
Behaviour using System Flow Graph. The 8th International Conference on Network
and System Security, 2014 (NSS 2014). Xi’an, China
R Andriatsimandefitra, V Viet Triem Tong, T Saliou. Information Flow Policies
vs Malware – Final Battle - . Journal of Information Assurance and Security,
Dynamic Publishers Inc., USA, 2014, 9 (2), pp.72-82.
R Andriatsimandefitra, V Viet Triem Tong. Poster Abstract : Highlighting Easily
How Malicious Applications Corrupt Android Devices. Research in Attacks,
Intrusions and Defenses, 2014 (RAID 2014). Gothenburgh, Sweden.
147148 PUBLICATIONSBibliographie
[1] Android-root 2009-08-16 source. http://www.zenthought.org/
content/file/android-root-2009-08-16-source.
[2] Andrototal. http://andrototal.org.
[3] Bionic (software). http://en.wikipedia.org/wiki/Bionic_
%28software%29.
[4] Cve-2009-2692. http://web.nvd.nist.gov/view/vuln/detail?
vulnId=CVE-2009-2692.
[5] Cve-2013-6282. http://cve.mitre.org/cgi-bin/cvename.cgi?name=
CVE-2013-6282.
[6] dedexer. http://dedexer.sourceforge.net/.
[7] droidbox. android application sandbox. https://code.google.com/p/
android-apktool/.
[8] F1 score. https://en.wikipedia.org/wiki/F-score.
[9] Ida pro. https://www.hex-rays.com/products/ida/.
[10] Java decompiler. http://jd.benow.ca/.
[11] Netlink protocol library suite (libnl). http://www.carisma.slowglass.
com/~tgr/libnl.
[12] Programmation java/r´eflexion. http://fr.wikibooks.org/wiki/
Programmation_Java/R%C3%A9flexion.
[13] smali, an assembler/disassembler for android’s dex format. https://
code.google.com/p/smali/.
[14] Virustotal. https://www.virustotal.com/.
[15] dm-crypt. http://git.kernel.org/cgit/linux/kernel/git/
torvalds/linux.git/tree/Documentation/device-mapper/
dm-crypt.txt, 2014.
[16] Radoniaina Andriatsimandefitra, St´ephane Geller, and Val´erie Viet Triem
Tong. Designing information flow policies for android’s operating system.
In IEEE International Conference on Communications, 2012.
[17] Radoniaina Andriatsimandefitra and Val´erie Viet Triem Tong. Capturing
Android Malware Behaviour using System Flow Graph. In NSS 2014 -
The 8th International Conference on Network and System Security, Xi’an,
China, October 2014.
149150 BIBLIOGRAPHIE
[18] Radoniaina Andriatsimandefitra, Val´erie Viet Triem Tong, and Ludovic
M´e. Diagnosing intrusions in android operating system using system flow
graph. In Workshop Interdisciplinaire sur la S´ecurit´e Globale, 2013.
[19] Radoniaina Andriatsimandefitra, Val´erie Viet Triem Tong, and Thomas
Saliou. Information flow policies vs malware–final battle–. Journal of
Information Assurance and Security, 9(2) :72–82, 2014.
[20] Radoniaina Andriatsimandefitra, Val´erie Viet Viet Triem Tong, and Thomas
Saliou. Information flow policies vs malware. In Information assurance
and security - 2013, 2013.
[21] Andrew W. Appel. Deobfuscation is in np, aug 2002.
[22] Daniel Arp, Michael Spreitzenbarth, Malte H¨ubner, Hugo Gascon, Konrad
Rieck, and CERT Siemens. Drebin : Effective and explainable detection
of android malware in your pocket. In NDSS 2014, 2014.
[23] Arini Balakrishnan and Chloe Schulze. Code obfuscation literature survey.
Technical report, Computer Sciences Department - University of Wisconsin,
Madison, 2005. CS701 Construction of Compilers, Instructor : Charles
Fischer.
[24] Alastair R. Beresford, Andrew Rice, Nicholas Skehin, and Ripduman Sohan.
Mockdroid : trading privacy for application functionality on smartphones.
In Proceedings of the 12th Workshop on Mobile Computing Systems
and Applications, 2011.
[25] Thomas Blasing, Leonid Batyuk, A-D Schmidt, Seyit Ahmet Camtepe,
and Sahin Albayrak. An android application sandbox system for suspicious
software detection. In Malicious and unwanted software (MALWARE),
2010 5th international conference on, pages 55–62. IEEE, 2010.
[26] Ohad Bobrov. Chinese government targets hong kong protesters
with android mrat spyware. https://www.lacoon.com/
chinese-government-targets-hong-kong-protesters-android-mrat-spyware/,
2014.
[27] Dan Boneh and Matt Franklin. Identity-based encryption from the weil
pairing. In Advances in Cryptology—CRYPTO 2001, pages 213–229.
Springer, 2001.
[28] Joany Boutet and Tom Leclerc. Grand theft android : Phishing
with permission. http://sagsblog.telinduslab.lu/index.php/
post/201309%5CS-Team-at-Hacklu-2013%3A-GRAND-THEFT-ANDROID%
3A-PHISHING-WITH-PERMISSION, 2013.
[29] Sven Bugiel, Lucas Davi, Alexandra Dmitrienko, Thomas Fischer, and
Ahmad-Reza Sadeghi. Xmandroid : A new android evolution to mitigate
privilege escalation attacks. Technical report, Technische Universitat
Darmstadt, Center for Advanced Security Research Darmstadt, 2011.
[30] Sven Bugiel, Stephan Heuser, and Ahmad-Reza Sadeghi. mytunes : Semantically
linked and user-centric fine-grained privacy control on android.
Technical report, CASED, 2012.151
[31] C-Skills. Android trickery. http://c-skills.blogspot.fr/2010/07/
android-trickery.html, 2010.
[32] C-skills. Yummy yummy, gingerbreak ! http://c-skills.blogspot.fr/
2011/04/yummy-yummy-gingerbreak.html, 2011.
[33] Victor Chebyshev and Roman Unuchek. Mobile malware evolution : 2013,
02 2014.
[34] Erika Chin, Adrienne Porter Fell, Kate Greenwood, and David Wagner.
Analyzing inter-application communication in android. In MobiSys’11,
2011.
[35] Mihai Christodorescu and Somesh Jha. Static analysis of executables to
detect malicious patterns. In Proceedings of the 12th conference on USENIX
Security Symposium - Volume 12, SSYM’03, pages 12–12, Berkeley,
CA, USA, 2003. USENIX Association.
[36] Fred Chung. Custom class loading in dalvik, July 2011.
[37] CIDRE. Blare ids. www.blare-ids.org.
[38] CIDRE. Git repositories of blare. https://git.blare-ids.org.
[39] Christian Collberg, Clark Thomborson, and Douglas Low. A taxonomy
of obfuscating transformations. Technical report, University of Auckland,
1997.
[40] Jonathan Corbet, Alessandro Rubini, and Greg Kroah-Hartman. Linux
Device Drivers. O’Reilly Media, third edition edition, 2005.
[41] Nello Cristianini and John Shawe-Taylor. An Introduction to Support
Vector Machines : And Other Kernel-based Learning Methods. Cambridge
University Press, New York, NY, USA, 2000.
[42] Anthony Desnos and Geoffroy Gueguen. Android : From reversing to
decompilation. Technical report, Black Hat Abu Dhabi 2011, 2011.
[43] dex2jar team. dex2jar tools to work with android .dex and java .class files.
https://code.google.com/p/dex2jar/.
[44] Thomas Eder, Michael Rodler, Dieter Vymazal, and Markus Zeilinger.
Ananas-a framework for analyzing android applications. In Availability,
Reliability and Security (ARES), 2013 Eighth International Conference
on, pages 711–719. IEEE, 2013.
[45] Petros Efstathopoulos, Maxwell Krohn, Steve VanDeBogart, Cliff Frey,
David Ziegler, Eddie Kohler, David Mazieres, Frans Kaashoek, and Robert
Morris. Labels and event processes in the asbestos operating system. In
ACM SIGOPS Operating Systems Review, 2005.
[46] William Enck, Peter Gilbert, Byung gon Chun, Landon P. Cox, Jaeyeon
Jung, Patrick McDaniel, and Anmol N. Sheth. Taintdroid : An
information-flow tracking system for realtime privacy monitoring on
smartphones. In In Proc. of the USENIX Symposium on Operating Systems
Design and Implementation (OSDI), 2010.152 BIBLIOGRAPHIE
[47] William Enck, Machigar Ongtang, and Patrick Mcdaniel. Mitigating android
software misuse before it happens. Technical report, The Pennsylvania
State University, 2008.
[48] Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang, and ChihJen
Lin. Liblinear : A library for large linear classification. The Journal
of Machine Learning Research, 9 :1871–1874, 2008.
[49] Adrienne Porter Felt, Helen J. Wang, Alexander Moshchuk, Steven Hanna,
and Erika Chin. Permission re-delegation : Attacks and defenses. In Proceedings
of the 20th USENIX Conference on Security, SEC’11. USENIX
Association, 2011.
[50] Eric Filiol. Metamorphism, formal grammars and undecidable code mutation.
J. Comp. Sci, pages 70–75, 2007.
[51] Jeff Forristal. Android : One root to own them all, 2013.
[52] Linux Foundation. Generic netlink howto. http://www.
linuxfoundation.org/collaborate/workgroups/networking/
generic_netlink_howto, 2009.
[53] Linux Foundation. iproute2. http://www.linuxfoundation.org/
collaborate/workgroups/networking/iproute2, 2009.
[54] Debin Gao, Michael K. Reiter, and Dawn Song. Gray-box extraction
of execution graphs for anomaly detection. In Proceedings of the 11th
ACM conference on Computer and communications security, pages 318–
329, 2004.
[55] St´ephane Geller. Information flow and execution policy for a model of
detection without false negatives. Network and Information Systems Security
(SAR-SSI), 2011 Conference on, 2011.
[56] St´ephane Geller, Christophe Hauser, Fr´ed´eric Tronel, and Val´erie
Viet Triem Tong. Information flow control for intrusion detection derived
from mac policy. In IEEE International Conference on Communications,
2011.
[57] St´ephane Geller, Val´erie Viet Triem Tong, and Ludovic M´e. Bspl : A
language to specify and compose fine-grained information flow policies. In
SECURWARE 2013, The Seventh International Conference on Emerging
Security Information, Systems and Technologies, 2013.
[58] Kent Griffin, Scott Schneider, Xib Hu, and Tzi cker Chiueh. Automatic
generation of string signatures for malware detection. In Proceedings of the
12th International Symposium on Recent Advances in Intrusion Detection
(RAID 2009), 2009.
[59] Peter Hornyack, Seungyeop Han, Jaeyeon Jung, Stuart Schechter, and
David Wetherall. “these aren’t the droids you’re looking for” : Retrofitting
android to protect data from imperious applications. In CCS’11, 2011.
[60] Xuxian Jiang. Security alert : New droidkungfu variants found in alternative
chinese android markets. http://www.csc.ncsu.edu/faculty/
jiang/DroidKungFu2/.153
[61] Xuxian Jiang. Security alert : New sophisticated android malware droidkungfu
found in alternative chinese app markets. http://www.csc.ncsu.
edu/faculty/jiang/DroidKungFu.html.
[62] Xuxian Jiang. Questionable android apps – sndapps – found and removed
from official android market. http://www.csc.ncsu.edu/faculty/
jiang/SndApps/, 2011.
[63] Kevin Kaichuan He. Kernel korner - why and how to use netlink socket.
http://www.linuxjournal.com/article/7356, 2005.
[64] Ariane Keller. Kernel space - user space interfaces. http://people.ee.
ethz.ch/~arkeller/linux/kernel_user_space_howto.html.
[65] Michael Kerris. The linux programming interfaces - posix message
queues. http://man7.org/tlpi/download/TLPI-52-POSIX_Message_
Queues.pdf.
[66] Samuel T. King and Peter M. Chen. Backtracking intrusions. In Proceedings
of the nineteenth ACM symposium on Operating systems principles,
pages 223–236, Bolton Landing, NY, October 2003. ACM Press.
[67] Christopher Kruegel, Engin Kirda, Paolo Milani Comparetti, Ulrich
Bayer, and Clemens Hlauschek. Scalable, behavior-based malware clustering.
In Proceedings of the 16th Annual Network and Distributed System
Security Symposium (NDSS 2009), 1 2009.
[68] Mohit Kumar. Dynamic analysis tools for android fail to detect malware
with heuristic evasion techniques. http://thehackernews.com/2014/05/
dynamic-analysis-tools-for-android-fail.html, 2014.
[69] International Secure Systems Lab. Anubis - malware analysis for unknown
binaries. http://anubis.iseclab.org/.
[70] Cullen Linn and Saumya Debray. Obfuscation of executable code to improve
resistance to static disassembly. In CCS ’03 : Proceedings of the
10th ACM conference on Computer and communications security, pages
290–299, New York, NY, USA, 2003. ACM.
[71] Radmon Llamas, Melissa Chau, and Michael Shirer. Worldwide smartphone
market grows 28.6% year over year in the first quarter of
2014, according to idc. http://www.idc.com/getdoc.jsp?containerId=
prUS24823414, 2014.
[72] Lisa Mahapatra. Android vs. ios : What’s the most popular mobile
operating system in your country ? http://www.ibtimes.com/
android-vs-ios-whats-most-popular-mobile-operating-system-your-country-1464892,
2013.
[73] Andrew C. Myers and Barabara Liskov. Complete, safe information flow
with decentralized labels. In IEEE Symposium on Security and Privacy,
1998.
[74] Andrew C. Myers and Barbara Liskov. A decentralized model for information
flow control. SIGOPS Oper. Syst. Rev., 31(5) :129–142, 1997.154 BIBLIOGRAPHIE
[75] Andrew C. Myers and Barbara Liskov. Protecting privacy using the decentralized
label model. ACM Trans. Softw. Eng. Methodol., 9(4) :410–442,
2000.
[76] Pablo Neira-Ayuso, Rafael M Gasca, and Laurent Lefevre. Communicating
between the kernel and user-space in linux using netlink sockets.
Software : Practice and Experience, 40, 2010.
[77] Sebastian Neuner, Victor van der Veen, Martina Lindorfer, Markus Huber,
Georg Merzdovnik, Martin Mulazzani, and Edgar Weippl. Enter sandbox :
Android sandbox comparison. Proceedings of the IEEE.
[78] Jon Oberheide and Charlie Miller. Dissecting the android bouncer, 2012.
Summercon.
[79] Machigar Ongtang, Stephen McLaughlin, William Enck, and Patrick McDaniel.
Semantically rich application-centric security in android. In Annual
Computer Security Applications Conference, volume 0, pages 340–
349, Los Alamitos, CA, USA, 2009. IEEE Computer Society.
[80] Xinming Ou, Wayne F Boyer, and Miles A McQueen. A scalable approach
to attack graph generation. In Proceedings of the 13th ACM conference
on Computer and communications security, pages 336–345. ACM, 2006.
[81] PalmSource. Openbinder. http://www.angryredplanet.com/~hackbod/
openbinder/docs/html/index.html.
[82] Mila Parkour. Contagio mobile. contagiominidump.blogspot.com.
[83] Android Open Source Project. Device administration. https://
developer.android.com/guide/topics/admin/device-admin.html.
[84] Android Open Source Project. Intent. http://developer.android.com/
reference/android/content/Intent.html#setFlags%28int%29.
[85] Android Open Source Project. Introducing art. http://source.android.
com/devices/tech/dalvik/art.html.
[86] Android Open Source Project. Jni tips. http://developer.android.
com/training/articles/perf-jni.html.
[87] Android Open Source Project. Pro guard. http://developer.android.
com/tools/help/proguard.html.
[88] Alessandro Reina, Aristide Fattori, and Lorenzo Cavallaro. A system callcentric
analysis and stimulation technique to automatically reconstruct
android malware behaviors. EuroSec, April, 2013.
[89] Konrad Rieck, Thorsten Holz, Carsten Willems, Patrick D¨ussel, and Pavel
Laskov. Learning and classification of malware behavior. In Proceedings
of the 5th international conference on Detection of Intrusions and Malware,
and Vulnerability Assessment, DIMVA ’08, pages 108–125, Berlin,
Heidelberg, 2008. Springer-Verlag.
[90] Konrad Rieck, Philipp Trinius, Carsten Willems, and Thorsten Holz. Automatic
analysis of malware behavior using machine learning. J. Comput.
Secur., December 2011.155
[91] Marc Rogers. The bearer of badnews. https://blog.lookout.com/
blog/2013/04/19/the-bearer-of-badnews-malware-google-play/,
2013.
[92] Sebastian. Droid2. http://c-skills.blogspot.fr/2010/08/droid2.
html, 2010.
[93] Sebastian. Zimperlich sources. http://c-skills.blogspot.fr/2011/
02/zimperlich-sources.html, 2011.
[94] Michael Spreitzenbarth, Felix Freiling, Florian Echtler, Thomas Schreck,
and Johannes Hoffmann. Mobile-sandbox : having a deeper look into
android applications. In Proceedings of the 28th Annual ACM Symposium
on Applied Computing, pages 1808–1815. ACM, 2013.
[95] Tim Starzzere. Security alert : Legacy makes another appearance, meet
legacy native (lena). https://blog.lookout.com/blog/2011/10/20/,
2011.
[96] Tim Strazzere. June 15, 2011 security alert : Malware found targeting
custom roms (jsmshider). https://blog.lookout.com/
blog/2011/06/15/security-alert-malware-found-targeting\
discretionary{-}{}{}custom-roms-jsmshider/.
[97] Androguard team. Reverse engineering, malware and goodware analysis of
android applications ... and more (ninja !). https://code.google.com/
p/androguard/.
[98] Roman Unuchek. The most sophisticated android trojan. https:
//www.securelist.com/en/blog/8106/The_most_sophisticated_
Android_Trojan, June 2013.
[99] Marko Vitas. Art vs dalvik - introducing the new android runtime
in kitkat. http://www.infinum.co/the-capsized-eight/articles/
art-vs-dalvik-introducing-the-new-android-runtime-in-kit-kat.
[100] Lukas Weichselbaum, Matthias Neugschwandtner, Martina Lindorfer, Yanick
Fratantonio, Victor van der Veen, and Christian Platzer. Andrubis :
Android malware under the magnifying glass. Technical report, Vienna
University of Technology, 2014.
[101] Carsten Willems, Thorsten Holz, and Felix Freiling. Toward automated
dynamic malware analysis using cwsandbox. IEEE Security and Privacy,
5(2) :32–39, mar 2007.
[102] Chris Wright, Crispin Cowan, and James Morris. Linux security modules :
General security support for the linux kernel, 2002.
[103] Chris Wright, Crispin Cowan, Stephen Smalley, James Morris, and Greg
Kroah-Hartman. Linux security module framework. In OLS2002 Proceedings,
2002.
[104] Tim Wyatt. Security alert : New variants of legacy native
(lena) identified. http://blog.lookout.com/blog/2012/04/03/
security-alert-new-variants-of-legacy-native-lena-identified/,
2013.156 BIBLIOGRAPHIE
[105] Rubin Xu, Hassen Saidi, and Ross Anderson. Aurasium : Practical policy
enforcement for android applications. In USENIX Security ’12, 2012.
[106] Lok-Kwong Yan and Heng Yin. Droidscope seamlessly reconstructing
os and dalvik semantic views for dynamic android malware analysis. In
Proceedings of the 21st USENIX Security Symposium, August 2012.
[107] Jay Yarow. This chart shows google’s incredible domination of
the world’s computing platforms. http://www.businessinsider.com/
androids-share-of-the-computing-market-2014-3, 2014.
[108] Heng Yin, Dawn Song, Manuel Egele, Christopher Kruegel, and Engin
Kirda. Panorama : capturing system-wide information flow for malware
detection and analysis. In CCS ’07 : Proceedings of the 14th ACM conference
on Computer and communications security, pages 116–127, New
York, NY, USA, 2007. ACM.
[109] Nickolai Zeldovich, Silas Boyd-Wickizer, Eddie Kohler, and David
Mazi`eres. Making information flow explicit in histar. In OSDI ’06 : Proceedings
of the 7th symposium on Operating systems design and implementation,
pages 263–278, Berkeley, CA, USA, 2006. USENIX Association.
[110] Nickolai Zeldovich, Silas Boyd-Wickizer, and David Mazi`eres. Securing
distributed systems with information flow control. In NSDI’08 : Proceedings
of the 5th USENIX Symposium on Networked Systems Design and
Implementation, pages 293–308. USENIX Association, 2008.
[111] Cong Zheng, Shixiong Zhu, Shuaifu Dai, Guofei Gu, Xiaorui Gong, Xinhui
Han, and Wei Zou. Smartdroid : an automatic system for revealing uibased
trigger conditions in android applications. In Proceedings of the
second ACM workshop on Security and privacy in smartphones and mobile
devices, pages 93–104. ACM, 2012.
[112] Yajin Zhou and Xuxian Jiang. An analysis of the anserverbot trojan.
Technical report, NQ Mobile Security Research Center, 2011.
[113] Yajin Zhou and Xuxian Jiang. Dissecting android malware : Characterization
and evolution. In Proceedings of the 2012 IEEE Symposium on
Security and Privacy, SP ’12, pages 95–109, Washington, DC, USA, 2012.
IEEE Computer Society.
Interaction entre alg`ebre lin´eaire et analyse en
formalisation des math´ematiques
Guillaume Cano
To cite this version:
Guillaume Cano. Interaction entre alg`ebre lin´eaire et analyse en formalisation des
math´ematiques. Other. Universit´e Nice Sophia Antipolis, 2014. French. .
HAL Id: tel-00986283
https://tel.archives-ouvertes.fr/tel-00986283
Submitted on 2 May 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.UNIVERSITÉ DE NICE - SOPHIA ANTIPOLIS
ÉCOLE DOCTORALE STIC
SCIENCES ET TECHNOLOGIES DE L’INFORMATION ET DE LA
COMMUNICATION
THÈSE
pour l’obtention du grade de
Docteur en Sciences
de l’Université de Nice - Sophia Antipolis
Mention : Informatique
Présentée et soutenue par
Guillaume CANO
Interaction entre algèbre linéaire
et analyse en formalisation des
mathématiques
Thèse dirigée par Yves BERTOT
soutenue le 4 avril 2014
Jury :
Micaela MAYERO - Maître de conférence, LIPN (Rapporteur)
Julio RUBIO - Professeur, Université de la Rioja (Rapporteur)
Yves BERTOT - Directeur de recherche, INRIA (Directeur)
Stephen Watt - Professeur, Université Ontario Ouest (Examinateur)
Christine PAULIN-MOHRING - Professeur, Université Paris Sud (Examinateur)
Douglas HOWE - Professeur, Université Carlton (Examinateur)Abstract
In this thesis we present the formalization of three principal results
that are the Jordan normal form of a matrices, the Bolzano-Weierstraß
theorem, and the Perron-Frobenius theorem.
To formalize the Jordan normal form, we introduce many concepts
of linear algebra like block diagonal matrices, companion matrices,
invariant factors, ...
The formalization of Bolzano-Weierstraß theorem needs to develop
some theory about topological space and metric space.
The Perron-Frobenius theorem is not completly formalized. The proof
of this theorem uses both algebraic and topological results. We will
show how we reuse the previous results.
Résumé
Dans cette thèse nous présentons la formalisation de trois résultats
principaux que sont la forme normale de Jordan d’une matrice, le
théorème de Bolzano-Weierstraß et le théorème de Perron-Frobenius.
Pour la formalisation de la forme normale de Jordan nous introduisons
différents concepts d’algèbre linéaire tel que les matrices diagonales
par blocs, les matrices compagnes, les facteurs invariants, ...
Ensuite nous définissons et développons une théorie sur les espaces topologiques
et métriques pour la formalisation du théorème de BolzanoWeierstraß.
La formalisation du théorème de Perron-Frobenius n’est pas terminé.
La preuve de ce théorème utilise des résultat d’algèbre linéaire, mais
aussi de topologie. Nous montrerons comment les précédents résultats
seront réutilisés.Remerciements
Je voudrais dans un premier temps remercier Micaela Mayero et Julio
Rubio pour avoir acceptés d’endurer l’épreuve d’être les rapporteurs
de cette thèse.
Je remercie mon directeur de thèse Yves Bertot pour m’avoir permis
de faire cette thèse, mais aussi pour les moments patisserie.
Je tiens à remercier aussi toute l’équipe Marelle pour son soutient.
Je remercie Nathalie Bellesso qui est une secrétaire merveilleuse, qui
m’a aidée dans mes tâches administratives et qui en plus écrit de bons
livres. Je remercie José Grimm pour ces conseils TEXniques, Laurent
Théry pour son soutient, ses conseils et ses casse-têtes. Et surtout
un grand merci à Laurence Rideau qui a passé beaucoup de temps à
m’apprendre SSReflect, à relire mes écrits, à corriger mes fautes
réccurentes, qui a aussi eu la patience de me supporter, et aussi qui
m’a encouragé, grondé et motivé tout au long de ma thèse. Je remercie
également ceux qui ont passés du temps à la relecture de ma thèse, et
que j’ai déjà cités.
Merci également à Ioana Paşca qi m’a beaucoup appris, en particulier
une chose absolument fondamentale : le chocolat, au bureau, c’est
important ! Merci à Tom Hutchinson dont j’ai apprécié la compagnie
et les conversations. Merci aussi à Cyril Cohen, Maxime Dénès, Érik
Martin-Dorel, Anders Mörtberg. Merci à ceux que j’ai oubliés.
Je remercie aussi ma famille pour son soutient à toute épreuve.
Et je voudrais rendre hommage à Pierre Damphousse, sans qui je
n’aurais jamais fait cette thèse.Table des matières
Introduction 1
1 Preuve formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Assistants de preuve . . . . . . . . . . . . . . . . . . . . . . . . . 2
3 Brève présentation de Coq . . . . . . . . . . . . . . . . . . . . . . 3
3.1 Les Types . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.1 Motivations générales . . . . . . . . . . . . . . . . . . . . . 5
4.2 Motivations de la thèse . . . . . . . . . . . . . . . . . . . . 6
5 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1 Contexte 9
1.1 Les types de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.1 Le type produit . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.2 Les types propositionnels . . . . . . . . . . . . . . . . . . . 10
1.1.3 Le type booléen . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.4 Les entiers naturels . . . . . . . . . . . . . . . . . . . . . . 11
1.1.5 Les séquences . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 La bibliothèque SSReflect . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 La réflexion . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.2 Le système de vue . . . . . . . . . . . . . . . . . . . . . . 14
1.2.3 Les types avec une égalité décidable . . . . . . . . . . . . . 15
1.2.4 Les types finis . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.5 Les opérateurs de familles . . . . . . . . . . . . . . . . . . 16
1.2.6 Les structures algébriques . . . . . . . . . . . . . . . . . . 18
1.2.7 Les polynômes . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.8 Les matrices . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.9 Matrices et polynômes . . . . . . . . . . . . . . . . . . . . 22
1.2.10 Les structures ordonnées . . . . . . . . . . . . . . . . . . . 23
1.2.11 Les nombres complexes . . . . . . . . . . . . . . . . . . . . 24
1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Forme de Jordan d’une matrice 25
2.1 Matrices diagonales par blocs . . . . . . . . . . . . . . . . . . . . 25
2.1.1 Définition idéale . . . . . . . . . . . . . . . . . . . . . . . . 26vi Table des matières
2.1.2 Problèmes en dimension nulle . . . . . . . . . . . . . . . . 29
2.1.3 Définition finale . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Matrices semblables et équivalentes . . . . . . . . . . . . . . . . . 31
2.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.2 Théorème fondamental . . . . . . . . . . . . . . . . . . . . 32
2.3 Forme normale de Smith . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Spécification . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.2 Unicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.3 Facteurs invariants . . . . . . . . . . . . . . . . . . . . . . 39
2.4 Forme normale de Frobenius . . . . . . . . . . . . . . . . . . . . . 40
2.4.1 Matrices compagnes . . . . . . . . . . . . . . . . . . . . . 40
2.4.2 De Smith à Frobenius . . . . . . . . . . . . . . . . . . . . 42
2.5 Forme normale de Jordan . . . . . . . . . . . . . . . . . . . . . . 44
2.5.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.5.2 De Frobenius à Jordan . . . . . . . . . . . . . . . . . . . . 45
2.5.3 Diagonalisation . . . . . . . . . . . . . . . . . . . . . . . . 48
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.7 Travaux reliés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3 Topologie 51
3.1 Théorie des ensembles . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Réécriture . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.2 Les familles d’ensembles . . . . . . . . . . . . . . . . . . . 53
3.2 Structures Topologiques . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.2 Approche naïve . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2.3 Approche SSReflect . . . . . . . . . . . . . . . . . . . . 59
3.3 Bolzano-Weierstraß . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3.1 Topologie générale . . . . . . . . . . . . . . . . . . . . . . 62
3.3.2 Les suites . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3.3 Le théorème . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.5 Travaux reliés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4 Perron-Frobenius 69
4.1 Rappels et définitions . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1.1 Minimum et maximum . . . . . . . . . . . . . . . . . . . . 70
4.1.2 Éléments d’algèbre linéaire . . . . . . . . . . . . . . . . . . 71
4.2 Matrices strictement positives . . . . . . . . . . . . . . . . . . . . 73
4.2.1 Preuve du théorème principal . . . . . . . . . . . . . . . . 73
4.2.2 Instance des structures topologiques . . . . . . . . . . . . . 75
4.2.3 Preuve de l’axiome . . . . . . . . . . . . . . . . . . . . . . 77
4.3 Matrices à coefficients positifs ou nuls . . . . . . . . . . . . . . . . 80
4.3.1 La preuve . . . . . . . . . . . . . . . . . . . . . . . . . . . 81Table des matières vii
4.3.2 Convergence des rayons spectraux . . . . . . . . . . . . . . 81
4.3.3 Compacité de la boule unité . . . . . . . . . . . . . . . . . 83
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.5 Travaux reliés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Conclusion 85
Bibliographie 87Introduction
1 Preuve formelle
Formaliser un théorème, c’est difficile à définir formellement. Dans le mot “formelle”
on a le mot “forme”. Une preuve formelle, serait donc une preuve qui
manipule seulement des formes, des symboles, en faisant abstraction du sens que
peuvent avoir ces symboles.
Le mieux serait d’essayer de comprendre sur un exemple. Essayons de formaliser
le résultat suivant : “Si nous avons un ensemble, avec une loi associative
sur cet ensemble qui possède un élément neutre, et si un élément de l’ensemble
possède un inverse à droite et un inverse à gauche, alors l’inverse à droite et
l’inverse à gauche sont égaux”.
Nous commencons d’abord par mettre en forme l’énoncé, c’est-à-dire l’exprimer
à l’aide de symboles. Nous pouvons utiliser la lettre “E” pour désigner
l’ensemble, le symbole “∗” pour la loi, et “e” pour son élément neutre. Nous pouvons
formaliser le fait que la loi est associative et que e et un élément neutre par
les hypothèses suivantes :
hA : ∀xyz ∈ E,(x ∗ y) ∗ z = x ∗ (y ∗ z).
n1 : ∀x ∈ E, x ∗ e = x.
n2 : ∀x ∈ E, e ∗ x = x.
Ensuite nous pouvons utiliser par exemple la lettre “a” pour désigner un élé-
ment de E qui a un inverse à gauche et à droite que nous appellerons a1 et a2.
Formellement, nous avons les deux hypothèses suivantes :
ha1 : a ∗ a1 = e
ha2 : a2 ∗ a = e
et donc nous voulons prouver que a1 = a2.
Nous avons pour l’instant décrit formellement les hypothèses de l’énoncé, ainsi
que le but que nous voulons prouver. Nous pouvons maintenant prouver formellement
que a1 = a2 en utilisant uniquement les hypothèses que nous avons
formalisées.2 Introduction
Nous avons donc a1 = e ∗ a1 = (a2 ∗ a) ∗ a1 = a2 ∗ (a ∗ a1) = a2 ∗ e = a2, en
utilisant respectivement les hypothèses n2, ha2, hA, ha1, n1. Pour vérifier cette
preuve, nous n’avons pas besoin de connaitre le sens des symboles. La première
hypothèse utilisée est l’hypothèse n2. Si on regarde cette hypothèse, on s’aperçoit
qu’il y a un signe “=” qui indique que la forme qu’il y a d’un coté de ce signe est
équivalente à la forme qu’il y a de l’autre coté du signe, ainsi dans une expression
nous pouvons remplacer l’une par l’autre. Donc l’hypothèse n2 dit que le dessin
“a1” a la même forme que le dessin “e ∗ a1”. On n’a pas besoin de savoir à quoi
correspond ∗ ou e, on a seulement besoin de savoir que l’on peut remplacer une
expression par une autre, et donc on peut vérifier la preuve juste en comparant
des dessins1
. C’est ce qu’on appelle une preuve formelle.
Cette abstraction du sens des symboles que l’on manipule fait qu’une preuve
formelle est généralement plus longue et détaillée qu’une preuve normale. En
effet, dans une preuve mathématique, certaines choses sont considérées comme
évidentes. Mais si l’on exprime ces choses à l’aide de symboles, et que l’on oublie
le sens de ces symboles, alors en gros la seule trivialité qui reste est x = x.
D’un autre côté, le fait de pouvoir faire des preuves en manipulant des symboles
sans se préoccuper du sens fait que certaines choses peuvent se faire de
manière automatique, et donc être faites par une machine.
2 Assistants de preuve
Un assistant de preuve est un logiciel permettant de faire des preuves formelles.
Il en existe de deux sortes :
• Les assistants de preuve automatiques : ce sont des logiciels qui prouvent
automatiquement les théorèmes. L’exemple utilisé ci-dessus serait très rapidement
prouvé par un prouveur automatique. Pour prouver les théorèmes,
le logiciel regarde parmi la liste des théorèmes qu’il a à sa disposition, lesquels
il peut appliquer. Il essaye ensuite les lemmes qu’il peut appliquer.
Pour chaque théorème appliqué, les conditions du théorème deviennent de
nouveaux buts à prouver, il génère ainsi une sorte d’arbre de preuve. Si une
branche de cet arbre termine, alors il annonce que le théorème est valide,
sinon nous n’avons aucune information sur la validité du résultat que nous
voulions prouver. Si l’on donne un théorème à un prouveur automatique,
il répondra soit “c’est vrai” soit “je ne sais pas”, mais il n’indiquera pas
comment il a prouvé le théorème. On peut cependant demander une trace
de ce qu’il a fait, mais c’est rarement exploitable, on se sert géneralement
de la trace pour voir quels théorèmes intermédiaires manquent à l’assistant
de preuve pour valider la preuve.
1Enfin pas tout à fait. Dans cet exemple, il faut au moins connaître les symboles ∀, ∈, et
=. Pour avoir une preuve formelle complète, il aurait fallu donner aussi les règles d’utilisation
de ces symboles.3 Brève présentation de Coq 3
Ceci est une présentation assez grossière des assistants de preuve automatiques,
on pourra trouver dans [6] ou dans [24] plus de détails sur les mécanismes
utilisés. Les principaux prouveurs automatiques1
sont ACL2 [28, 29],
Alt-Ergo [5], E-prover [44], Gappa [31], Z3 [11], ...
• Les assistants de preuve semi-automatiques : contrairement aux assistants
de preuve automatiques, les preuves sont faites par un utilisateur humain.
L’utilisateur dit quel théorème il veut utiliser, et la machine indique si oui ou
non le théorème peut être appliqué ou pas. Donc ici l’humain fait la preuve,
et la machine la vérifie. Parmi les principaux assistants de preuve semiautomatique,
on trouve HOL [35], HOL-Light [25], Isabelle [50], Coq [13],
Mizar [33], Matita [1], PVS [45], Nuprl [10] ...
Dans cette thèse nous utiliserons l’assistant de preuve Coq.
3 Brève présentation de Coq
Le logiciel Coq est un assistant de preuve semi-automatique qui permet de faire
des preuves, mais aussi des programmes (et des preuves sur ces programmes !). La
construction de preuves se fait à l’aide d’un langage de tactiques. Une tactique
c’est ce qui permet de dire au système quel règle logique utiliser pour construire
les preuves.
La formalisation des théorèmes en Coq se fait de manière interactive avec
la machine. En général nous avons un environnement de preuve qui se présente
comme suit :
H
===================
B
où H est la partie où sont nos hypothèses, et B est la partie où il y a le(s)
but(s) que nous voulons prouver. Supposons par exemple que nous ayons l’environnement
de preuve suivant :
...
Hn0 : n = 0
H : m = n -> P
===================
P
Nous pouvons écrire dans le script de preuve que l’on veut appliquer l’hypothèse
H en écrivant :
apply: H.
Nous pouvons ensuite exécuter la commande que l’on vient d’écrire pour voir
comment notre environnement de preuve évolue. Ici il y a deux possibilités, soit
1On peut trouver une liste plus complète dans http://why3.lri.fr/.4 Introduction
le système Coq ne peut pas appliquer l’hypothèse et dans ce cas il renvoie un
message d’erreur, soit comme c’est le cas ici, le système Coq peut appliquer
l’hypothèse et dans ce cas il va alors demander de prouver les conditions de
l’hypothèse. Nous aurons donc le nouvel environnement de preuve suivant :
...
Hn0 : n = 0
===================
m = n
Là, nous savons que n = 0, nous pouvons donc remplacer n par 0 dans notre
but. Pour cela, nous pouvons écrire dans le script de preuve la ligne suivante :
rewrite Hn0.
Après l’exécution de cette ligne, nous aurons l’environnement de preuve suivant
:
...
Hn0 : n = 0
===================
m = 0
Dans cet exemple, apply et rewrite sont ce qu’on appelle des tactiques. Au
départ nous voulions prouver la proposition P, et en utilisant les deux tactiques cidessus,
nous nous somme ramenés à prouver m = 0. C’est en utilisant les tactiques
et nos hypothèses que nous allons construire progressivement la preuve formelle.
Le langage que nous utiliserons pour la formalisation des théorèmes s’appelle
SSReflect [20]. C’est une extension de Coq créée par Georges Gonthier pour
prouver le théorème des quatre couleurs [18]. Le langage de tactique est défini différemment
mais le noyau qui vérifie les preuves reste le même. Cette bibliothèque
possède déjà les outils de base pour faire de l’algèbre linéaire.
3.1 Les Types
Coq est un langage fortement typé. Un type définit un ensemble d’objets de
même nature. Par exemple dans Coq tous les entiers naturels sont de type nat,
on écrit :
3 : nat
et ça se lit “trois est de type nat”.
Le type Prop est le type des propositions, par exemple :
(forall n : nat, n + 0 = n) : Prop
Maintenant dire que le type de H est la proposition forall n : nat, n + 0 = n,
c’est dire que H est une preuve de cette proposition. Si on reprend l’exemple
ci-dessus, on a dans nos hypothèses la ligne suivante :
Hn0 : n = 04 Motivations 5
Cela signifie que parmi nos hypothèses on a une preuve (ici appelé Hn0) que n = 0.
Toutes les preuves d’une proposition ont le même type.
Le type d’une fonction est indiqué par une flèche. Le type nat -> nat, par
exemple, est le type d’une fonction qui prend en argument un entier et qui retourne
comme résultat un entier. On utilise la même flèche pour l’implication. En
effet, si P et Q sont des propositions, P -> Q est le type d’une fonction qui prend
en argument une preuve de P et qui retourne comme résultat une preuve de Q,
c’est bien une preuve de P implique Q.
Cette correspondance entre les types et les preuves s’appelle la correspondance
de Curry-Howard. Elle fait le lien entre une preuve d’une proposition P, et le type
d’un terme de λ-calcul. Donc vérifier une preuve revient à vérifier le type d’un
λ-terme. Et la vérification de type est quelque chose qui peut se faire de manière
automatique par un ordinateur. Coq est un assistant de preuve qui utilise cette
correspondance.
Coq permet également de travailler avec des types dépendants. Un type dé-
pendant est un type qui dépend de un ou plusieurs paramètres. Par exemple, le
type d’une matrice est un type qui dépend du nombre de lignes et de colonnes de
la matrice.
4 Motivations
4.1 Motivations générales
Il y a deux principales raisons pour lesquelles on voudrait faire des preuves
formelles. La première est pour vérifier des programmes. Par exemple, les programmes
utilisés dans les métros automatiques qui n’ont pas de conducteur, ou
les programmes utilisés dans des avions, etc. C’est le genre de programmes dont
on voudrait être sûr qu’ils ne feront pas d’erreurs.
La seconde, est que certaines preuves mathématiques nécessitent de longs
calculs par ordinateur. C’est le cas par exemple du théorème des quatre couleurs
ou dernièrement de la conjecture de Kepler qui est en train d’être formalisée
avec l’assistant de preuve HOL Light [21, 22]. Donc prouver formellement que les
calculs faits par l’ordinateur sont corrects permet d’avoir une meilleure certitude
sur ces preuves.
Il y a aussi le fait que les preuves mathématiques deviennent plus difficiles. Il
existe des théorèmes dont la preuve n’est compréhensible que seulement par une
poignée de mathématiciens. Ce sont des théorème difficiles à vérifier et prouver
formellement ces théorèmes permettrait de pouvoir vérifier ces preuves de manières
automatiques. C’est le cas par exemple du théorème de Feit-Thompson [19]
dont la preuve fait plusieurs centaines de pages et qui a été formalisé avec l’assistant
de preuve Coq.6 Introduction
4.2 Motivations de la thèse
Les démonstrations de certains théorèmes mathématiques parfois font intervenir
des résultats de différentes branches des mathématiques. C’est le cas par exemple
du théorème de Perron-Frobenius qui parle des propriétés du rayon spectral des
matrices à coefficients positifs.
La preuve de ce théorème utilise des résultats d’algèbre linéaire, comme la
réduction de Jordan d’une matrice, mais aussi des résultats d’analyse comme
le théorème de Bolzano-Weierstraß en topologie générale, ou des résultats de
convergence sur les matrices.
Le but de cette thèse a été d’essayer de fournir des outils d’algèbre linéaire et
d’analyse assez généraux pour qu’ils puissent être réutilisés.
Nous présenterons dans cette thèse d’abord les travaux sur la forme normale de
Jordan, ensuite ceux sur la topologie générale. Ces deux parties ont été formalisées
indépendamment l’une de l’autre. Nous verrons une réutilisation de ces résultats
dans le dernier chapitre avec le théorème de Perron-Frobenius.
Ce qui a amené en premier lieu à s’intéresser au théorème de Perron-Frobenius
est un problème de robotique qui a demandé à étudier des matrices dont les
coefficients sont des intervalles [32]. Le fait que l’on ait besoin du théorème de
Perron-Frobenius a été mis en évidence par Ioana Paşca en étudiant la régularité
de ces matrices [42].
5 Contributions
La preuve du théorème de Perron-Frobenius qui a été formalisée en partie dans
cette thèse utilise deux résultats fondamentaux en mathématiques qui sont le
théorème de Bolzano-Weierstraß en topologie générale et la forme normale de
Jordan d’une matrice en algèbre linéaire.
Jusqu’à présent les notions de topologie telles que la continuité de fonction,
ou la convergence de suite, par exemple, sont formalisées dans un cadre restreint,
c’est-à-dire la plupart du temps celui des nombres réels. Pour la formalisation du
théorème de Perron-Frobenius, nous avons besoin d’utiliser des propriétés de topologie
sur des matrices. C’est pourquoi cette thèse propose une formalisation de
résultats de topologie générale qui pourront être utilisés pour n’importe quel type,
du moment que l’on aura instancié une topologie sur ce type. Un des résultats
important de cette formalisation est le théorème de Bolzano-Weierstraß.
La formalisation de la forme normale de Jordan a, entre autre, apporté une
formalisation des matrices diagonales par blocs, d’une théorie sur les matrice
semblables et équivalentes, de la théorie des facteurs invariants, des matrices
compagnes, en formalisant au passage la forme normale de Frobenius. En collaboration
avec Maxime Dénès, nous avons pu, en utilisant les outils fournis par les
bibliothèques CoqEAL1
et SSReflect, faire une formalisation complète (sans
1http://www.maximedenes.fr/content/coqeal-coq-effective-algebra-library5 Contributions 7
axiomes) de ces résultats.
Pour la preuve du théorème de Perron-Frobenius, nous avons formalisé des
théorèmes généraux sur la convergence des suites sur des structures ordonnées
et archimédiennes, mais aussi sur la convergence des suites de matrices. En particulier
nous établissons formellement quelles sont les conditions nécessaires et
suffisantes pour que la suite des puissances d’une matrice converge vers zéro.
Nous donnons également une définition formelle du rayon spectral d’une matrice.
Pour résumer, les contributions originales de cette thèse sont :
• Une théorie générale sur la topologie.
– dont le théorème de Bolzano-Weierstraß.
• Les matrices diagonales par blocs.
• Une théorie des facteurs invariants.
• Les matrices compagnes.
• Les formes normales de Frobenius et de Jordan d’une matrice.
• Des théorèmes généraux sur la convergence des suites
– sur les structures ordonnées.
– sur les structures archimédiennes.
– sur les matrices.
• Une définition du rayon spectral d’une matrice.
• Une preuve partielle du théorème de Perron-Frobenius.Chapitre 1
Contexte
L’outil utilisé pour la formalisation de tous les résultats présentés dans cette
thèse est l’assistant de preuve Coq avec la bibliothèque SSReflect. La bibliothèque
SSReflect contient déjà des théories assez développées sur les principaux
concepts que nous utiliserons tels que les polynômes ou les matrices par
exemple. Nous présenterons donc ici comment les principaux outils que nous utiliserons
par la suite sont formalisés dans la bibliothèque SSReflect, afin de
familiariser le lecteur avec les notations et les énoncés formels qu’il rencontrera.
1.1 Les types de base
Les notions abordées dans cette section sont expliquées plus en détail dans [3].
La plupart des types en Coq sont des types inductifs. Les types inductifs sont
en général définis comme suit :
Inductive TI := C1 : e1 | C2 : e2 | ... | Ck : ek.
Ici les ei sont des expressions dans lesquelles le type TI peut apparaître. Les Ci
sont les constructeurs du type TI. C’est ce qui permet de construire des éléments
de type TI. Tous les éléments de type TI sont forcément construits à partir des
constructeurs.
Nous pouvons définir des fonctions du type inductif TI vers un type T en
faisant un traitement par cas sur toutes les formes possibles de l’élément de type
TI passé en argument de la fonction :
Definition f (x : TI) : T :=
match x with
|C1 ... => E1
|C2 ... => E2
...
|Ck ... => Ek
end.10 Contexte
où les points de suspensions horizontaux sont de possibles arguments des constructeurs
du type TI. L’expression f (Ci ...) est convertible avec l’expression Ei,
c’est-à-dire que l’expression f (Ci ...) se réduit en Ei par des règles de calculs.
On peut considérer deux expressions convertibles comme étant identiques.
Nous allons voir dans la suite les types inductifs de base dans Coq.
1.1.1 Le type produit
Le type produit de deux types A et B est défini comme suit :
Inductive prod (A B : Type) :=
pair : A -> B -> prod A B.
Ce type correspond au produit cartésien de A et de B. La notation définie dans la
bibliothèque standard de Coq pour prod A B est A * B, et celle pour pair x y
est (x,y). Donc si nous avons x : A et y : B alors nous avons (x,y) : A * B.
Si nous avons un élément p : A * B alors on peut définir les projections qui
permettent de récupérer le premier et le second élément de la paire p :
Definition fst (A B : Type) (p : A * B) :=
match p with
(x,y) => x
end.
La fonction snd qui renvoie le second élément de p est définie de la même manière.
Dans la bibliothèque SSReflect, la notation p.1 désigne fst p et p.2 désigne
snd p. Donc (x,y).1 = x et (x,y).2 = y.
1.1.2 Les types propositionnels
Soit A et B deux propositions, alors les propositions « A et B » et « A ou B »
sont exprimées formellement à l’aide de types inductifs. Elles sont notées respectivement
A /\ B et A \/ B.
Pour la conjonction de plusieurs propositions par exemple, on peut rencontrer
dans la bibliothèque SSReflect, la notation suivante :
[/\ A , B & C]
Pour la disjonction le /\ est remplacé par \/ et le & par |. On peut utiliser
cette notation jusqu’à cinq propositions pour la conjonction, et quatre pour la
disjonction.
1.1.3 Le type booléen
Les booléens sont définis simplement dans Coq de la manière suivante :
Inductive bool := true : bool | false : bool.
Les opérateurs booléens « et » et « ou » sont notés respectivement a && b et
a || b pour deux booléens a et b quelconques.1.1 Les types de base 11
1.1.4 Les entiers naturels
Les entiers naturels sont définis selon la construction de Peano :
Inductive nat :=
O : nat
| S : nat -> nat.
Le constructeur S correspond à la fonction successeur. Dans la bibliothèque
SSReflect, S n est noté n.+1, n.+2 est une notation pour S n.+1, cela va jusqu’à
n.+4.
La fonction prédécesseur d’un entier est définie dans la bibliohèque standard
de Coq :
Definition pred n := match n with 0 => 0 | S n’ => n’ end.
La bibliothèque SSReflect fourni pour pred n une notation similaire à la pré-
cedente qui est n.-1, de même nous avons aussi la notation n.-2.
1.1.5 Les séquences
Une séquence permet d’énumérer un nombre fini d’éléments de même type. On
utilise plus couramment le mot « liste », d’ailleurs dans la bibliothèque standard
de Coq ce type s’appelle list. Pour certaines raisons historiques dans la
bibliothèque SSReflect on utilise la notation seq pour list, donc bien que la
définition des séquences soit définie dans la bibliothèque standard de Coq, je vais
la présenter ici avec la notation SSReflect car c’est celle que nous utiliserons
par la suite :
Inductive seq (T : Type) :=
nil : seq T
| cons : T -> seq T -> seq T.
Les notations et les quelques définitions que nous allons voir maintenant sont
celles de la bibliothèque SSReflect.
Le constructeur nil, noté [::], correspond à la séquence vide. Le constructeur
cons permet d’ajouter un élément en tête d’une séquence. Par exemple si s est la
séquence qui contient (dans cet ordre) les éléments 2 et 3 alors cons 1 s est la
séquence qui contient (dans cet ordre) les éléments 1, 2 et 3. On note cons a s
par a :: s, par exemple la séquence ci-dessus est notée 1 :: (2 :: (3 :: nil)).
Une autre façon de noter cette séquence est la suivante [:: 1 ; 2 ; 3 ].
Voici plusieurs fonctions élémentaires sur les séquences :
• La fonction size retourne le nombre d’éléments d’une séquence.
• La fonction nth permet de retourner le n-ième élément d’une séquence.
Cette fonction prend un élément par défaut comme argument. Par exemple
nth x0 s i retourne x0 si la séquence s est vide ou si l’entier i est plus
grand que size s et retourne le i-ème élément de la séquence sinon. Si le12 Contexte
type des éléments d’une séquence s a une structure de groupe additif avec
comme élément neutre 0, alors la notation s‘_i désigne nth 0 s i.
• la fonction last retourne le dernier élément d’une séquence. Par exemple,
last x0 s retourne le dernier élément de la séquence s et x0 si la séquence
s est vide.
• La fonction cat permet de concaténer deux séquences. cat s1 s2 se note
s1 ++ s2.
• La fonction map permet à partir d’une séquence s et d’une fonction f d’obtenir
une nouvelle séquence en appliquant f à chaque élément de s. Par
exemple map f [:: 1 ; 2 ; 3] est la séquence [:: f 1 ; f 2 ; f 3]. La
notation [seq f x | x <- s] est une notation dite par compréhension pour
map f s. On peut lire cette notation comme « La séquence des f x tels que
x appartient à s »(le signe <- symbolise ∈).
• La fonction filter permet à partir d’un prédicat booléen P et d’une sé-
quence s d’obtenir une séquence qui ne contient que les éléments de la
séquence s qui vérifient le prédicat P. La notation par compréhension de
filter P s est [seq x <- s | P x].
1.2 La bibliothèque SSReflect
Dans cette section, nous allons expliquer dans un premier temps quelques mécanismes
utilisés dans la bibliothèque SSReflect. Nous présenterons ensuite les
principaux outils de SSReflect utilisés pour la formalisation.
1.2.1 La réflexion
La réflexion est une manière d’utiliser le calcul pour prouver un résultat. Imaginez
un miroir. D’un côté du miroir il y a le monde des propositions, et de l’autre
côté il y a le monde des booléens. Si certaines propositions (pas toutes) se regardent
dans le miroir, elle pourront voir une expression booléenne qui reflète
leur comportement. C’est-à-dire que l’expression booléenne aura la valeur true
si la proposition est vraie et la valeur false sinon. Prouver une proposition P
par réflexion, c’est passer de l’autre côté du miroir, pour calculer la valeur de
l’expression booléenne et ainsi en déduire la valeur de vérité de la proposition.
Dans la bibliothèque SSReflect, les lemmes qui permettent de passer d’un
côté ou de l’autre du miroir sont appelés des lemmes de réflexion. Ces lemmes
s’expriment à l’aide du type inductif suivant :
Inductive reflect (P : Prop) : bool -> Set :=
ReflectT (_ : P) : reflect P true
| ReflectF (_ : ~P) : reflect P false.1.2 La bibliothèque SSReflect 13
Le type reflect a deux constructeurs de type légèrement différent. Le premier
constructeur prend une preuve de la proposition P en argument (cette preuve
n’étant pas utilisée dans le type du constructeur, il est inutile de lui donner un
nom, d’où le _:), et son type est reflect P true. Alors que le deuxième constructeur
prend en argument une preuve de ~P et a comme type reflect P false. Nous
avons donc une correspondance entre une preuve de P avec la valeur true, et une
preuve de ~P avec la valeur false.
Si H est de type reflect P b alors nous avons deux cas. Soit H = ReflectT H’,
et dans ce cas nous avons d’une part b = true (car le type de ReflectT H’ est
reflect P true), et d’autre part la proposition P est vraie (car H’ est une preuve
de P). Soit H = ReflectF H’ et alors dans ce cas b = false et H’ est une preuve
de ~P. Ainsi H : reflect P b exprime bien le fait qu’il y a une réflexion entre la
valeur de b et la proposition P.
Un lemme de réflexion sur la proposition P permet de faire un raisonnement
classique sur cette proposition. Si nous avons l’environnement de preuve suivant :
...
H : reflect P b.
==========================
G(b)
alors nous pouvons faire un traitement par cas sur l’hypothèse H :
case: H.
Cette tactique va essayer de déstructurer l’hypothèse H. Comme le type de H
est inductif et possède deux constructeurs, cela va générer deux sous-buts (un
pour chaque constructeur). Chacun des constructeurs ayant besoin d’un argument,
chaque sous-but va être quantifié sur ces arguments ; dans le premier cas
l’argument est une preuve de P, et dans le deuxième cas c’est une preuve de ~P.
Nous allons donc avoir les deux sous-buts suivants :
subgoal 1 :
...
==============================
P -> G(true)
subgoal 2 is :
~P -> G(false)
Mis à part le remplacement du booléen b par sa valeur dans chacun des cas,
nous obtenons le même résultat que si l’on avait utilisé la tactique case: HP, où
HP est une hypothèse de type P \/ ~P.
Avec des lemmes de réflexion il est possible de passer facilement du monde
des propositions au monde booléen (et vice versa) grâce au mécanisme de « vue »
que nous allons présenter dans la section suivante.14 Contexte
1.2.2 Le système de vue
Dans la bibliothèque SSReflect, il existe un mécanisme de « vue ». Il est nommé
ainsi car il permet de faire, dans un certain sens, des changements de point de
vue.
Pour utiliser le système de vue on utilise la syntaxe suivante :
tactic/H.
où tactic peut être une tactique quelconque1
, et H une hypothèse ayant une des
trois formes suivantes :
1. P -> Q
2. P <-> Q
3. reflect P b
où P, Q sont des propositions et b un booléen.
Dans chaque cas, il y a deux exemples d’utilisation des vues. Regardons
d’abord les cas 1) et 2) :
• Le premier exemple d’utilisation est quand le but que l’on veut prouver est
Q. Alors dans ce cas là la tactique apply/H transforme le but en P.
• Le deuxième exemple d’utilisation est quand le but que l’on veut prouver
est de la forme P -> G alors la tactique move/H transforme le but en Q -> G.
La différence entre le cas 1) et le cas 2) est que dans le cas 2) les rôles des
propositions P et Q peuvent être inversés.
Nous allons expliquer maintenant le cas 3). Dans la bibliothèque SSReflect,
il y a une coercition du type des booléens vers le type des propositions :
Coercion is_true (b : bool) := b = true.
Cette coercition permet d’utiliser les booléens comme des propositions. Donc dans
le cas où H est de la forme reflect P b, le système de vues se comporte comme
si l’on avait H : P <-> b (i.e P <-> b = true).
Expliquons le principe sur un exemple. Imaginons que l’on veuille prouver
qu’un booléen b soit égal à true, et que l’on ait une hypothèse H : reflect P b.
Nous avons donc l’environnement de preuve suivant :
...
H : reflect P b
=======================
b
Si l’on exécute la tactique apply/H nous obtiendrons :
1Enfin presque, disons plutôt à quelque exceptions près. Par exemple on ne peut pas utiliser
de vue avec la tactique rewrite.1.2 La bibliothèque SSReflect 15
...
H : reflect P b
=======================
P
Pour voir ce qui s’est passé, nous pouvons exécuter la commande Show Proof, le
système affichera un terme de preuve dans lequel on verra apparaître :
. . . [eta introTF H] . . .
Donc lorsque nous avons voulu appliquer une vue avec l’hypothèse H, le système
a fait appel à un lemme appelé introTF. Le lemme introTF est défini dans
la bibliothèque SSReflect comme suit :
Lemma introTF (P : Prop) (b c : bool) : reflect P b ->
(if c then P else ~P) -> b = c.
Le but que l’on veut démontrer est b = true, donc si nous appliquons le lemme
introTF il va être instancié avec c = true, et le système va nous demander de
prouver if true then P else ~P ( c’est-à-dire P) et reflect P b, mais cette dernière
hypothèse est donnée par H. Donc finalement le nouveau but sera transformé
en P.
Le théorème introTF a été ajouté dans une base de données, que nous appelerons
la base des lemmes de vues, à l’aide de la commande Hint View. Donc lorsque
nous avons exécuté la tactique apply/H, le système a cherché s’il y a un lemme
dans la base des lemmes de vues qui pourrait être utilisé avec l’hypothèse H. Dans
notre cas il a trouvé le lemme introTF, s’il n’avait pas trouvé de lemme qu’il
aurait pu utiliser, il aurait essayé d’appliquer directement l’hypothèse H (c’est ce
qu’il fait dans le cas où H : P -> Q par exemple).
1.2.3 Les types avec une égalité décidable
L’égalité utilisée dans le système Coq est l’égalité de Leibniz. Prouver l’égalité
entre deux éléments n’est pas toujours décidable. La théorie développée dans la
bibliothèque SSReflect distingue le cadre où l’on peut décider de l’égalité.
La structure d’égalité décidable est l’une des premières structures de base
définies dans la bibliothèque SSReflect. On peut décider de l’égalité de deux
éléments de type T si on a un algorithme qui prend en argument ces deux éléments
et qui retourne le booléen true si ces éléments sont égaux, et le booléen false
sinon. La structure est donc définie ainsi1
:
Structure eqType := EqMixin {
sort : Type ;
eq_op : sort -> sort -> bool ;
_ : forall x y, reflect (x = y) (eq_op x y)
}
1Enfin presque, pour des raisons de clarté j’ai donné une définition plus simple.16 Contexte
La notation utilisée pour eq_op x y est (x == y). L’expression (x == y) repré-
sente donc une égalité booléenne. Bien sûr, l’algorithme caché derrière la notation
== dépend du type de x et de y, s’ils sont de type nat, alors le == représente l’algorithme
qui teste l’égalité de deux éléments de type nat, mais s’ils sont de type
bool, alors le == représente le test d’égalité de deux booléens. Le sytème Coq
retrouve les bonnes instances de la notation grâce à un système de structures canoniques.
Cependant dans certains cas on peut demander au système de choisir
une interprétation particulière du signe == avec la notation (x == y :> T), ici on
demande au système de voir les éléments x et y comme des éléments de type T
1
,
et donc l’algorithme de comparaison utilisé sera celui instancié sur le type T.
1.2.4 Les types finis
Les types finis sont définis dans la bibliothèque SSReflect comme les types dont
tous les éléments peuvent être énumérés dans une séquence. Ils sont définis dans
une structure appelée finType. Ici nous allons présenter dans un premier temps
le type fini appelé ordinal, car nous l’utiliserons couramment dans la suite. Nous
verrons ensuite quelques notations à propos des fonctions sur un type fini.
Les ordinaux
Si n est un entier, alors le type ordinal n contient tous les entiers strictement
plus petit que n. Il est défini dans la bibliothèque SSReflect comme suit :
Inductive ordinal (n : nat) := Ordinal m (_ : m < n).
Le type ordinal n est noté ’I_n. Ainsi, un élément x de type ’I_n est un
entier muni d’une preuve qu’il est plus petit que n. Il y a donc une coercition
naturelle du type ’I_n dans le type nat, cette coercition s’appelle nat_of_ord.
Les fonctions sur les types finis
Si nous avons une fonction f de type aT -> rT avec aT : finType et rT un type
quelconque, alors cette fonction a un nombre fini d’images, donc l’image de f peut
être représentée par une séquence. La théorie de ces fonctions est développée dans
le fichier finfun.v de la bibliothèque SSReflect. Le type de ces fonctions est
noté {ffun aT -> rT}. Pour définir une fonction qui a ce type, on peut utiliser la
notation [ffun x => expr] où expr est le corps de la fonction.
1.2.5 Les opérateurs de familles
Les opérateurs de familles sont les opérateurs que l’on utilise dans des expressions
comme :
1
Il faut donc soit que le type de x et de y soit convertible au type T, soit qu’il existe une
coercition du type de x et de y vers le type T.1.2 La bibliothèque SSReflect 17
X
p
i=n
xi
Y
i∈S
ai
[
i∈S
Ai
Le fichier bigop.v de la bibliothèque SSReflect contient des définitions et
des lemmes qui permettent d’exprimer formellement, et de manipuler ce genre
d’expression. C’est ce que nous allons présenter brièvement ici.
Supposons que nous avons un opérateur op avec la notation suivante :
Variables (T : Type) (op : T -> T -> T).
Notation "x * y" := (op x y).
Les opérateurs de familles sont un moyen d’exprimer de manière concise une
expression comme :
x1 * x2 * ... * xk
Autrement dit, on s’en sert pour appliquer, dans un certain sens, un opérateur
à une famille d’éléments en itérant plusieurs fois l’opération. Il existe une fonction
foldr définie dans la bibliothèque SSReflect, qui permet de faire cela sur les
éléments d’une séquence.
La fonction foldr est définie comme suit :
Fixpoint foldr f x0 s := if s is x :: s’ then f x (foldr s’ f) else x0.
Donc dans notre exemple, nous aurons :
• foldr op x0 [::] = x0
• foldr op x0 [:: x1] = x1 * x0
Et de manière plus générale :
• foldr op x0 [:: x1, x2, ..., xk] = x1 * (x2 * . . . * xk * x0)
L’argument x0 de la fonction foldr est l’élément par défaut retourné quand la
fonction est appelé sur la séquence vide. C’est pour cela que ci-dessus l’argument
x0 apparaît à la fin de chaque expression. Donc pour que la fonction foldr ait
le comportement attendu, il suffit que x0 soit un élément neutre à droite pour
l’opérateur op.
Dans ce qui est fait dans le fichier bigop.v, la fonction foldr n’est pas utilisée
directement sur la séquence [:: x1, ..., xk] mais sur la séquence des indices (i.e
la séquence [:: 1, 2, ... k] ; et donc au lieu d’utiliser directement la fonction op
comme premier argument, on applique d’abord la fonction fun (i : nat) => xi
avant de faire appel à l’opérateur op.
Tout ce mécanisme est caché principalement derrière la notation suivante :
\big[op/id]_(i <- s) F i
où op est l’opérateur qui est itéré, id est (en général) l’élément neutre pour
l’opérateur op, s la séquence des indices, et F i l’expression des termes auquels
on applique l’opérateur op.
Par exemple, si addn est l’addition sur les entiers, et U_ est une fonction sur
les entiers alors :18 Contexte
\big[addn/0]_(i <- [:: 2 ; 5 ; 7]) U_ i = U_ 2 + U_ 5 + U_ 7.
Il existe plusieurs variantes de cette notation qui sont présentées dans le tableau
suivant :
Contexte Notation générale
Exemple avec
l’opérateur
somme
i) \big[op/id]_(m <= i < n) F i
nX−1
i=m
Fi
ii) \big[op/id]_(i < n) F i
X
i seq R;
_ : last 1 polyseq != 0}.
Le symbole :> permet de déclarer polyseq comme une coercition du type des
polynômes vers le type des séquences. La séquence vide représentant le polynôme
nul doit vérifier la définition ci-dessus. Or lorsque la fonction last est appliquée
à la séquence vide, elle retourne un élément par défaut. Cet élément par défaut
doit être différent de 0, et le seul autre élément de l’anneau R dont on connait
l’existence est 1. Donc pour que cette définition de polynôme soit valide, il faut
que 1 != 0. C’est principalement pour cette raison que l’axiome 1 != 0 a été
rajouté comme axiome dans la structure ringType.
Nous allons voir d’abord quelques généralités sur les polynômes, ensuite nous
parlerons de la divisibilité sur les polynômes.
Généralité
Le type des polynômes est noté {poly R}, ainsi si p : {poly R} alors p est un
polynôme à coefficients dans l’anneau R.
Voici un tableau qui résume les principales notations sur les polynômes :
Notation SSReflect Description
c%:P Le polynôme constant c (avec c : R)
’X Le polynôme X (où X est l’indéterminée)
lead_coef p Le coefficient dominant du polynôme p
p \is monic Le polynôme p est unitaire
p.[a] La valeur du polynôme p évalué en a (i.e p(a))
Il n’y a pas vraiment de définition pour le degré d’un polynôme. On parle
plutôt de la taille de la séquence des coefficients. Comme il existe une coercition
des polynômes vers les séquences, on peut directement écrire size p. Donc pour
un polynôme p non nul, (size p).-1 est égal au degré de p.1.2 La bibliothèque SSReflect 21
Divisibilité et racines
Les notations liés à la divisibilité et aux racines d’un polynôme sont présentées
dans le tableau suivant :
Notation SSReflect Description
p %/ q p divisé par q
p %% q p modulo q
p %| q p divise q
p %= q p %| q et q %| p
gcdp p q pgcd(p, q)
root p x x est une racine de p
\mu_x p multiplicité de x dans p
La relation %= est une relation d’équivalence. Si p %= q alors cela veut dire
que l’on peut passer de l’un à l’autre en multipliant par un scalaire inversible. En
mode mathématique, nous noterons cette relation p ∼ q.
1.2.8 Les matrices
Dans la bibliothèque SSReflect, les matrices sont définies comme suit :
Inductive matrix := Matrix (_ : {ffun ’I_m * ’I_n -> R}).
Ce type inductif a un constructeur Matrix qui prend en argument une fonction
dont toutes les valeurs correspondent aux coefficients de la matrice. Cette fonction
peut être récupérée par la fonction mx_val définie comme suit :
Definition mx_val m n (A : matrix m n) :=
match A with Matrix g => g end.
On peut ainsi définir la coercition suivante :
Definition fun_of_matrix m n A (i : ’I_m) (j : ’I_n) := mx_val A (i,j).
Coercion fun_of_matrix : matrix -> Funclass.
Cette coercition permet de voir les matrices comme des fonctions. Ainsi, si
nous avons une matrice A, alors on peut écrire A i j le coefficient de la ligne i et de
la colonne j de A. Le type des matrices est noté de manière générale ’M[R]_(m,n)
où R est le type des coefficients de la matrice et m et n ses dimensions. Si il n’y a
pas d’ambiguïté sur le type des coefficients, alors on peut écrire ’M_(m,n). Dans
le cas des matrices carrées on notera ’M[R]_n ou ’M_n.
Si l’on connait l’expression générale des coefficients d’une matrice, alors on
peut la définir avec la notation suivante :
\matrix_(i < m , j < n) E i j22 Contexte
où E est l’expression générale des coefficients. Le type de la matrice ainsi définie
est ’M_(m,n). Dans le cas des matrices carrées, pour la taille de la matrice, on
peut juste préciser (i, j < n) ; et si il n’y a pas d’ambiguïté sur la taille de la
matrice alors on précisera simplement (i,j).
Par exemple la matrice définie comme suit :
\matrix_(i, j < 3) 2 *+ (i == j) + (i.+1 == j)
correspond à la matrice :
2 1 0
0 2 1
0 0 2
Comme il y a une coercition du type bool vers le type nat, l’expression
(i == j) sera interprétée comme 0 ou 1, et elle ne vaudra 1 que dans le cas
où i et j sont égaux ; c’est la raison pour laquelle les 2 apparaissent sur la diagonale.
En fait (i == j) est une façon d’écrire δij , le symbole de Kronecker, et
a *+ (i == j) est une façon d’écrire a.δij .
Ici nous avons montré l’exemple d’une matrice carrée où i et j ont le même
type. Mais dans le cas d’une matrice rectangulaire, i et j ont des types différents,
et donc l’expression (i == j) est mal typée. Par exemple, si nous avions écrit :
\matrix_(i < 2, j < 3) 2 *+ (i == j) + (i.+1 == j)
Nous aurions i : ’I_2 et j : ’I_3. Pour que la définition soit correcte il faut
préciser au système Coq que l’on veut que la comparaison entre i et j se fasse
sur les entiers. La définition correcte est donc :
\matrix_(i < 2, j < 3) 2 *+ (i == j :> nat) + (i.+1 == j)
Pour finir voici les notations usuelles sur les matrices :
Notation SSReflect Description
A i j Le coefficient Aij de la matrice A
a%:M La matrice qui ne contient que des a sur la diagonale
(par exemple 1%:M est la matrice identité)
A *m B A ∗ B
\det A Le déterminant de A
A \in unitmx A est inversible
1.2.9 Matrices et polynômes
Dans cette thèse nous serons amenés à évoquer les notions de polynôme caractéristique
d’une matrice et de polynôme minimal. Ces notions sont formalisées
dans la bibliothèque SSReflect dans le fichier mxpoly.v.
Soit A un anneau, p ∈ A[X] et A ∈ Mn(A). Alors p(A) est la matrice qui
correspond à l’évaluation du polynôme p en la matrice A. Par exemple, si nous1.2 La bibliothèque SSReflect 23
avons p = 2X2 − 3X + 4 alors p(A) = 2A2 − 3A + 4I. Si p est tel que p(A) = 0
alors on dit que p est un polynôme annulateur de la matrice A.
La matrice XI − A est la matrice caractéristique de A. Le déterminant de
cette matrice est un polynôme appelé polynôme caractéristique de la matrice A.
Ce polynôme est un polynôme annulateur de la matrice.
Le polynôme unitaire et annulateur de la matrice A de plus petit degré est
appelé polynôme minimal de la matrice A. Une propriété caractéristique du polynôme
minimal est que c’est un polynôme annulateur qui divise tout les autres
polynômes annulateurs de la matrice.
Le tableau ci-dessous donne le nom des fonctions définies dans la bibliothèque
SSReflect qui correspondent à ce que l’on a décrit ci-dessus :
Notation SSReflect Description
horner_mx A p p(A)
char_poly_mx A XI − A
char_poly A polynôme caractéristique de A
mxminpoly A polynôme minimal de A
1.2.10 Les structures ordonnées
Les structures telles que les corps réels clos, ou les corps archimédiens sont dé-
finis dans le fichier ssrnum.v de la bibliothèque SSReflect. La structure ordonnée
la plus générale est basée sur la structure d’anneau commutatif intègre
(idomainType), et contient en plus une comparaison booléenne large notée <=,
une comparaison booléenne stricte notée <, et une fonction valeur absolue ou module
notée ‘|.|. Cette structure est appelée numDomainType. Sur cette structure,
les fonctions maxr et minr désignent respectivement les fonctions maximum et
minimum.
Voici les structures qui sont implémentées dans le fichier ssrnum.v :
Nom de la structure Description
numDomainType c’est la structure décrite plus haut
numFieldType numDomainType, mais basé sur un corps
numClosedFieldType numDomainType basé sur un corps algébriquement clos
realDomainType numDomainType avec un ordre total
realFieldType Corps réel
archiFieldType Corps archimédien
rcfType Corps réel clos
Ces structures (ainsi que la construction de nombres complexes ci-dessous)
sont expliquées plus en détails dans la thèse de Cyril Cohen [8].24 Contexte
1.2.11 Les nombres complexes
Les nombres complexes sont définis comme étant une paire de nombres :
Inductive complex (R : Type) : Type := Complex {Re : R; Im : R}.
On utilisera en général la notation suivante :
Local Notation C := (complex R).
La notation x%:C représente un réel plongé dans les complexes, c’est une notation
pour Complex x 0.
On peut munir le type complex R des structures ordonnées numDomainType et
numFieldType si R est de type rcfType (i.e. c’est un corps réel clos). En effet,
pour définir le module d’un nombre complexe, il faut définir la fonction « racine
carrée ». Or la racine carrée d’un nombre a est définie comme une racine du
polynôme X2 − a, donc pour que cette fonction soit bien définie, il faut1 que R
soit un corps réel clos.
L’ordre partiel défini sur les complexes est le suivant :
Definition lec x y := (Im x == Im y) && (Re x <= Re y).
Definition ltc x y := (Im x == Im y) && (Re x < Re y).
La structure de numDomainType est instanciée sur le type complex avec les
deux définitions ci-dessus pour l’ordre large et l’ordre strict, et avec la fonction
“module” suivante :
Definition normc x := (Num.sqrt ((Re x)^+2 + (Im x)^+2))%:C.
Pour pouvoir déclarer les nombres complexes comme étant une instance de la
structure numDomainType, on doit plonger le module d’un nombre complexe dans
C. Car si T est le type principal sur lequel est défini la structure numDomainType,
alors le type de la fonction ‘|.| est T -> T. Or, dans notre cas, T est instancié
par C, donc la fonction module doit être de type C -> C. Ceci a pour inconvénient
que le module d’un nombre complexe est un nombre complexe.
1.3 Conclusion
Ce chapitre explique les principaux outils utilisés dans le travail de formalisation.
Il présente aussi les notations usuelles qui seront utilisées dans la suite de cette
thèse.
1Enfin pas tout à fait. Disons que la structure rcfType est la plus petite structure implé-
mentée dans la bibliothèque SSReflect telle que la fonction « racine carrée »soit bien définie.Chapitre 2
Forme de Jordan d’une matrice
Un résultat important en algèbre linéaire est le fait qu’une matrice soit semblable
à sa forme normale de Jordan. La formalisation de ce résultat passe d’abord par
la formalisation de nombreux concepts comme les matrices diagonales par blocs,
les matrices compagnes, les facteurs invariants, et les matrices semblables ou
équivalentes. Ce résultat utilise également d’autres formes normales de matrices
comme la forme normale de Smith et la forme normale de Frobenius d’une matrice.
Les travaux présentés dans ce chapitre ont été menés en commun avec Maxime
Dénès (voir [7]), et ont été inspirés de la thèse de Patrick Ozello [37] et de celle
de Isabelle Gil [16].
Nous verrons dans une première section comment les matrices diagonales par
blocs ont été formalisées. Dans la section suivante, nous parlerons de la similitude
et de l’équivalence entre deux matrices. Ensuite nous discuterons sur la forme normale
de Smith, sur ses propriétés, et montrerons quelques lemmes importants qui
seront utiles par la suite. Dans une quatrième section, nous donnerons les définitions
formelles de matrices compagnes et des facteurs invariants ; nous pourrons
ainsi définir la forme normale de Frobenius d’une matrice. Enfin nous montrerons
comment nous obtenons la forme normale de Jordan d’une matrice.
2.1 Matrices diagonales par blocs
Une matrice diagonale par blocs est une matrice de la forme :
A1 0 . . . 0
0 A2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 0
0 . . . 0 Ak
où les Ai sont des matrices carrées quelconques.
Ces matrices seront utilisées pour exprimer les formes normales de Frobenius
et de Jordan d’une matrice.26 Forme de Jordan d’une matrice
Ce qui est intéressant dans les matrices diagonales par blocs est qu’en général
si l’on veut faire des opérations (ou montrer des propriétés), on peut se ramener
à les faire (ou les montrer) sur chaque bloc ; ce qui permet dans certains cas de
se ramener à un problème plus simple.
Certains choix de formalisation dans la bibliothèque SSReflect font que la
définition formelle de matrice diagonale par blocs n’est pas aussi simple qu’on
le voudrait. Nous expliquerons donc dans un premier temps quelle définition de
matrice diagonale par blocs nous voudrions avoir, et ensuite nous verrons quels
problèmes nous avons rencontrés avec cette définition, et comment ils ont été
résolus.
2.1.1 Définition idéale
Dans la bibliothèque SSReflect, il existe une fonction qui s’appelle block_mx.
Cette fonction permet de construire une matrice à partir de blocs matriciels. Par
exemple, si A, B, C et D sont des matrices (avec des dimensions adéquates) alors
block_mx A B C D est la matrice
A B
C D!
Si B et C sont des matrices nulles, et si A et D sont des matrices carrées, alors
block_mx A 0 0 D est une matrice diagonale par blocs avec comme blocs diagonaux
les matrices A et D. L’idée de base pour construire les matrices diagonales
par blocs est d’appeler récursivement la fonction block_mx.
À chaque appel de la fonction block_mx, il faudra lui donner en arguments
successivement les blocs diagonaux de la matrice que l’on veut construire. Ces
blocs peuvent être de tailles différentes, et donc de types différents. Une première
difficulté va être d’exprimer l’ensemble de ces blocs diagonaux.
Une solution pourrait être d’utiliser le type des paires dépendantes de Coq.
Dans la bibiliothèque standard de Coq, il y a un type sigT défini comme suit :
Inductive sigT (A : Type) (P : A -> Type) : Type :=
existT : forall x : A, P x -> sigT P.
Notation "{ x : A & P }" := (sigT (fun x : A => P))
Dans notre cas, si A est le type nat et P est la fonction fun n => ’M_n, alors
{n : nat & ’M_n} est le type des paires composées d’un entier et d’une matrice.
Ces paires sont dépendantes dans le sens où le type de la matrice dépend de
l’entier. De plus, pour tout k : nat et pour toute matrice M : ’M_k l’expression
existT k M est de type {n : nat & ’M_n}. Ainsi une sequence s dont le
type est seq {n : nat & ’M_n} peut contenir des matrices de types différents
(comme deuxième élément d’une paire), nous pouvons donc nous en servir pour
parler des blocs diagonaux. Ce qui nous donnerait comme première définition :2.1 Matrices diagonales par blocs 27
Fixpoint diag_block_mx (s : seq {n : nat & ’M[R]_n}) :=
match s return ’M[R]_(size_sum s) with
| [::]=> 0
| (existT k A) :: s’=> block_mx A 0 0 (diag_block_mx s’)
end.
où size_sum s est la fonction qui donne la taille de la matrice diagonale par blocs,
elle consiste simplement à faire la somme des tailles de chaque bloc.
Cette définition est suffisante pour prouver qu’une matrice est semblable à sa
forme de Jordan, car la seule chose que l’on fait avec les matrices diagonales par
blocs est de prouver leur similitude ou leur équivalence avec d’autres matrices.
Par contre, il est difficile de définir les opérateurs usuels sur ces matrices.
Nous allons rencontrer un premier problème lorsque nous voudrons exprimer
la somme de deux matrices diagonales par blocs. La matrice diag_block_mx s1 et
la matrice diag_block_mx s2, pour des séquences s1 et s2 différentes, ont respectivement
comme taille size_sum s1 et size_sum s2 ; autrement dit elles ont des
types différents (même si l’on peut prouver que size_sum s1 = size_sum s2). En
particulier on ne pourra même pas écrire l’expression suivante :
diag_block_mx s1 + diag_block_mx s2.
Il est possible de contourner ce problème en utilisant la fonction castmx de la
bibliothèque SSReflect. Si nous avons deux matrices A et B, respectivement
de type ’M_(m1,n1) et ’M_(m2,n2), et deux preuves d’égalités eqm : m1 = m2
et eqn : n1 = n2 alors la matrice cast_mx (eqm,eqn) B a le même type que
la matrice A (i.e ’M_(m1,n1)). Donc si eq_size est une preuve d’égalité entre
size_sum s1 et size_sum s2 alors nous pouvons écrire l’addition de deux matrices
diagonales par bloc comme suit :
diag_block_mx s1 + castmx (eq_size,eq_size) diag_block_mx s2
Malgré l’utilisation de la fonction castmx, nous nous heurterons à un deuxième
problème pour exprimer qu’additionner deux matrices diagonales par blocs revient
à les additionner bloc à bloc. Pour cela, il faudrait montrer que chacun des
blocs des séquences s1 et s2 sont deux à deux de la même taille, et à partir de
cette preuve obtenir les preuves d’égalité qui permetteront à l’aide de la fonction
castmx d’écrire les sommes des blocs deux à deux. Cette définition de matrice
diagonale par blocs n’est donc pas adaptée pour exprimer ce genre de propriété.
Si nous voulons additionner deux matrices diagonales par blocs, c’est qu’elles
ont, en général, le même découpage en blocs, car cela permet de faire l’addition
bloc à bloc. Si elles n’ont pas le même découpage en blocs, alors l’information que
les matrices sont diagonales par blocs n’apporte rien, et l’on doit faire l’addition
comme sur deux matrices quelconques. Il est donc intéressant que deux matrices
diagonales par blocs, ayant le même découpage en blocs, aient le même type.
Dans la description précédente, nous avons vu que la dimension d’une matrice
diagonale par blocs est donné par la fonction size_sum. Cette fonction prend en
argument une liste de paires dépendantes tailles/matrices, en extrait les dimen-28 Forme de Jordan d’une matrice
sions des matrices et en fait la somme. Dans la nouvelle définition de matrice
diagonale par blocs, nous allons plutôt donner comme premier argument directement
une séquence d’entiers qui correspondra à la séquence des tailles des blocs ;
autrement dit cette séquence donnera le découpage en blocs de la matrice.
Maintenant, pour exprimer les blocs de la matrice, nous ne pouvons plus
utiliser une séquence de paires dépendantes. Car sinon il faudrait s’assurer que
les tailles données comme premier élément de chaque paire soient les mêmes que
ceux de la séquence de découpage des blocs, ce que l’on veut éviter. Pour exprimer
les blocs, nous allons donc utiliser une fonction. Cette fonction doit retourner
comme valeur des matrices de différentes tailles, et donc de types différents. C’est
pourquoi le premier argument de la fonction sera la taille de la matrice qu’elle
va retourner ; pour le deuxième argument nous prendrons simplement le numéro
du bloc dans la matrice diagonale par blocs. Le type de cette fonction est donc
forall n : nat, nat -> ’M_n.
Notre nouvelle définition de matrices diagonales par blocs se présente donc
ainsi :
Fixpoint diag_block_mx s (F : forall n : nat, nat -> ’M_n) :=
match s return ’M_(sumn s) with
| [::] => 0
| n :: s’ => block_mx (F n 0) 0 0
(diag_block_mx s’ (fun n i => F n i.+1))
end.
où sumn prend en argument une séquence d’entiers et retourne la somme de ces
entiers. Voyons comment cela fonctionne sur un exemple :
1 1 0 0 0 0
2 4 0 0 0 0
0 0 4 0 0 0
0 0 0 4 5 1
0 0 0 9 6 6
0 0 0 0 4 2
Le découpage en blocs de la matrice ci-dessus correspond à la séquence de
découpage [:: 2 ; 1 ; 3]1
. Le bloc numéro 0 est de taille 2, il correspond donc
au bloc F 2 0 où F est la fonction qui retourne les blocs diagonaux de la matrice
ci-dessus, c’est-à-dire n’importe quelle fonction qui vérifie les trois conditions
suivantes :
F 2 0 =
1 1
2 4!
; F 1 1 =
4
; F 3 2 =
4 5 1
9 6 6
0 4 2
1
Il y a quatre façon de découper cette matrice en blocs qui correspondent aux séquences
suivantes : [:: 6], [:: 2 ; 4], [:: 3 ; 3], [:: 2 ; 1 ; 3].2.1 Matrices diagonales par blocs 29
Comme les autres valeurs de la fonction F ne sont pas appelées par la fonction
diag_block_mx, elles n’ont pas d’importance.
Avec cette définition nous pouvons exprimer facilement que la somme de deux
matrices diagonales par blocs est la matrice diagonale par blocs où chaque bloc
est la somme des blocs des deux premières matrices :
Lemma add_diag_block s F1 F2 :
diag_block_mx s F1 + diag_block_mx s F2 =
diag_block_mx s (fun n i => F1 n i + F2 n i).
Cette deuxième définition est assez proche de la définition idéale que l’on
voudrait pour les matrices diagonales par blocs, car elle est proche de l’intuition
que l’on s’en fait (appel récursif de la fonction block_mx), et permet de manipuler
les matrices diagonales par blocs assez simplement. Cependant, à cause de certains
choix de formalisation dans la bibliothèque SSReflect, nous allons rencontrer
d’autres problèmes qui font que nous allons devoir modifier cette définition. C’est
ce que nous allons voir dans la sous-section suivante.
2.1.2 Problèmes en dimension nulle
La définition de structure d’anneaux dans la bibliothèque SSReflect demande
une preuve que 1 (l’élément neutre de la loi multiplicative) soit différent de 0
(l’élément neutre de la loi additive). Ceci a pour conséquence que l’ensemble des
matrices carrées d’une taille fixée forme un anneau (dans le sens de SSReflect)
seulement si ces matrices sont non vides, c’est-à-dire de taille non nulle (car toutes
les matrices vides sont égales). Autrement dit, l’instance canonique de la structure
d’anneau sur les matrices est implémentée seulement sur celles ayant un type de
la forme ’M_n.+1. Ainsi, sur les matrices n’ayant pas un type de cette forme, on ne
peut pas utiliser les fonctions définies à partir des opérations génériques d’anneaux
(par exempe les fonctions qui calculent la puissance, le polynôme minimal où la
valeur d’un polynôme en une matrice).
Or le type des matrices diagonales par blocs définies plus haut est de la forme
’M_(sumn s). Nous ne pourrons donc pas utiliser sur ces matrices certaines des
fonctions citées ci-dessus. En effet, si l’on essayait d’appliquer une de ces fonctions,
le système Coq attendrait comme argument une structure d’anneau sur les
matrices, comme cette structure est déclarée pour les matrices dont le type est
de la forme ’M_n.+1, le système va essayer de résoudre le problème d’unification
?n.+1 = sumn s et il va échouer. Nous allons donc voir ici comment la définition
de matrice diagonale par blocs a été modifiée pour que le type de ces matrices
soit de la bonne forme.
2.1.3 Définition finale
Une propriété intéressante des matrices diagonales par blocs est que faire certaines
opérations sur une matrice diagonale par blocs revient à faire ces opérations
sur chaque bloc. Si ces opérations utilisent des opérations génériques d’anneaux,30 Forme de Jordan d’une matrice
il faut alors que chacun des blocs ait un type de la forme ’M_n.+1. Le type
de la fonction F de la définition de matrice diagonale par blocs devient donc
forall n, nat -> ’M_n.+1.
Maintenant nous voulons trouver une fonction, appelons-la size_sum, telle
que le type d’une matrice diagonale par blocs soit ’M_(size_sum s).+1. Nous
remarquons d’abord que si la séquence donnée en premier argument de la fonction
diag_block_mx est vide, alors la matrice diagonale par blocs retournée est vide,
et donc sa taille ne peut pas être de la forme n.+1. Il va donc falloir modifier la
définition de diag_block_mx pour qu’elle ne renvoie jamais une matrice vide. Pour
cela nous allons définir une première fonction pour laquelle nous allons séparer
la séquence de découpage des blocs en deux ; c’est-à-dire qu’elle va prendre en
argument un entier qui va représenter la taille du premier bloc, et une séquence
qui contiendra la taille des autres blocs (à un près à cause du décalage dû au
n.+1) :
Fixpoint diag_block_mx_rec k s (F : forall n, nat -> ’M_n.+1) :=
match s return ’M_((size_sum_rec k s).+1) with
| [::] => F k 0
| n :: s’ => block_mx (F k 0) 0 0
(diag_block_mx_rec n s’ (fun n i => F n i.+1))
end.
où size_sum_rec est défini de telle façon que le type de diag_block_mx_rec ait la
bonne forme :
Fixpoint size_sum_rec k s :=
match s with
| [::] => k
| n :: s’ => k + (size_sum_rec n s’).+1
end.
donc si s est vide alors (size_sum_rec k s).+1 = k.+1 ce qui est bien le type de
F k 0, et si s = n :: s’ alors :
(size_sum_rec k s).+1 = (k + (size_sum_rec n s’).+1).+1
et la dimension de la matrice dans la deuxième branche de la définition de
diag_block_mx_rec est k.+1 + (size_sum_rec n s’).+1, et comme l’addition est
définie récursivement par rapport à la première variable, les deux expressions sont
convertibles.
Mais pour utiliser cette définition, il faut donner en argument un entier et une
séquence d’entiers, ce qui peut souvent amener à “couper” en deux une séquence
pour donner les deux arguments. Pour éviter cela nous définissons la fonction
diag_block_mx de façon à ce qu’elle prenne en argument seulement une séquence :
Definition size_sum s :=
match s with
| [::] => 0
| n :: s’ => size_sum_rec n s’
end.2.2 Matrices semblables et équivalentes 31
Definition diag_block_mx s (F : forall n, nat -> ’M_n.+1) :=
match s return ’M_((size_sum s).+1) with
| [::] => 0 (* de type ’M_1 *)
| n :: s’ => diag_block_mx_rec n s’ F
end.
Cette définition retourne une matrice de taille un si la séquence donnée en
argument est vide. Dans la pratique cela ne devrait pas trop poser de problèmes
car lorsque l’on parle d’une matrice diagonale par blocs, c’est rarement à propos
d’une matrice vide. Ceci a pour conséquences que dans les énoncés des théorèmes,
il faut dans certains cas rajouter l’hypothèse que la séquence des tailles des blocs
soit non vide ; et dans les preuves, il faut en général faire un traitement par cas
sur cette séquence pour éliminer le cas où elle est vide. Dans le cas où la séquence
n’est pas vide, la fonction diag_block_mx a le comportement attendu.
Pour conclure cette section, cette dernière définition de matrice diagonale par
blocs a l’inconvénient mineur de ne pas avoir le bon comportement dans le cas où
la séquence des tailles des blocs est vide. Mais maintenant le type d’une matrice
retournée par la fonction diag_block_mx est de la bonne forme pour que l’on
puisse utiliser les opérations génériques d’anneaux dessus, ainsi que sur chacun
des blocs de la matrice.
2.2 Matrices semblables et équivalentes
Rappelons que nous voulons montrer que la forme normale de Jordan d’une matrice
est semblable à celle-ci. Pour cela nous utiliserons en plus de la notion de
matrices semblables, celle de matrices équivalentes. Nous présenterons donc, dans
cette section, la formalisation de ces deux notions, et nous verrons comment elles
sont liées.
2.2.1 Définitions
Deux matrices A et B sont équivalentes s’il existe deux matrices inversibles M et
N telles que MAN = B, et elles sont semblables s’il existe une matrice inversible
P telle que P AP −1 = B. Pour la définition de matrices semblables, nous préfèrerons
la version avec P A = BP, car dans la bibiliothèque SSReflect, la notation
x^-1 est définie sur la structure appelée unitRingType1
, or cette structure est audessus
de la structure d’anneaux de SSReflect, et donc comme nous l’avons vu
dans la section précédente, nous pourrons utiliser cette notation uniquement sur
les matrices dont le type est de la forme ’M_n.+1.
Une première définition formelle que l’on pourrait donner pour la similitude
est la suivante2
:
1voir section 1.2.6
2voir 1.2.8 pour les notations.32 Forme de Jordan d’une matrice
Definition similar n (A B : ’M[R]_n) :=
(exists P : ’M_m , P \in unitmx /\ P *m A = B *m P).
Mais cette définition n’est pas assez souple pour être utilisée facilement. En effet,
pour pouvoir écrire l’expression similar A B, il faut absolument que les matrices
A et B aient le même type. Or nous avons signalé plus haut que la forme normale de
Jordan sera exprimée comme une matrice diagonale par blocs. Donc si A : ’M_n
alors sa forme normale de Jordan sera de type ’M_(size_sum s).+1 pour une
certaine séquence s. En particulier, nous ne pouvons pas écrire l’énoncé qui nous
intéresse, à savoir qu’une matrice est semblable à sa forme normale de Jordan ;
sauf si nous décidons d’utiliser la fonction castmx, mais cela alourdirait les énoncés
et compliquerait les preuves.
Pour éviter ces problèmes, nous définissons le prédicat similar pour deux
matrices quelconques (pas forcément de même type). Cela implique que le prédicat
doit vérifier l’égalité des tailles des matrices :
Definition similar m n (A : ’M[R]_m) (B : ’M[R]_n) := m = n /\
(exists P : ’M_m , P \in unitmx /\ P *m A = (conform_mx P B) *m P).
Nous voyons aussi apparaître dans la définition la fonction conform_mx. Cette
apparition est due au fait que, comme les matrices P et B n’ont pas le même type,
l’expression B *m P est mal typée.
La fonction conform_mx est définie dans la bibliothèque SSReflect. Si M
et N sont deux matrices alors conform_mx M N a le même type que la matrice
M. Si l’on peut prouver que les matrices M et N ont des tailles différentes, alors
conform_mx M N = M. Si les matrices M et N ont le même type alors nous avons
conform_mx M N = N.
Nous avons donc utilisé cette fonction pour remplacer l’expression B *m P,
qui est mal typée, par l’expression (conform_mx P B) *m P qui elle est bien typée.
Ainsi si les matrices A et B ont la même dimension alors (conform_mx P B)
représentera la matrice que l’on attend, sinon les matrices A et B n’ont aucune
chance d’être semblables, et donc la matrice retournée par (conform_mx P B) importe
peu, puisque l’égalité des tailles est vérifiée par ailleurs.
Pour les mêmes raisons, nous définissons de manière analogue l’équivalence
entre deux matrices :
Variables m1 n1 m2 n2 : nat.
Definition equivalent (A : ’M[R]_(m1,n1)) (B : ’M[R]_(m2,n2)) :=
[/\ m1 = m2, n1 = n2 & exists M, exists N,
[/\ M \in unitmx , N \in unitmx & M *m A *m N = conform_mx A B]].
2.2.2 Théorème fondamental
Le lien entre ces deux notions d’équivalence et de similitude est donné par le
théorème fondamental de similitude sur un corps :2.3 Forme normale de Smith 33
Théorème. Soit K un corps, soit A et B deux matrices de Mn(K) alors :
A et B sont semblables ⇔ (XI − A) et (XI − B) sont équivalentes
Les matrices (XI − A) et (XI − B) sont les matrices caractéristiques de
A et de B. Ce sont des matrices à coefficients dans l’anneau principal K[X].
Or sur les anneaux principaux, chaque matrice a une forme normale équivalente
appelée forme normale de Smith. Le théorème fondamental permet de donner une
procédure simple pour tester si deux matrices sont semblables. Il suffit de prendre
les matrices caractéristiques de ces matrices, de calculer leur forme normale de
Smith, et de comparer les résultats.
A =⇒ (XI − A) =⇒
B =⇒ (XI − B) =⇒
Mn(K) Mn(K[X])
Smith
−→ SA =
−→ SB =
Forme normale de
Smith de (XI − A)
Forme normale de
Smith de (XI − B)
A semblable à B ⇔ SA = SB
Ce théorème sera souvent utilisé dans la suite de cette formalisation, il permet
de montrer que deux matrices sont semblables sans avoir à donner la matrice de
passage entre ces deux matrices.
L’algorithme qui donne la forme normale de Smith d’une matrice et le théorème
fondamental ont été respectivement implémenté et prouvé formellement par
Maxime Dénès [12, 9]. Ce travail sur la forme normale de Smith a permis d’avoir
une formalisation complète (sans axiomes) des formes normales de Frobenius et
de Jordan d’une matrice.
Dans les sections suivantes nous allons d’abord présenter ce qu’est la forme
normale de Smith d’une matrice et ensuite nous verrons le cheminement pour
passer de la forme normale de Smith à celle de Jordan.
2.3 Forme normale de Smith
Nous expliquons dans cette section ce qu’est la forme normale de Smith d’une matrice.
Nous voyons ensuite comment l’algorithme qui donne cette forme normale
est spécifié formellement, et montrons quelques propriétés importantes.34 Forme de Jordan d’une matrice
2.3.1 Spécification
La forme normale de Smith d’une matrice A est une matrice équivalente à A qui
se présente de la manière suivante :
d1 0 . . . . . . . . . 0
0 d2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 . . . 0 dk 0 . . . 0
avec la particularité que ∀i, 1 ≤ i < k, di
| di+1. Avoir un pgcd est suffisant
pour que la forme normale de Smith existe. Ce qui est le cas pour les polynômes
à coefficients dans un corps, qui est le contexte dans lequel nous utiliserons la
forme normale de Smith.
Pour exprimer cette matrice, nous définissons la fonction diag_mx_seq qui
prend en argument une séquence et qui retourne une matrice diagonale dont les
éléments diagonaux sont les éléments de la séquence1
:
Variable R : ringType.
Definition diag_mx_seq m n (s : seq R) : ’M[R]_(m,n) :=
\matrix_(i < m, j < n) s’_i *+ (i == j :> nat).
Les dimensions de la matrice retournée par la fonction diag_mx_seq sont ses
deux premiers arguments. Ceci permet une utilisation très souple de cette fonction.
En effet, si nous avons besoin dans une expression que la matrice retournée
par diag_mx_seq soit d’un type particulier, il suffit de donner les premiers
arguments adéquats. Mais cette souplesse implique qu’il faut ajouter certaines
contraintes dans les énoncés des propriétés de la fonction diag_mx_seq, pour établir
un lien entre les dimensions de la matrice retournée par la fonction et la
séquence donnée en argument.
Par exemple, pour la sequence s = [:: 1 ; 2 ; 3] nous avons :
diag_mx_seq 4 2 s = diag_mx_seq 5 4 s = diag_mx_seq 3 3 s =
1 0
0 2
0 0
0 0
;
1 0 0 0
0 2 0 0
0 0 3 0
0 0 0 0
0 0 0 0
;
1 0 0
0 2 0
0 0 3
Nous voyons ici que selon les valeurs de m et de n la matrice diag_mx_seq m n s
n’est pas toujours la matrice à laquelle on pense. En fait, pour que la matrice
diag_mx_seq m n s soit une matrice telle que sur sa diagonale on puisse lire toute
la séquence s, et seulement la séquence s, il faut que la taille de la séquence soit
égale au minimum de m et de n.
1voir 1.2.8 pour les notations.2.3 Forme normale de Smith 35
Une fonction Smith nous est fournie par [9] pour calculer la forme normale de
Smith d’une matrice A : ’M_(m,n). Cette fonction retourne un triplet (M,d,N),
où M et N sont des matrices et d une séquence qui vérifient les trois spécifications
suivantes :
• M *m A *m N = diag_mx_seq m n d
• sorted %| d (La séquence d est triée pour la relation de division sur l’anneau
R)
• M \in unitmx & N \in unitmx (Les matrices M et N sont inversible)
Nous pouvons fusionner le premier et le dernier point pour avoir les deux
spécifications suivantes :
• equivalent A (diag_mx_seq m n d)
• sorted %| d
Nous allons montrer dans la section suivante qu’une séquence vérifiant les
spécifications ci-dessus est unique modulo une relation que nous définirons.
2.3.2 Unicité
Le calcul de la forme normale de Smith utilise des calculs de pgcd sur les coef-
ficients de la matrice. Le pgcd de deux éléments est unique modulo la relation
d’équivalence ∼ définie de la manière suivante :
a ∼ b ⇔ a|b et b|a
La forme normale de Smith est donc unique modulo cette relation d’équivalence
sur les coefficients.
Nous allons montrer ici un résultat important sur la forme normale de Smith
d’une matrice qui permet d’en déduire l’unicité, mais qui sera aussi très utile dans
la suite de la formalisation.
Théorème 1. Soit A une matrice à coefficients dans un anneau principal. Soit
d une séquence vérifiant les spécifications suivantes :
– La séquence d est triée pour la relation de division.
– La matrice diagonale dont les éléments diagonaux sont les éléments de d est
équivalente à la matrice A.
Si l’on note ∧ le pgcd, si di désigne le ième élément de la séquence d et si
|A|
k
désigne l’ensemble des mineurs d’ordre k de la matrice A, alors nous avons
l’identité suivante :
Y
k
i=1
di ∼
^
x∈|A|k
x36 Forme de Jordan d’une matrice
Un mineur d’une matrice A est le déterminant d’une sous-matrice de A.
Avant de montrer ce résultat, nous allons voir sur un exemple comment on
utilise ce théorème pour déterminer de façon “unique” la forme normale de Smith
d’une matrice.
Exemple 1. Prenons la matrice dans M3(Z[X]) suivante :
M =
5 2X X + 3
−X + 6 X + 1 4
X + 9 4X 3X + 5
Le théorème pour k = 1 dit que d1 est égal au pgcd de tous les mineurs d’ordre
1 de la matrice M. Les mineurs d’ordre 1 de la matrice M sont les déterminants
des sous-matrices de tailles 1 de M, i.e ce sont les coefficients de la matrice M.
Ici on voit que les polynômes M11 et M23 sont premiers entre eux, donc le pgcd
des coefficients de la matrice est est 1. Nous avons donc d1 = 1.
Remarque 1. En fait nous avons plus exactement d1 ∼ 1, donc d1 peut être -1 ou
1. Si les coefficients de la matrice M avaient été dans Q[X] au lieu de Z[X] alors
d1 aurait pu être n’importe quel rationnel non nul. Quelque soit le choix de d1, la
matrice diagonale obtenue à la fin respecte les spécifications de l’algorithme de la
forme normale de Smith. Cette remarque est valable pour tous les di.
Pour k = 2, nous avons d1 ∗d2 qui est égal au pgcd de tous les mineurs d’ordre
2 de la matrice M. Dans la suite nous noterons |M|IJ le déterminant de la sous
matrice de M définie par les lignes qui sont dans I et par les colonnes qui sont
dans J. Par exemple nous avons :
|M|{1,2}{1,2} =
5 2X
−X + 6 X + 1
= 2X
2 − 7X + 5 = (X − 1)(2X − 5)
De même on a :
|M|{1,3}{1,3} =
5 3 + X
X + 9 3X + 5
= −X
2 + 3X − 2 = (X − 1)(−X + 2)
|M|{1,2}{2,3} =
2X 3 + X
X + 1 4
= −X
2 + 4X − 3 = (X − 1)(−X + 3)
.
.
.
Si on continue, on s’aperçoit que (X − 1) est le seul facteur commun à tous
les mineurs d’ordre 2 de M, donc d1 ∗ d2 = d2 = (X − 1).
Enfin pour k = 3, nous avons d1 ∗ d2 ∗ d3 qui est égal au pgcd des mineurs
d’ordre 3 de la matrice M. Or la seule sous-matrice de M d’ordre 3 est la matrice2.3 Forme normale de Smith 37
M elle même. Donc d1 ∗ d2 ∗ d3 = det M ce qui donne après calcul (X − 1) ∗ d3 =
(X − 1)2
(X − 2) soit d3 = (X − 1)(X − 2). Ainsi la forme normale de Smith de
M est la matrice :
1 0 0
0 (X − 1) 0
0 0 (X − 1)(X − 2)
Nous avons vu comment utiliser le théorème précédent pour déterminer de
manière unique (modulo la relation ∼) la forme normale de Smtih d’une matrice.
Maintenant nous allons voir comment il a été formalisé.
Le théorème peut s’exprimer formellement ainsi1
:
Lemma Smith_gcdr_spec m n (A : ’M_(m,n)) (d : seq R) k :
\prod_(i < k) d‘_i %= \big[gcdr/0]_f \big[gcdr/0]_g minor k f g A .
où le premier argument de la fonction minor est l’ordre du mineur. Les fonctions
f et g jouent le rôle des ensembles d’indices I et J dans la notation |A|IJ , plus
précisément I correspond à l’image de f et J à l’image de g.
Soit donc R un anneau principal, une matrice A : ’M[R]_(m,n), et une sé-
quence d telle que d soit triée par la relation de division et que la matrice
diag_mxseq m n d soit équivalente à A.
Le résultat se montre en deux étapes. Dans une première étape nous prouvons
le théorème pour la matrice diag_mx_seq m n d (au lieu de A). Comme c’est une
matrice diagonale, les seuls mineurs d’ordre k non nuls sont les mineurs principaux,
c’est à dire les déterminants de sous-matrices dont la diagonale principale
coïncide avec la diagonale de la matrice. Dans notre cas particulier, les mineurs
principaux sont égaux au produit de k éléments de la séquence d. Comme chaque
élément de la séquence divise le suivant, le pgcd des mineurs d’ordre k est donc
le produit des k premiers éléments de la séquence.
Nous pouvons ensuite remplacer dans l’énoncé du théorème le membre de
gauche \prod_(i < k) d‘_i par l’expression suivante :
\big[gcdr/0]_f \big[gcdr/0]_g minor k f g (diag_mx_seq m n d)
Dans la seconde étape, il nous reste donc à prouver ceci :
\big[gcdr/0]_f \big[gcdr/0]_g minor k f g (diag_mx_seq m n d)
%= \big[gcdr/0]_f \big[gcdr/0]_g minor k f g A
Cela se prouve par double divisibilité, comme les deux preuves se font de la
même manière, nous montrons ici seulement le résultat suivant :
\big[gcdr/0]_f \big[gcdr/0]_g minor k f g A
%| \big[gcdr/0]_f \big[gcdr/0]_g minor k f g (diag_mx_seq m n d)
D’après les propriétés du pgcd, il suffit de montrer que pour tout f’ et g’ nous
avons :
1voir 1.2.5, et 1.2.7 pour les notations.38 Forme de Jordan d’une matrice
\big[gcdr/0]_f \big[gcdr/0]_g minor k f g A
%| minor k f’ g’ (diag_mx_seq m n d)
Or nous savons que les matrices A et diag_mx_seq m n d sont équivalentes, il
existe donc deux matrices M et N telles que M *m A *m N = diag_mx_seq m n d.
En réécrivant cette égalité, il nous reste à prouver :
\big[gcdr/0]_f \big[gcdr/0]_g minor k f g A
%| minor k f’ g’ (M *m A *m N)
Nous avons fait apparaître ici le mineur d’un produit de matrices, nous allons
le transformer en une somme de produits de mineurs en utilisant la formule de
Binet-Cauchy. Cette formule s’énonce comme suit :
det(AB) = X
I∈P({1,...,l})
#|I|=k
det(AI ) det(BI )
où A est une matrice de taille k × l et B une matrice de taille l × k. Ici det AI =
|A|{1,...,k}I et det BI = |B|I{1,...,k}. Ce résultat a été prouvé formellement par
Vincent Siles [46]. On peut facilement ramener la formule de Binet-Cauchy à
la formule suivante :
|AB|IJ =
X
K
|A|IK|B|KJ
La formule ci-dessus s’écrirait formellement :
minor k f g (A *m B) = \sum_h (minor k f h A) * (minor k h g B)
Grâce à ce lemme nous pouvons remplacer minor k f’ g’ (M *m A *m N) par
\sum_h \sum_j (minor k f’ h M) * (minor k h j A) * (minor k j g’ N)
Or d’après les propriétés du pgcd, pour tout h et j nous avons :
\big[gcdr/0]_f \big[gcdr/0]_g minor k f g A %| minor k h j A
Donc le pgcd des mineurs d’ordre k de la matrice A divise tous les termes de
la somme ci-dessus, ce que nous voulions démontrer.
Nous avons vu que les coefficients de la forme normale de Smith peuvent être
choisis modulo la relation d’équivalence ∼. Cela implique en particulier, que, pour
les matrices carrées, nous pouvons choisir un représentant de la forme normale
de Smith d’une matrice A qui a le même déterminant. En effet, soit D la forme
normale de Smith d’une matrice A. Nous savons que D est équivalent à la matrice
A, il existe donc des matrices L et R inversibles telles que D = LAR. Le fait que
L et R soient inversibles signifie que leur déterminant est également inversible.
Donc si nous appelons D′
la matrice D dans laquelle nous avons multiplié la
première ligne par (detL ∗ det R)
−1 alors :
• Les éléments diagonaux de D′
sont triés pour la relation de division (car multiplier
certains éléments par un inversible ne change pas les classes d’équivalences).2.3
Forme normale de Smith 39
• La matrice D′
est équivalente à la matrice A (car multiplier une ligne par
un élément inversible est une opération réversible et donc conserve l’équivalence).
Formellement nous avons :
Definition Smith_seq m n (M : ’M[E]_(m,n)) :=
let: (L,d,R) := (Smith _ M) in
if d is a :: d’ then (\det L)^-1 * (\det R)^-1 * a :: d’ else nil.
Definition Smith_form m n (A : ’M[R]_(m,n)) :=
diag_mx_seq m n (Smith_seq A).
Lemma det_Smith n (A : ’M[R]_n) : \det (Smith_form A) = \det A.
Le théorème d’unicité de la forme normale de Smith d’une matrice s’énonce
formellement comme suit :
Lemma Smith_unicity m n (A : ’M[R]_(m,n)) (s : seq R) :
sorted %| s -> equivalent A (diag_mx_seq m n s) ->
forall i, i < minn m n -> s‘_i %= (Smith_seq A)‘_i.
2.3.3 Facteurs invariants
Dans la section 2.2.2, nous avons vu que nous pouvons déterminer si deux matrices
carrées A et B à coefficients dans un corps sont semblables en comparant les
formes normales de Smith de leur matrice caractéristique. Ensuite nous avons
montré dans la section précédente un théorème qui permet de montrer l’unicité
de la forme normale de Smith, mais dont nous nous servirons plus tard pour
déterminer les éléments diagonaux de la forme normale de Smith d’une matrice
par des calculs de pgcd. Nous allons présenter maintenant les facteurs invariants.
La forme normale de Smith de la matrice XI − A est une matrice diagonale
à coefficients polynômiaux. Les polynômes non-constants qui apparaissent sur la
diagonale sont les facteurs invariants de la matrice A. Le théorème fondamental
et le résultat d’unicité nous disent que les facteurs invariants sont des invariants
de similitude, c’est-à-dire que deux matrices sont semblables si et seulement si
elles ont les mêmes facteurs invariants.
Nous allons voir ici comment les facteurs invariants d’une matrice ont été
définis formellement.
Rappelons que la forme normale de Smith d’une matrice à coefficients dans
un anneau principal est unique modulo la relation d’équivalence ∼. Or dans notre
contexte, l’anneau principal sur lequel nous travaillons est l’anneau des polynômes
à coefficients dans un corps. Dans ce cas-ci, si p est un polynôme non nul alors
il existe un unique représentant unitaire de la classe d’équivalence de p qui est p
divisé par son coefficient dominant.40 Forme de Jordan d’une matrice
Nous pouvons donc définir une nouvelle séquence qui vérifie les mêmes spé-
cifications que la séquence Smith_seq mais qui ne contient que des polynômes
unitaires1
:
Definition Frobenius_seq n (A : ’M_n) :=
[seq (lead_coef p)^-1 *: p | p <- (Smith_seq (char_poly_mx A))].
Les facteurs invariants sont les polynômes non constants de cette séquence :
Definition invariant_factors n (A : ’M_n) :=
[seq p : {poly R} <- (Frobenius_seq A) | 1 < size p].
2.4 Forme normale de Frobenius
La forme normale de Frobenius d’une matrice M est la matrice diagonale par blocs
dont les blocs diagonaux sont les matrices compagnes des facteurs invariants de
M.
Nous avons déjà vu comment sont définies formellement les matrices diagonales
par blocs. Nous avons vu ensuite ce qu’était la forme normale de Smith, ce
qui nous a permis de définir les facteurs invariants d’une matrice. Il nous reste
donc à donner une définition formelle des matrices compagnes pour pouvoir dé-
finir la forme normale de Frobenius. Nous prouverons ensuite que toute matrice
carrée à coefficients dans un corps est semblable à sa forme normale de Frobenius.
2.4.1 Matrices compagnes
La matrice compagne d’un polynôme unitaire p = Xn+an−1Xn−1+. . .+a1X +a0
est la matrice suivante :
Cp =
0 . . . . . . 0 −a0
1
.
.
.
.
.
. −a1
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 0
.
.
.
0 . . . 0 1 −an−1
Cette matrice est intéressante car p est à la fois son polynôme caractéristique et
son polynôme minimal.
Formellement, si p est un polynôme, la taille de la matrice compagne de p est
(size p).-1. Mais ici encore, si nous voulons utiliser des opérations génériques
d’anneaux sur des matrices compagnes, il faut que leur taille soit de la forme
n.+1. Pour cela nous définissons les matrices compagnes de sorte que leur type
soit (size p).-2.+1 :
1voir 1.1.5, 1.2.6 et 1.2.9 pour les notations.2.4 Forme normale de Frobenius 41
Definition companion_mx (p : {poly R}) :=
\matrix_(i,j < (size p).-2.+1)
((i == j.+1 :> nat)%:R + p‘_i *+ ((size p).-2 == j)).
Nous avons (size p).-2.+1 = (size p).-1 si et seulement si 1 < (size p),
c’est-à-dire si p est un polynôme non constant. La définition de matrice compagne
n’est donc valide que pour les polynômes non constants. En pratique ceci
ne devrait pas être trop contraignant car les matrices compagnes de polynômes
constants sont des matrices vides et sont donc inintéressantes dans un certain
sens.
Malheureusement, avec cette définition de matrices compagnes, nous ne pouvons
pas définir de matrice diagonale par blocs dont les blocs sont des matrices
compagnes. En effet, le type de la fonction qui retourne les blocs diagonaux de
la matrice est forall n, nat -> ’M_n.+1 ; c’est donc une fonction qui prend un
entier n, un entier et qui retourne une matrice de type ’M_n.+1, mais si la matrice
retournée est une matrice compagne d’un polynôme p, alors son type sera
’M_(size p).-2.+1 et non ’M_n.+1.
Pour résoudre ce problème, nous définissons les matrices compagnes en deux
étapes. Nous définissons d’abord une fonction companion_mxn qui prend en argument
un entier n et un polynôme p, et qui retourne une matrice de type ’M_n
telle que si n = (size p).-2.+1 alors la matrice retournée correspond à la matrice
compagne du polynôme p. Nous pouvons donc ensuite définir la matrice
compagne d’un polynôme p comme étant la matrice retournée par la fonction
companion_mxn appliquée aux arguments (size p).-2.+1 et p :
Definition companion_mxn n (p : {poly R}) :=
\matrix_(i,j < n) ((i == j.+1 :>nat)%:R + p‘_i *+ ((size p).-2 == j)).
Definition companion_mx (p : {poly R}) :=
companion_mxn (size p).-2.+1 p.
Ainsi pour faire une matrice diagonale par blocs, nous pouvons utiliser la
fonction companion_mxn, car companion_mxn n.+1 a le type ’M_n.+1 qui est bien
de la bonne forme. Les lemmes sur les matrices compagnes seront exprimés, eux,
sur companion_mx.
Nous pouvons maintenant donner une définition formelle de la forme normale
de Frobenius d’une matrice. Elle se présente de la manière suivante :
Cp1
Cp2
0
0
.
.
.
Cpk
où les polynômes pi sont les facteurs invariants de la matrice. Formellement, nous
la définissons comme suit :42 Forme de Jordan d’une matrice
Definition Frobenius_form n (A : ’M_n) :=
let sizes := [seq (size p).-2 | p <- (invariant_factors A)] in
let blocks n i := companion_mxn n.+1 (invariant_factors A)‘_i in
diag_block_mx sizes blocks.
2.4.2 De Smith à Frobenius
Maintenant que nous avons défini la forme normale de Frobenius d’une matrice,
nous allons montrer ici que toute matrice sur un corps F est semblable à sa forme
normale de Frobenius :
Lemma Frobenius n (A : ’M[F]_n.+1) : similar A (Frobenius_form A).
Comme nous l’avons annoncé, pour prouver ce résultat nous utilisons le théorème
fondamental. Il nous faut donc montrer que pour toute matrice A, les matrices
caractéristiques de A et Frobenius_form A sont équivalentes.
Soit une matrice A, nous allons partir de la matrice XI − A et arriver à la
matrice caractéristique de Frobenius_form A par transitivité de l’équivalence.
Nous avons vu que la séquence Frobenius_seq A respecte les spécifications
de l’algorithme de Smith. Donc la matrice XI − A est équivalente à la matrice
diag_mx_seq n.+1 n.+1 (Frobenius_seq A), qui se présente de la façon suivante :
1
.
.
. 0
1
p1
0
.
.
.
pn
où les pi sont les facteurs invariants de la matrice A.
Ici nous allons utiliser le résultat suivant pour justifier le fait que nous pouvons
permuter les éléments diagonaux :
Lemma similar_diag_mx_seq m n s1 s2 :
m = n -> size s1 = m -> perm_eq s1 s2 ->
similar (diag_mx_seq m m s1) (diag_mx_seq n n s2).
où perm_eq s1 s2 exprime le fait que les séquence s1 et s2 ont les mêmes éléments
mais permutés.
En effet, si deux matrices diagonales ont leurs éléments diagonaux permutés,
alors la matrice de passage de l’une à l’autre est une matrice de permutation
qui est inversible ; donc les deux matrices sont semblables, et donc à fortiori
équivalentes. Nous pouvons ainsi permuter les éléments diagonaux de la matrice2.4 Forme normale de Frobenius 43
précédente :
1
.
.
.
1
p1
0
.
.
.
0
1
.
.
.
1
pn
Si pi représente le polynôme pi
, alors (size pi).-2 représente le nombre de 1
avant chaque pi
. Cette matrice peut être vue comme la matrice diagonale par
blocs suivante :
1
.
.
.
1
p1
0
0
.
.
.
1
.
.
.
1
pn
Nous voulons maintenant montrer que cette matrice est équivalente à la
matrice caractéristique de la forme normale de Frobenius de A. Nous utilisons
d’abord le fait que la matrice caractéristique d’une matrice diagonale par blocs
est la matrice diagonale par blocs des blocs caractéristiques :
Lemma char_diag_block_mx s (F : forall n, nat -> ’M[R]_n.+1) :
s != [::] ->
char_poly_mx (diag_block_mx s F) =
diag_block_mx s (fun n i => char_poly_mx (F n i)).
Il ne nous reste donc plus qu’à montrer que la matrice précédente est équivalente
à :
XI − Cp1
.
.
.
0
0
.
.
.
XI − Cpn
Nous voulons donc montrer que deux matrices diagonales par blocs sont équivalentes.
Pour cela, il nous suffit de prouver que les matrices sont équivalentes bloc44 Forme de Jordan d’une matrice
à bloc. C’est-à-dire que pour chaque indice i, la matrice XI − Cpi
est équivalente
à :
1
.
.
.
1
pi
Pour montrer ce dernier résultat, nous utilisons le lemme Smith_gcdr_spec
vu plus haut. En effet, pour tout k tel que k < (size pi).-2, on peut trouver
une sous-matrice de la matrice XI − Cpi
ci-dessous n’ayant que des −1 sur la
diagonale :
XI − Cpi =
X . . . 0 0 a0
−1
.
.
.
.
.
.
.
.
. a1
0
.
.
. X
.
.
.
.
.
.
.
.
.
.
.
. −1 X
.
.
.
0 . . . 0 −1 X + an−1
Donc si nous calculons la forme normale de Smith de la matrice ci-dessus
comme nous l’avons fait dans l’exemple 1, nous remarquons que pour tout k
strictement plus petit que (size pi).-2, il existe un mineur d’ordre k associé
à 1 (car (−1)k ∼ 1), et donc le pgcd de ces mineurs est lui-même associé à 1.
Ainsi tous les éléments diagonaux de la forme normale de Smith de la matrice
XI − Cpi
sont égaux à 1, sauf le dernier qui lui est égal au déterminant de la
matrice XI − Cpi
, c’est-à-dire à pi
. Le fait qu’une matrice est équivalente à sa
forme normale de Smith termine la démonstration.
2.5 Forme normale de Jordan
La forme normale de Jordan d’une matrice A est une matrice triangulaire supé-
rieure dont les éléments diagonaux sont les racines du polynôme caractéristique de
la matrice A (c’est-à-dire les valeurs propres de A). Pour que cette forme existe, il
suffit que le polynôme caractéristique soit scindé à racines simples. Afin d’assurer
cette condition, nous choisissons de travailler sur un corps algébriquement clos F.
Nous avons montré dans la section précédente qu’une matrice était semblable
à sa forme normale de Frobenius. Nous allons ici dans un premier temps donner
une définition formelle de la forme normale de Jordan. Nous montrerons ensuite
que la forme normale de Frobenius d’une matrice est semblable à la forme normale
de Jordan de celle-ci. Par transitivité de la similitude nous aurons donc qu’une
matrice est semblable à sa forme normale de Jordan.2.5 Forme normale de Jordan 45
2.5.1 Définitions
On appelle bloc de Jordan la matrice de dimension n suivante :
J(λ, n) =
λ 1 0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 0
.
.
.
.
.
.
.
.
. 1
0 . . . . . . 0 λ
Formellement, cela se définit simplement de la manière suivante :
Definition Jordan_block lam n : ’M[F]_n :=
\matrix_(i,j) (lam *+ (i == j) + (i.+1 == j)%:R).
La forme normale de Jordan est une matrice diagonale par blocs composée de
blocs de Jordan1
:
Definition Jordan_form n (A : ’M[R]_n.+1) :=
let sp := root_seq_poly (invariant_factors A) in
let sizes := [seq x.1 | x <- sp] in
let blocks n i := Jordan_block (nth (0,0) sp i).2 n.+1 in
diag_block_mx sizes blocks.
où la fonction root_seq_poly prend en argument une séquence de polynômes et
retourne la concaténation des séquences des paires multiplicité/racine de chaque
polynôme de la séquence. Par exemple si on a la séquence de polynômes suivante :
[:: (’X - (sqrt 2))^+ 4, (’X - (sqrt 2))^+ 4, (’X - 1)^+3 *(’X - 2)]
alors la séquence retournée par root_seq_poly sera :
[:: (4,(sqrt 2))] ++ [:: (4,(sqrt 2))] ++ [:: (3,1), (1,2)] =
[:: (4,sqrt2), (4,sqrt2), (3,1), (1,2)]
Dans la suite nous expliquons le passage de la forme normale de Frobenius
à celle de Jordan. Cela permettra de mieux comprendre la définition donnée cidessus.
2.5.2 De Frobenius à Jordan
Soit A une matrice à coefficients dans un corps clos F. Nous avons déjà prouvé
que la matrice A est semblable à sa forme normale de Frobenius. Nous allons
maintenant montrer que la forme normale de Frobenius de A est semblable à sa
forme normale de Jordan. Ce qui nous permettra de montrer le lemme suivant :
Lemma Jordan n (A : ’M[F]_n.+1) : similar A (Jordan_form A).
La preuve de ce lemme utilise deux résultats intermédiaires. Le premier résultat
intermédiaire est le lemme suivant :
1voir 1.1.1 et 1.1.5 pour les notations.46 Forme de Jordan d’une matrice
Lemme 2. Soit q un polynôme, soit (qi)1≤i≤m une famille de polynômes unitaires
premiers entre eux deux à deux telle que q = q1 . . . qm, alors la matrice Cq est
semblable à la matrice :
Cq1
.
.
.
0
0
.
.
.
Cqm
Montrons d’abord ce lemme pour m = 2. Soit donc deux polynômes unitaires
q1 et q2 premiers entre eux, et soit q = q1q2. Nous voulons montrer que la matrice
Cq est semblable à la matrice :
Cq1 0
0 Cq2
!
Là encore nous utilisons le théorème fondamental, pour se ramener à montrer
l’équivalence entre XI − Cq et la matrice :
XI − Cq1 0
0 XI − Cq2
!
D’après ce que nous avons déjà vu cela revient à montrer que la matrice
1
.
.
.
1
q
est équivalente à la matrice
1
.
.
.
1
q1
0
0
1
.
.
.
1
q2
Autrement dit, il faut montrer que le seul facteur invariant de la matrice cidessus
est le polynôme q. Pour cela nous allons utiliser une fois de plus le lemme
Smith_gcdr_spec. En effet, pour tous les ordres k strictement plus petit que la
taille de la matrice ci-dessus, on peut trouver un mineur principal égal à q1, et un
autre égal à q2, et comme q1 et q2 sont premiers entre eux, le pgcd des mineurs
d’ordre k est égal à 1. Donc les éléments diagonaux de la forme normale de Smith2.5 Forme normale de Jordan 47
de la matrice ci-dessus sont donc tous égaux à 1, sauf le dernier qui correspond
au déterminant de la matrice ci-dessus qui est q1q2 = q. Le lemme général en
découle directement par récurrence.
Le deuxième résultat intermédiaire est celui-ci :
Lemme 3. Soit K un corps. Soit λ ∈ K et n ∈ N. alors la matrice C(X−λ)n est
semblable à la matrice J(λ, n).
Ici nous pouvons directement donner la matrice de passage P définie comme
suit :
Pij =
j − 1
n − i
!
λ
(i+j)−(n+1)
Mais la vérification formelle est assez longue. Sinon nous pouvons utiliser une
nouvelle fois le théorème fondamental, et montrer que XI−C(X−λ)n est équivalente
à la matrice XI − J(λ, n). D’après ce que nous savons déjà sur les matrices
compagnes, nous voulons montrer que la matrice :
1
.
.
.
1
(X − λ)
n
est équivalente à la matrice :
X − λ −1 0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 0
.
.
.
.
.
.
.
.
. −1
0 . . . . . . 0 X − λ
Ici encore, nous allons utiliser le lemme Smith_gcdr_spec. En effet, pour tout
k < n, nous pouvons trouver dans la matrice ci-dessus un mineur d’ordre k égal à
(−1)k
, et donc associé à 1. Donc par les mêmes raisonnement que précédemment,
le seul facteur invariant de la matrice ci-dessus est (X − λ)
n
.
Maintenant nous pouvons passer à la preuve de la similitude entre les formes
normales de Frobenius et de Jordan d’une matrice.
Comme nous sommes sur un corps clos, alors chaque facteur invariant pi de
la matrice A peut se décomposer comme suit :
pi =
Ymi
j=1
(X − λij )
µij
où les λij sont les racines de pi et les µij leur multiplicité.48 Forme de Jordan d’une matrice
Donc d’après le lemme 2 montré ci-dessus, chaque bloc Cpi de la forme normale
de Frobenius est semblable à la matrice :
C(X−λi1)
µi1
.
.
.
0
0
.
.
.
C(X−λimi
)
µimi
et d’après le lemme 3, chacun des blocs C(X−λij )
µij de la matrice ci-dessus est
semblable au bloc de Jordan J(λij , µij ).
Les paires (λij , µij ) sont les paires qui se trouvent dans la séquence retournée
par la fonction root_seq_poly appliquée à la séquence des facteurs invariants.
Cela explique la définition de la forme normale de Jordan donnée plus haut, et
démontre aussi que la forme normale de Frobenius de A est semblable à la forme
normale de Jordan de A.
2.5.3 Diagonalisation
En plus de la forme normale de Jordan, la théorie des facteurs invariants permet de
donner également un théorème de diagonalisation. Une matrice est diagonalisable,
c’est-à-dire semblable à une matrice diagonale, si son polynôme minimal est scindé
et à racines simples. Nous allons voir ici comment nous prouvons ce résultat.
Commençons par montrer le théorème suivant :
Théorème 4. Soit A une matrice à coefficients dans un corps. Si les polynômes
p1 . . . pk sont les facteurs invariants de la matrice A tels que p1 | p2 | . . . | pk,
alors le polynôme pk est le polynôme minimal de la matrice A.
Soit donc A une matrice à coefficients dans un corps. Comme la matrice A
et la forme normale de Frobenius de A sont semblables, ces deux matrices ont
le même polynôme minimal. Donc montrer que pk est le polynôme minimal de
A revient à montrer que pk est le polynôme minimal de la forme normale de
Frobenius de A.
Pour cela, nous allons montrer d’une part que pk est un polynôme annulateur
de la forme normale de Frobenius de A, et d’autre part que pk divise n’importe
quel polynôme annulateur de la forme normale de Frobenius de A.
Un polynôme p est annulateur de la matrice A si p(A) = 0. Cela peut s’exprimer
formellement grâce à la fonction horner_mx de la bibliothèque SSReflect
comme suit :
horner_mx A p = 0
Dans cette preuve, nous utiliserons le fait qu’appliquer un polynôme à une matrice
diagonale par blocs revient à appliquer le polynôme à chacun des blocs. Ce qui
s’exprime formellement de la façon suivante.2.6 Conclusion 49
Lemma horner_mx_diag_block (p : {poly R}) s F :
s != [::] ->
horner_mx (diag_block_mx s F) p =
diag_block_mx s (fun n i => horner_mx (F n i) p).
Donc pour montrer que le polynôme pk annule la forme normale de Frobenius
de A, il faut et il suffit que pk annule chaque matrice compagne des facteurs
invariants.
Soit donc pi un facteur invarant de la matrice A. D’après les propriétés des
matrices compagnes, nous savons que pi est le polynôme minimal de la matrice
Cpi
. De plus comme les facteurs invariants se divisent successivement, nous savons
également que pi
| pk. Donc pk est un polynôme annulateur de Cpi
.
Maintenant il reste à montrer que pk divise tous les polynômes annulateurs
de la forme normale de Frobenius de A.
Soit donc Q un polynôme annulateur de la forme normale de Frobenius de A.
Alors nous savons que Q est un polynôme annulateur de chacun des blocs de la
forme normale de Frobenius de A. En particulier Q annule Cpk
, or nous savons
également que pk est le polynôme minimal de la matrice Cpk
. Donc pk | Q.
Le polynôme pk étant un polynôme annulateur de la forme normale de Frobenius
de A qui divise tous les autres polynômes annulateurs est donc le polynôme
minimal de la forme de Frobenius de A et donc de A.
Ainsi nous avons d’une part que le polynôme pk est le polynôme minimal de la
matrice A, et d’autre part que tous les facteurs invariants divisent pk. Autrement
dit tous les facteurs invariants de la matrice A divisent son polynôme minimal.
Donc si le polynôme minimal de A est scindé à racines simples, alors c’est aussi le
cas des facteurs invariants. Or la taille des blocs de la forme normale de Jordan
de A sont les multiplicités des racines des facteurs invariants. Donc dans le cas
où le polynôme minimal de A est scindé à racines simples, tous les blocs de la
forme normale de Jordan de la matrice A sont de taille 1, c’est donc une matrice
diagonale. Ce qui nous donne le théorème suivant :
Lemma ex_diagonalization n (A : ’M[R]_n.+1) :
uniq (root_seq (mxminpoly A)) ->
{s | similar A (diag_mx_seq n.+1 n.+1 s)}.
où root_seq est la fonction qui retourne la séquence des racines d’un polynôme
et uniq est un prédicat booléen qui prend la valeur true si la séquence passée en
argument n’a pas de doublons.
2.6 Conclusion
Nous avons utilisé ici les matrices de la bibliothèque SSReflect. Le type de ces
matrices dépend de leurs dimensions, et cela a posé quelques problèmes. Cependant
nous avons vu qu’il y avait des outils (comme conform_mx) qui ont permis
de résoudre certains de ces problèmes.50 Forme de Jordan d’une matrice
Au départ, pour prouver certains lemmes de similitude, nous donnions directement
les matrices de passages, et nous avions de longues preuves faites de
traitements par cas exhaustifs. L’idée d’utiliser de manière assez systématique le
théorème fondamental et le lemme Smith_gcdr_spec à grandement simplifié les
preuves.
Ce travail, en plus de la formalisation de la forme normale de Jordan d’une
matrice, a apporté une bibliothèque sur les matrices diagonales par blocs, sur les
matrices compagnes, et sur les propriétés de similitude et d’équivalence de matrices.
Ce sont des concepts importants de l’algèbre linéaire utilisés dans d’autres
contextes mathématiques que celui de ce chapitre.
Nous avons aussi montré la formalisation de la forme normale de Frobenius
d’une matrice. L’avantage de cette forme normale est que ses coefficients sont
dans le même corps que les coefficients de la matrice de départ. Contrairement à
la forme de Jordan, où l’on peut avoir des coefficients dans la clôture algébrique.
2.7 Travaux reliés
Le développement de la forme normale de Smith que nous avons utilisé dans
ce chapitre fait parti d’un projet qui s’appelle CoqEAL(Coq Efficient Algebra
Library)1
. Le but de ce projet est de faire des algorithmes effectifs d’algèbre
linéaire en utilisant l’extension SSReflect de Coq.
Dans les autres assistants de preuve, il existe d’autres travaux qui ont été
faits sur les matrices. En HOL, les matrices sont vues comme des vecteurs de
vecteurs [23]. En ACL2 elles sont représentées soit par des listes de vecteurs de
même dimensions [49] soit par des tableaux [17]. En Isabelle, ce sont des fonctions
telles que l’ensemble des images non nulles de ces fonctions soit fini [36].
À ma connaissance, seul l’assistant de preuve Mizar possède des travaux sur
les matrices diagonales par blocs et sur la forme de Jordan d’une matrice [41].
Mizar est un assistant de preuve basé sur la théorie des ensembles contrairement
à Coq qui est basé sur la théorie des types.
En Mizar, une séquence finie est une fonction dont le domaine de définition
est l’ensemble des entiers de 1 à n pour un certain n ∈ N. Une matrice M à m
lignes et n colonnes est une séquence finie de séquences finies de longueur m tel
que toute séquence finie de l’image de M soit de longueur n [27].
Une matrice diagonale par blocs est construite à partir d’une séquence finie
de matrices carrées. Elle est définie comme étant la matrice dont l’élément (i, j)
est 02
si l’on se trouve en dehors des blocs et l’éléments f(i), g(j) d’une matrice
de la séquence sinon (pour certaines fonctions f et g) [39].
1http://www.maximedenes.fr/content/coqeal-coq-effective-algebra-library
2En fait, la définition de Mizar de matrice diagonale par block permet de remplir la matrice
hors des blocs diagonaux par un élément d que l’on peut passer en paramètre.Chapitre 3
Topologie
Dans ce chapitre, nous allons présenter un résultat important de topologie géné-
rale qui est le théorème de Bolzano-Weierstraß. Ce théorème porte sur les valeurs
d’adhérence des suites dont les valeurs sont dans un ensemble compact.
Tous le travail sur la topologie et sur la théorie des ensembles est formalisé
dans un cadre fortement classique, c’est-à-dire avec l’axiome du tiers exclu et
l’axiome du choix. Nous avons besoin de ces axiomes pour prouver le théorème
de Bolzano-Weierstraß.
Il existe dans la bibliothèque standard de Coq un fichier Rtopology.v1 qui
contient déjà certaines notions que nous allons présenter dans ce chapitre. Mais
ces notions ne sont définies que pour les réels de Coq. Nous présentons ici un
travail plus général.
Nous commencerons par voir quelques points de la théorie des ensembles dont
nous aurons besoin pour la formalisation de la topologie générale. Nous verrons
ensuite comment sont définies les structures d’espaces métriques et topologiques,
et nous terminerons par une présentation du théorème.
3.1 Théorie des ensembles
Pour parler d’ensembles ouverts, fermés ou compacts, il faut d’abord définir ce
qu’est un ensemble. La notion d’ensemble utilisée dans cette formalisation est
celle que l’on peut trouver dans la bibliothèque Sets de la bibliothèque standard
de Coq2
, à savoir qu’un ensemble d’éléments de type T est identifié à un prédicat
de type T -> Prop. Cependant nous n’utiliserons pas la théorie des ensembles
ainsi développée dans Coq, car par exemple les définitions d’union, d’intersection,
ou de complémentaire sur les ensembles sont intoduites explicitement à
l’aide de types inductifs, alors que ces notions peuvent être définies comme une
réinterprétation des opérateurs ”et”, ”ou”, ”non” de la logique propositionnelle.
L’égalité utilisée entre les ensembles est l’égalité par inclusion mutuelle, mais
1http://coq.inria.fr/distrib/current/stdlib/Coq.Reals.Rtopology.html
2http://coq.inria.fr/distrib/current/stdlib/52 Topologie
nous avons tout de même besoin de la propriété d’extensionnalité. Plutôt que
d’ajouter cette propriété comme axiome, nous allons voir comment faire en sorte
d’utiliser l’égalité ensembliste comme l’égalité de Leibniz. Nous nous attarderons
ensuite sur la définition de famille d’ensembles car nous en aurons besoin pour
définir ce qu’est un ensemble compact.
3.1.1 Réécriture
La tactique rewrite en Coq permet à partir d’une hypothèse de type x = y
(où = représente l’égalité de Leibniz) de changer des occurences de x par des
occurences de y et vice versa.
Si on remplace l’égalité de Leibniz par une relation d’équivalence, on peut
aussi utiliser la tactique rewrite si x et y apparaissent dans une fonction dont
on a montré qu’elle était compatible avec la relation d’équivalence, c’est-à-dire
que sa valeur ne dépend pas du représentant choisi dans la classe d’équivalence.
C’est ce que nous allons voir ici avec comme relation d’équivalence l’égalité entre
ensembles.
L’égalité entre ensembles est définie comme suit :
Variable T : Type.
Definition eqset (A B : T -> Prop) :=
forall x, x ’in A <-> x ’in B.
Notation "A =s B" := (eqset A B).
où x ’in A est une notation pour A x.
C’est une relation d’équivalence. Pour que le système Coq puisse la reconnaître
comme telle, il faut la déclarer de la manière suivante :
Add Relation _ eqset
reflexivity proved by eqset_refl
symmetry proved by eqset_sym
transitivity proved by eqset_trans
as eqset_rel.
où eqset_refl,eqset_sym, et eqset_trans sont respectivement les lemmes de re-
flexivité, symétrie et de transitivité de la relation eqset.
Puis il faut indiquer à Coq quelles sont les fonctions sous lesquelles on peut
réécrire avec la relation eqset, c’est-à-dire les fonctions qui sont compatibles avec
la relation eqset. Pour cela on utilise les mots clefs Add Morphism. Prenons comme
exemple l’inclusion. L’inclusion est définie comme suit :
Definition include (A B : T -> Prop) :=
forall x, x ’in A -> x ’in B.
Notation "A eqset ==> iff
as include_mor.
Proof.
...
Qed.
Une manière de lire la signature est que si deux ensembles vérifient la relation
eqset, et que deux autres ensembles vérifient également la relation eqset, alors
nous avons deux propositions d’inclusions qui vérifient la relation iff, autrement
dit qui sont équivalentes. Le système nous demande donc de prouver l’énoncé
suivant :
forall x y : T -> Prop,
x =s y -> forall x0 y0 : T -> Prop, x0 =s y0 -> (x y Prop;
F :> Ti -> T -> Prop
}.
Dans cette définition, il n’y a pas de dépendance entre la fonction F et l’ensemble
d’indices ind. Donc dans certaines définitions et certains lemmes, il faudra
préciser que l’on ne s’intéresse qu’aux indices appartenant à l’ensemble d’indices54 Topologie
de la famille. En effet, si nous avons un indice i : Ti qui n’appartient pas à l’ensemble
ind, alors F i est un ensemble qui n’appartient pas à la famille, et donc
on ne voudrait pas que cet ensemble soit pris en compte dans certaines preuves
ou définitions.
Les autres définitions dont nous aurons besoin pour la définition d’ensemble
compact sont celles de sous-famille, de famille finie et de recouvrement d’un ensemble
par une famille.
Une sous-famille est définie comme un prédicat qui prend deux familles, et qui
vérifie que l’ensemble d’indices de l’une est bien un sous-ensemble de l’ensemble
d’indices de l’autre, et que sur ce sous-ensemble d’indices commun, les ensembles
des deux familles sont les mêmes :
Definition sub_family f g :=
ind g f i =s g i.
Pour les familles finies, nous avons le choix entre définir un prédicat comme
pour les sous-familles, ou définir un type “famille finie”. Dans le premier cas, à
chaque usage d’une définition sur les familles finies, nous devrons fournir une
preuve que la famille passée en argument est finie. Alors que dans le second cas,
l’information qu’une famille est finie est donnée par le typage. Cette dernière
option permet d’avoir des définitions qui ne dépendent pas d’un terme de preuve.
Une famille est finie si son ensemble d’indices est un ensemble fini :
Definition finite_set (T1 : eqType) (A : T1 -> Prop) :=
exists s : seq T1, A =s (fun x => x \in s).
Structure finite_family := Ff {
fam :> family;
_ : finite_set (ind fam)
}.
Une fois que nous avons défini les familles, nous pouvons appliquer des opé-
rations dessus, comme l’union ou l’intersection des éléments d’une famille. Nous
donnons ici uniquement l’opération qui nous intéresse pour la définition de recouvrement
:
Definition union_fam (f : family) (x : T) :=
exists i, i ’in (ind f) /\ x ’in (f i).
Definition cover (A : T -> Prop) (f : family) := A Prop) -> Prop. L’union de tous les ensembles d’un
ensemble d’ensembles est définie comme suit :
Definition union_s (E : (T -> Prop) -> Prop)
(f : (T-> Prop) -> (T -> Prop)) (x : T) :=
exists A, A ’in E /\ x ’in (f A).
Par exemple, si E est un ensemble d’ensembles et f une fonction sur les
ensembles, alors union_s E f représente l’ensemble suivant :
[
A∈E
f(A)
Donc pour faire l’union des ensembles de E nous utiliserons la fonction identité
pour f.
On peut maintenant définir la structure d’espace topologique simplement
comme suit :56 Topologie
Structure Topologicalspace : Type := mkTS {
T_Space : Type;
open : (T_Space -> Prop) -> Prop;
_ : open {ø : T_Space};
_ : open {full : T_Space};
_ : forall (E : (T_Space -> Prop) -> Prop), E
open (union_s E id);
_ : forall A B, open A -> open B -> open (inter A B);
_ : forall A B, A =s B -> (open A <-> open B)
}.
Le dernier champ de la structure est la propriété d’extensionnalité pour les
ouverts. Les ouverts étant définis axiomatiquement, cette propriété utile ne peut
être démontrée, et a donc dû être ajoutée à la définition d’espace topologique.
Espace Métrique
Un espace métrique est un ensemble de points muni d’une distance. Il existe
déjà une définition de cette structure dans le fichier Rlimit.v de la bibliothèque
standard de Coq1
. Dans cette définition le type de retour de la fonction distance
est le type des réels de Coq. Ici on s’autorise à ce que ce soit une structure
ordonnée plus générale :
Structure Metricspace (Rn : numDomainType) := mkMS {
T_metric : Type.
dist : T_metric -> T_metric -> Rn;
_ : forall x y, 0 <= dist x y ;
_ : forall x y, dist x y = dist y x;
_ : forall x y, reflect (x = y) (dist x y == 0);
_ : forall x y z, dist x y <= dist x z + dist z y
}.
L’espace métrique prend en paramètre le type de retour de la distance dist.
Ce type de retour doit être une structure ordonnée. Au début ce paramètre n’existait
pas. Le type de retour de la fonction distance était directement le type des
réels de Coq. Le problème était que l’on ne pouvait pas déclarer la structure
numDomainType par exemple comme une instance de la structure d’espace mé-
trique. Car la fontion de distance que l’on définit pour cela utilise la fonction ‘|.|
dont le type de retour est une instance abstraite de la structure numDomainType
et non le type concret des réels de Coq. Mettre le type de retour de la fonction
distance en paramètre de la structure d’espace métrique permet d’implémenter la
structure d’espace métrique sur des types plus abstraits comme le type des corps
réels clos, des corps archimédiens, ou des complexes.
Pour un ensemble E de type Metricspace, on utilisera la notation suivante :
Notation d := (dist E).
1http://coq.inria.fr/distrib/current/stdlib/Coq.Reals.Rlimit.html3.2 Structures Topologiques 57
La principale notion utilisée pour étudier les propriétés métriques et topologiques
d’un espace métrique est la notion de boule. Une boule est un ensemble
défini à partir d’un élément de l’espace métrique qui sera appelé centre, et d’un
rayon représenté par un nombre strictement positif. Pour éviter d’avoir dans la
définition de boule une preuve que le rayon est strictement positif, on peut définir
un type des nombres strictement positifs comme suit :
Structure posDomain (T: numDomainType) :=
PosD { sort :> T ; _ : 0 < sort }.
Notation "{ ’posD’ T }" := (posDomain T).
Ceci permet de définir les boules comme suit :
Variable Rn : numDomainType.
Variable E : (MetricSpace Rn).
Definition open_ball (x: E) (r : {posD Rn}) (y : E) := d x y < r.
Notation "’’B’ ( x , r )" := (open_ball x r).
Nous allons voir maintenant comment inférer les instances de structures canoniques
avec les définitions ci-dessus. Les structures que nous définirons ensuite
contiendrons les mêmes axiomes. Ce qui changera sera seulement la façon d’implémenter
les structures.
3.2.2 Approche naïve
Pour déclarer dans le système Coq qu’un espace métrique possède canoniquement
une structure d’espace topologique il faut d’abord définir ce qu’est un ensemble
ouvert dans un espace métrique :
Variable Rn : numDomainType.
Variable E : (Metricspace Rn).
Definition open_met (A : E -> Prop) :=
forall x, x ’in A -> exists r, ’B(x,r) Prop) -> Prop;
_ : open . . .
_ : . . .
...
}.
Cette structure ne suffit pas, car comme le type de base n’est plus un champ
de la structure, lors de la déclaration de structure canonique, la projection vers
le type de base n’existera pas. Les projections enregistrées correspondent seulement
aux champs de la structure qui sont nommés. Nous allons donc définir une
deuxième structure qui va correspondre à notre type final d’espace topologique
(ou métrique) :
Notation class_of := mixin_of
Structure type := Pack {sort : Type; _ : class_of sort}.
Coercion sort : type >-> Sortclass.
La structure class_of est habituellement utilisée pour assurer l’héridité dans
les structures héréditaires. Comme ici nous n’avons pas d’hérédité, class_of est
seulement une notation utilisée pour des raisons d’uniformité des définitions.
Ces structures sont définies dans un module, par exemple ici dans le module
Topology. Ce qui fait qu’en dehors du module les noms des structures seront de
la forme Topology.type ce qui permet d’avoir des noms uniformes. Chacune de
ces nouvelles définitions sera utilisée avec les notations suivantes :
Notation topologyType := type.
Notation TopologyMixin := Mixin.
Notation TopologyType T m := (@Pack T m).
Nous avons donc séparé le type de base et les axiomes de la structure que nous
avons mis dans une boîte que nous avons appelée mixin_of. Cette boîte a été mise
dans une deuxième structure appelée type qui contient comme premier champ le
type sur lequel nous voulons déclarer l’instance, et comme deuxième champ la
boîte qui contient toutes les propriétés que doit vérifier le type en question.
Pour revenir au problème qui nous intéresse, avec ces nouvelles structures nous
allons déclarer l’instance canonique d’espace topologique à partir d’un espace
métrique :3.3 Bolzano-Weierstraß 61
Variable Rn : numDomainType.
Variable E : (espMetType Rn).
Definition EspMet_TopMixin := Eval hnf in
TopologyMixin empty_in_open_met full_in_open_met . . .
Definition EspMet_TopType := Eval hnf in
TopologyType E EspMet_TopMixin.
Canonical EspMet_TopMixin.
Canonical EspMet_TopType.
Nous déclarons ensuite de la même manière que l’ensemble des nombres réels de
Coq (représenté par R) a une structure d’espace métrique :
Definition EspMet_RMixin := EspMetMixin R_dist_pos . . .
Definition EspMet_R :=
Eval hnf in EspMetType R R EspMet_RMixin.
...
Et maintenant pour dire que le type R des réels de Coq a une structure d’espace
topologique, nous allons utiliser la fonction TopologyType. Comme nous voulons
que la projection se fasse directement sur R, nous allons donner comme premier
argument R. Le deuxième argument doit être la structure mixin_of, la notation
EspMet_TopMixin permet justement de construire cette structure. Nous pouvons
donc déclarer la structure d’espace topologique sur R directement comme ceci :
Definition EspTop_R := TopologyType R (EspMet_TopMixin EspMet_R).
Canonical EspTop_R.
Bien que dans cette sous-section nous mentionnons les espaces normés et euclidiens
(avec un produit scalaire), seules les structures d’espaces métriques et topologiques
sont implémentées. La formalisation des espaces normés et euclidiens
pourra faire l’objet de travaux futurs. Nous allons maintenant nous intéresser à la
formalisation de certains concepts de topologie générale qui ont permis d’énoncer
et de prouver formellement le théorème de Bolzano-Weierstraß.
3.3 Bolzano-Weierstraß
Le théorème de Bolzano-Weierstraß est un résultat de topologie générale dont la
forme la plus utilisée est la suivante :
Bolzano-Weierstraß (dans un espace métrique). Toute suite à valeurs dans un
compact admet une sous-suite convergente.
La version du théorème formalisée est sa forme plus générale qui est vraie
pour un espace topologique quelconque :
Bolzano-Weierstraß (dans un espace topologique). Toute suite à valeurs dans
un compact admet une valeur d’adhérence.62 Topologie
En effet, dans un espace métrique les valeurs d’adhérence sont les limites de
sous-suites.
Nous donnons dans un premier temps quelques définitions de topologie gé-
nérale, principalement celles dont nous aurons besoin (comme la compacité par
exemple). Nous verrons ensuite quelques notions sur les suites, et enfin nous parlerons
de la formalisation du théorème.
3.3.1 Topologie générale
Nous faisons ici quelques rappels des notions utilisées par la suite.
Une première notion que nous utiliserons est celle de voisinage. Soit x un point
d’un espace topologique T , alors un ensemble V est un voisinage du point x si
V contient un ouvert qui contient x, autrement dit s’il existe un ensemble ouvert
qui contient x et qui est inclus dans V :
Definition neighbourhood (V : T -> Prop) (x : T) :=
exists A, [/\ x ’in A, open A & A y -> exists V1, exists V2,
[/\ neighbourhood V1 x, neighbourhood V2 y & (inter V1 V2) Prop) :=
forall Ti (f : family T Ti),
open_family f -> cover K f ->
exists g : finite_family T Ti, sub_family f g /\ cover K g.
Definition compact (K : T -> Prop) := separated /\ quasi_compact K.
Nous allons maintenant définir les suites.
3.3.2 Les suites
Nous parlerons ici de sous-suites et nous rappellerons en donnant les définitions
formelles ce qu’est une valeur d’adhérence et la convergence d’une suite.
Une suite d’éléments de type T est représentée par un élément dont le type est
nat -> T. Soit u = (un)n∈N une suite, alors toutes les sous-suites de u peuvent3.3 Bolzano-Weierstraß 63
s’exprimer sous la forme (uϕ(n))n∈N où ϕ est une fonction strictement croissante
de N → N. Donc une sous-suite est principalement la donnée d’une fonction ϕ
qui vérifie les bonnes propriétés :
Structure sub_seq : Type := mkss
{
phi :> nat -> nat;
grow : forall m n, (m < n)%N -> (phi m < phi n)%N
}.
Formellement, étant donné g : sub_seq et une suite Un : nat -> T, alors Un \o g
(où \o est la composition) désigne une sous-suite de Un.
La formalisation des définitions de convergence et de valeur d’adhérence est
une retranscription directe des définitions mathématiques. Une suite (un)n∈N
converge vers une limite l si pour tout voisinage V de l on peut trouver un
rang à partir duquel tous les éléments de la suite sont dans V . Et l est une valeur
d’adhérence si pour tout voisinage V de l, pour chaque rang N on peut trouver
un élément de la suite dans V au-delà du rang N :
Definition Un_cvg (Un : nat -> T) (l : T) :=
forall V, neighbourhood V l ->
exists N : nat, forall n, N <= n -> (Un n) ’in V.
Notation "Un >->> l" := (Un_cvg Un l).
Definition cluster_point (Un : nat -> T) (l : T) :=
forall V, neighbourhood V l ->
forall N : nat, exists n, N <= n /\ (Un n) ’in V.
À ce point, nous avons toutes les définitions utiles à l’énoncé et à la preuve
du théorème de Bolzano-Weierstraß, dont nous décrivons la formalisation dans la
section suivante.
3.3.3 Le théorème
Le théorème de Bolzano-Weierstraß s’énonce formellement sur un espace topologique
quelconque de la manière suivante :
Lemma Bolzano_Weierstrass : forall (Un : nat -> T) K, compact K ->
(forall n, (Un n) ’in K) -> exists l, l ’in (cluster_point Un).
Nous allons dans un premier temps voir les grandes lignes de la preuve de ce
théorème.
Pour utiliser le théorème sous sa forme plus usuelle dans un espace métrique,
nous montrerons ensuite que dans un espace métrique, les valeurs d’adhérence
d’une suite sont des limites de ses sous-suites.
Preuve dans un espace topologique
La preuve formelle du théorème suit les mêmes étapes que la démonstration
mathématique, et sa formalisation n’a pas posé de problème majeur. Les grands64 Topologie
points de la démonstration du théorème sont les suivants :
Soit K un ensemble compact et u = (un)n∈N une suite dont tous les termes
sont dans l’ensemble K. Supposons par l’absurde que la suite u n’ait aucune valeur
d’adhérence. Cela signifie que pour n’importe quel point x ∈ K on peut trouver
un voisinage (ouvert) Vx de x qui à partir d’un certain rang nx ne contient aucun
élément de la suite. La famille (Vx)x∈K recouvre l’ensemble K, comme K est
compact, alors on peut extraire une sous-famille finie (Wi)i∈{0...k} avec Wi = Vxi
qui recouvre K. Pour chaque Wi on a un rang nxi
au-delà duquel la suite u n’a
aucun terme qui appartient à l’ensemble Wi
. Donc si l’on note N le maximum
de tous les nxi
, uN n’appartient à aucun ensemble de la famille W. Ce qui est
absurde car uN est dans l’ensemble K et que la famille W forme un recouvrement
de K.
Preuve dans un espace métrique
Pour montrer la version métrique du théorème de Bolzano-Weierstraß, nous montrons
que dans les epaces métriques, les valeurs d’adhérence d’une suite sont les
limites de ses sous-suites.
Dans un espace métrique, nous avons une distance, et cela nous permet de
définir pour un point x et un réel positif r donnés, la boule de centre x et de
rayon r, notée généralement B(x, r), dont nous rappelons la définition formelle :
Definition open_ball (x : E) (r : {posD Rn}) (y : E) := d x y < r.
Notation "’’B’ ( x , r )" := (open_ball x r).
où d est la distance de l’espace métrique.
Ainsi, pour la plupart des définitions comme la convergence ou les valeurs
d’adhérence d’une suite, on peut remplacer de manière équivalente les voisinages
par des boules.
Comme nous l’avons vu précédemment, les définitions formelles sont principalement
de simples retranscriptions des définitions mathématiques. Donc dans
la suite, nous utiliserons pour plus de lisibilité les notations mathématiques.
Soit donc u = (un)n∈N une suite, et l une valeur d’adhérence de u. Le fait
d’enlever le premier terme d’une suite ne change pas les valeurs d’adhérence,
donc l est aussi une valeur d’adhérence de la suite (un+1)n∈N, autrement dit :
∀V ∈ Vois(l), ∀N, ∃n, N ≤ n et un+1 ∈ V
où Vois(l) désigne l’ensemble des voisinages de l. Comme nous l’avons dit plus
haut, ceci est équivalent à :
∀k ∈ N
∗
, ∀N, ∃n, N ≤ n et un+1 ∈ B(l, 1
k
) (1)
Nous voulons maintenant montrer que la suite u a une sous-suite qui converge
vers l, autrement dit nous voulons trouver une fonction ϕ : N → N strictement
croissante telle que la suite (uϕ(n))n∈N converge vers l. Nous allons donc dans un
premier temps “construire” la fonction ϕ.3.3 Bolzano-Weierstraß 65
Pour construire la fonction, nous allons utiliser le lemme functional_choice
que l’on trouve dans la bibliothèque standard de Coq1
. Ce lemme s’énonce ainsi :
(∀x ∈ A, ∃y ∈ B, P(x, y)) ⇔ (∃f : A → B, ∀x ∈ A, P(x, f(x)))
Si nous appliquons ce lemme une première fois dans l’expression (1) nous
obtenons :
∀k ∈ N
∗
, ∃f, ∀N, N ≤ f(N) et uf(N)+1 ∈ B(l, 1
k
)
Nous pouvons utiliser le lemme functional_choice une seconde fois pour obtenir :
∃G, ∀k ∈ N
∗
, ∀N ∈ N, N ≤ Gk(N) et uGk(N)+1 ∈ B(l, 1
k
)
où Gk(N) est une notation pour (G(k))(N).
Nous avons donc une fonction G du type nat->nat->nat qui vérifie :
∀k ∈ N
∗
, ∀N ∈ N, N ≤ Gk(N) et uGk(N)+1 ∈ B(l, 1
k
)
ou de manière équivalente :
∀k ∈ N
∗
, ∀N ∈ N, N < Gk(N) + 1 et uGk(N)+1 ∈ B(l, 1
k
) (2)
Ici nous avons fait apparaître deux choses. La première est l’inégalité N <
Gk(N) + 1 et la deuxième est uGk(N)+1 qui est un bon candidat pour définir une
sous-suite. Le problème c’est que l’expression Gk(N) + 1 dépend de deux entiers
k et N. Mais l’expression (2) est vraie quelque soit N, donc en particulier elle
est vraie pour tous les N de la forme ϕ(k) pour une certaine fonction ϕ. Ainsi en
remplaçant dans l’inégalité les occurences de N par ϕ(k), où ϕ est une fonction
que l’on cherche à définir, nous obtenons d’une part :
∀k, ϕ(k) < Gk(ϕ(k)) + 1
Donc en définissant récursivement la fonction ϕ de manière à ce que ϕ(k + 1) =
Gk(ϕ(k)) + 1, nous avons ∀k, ϕ(k) < ϕ(k + 1) et donc ϕ est une fonction strictement
croissante. Et d’autre part, d’après (2) la fonction ϕ vérifie :
∀k ∈ N
∗
, uϕ(k+1) ∈ B(l, 1
k
) (3)
On peut définir la fonction ϕ formellement comme suit :
Fixpoint phi (m : nat) : nat :=
match m with
| 0 => G 0 0
| m’.+1 => (G m’ (phi m’)).+1
end.
1http://coq.inria.fr/distrib/current/stdlib/Coq.Logic.IndefiniteDescription.html66 Topologie
Nous avons donc construit une fonction ϕ strictement croissante. Maintenant,
il ne nous reste plus qu’à prouver que la suite uϕ(n) converge vers l, ainsi nous
aurons montré que l est une limite d’une sous-suite de u.
Comme nous l’avons déjà dit précédemment, on peut remplacer les voisinages
par des boules de manière équivalente dans la définition de convergence dans un
espace métrique. Nous voulons donc montrer que :
∀t ∈ N
∗
, ∃N ∈ N, ∀n, N ≤ n ⇒ uϕ(n) ∈ B(l, 1
t
)
Soit t ∈ N
∗
, alors montrons que N = t + 1 convient. Soit n ∈ N tel que
t + 1 ≤ n, il nous reste à montrer que uϕ(n) ∈ B(l, 1
t
).
Comme t+1 ≤ n et que t ∈ N
∗ alors n−1 ∈ N
∗
, donc d’après (3) nous avons :
uϕ(n) ∈ B(l, 1
n−1
)
Comme t + 1 ≤ n alors t ≤ n − 1, ce qui implique que 1
n−1 ≤
1
t
, et donc
B(l, 1
n−1
) ⊂ B(l, 1
t
), autrement dit :
uϕ(n) ∈ B(l, 1
t
)
Nous avons donc montré que dans un espace métrique, les valeurs d’adhérences
d’une suite sont les limites de ses sous-suites. La preuve du résultat précédent
permet d’utiliser la version de Bolzano-Weierstraß dans un espace métrique.
En fait, dans un cadre plus général, pour montrer ce résultat il suffit d’avoir
pour chaque point l de l’espace topologique une base dénombrable de voisinages
(dans les espaces métriques ce sont les boules de centre l et de rayon 1
k
).
3.4 Conclusion
La topologie générale se formalise plutôt bien. Comme nous l’avons vu, la plupart
des définitions sont naïves, et les preuves suivent le même schéma que les
preuves mathématiques. La logique utilisée est la logique classique. D’une part
cela permet d’avoir une théorie des ensembles avec les bonnes propriétés (comme
le fait qu’un ensemble soit égal au complémentaire de son complémentaire par
exemple), d’autre part le théorème de Bolzano-Weierstraß est un résultat de logique
classique.
La formalisation de la topologie a permis de prouver le théorème de BolzanoWeierstraß,
mais aussi de munir les structures ordonnées de la bibliothèque SSReflect
d’une topologie, et de montrer des résultats dessus dont nous aurons
également besoin par la suite.
Il existe déjà un théorème de Bolzano-Weierstraß dans la bibliothèque standard
de Coq, mais prouvé uniquement sur les nombres réels. Puisque nous l’avons
prouvé dans un cadre plus général, cela fait que l’on pourra l’utiliser sur n’importe
quel type que l’on aura muni d’une topologie. En particulier, par la suite,
nous aurons besoins de l’utiliser sur l’espace des matrices.3.5 Travaux reliés 67
Cependant, pour utiliser ce théorème il faut d’abord montrer qu’un certain
ensemble est compact. L’argument souvent utilisé pour prouver la compacité d’un
ensemble est de montrer qu’il est fermé et borné. Mais pour prouver ce résultat
il faut être dans un espace vectoriel normé de dimension finie ou dans un espace
euclidien. Comme nous l’avons vu, pour l’instant seules les structures d’espaces
métriques et topologiques sont implémentées, il serait donc intéressant par la
suite d’implémenter également les structures d’espaces normés et euclidiens.
3.5 Travaux reliés
Les travaux de formalisation de topologie générale sont nombreux et ont été faits
dans de nombreux assistants de preuve comme Mizar [38], Isabelle [26], PVS [30],
etc. Plus particulièrmeent dans l’assistant de preuve HOL Light on trouve une
preuve du théorème de Bolzano-Weierstraß dans le cas particulier des espaces
métriques [23].
Il existe également un début de formalisation de topologie générale en Coq,
dans un projet qui s’appelle Coqtail1
.
Il existe aussi des travaux de formalisation qui ont une approche constructive
de la topologie. Cela la s’appelle la topologie formelle, ou la topologie sans points.
On pourra par exemple cité les travaux de Giovanni Sambin [43] dont une partie
des travaux a été formalisée avec l’assistant de preuve Matita [2].
1http://coqtail.sourceforge.netChapitre 4
Perron-Frobenius
Le théorème de Perron-Frobenius est un théorème d’algèbre linéaire à propos du
rayon spectral d’une matrice réelle dont les coefficients sont positifs. Les principales
applications de ce théorème sont en théorie des graphes, ou en probabilité
avec les chaînes de Markov. Le théorème est utilisé sur les matrices d’adjacence
d’un graphe ou sur des matrices stochastiques, ce sont des matrices à coefficients
positifs [48]. On utilise également le théorème de Perron-Frobenius dans l’étude
des matrices dont les coefficients sont des intervalles [32, 42].
La partie du théorème de Perron-Frobenius à laquelle on s’intéresse est celle
qui dit que le rayon spectral d’une matrice à coefficients positifs est une valeur
propre de la matrice, et que cette valeur propre a un vecteur propre associé dont
les coefficients sont positifs.
Cette preuve se fait en deux étapes. Dans une première étape on démontre le
théorème pour les matrices à coefficients strictement positifs. Dans une deuxième
étape on utilise un argument de densité pour prouver le résultat sur les matrices
à coefficients positifs ou nuls. Pour prouver ce théorème nous devrons utiliser les
notions de topologie, et la forme normale de Jordan d’une matrice vues dans les
deux chapitres précédents.
Dans un premier temps, nous allons voir dans ce chapitre la formalisation
de la première étape de la preuve. Nous verrons d’abord les définitions de base
dont nous aurons besoin par la suite. Ensuite nous présenterons une preuve du
théorème pour le cas des matrices strictements positives pour mettre en évidence
les résultats intermédiaires dont nous aurons besoin et dont nous montrerons la
formalisation ensuite.
Dans un second temps, nous expliquerons le chemin qu’il reste à faire pour la
formalisation de la deuxième partie de la preuve.70 Perron-Frobenius
4.1 Rappels et définitions
4.1.1 Minimum et maximum
Nous aurons besoin de définir le maximum d’une famille d’éléments pour la définition
du rayon spectral d’une matrice et du minimum pour la preuve du théorème.
C’est pourquoi nous commençons par définir ces deux notions dans cette section.
Minimum
Pour exprimer le minimum d’une famille d’éléments, on pourrait essayer d’utiliser
les opérateurs de familles de la façon suivante1
:
\big[minr/id]_(i <- s) F i
Le problème avec cette façon de faire c’est que id doit être un élément neutre
pour le minimum. En effet, nous avons vu que, par exemple, pour une séquence
[:: a, b, c] l’expression ci-dessus est équivalente à :
minr a (minr b (minr c id))
et donc si a, b et c sont tous plus grand que l’élément id alors la valeur retournée
sera id et non le plus petit des trois éléments a, b et c. C’est la raison pour
laquelle id doit être un élément neutre, or dans notre cas la fonction minimum
n’a pas d’élément neutre.
Pour les besoins de la preuve, nous avons seulement besoin d’une fonction
qui retourne un élément de la famille qui soit plus petit que tous les autres. Le
minimum est donc simplement défini comme suit :
Fixpoint min_seq s :=
match s with
| [::] => 0
| [:: x] => x
| x :: s’ => minr x (min_seq s’)
end.
On traite à part le cas où la séquence ne contient qu’un seul élément pour que
l’appel récursif de la fonction ne se fasse jamais sur une séquence vide. À partir
de cette définition, nous pouvons définir une fonction minimum plus proche de
ce qui est fait dans la bibliothèque SSReflect sur les opérateurs de familles :
Definition min_fT (I : finType) (F : I -> R) :=
min_seq [seq F i | i <- index_enum I].
Cette définition respecte les deux propriétés dont nous avons besoin, à savoir :
Lemma min_fT_le (I : finType) F (i : I) : min_fT F <= F i.
Lemma ex_min_fT (I : finType) F (_ : I) : {k | min_fT F = F k}.
1voir 1.2.5 et 1.2.10 pour les notations.4.1 Rappels et définitions 71
Maximum
Pour définir le maximum d’une famille d’éléments, nous pouvons contourner le
problème de l’élément neutre du fait que dans notre contexte, nous prenons toujours
le maximum d’une famille d’éléments positifs. Nous pouvons donc choisir
zéro comme élément neutre et utiliser les opérateurs de familles :
\big[(@maxr R)/0%R]_i F i
L’expression ci-dessus sera cachée derrière la notation :
\maxr_i F i
4.1.2 Éléments d’algèbre linéaire
Soit A une matrice carrée de dimension n à coefficients dans un corps. Le noyau de
la matrice A, noté ker A, est l’ensemble des vecteurs tels que Ax = 0 c’est-à-dire :
x ∈ ker A ⇔ Ax = 0
Le noyau d’une matrice est fourni par une fonction de la bibliothèque SSReflect,
noté kermx A.
Si x est un vecteur non nul qui appartient au noyau de la matrice A, alors A
n’est pas inversible. En effet, si A était inversible nous aurions :
x = I ∗ x = (A
−1
∗ A)x = A
−1
(Ax) = A
−1
∗ 0 = 0
ce qui contredit le fait que x soit non nul. La matrice A n’étant pas inversible,
comme nous sommes sur des matrices à coefficients dans un corps, nous avons
det A = 0.
Soit maintenant x et λ respectivement un vecteur colonne non nul et un
scalaire tels que l’on ait la relation :
Ax = λx
Alors on dit que λ est une valeur propre de la matrice A et que x est un vecteur
propre associé à la valeur propre λ.
La relation ci-dessus peut être réécrite comme suit :
(A − λI)x = 0 (1)
Donc si λ est une valeur propre de la matrice A alors x est un vecteur non nul
appartenant au noyau de la matrice (A−λI). C’est ainsi qu’est définie le prédicat
booléen qui caractérise les valeurs propres dans la biblothèque SSReflect :
Variables (T : fieldType) (n : nat) (A : ’M[T]_n).
Definition eigenvalue lam := kermx (A - lam%:M) != 0.72 Perron-Frobenius
Remarque 2. Le prédicat eigenvalue ne représente que l’ensemble des valeurs
propres qui sont de type T. Donc par exemple si T est le corps des réels, alors
les seules valeurs qui vérifieront le prédicat seront les valeurs propres réelles de
la matrice A, et si lam est une valeur propre complexe de la matrice A alors
eigenvalue A lam sera mal typé.
L’égalité (1) indique également que si λ est une valeur propre de la matrice
A alors det(A − λI) = 0 d’après ce que l’on a vu juste avant. C’est-à-dire que λ
est une racine du polynôme caractéristique de la matrice A. Nous pouvons donc,
dans un corps algébriquement clos, définir la séquence des valeurs propres d’une
matrice :
Variable F : closedFieldType.
Definition eigen_seq n (A : ’M[F]_n) := root_seq (char_poly A).
où la fonction root_seq retourne la séquence des racines d’un polynôme. Par
exemple, si p est le polynôme (’X-1)^+2 * (’X-2) alors root_seq p sera la sé-
quence [:: 1, 1, 2] (ou une de ses permutations).
Le lemme suivant montre que, sur un corps algébriquement clos, les deux
définitions ci-dessus expriment bien la même chose :
Lemma eigenE n (A : ’M[F]_n) lam :
(lam \in (eigenvalue A)) = (lam \in (eigen_seq A)).
Le rayon spectral d’une matrice est le plus grand des modules des valeurs
propres d’une matrice. Donc pour définir le rayon spectral, il faut une fonction
module. Comme la séquence des valeurs propres est définie pour les matrices à
coefficients dans un corps clos, alors le rayon spectral est défini pour les matrices
à coefficients complexes1
:
Variable R : rcfType.
Notation C := (complex R).
Definition spectral_radius n (A : ’M[C]_n) :=
\maxr_(lam <- eigen_seq A) Re ‘|lam|.
Notation "\rho A" := (spectral_radius A).
où Re désigne la fonction partie réelle, car bien que le module d’un nombre complexe
ait une partie imaginaire nulle, son type est le type des nombres complexes,
donc la fonction partie réelle est utilisée ici pour que le résultat obtenu soit réel.
Donc pour parler du rayon spectral d’une matrice à coefficients réels, il faudra
d’abord plonger la matrice dans l’espace des matrices à coefficients complexes.
Dans la suite, nous parlerons également de comparaison entre matrices. Si A et
B sont deux matrices de même dimensions, alors on dira que A ≤ B (resp. A < B)
si tous les coefficients de B sont supérieurs ou égaux (resp. strictement supérieurs)
aux coefficients de A. Dans le code formel, nous utiliserons les définitions et les
notations suivantes :
1voir 1.2.10 et 1.2.11 pour les notations.4.2 Matrices strictement positives 73
Definition Mle A B := forall i j, A i j <= B i j.
Definition Mlt A B := forall i j, A i j < B i j.
Notation "A <=m: B" := (Mle A B).
Notation "A
exists x, 0 <=m: x /\ A *m x = (\rho A^%:C) *: x.
La notation A^%:C signifie que chaque coefficient réel de la matrice A est plongé
dans le corps des nombres complexes
4.2 Matrices strictement positives
Nous allons voir maintenant dans une première partie la formalisation de la preuve
du théorème de Perron-Frobenius pour les matrices strictement positives. Dans
une seconde partie, nous verrons la formalisation d’un résultat important dont
nous aurons besoin pour la première partie.
4.2.1 Preuve du théorème principal
Le théorème que nous allons montrer ici est le suivant :
Perron-Frobenius[cas strictement positif] Soit A ∈ Mn(R) telle que 0 < A,
alors ρ(A) est une valeur propre de la matrice A et possède un vecteur propre
associé dont tous les coefficients sont strictement positifs.
La preuve du théorème repose sur l’axiome suivant :
Axiome. Soit A ∈ Mn(R). La suite définit par (Ak
)k∈N converge vers 0 si et
seulement si ρ(A) < 1.
Nous utiliserons également dans la preuve le résultat suivant :
Resultat 1. Soit A ∈ Mn(R) telle que 0 < A, soit x un vecteur non nul tel que
0 ≤ x, alors 0 < Ax.74 Perron-Frobenius
En effet, le i-ème coefficient du vecteur Ax est P
k aikxi et comme x est nonnul
alors il existe un terme de la somme qui est non-nul, donc tous les coefficients
du vecteur Ax sont strictement positifs.
Pour la preuve du théorème de Perron-Frobeniuspour les matrices strictement
positives nous avons besoins du lemme suivant :
Lemme 5. Soit A ∈ Mn(R) telle que 0 < A. Soit λ une valeur propre de A telle
que |λ| = ρ(A), et soit x un vecteur non nul tel que Ax = λx. Alors nous avons
A|x| = ρ(A)|x|, 0 < ρ(A) et 0 < |x|.
Pour montrer ce lemme, on fait un traitement par cas sur l’égalité A|x| =
ρ(A)|x| :
Posons z = A|x|, alors d’après le résultat 1 nous avons 0 < z.
• Supposons que A|x| = ρ(A)|x|, dans ce cas il ne reste plus qu’à montrer
que 0 < ρ(A) et 0 < |x|. On sait que 0 ≤ ρ(A), si ρ(A) = 0 alors on aurait
A|x| = 0 ∗ |x| = 0, autrement dit on aurait z = 0 ce qui contredit le fait
que 0 < z, donc 0 < ρ(A). De plus, comme 0 < z et que z = ρ(A)|x|, on a
0 < ρ(A)|x| et donc 0 < |x|.
• Maintenant supposons que A|x| 6= ρ(A)|x|. Nous allons montrer que cette
hypothèse est absurde. Posons y = A|x| − ρ(A)|x|, alors d’après l’inégalité
précédente nous avons y 6= 0, de plus 0 ≤ y en effet, nous avons :
ρ(A)|x| = |λ||x| = |λx| = |Ax| ≤ |A||x| = A|x|
et donc
ρ(A)|x| ≤ A|x| ⇔ 0 ≤ A|x| − ρ(A)|x| = y
Donc d’après le résultat 1 nous avons 0 < Ay = Az − ρ(A)z.
Comme 0 < z et 0 < Az − ρ(A)z alors il existe un ε > 0 tel que l’on ait
Az − ρ(A)z > εz. Autrement dit, nous avons :
Az > (ρ(A) + ε)z ⇔
A
ρ(A) + ε
z > z
Donc en posant B = A/(ρ(A) + ε) nous avons Bz > z, et par récurrence
nous obtenons que ∀k, Bk
z > z. De plus ρ(B) = ρ(A)/(ρ(A) + ε) < 1 donc
d’après l’axiome, la suite des Bk
converge vers 0 ce qui donne que 0 ≥ z > 0
ce qui est absurde.
Le théorème découle directement du lemme 5 et des deux lemmes ci-dessous :
Lemma ex_eigen_rho n (A : ’M[C]_n.+1) :
{lam | eigenvalue A lam & ‘|lam| = \rho(A)%:C}.
Lemma eigenvalueP a :
reflect (exists2 v : ’rV_n, v *m g = a *: v & v != 0) (eigenvalue a).4.2 Matrices strictement positives 75
Le premier est une conséquence du fait que le maximum d’un nombre fini de
valeurs est atteint et le deuxième est un résultat donné par la bibliothèque SSReflect.
Dans la preuve du lemme 5, nous avons utilisé quatre résultats qui ne sont
pas seulement des manipulations algébriques :
• Le premier dit que si u et v sont des vecteurs strictement positifs, alors il
existe ε > 0 tel que εv < u. Pour montrer ce résultat, on peut prendre
ε = min
i
ui
2vi
. L’énoncé prouvé formellement est celui-ci :
Lemma Mle_eps m (u v : ’cV[R]_m.+1) :
let F i := ((u i 0) / 2%:R)/ (v i 0) in
let eps := min_fT F in
0 0 eps *: v B, et si la suite des Ak
converge vers C alors on a C ≥ B. Son énoncé formel est le suivant :
Lemma ltmx_cvg_lemx m n (A B :’M[R]_(m,n)) (U : nat -> ’M_(m,n)) :
(forall k, A (U >->> B) -> A <=m: B.
Nous remarquons que certaines propriétés utilisent la notion de convergence
d’une suite de matrices. Donc pour pouvoir les exprimer, il faut d’abord munir
le type des matrices d’une topologie. Nous allons donc voir maintenant comment
est implémentée la structure d’espace topologique sur les matrices, mais aussi sur
les structures ordonnées car nous en aurons besoin par la suite.
4.2.2 Instance des structures topologiques
Nous avons déjà vu au chapitre 3 comment sont implémentées les structures
d’espace métrique et topologique. Nous avons aussi vu sur l’exemple des réels de
Coq comment instancier ces structures. Aussi nous indiquerons ici seulement la
métrique qui sera utilisée pour ces instanciations.76 Perron-Frobenius
Les structures ordonnées
Toutes la hiérarchie des structures ordonnées est basée sur la structure appelée
numDomainType. Nous avons vu que cette structure possède une fonction valeur
absolue, ou module notée ‘|.|. La métrique utilisée sur les structures ordonnées
est donc la suivante :
Definition dist_real x y := ‘|x - y|.
Les nombres complexes
Nous avons vu aussi que dans la définition d’espace métrique le type de retour
de la fonction distance était en paramètre. Ainsi si nous avons E : metricType R
alors plus R sera “haut” dans la hiérarchie des structures ordonnées, plus nous
pourrons démontrer de propriétés sur les espaces métriques. Les nombres complexes
sont une instance de la structure numFieldType. Or nous aurons besoin
dans le développement formel que le type de retour de la fonction distance sur les
nombres complexes soit au moins de type realDomainType. C’est pourquoi nous
utilisons la fontion partie réelle dans la définition de la distance sur les nombres
complexes :
Definition dist_C x y := Re ‘|x - y|.
Les matrices
Avant de définir une distance sur les matrices, nous définissons d’abord un type
pour les normes de matrices :
Section normDef.
Variable R : numDomainType.
Structure can_norm : Type := MNorm {
anorm : forall p q, ’M[R]_(p,q) -> R;
pos_norm : forall p q (A : ’M_(p, q)), 0 <= anorm A;
hom_pos_norm : forall p q (A : ’M_(p, q)) (r : R),
anorm (r *: A) = ‘|r| * anorm A;
trin_ineq_norm : forall p q (A B : ’M_(p, q)),
anorm (A + B) <= anorm A + anorm B;
prod_ineq_norm : forall p q r (A : ’M_(p, q)) (B : matrix _ q r),
anorm (A *m B) <= anorm A * anorm B;
canonical_norm : forall p q (A : ’M_(p, q) ) i j,
‘|A i j| <= anorm A;
canonical_norm2 : forall p q (A B: ’M_(p, q)),
(forall i j, ‘|A i j| <= ‘|B i j|) -> anorm A <= anorm B
}.
End normDef.4.2 Matrices strictement positives 77
Notation "|| A : N |" := (anorm N A).
Ici nous avons simplement repris la définition de norme formalisée par Ioana
Paşca dans [42]. La définition a été actualisée avec les nouvelles définitions et
notations de SSReflect.
La norme que nous utiliserons par la suite est la norme infini définie commme
suit1
:
Definition norm8 (m n : nat) (A : ’M[R]_(m,n)) :=
\maxr_i \sum_j ‘|A i j|.
Cette norme vérifie tous les axiomes de la structure can_norm définie ci-dessus.
Donc après avoir démontré ces propriétés, nous pouvons déclarer la norme infini
comme une instance de la structure :
Canonical Structure can_norm8 := MNorm norm8_pos norm8_hom ...
La distance sur les matrices est définie à partir de cette norme :
Variable R : numDomainType.
Let N8 := can_norm8 R.
Definition dist_mat m n (A B : ’M[R]_(m,n)) :=
||(A - B) : N8 |.
4.2.3 Preuve de l’axiome
Nous allons montrer ici le théorème que nous avons posé en axiome dans la
première partie de la preuve du théorème de Perron-Frobenius :
Théorème 6. Soit A ∈ Mn(K) (K étant R ou C). La suite définit par (Ak
)k∈N
converge vers 0 si et seulement si ρ(A) < 1.
Nous verrons également quelques points de la formalisation de cette preuve.
La Preuve
Commençons d’abord par montrer le sens facile : Si la suite (Ak
)k∈N converge vers
0 alors ρ(A) < 1. Soit λ une valeur propre de la matrice A et x un vecteur propre
associé à λ. Comme Ax = λx alors Akx = λ
kx. Supposons que (Ak
)k∈N converge
vers 0, alors la suite (λ
kx)k∈N = (Akx)k∈N converge vers 0 et comme x est non nul
cela signifie que la suite (λ
k
)k∈N converge vers 0 et donc que |λ| < 1. Nous avons
donc montré que pour toute valeur propre λ de la matrice A nous avons |λ| < 1
et donc en particulier nous avons ρ(A) < 1.
Maintenant supposons que ρ(A) < 1 et montrons que la suite (Ak
)k∈N converge
vers 0. Notons J (A) la forme normale de Jordan de la matrice A. D’après ce que
1Le “8” représente un infini debout.78 Perron-Frobenius
nous avons vu dans le chapitre 2, la matrice A est semblable à J (A). C’est-à-dire
qu’il existe une matrice inversible P telle que A = P
−1J (A)P, autrement dit
telle que Ak = P
−1J (A)
kP. Donc prouver que la suite (Ak
)k∈N converge vers 0
revient à prouver que la suite (J (A)
k
)k∈N converge vers 0.
Nous savons que la forme normale de Jordan de A est une matrice diagonale
par blocs dont chaque bloc est un bloc de Jordan J(λ, n) où λ est une valeur
propre de A. Donc la matrice J (A)
k
est une matrice diagonale par blocs dont
chaque bloc est de la forme J(λ, n)
k
.
Ainsi pour montrer que la suite (J (A)
k
)k∈N converge vers 0, il suffit de montrer
que pour chaque bloc la suite des (J(λ, n)
k
)k∈N converge vers 0.
Voyons donc quelle est la forme générale de la matrice J(λ, n)
k
. Sur la figure
ci-dessous on peut voir ce qui se passe sur un exemple pour les quatre premières
puissances avec n = 4 :
J(λ, 4) =
λ 1 0 0
0 λ 1 0
0 0 λ 1
0 0 0 λ
J(λ, 4)2 =
λ
2 2λ 1 0
0 λ
2 2λ 1
0 0 λ
2 2λ
0 0 0 λ
2
J(λ, 4)3 =
λ
3 3λ
2 3λ 1
0 λ
3 3λ
2 3λ
0 0 λ
3 3λ
2
0 0 0 λ
3
J(λ, 4)4 =
λ
4 4λ
3 6λ
2 4λ
0 λ
4 4λ
3 6λ
2
0 0 λ
4 4λ
3
0 0 0 λ
4
On remarque que sur chaque ligne les puissances de λ décroissent et que des
coefficients binomiaux apparaissent. De manière générale nous avons :
(J(λ, n)
k
)ij =
k
j − i
!
λ
k−(j−i)
avec la convention que
k
j−i
= 0 si j − i > k ou si i > j.
Rappelons que nous avons ρ(A) < 1 et donc pour toute valeur propre λ de A
nous avons |λ| < 1. Nous allons montrer que si |λ| < 1 alors la suite (J(λ, n)
k
)k∈N
converge vers 0, pour cela nous allons montrer que les coefficients de la matrice
J(λ, n)
k
convergent vers 0 quand k tend vers l’infini.
Nous avons pour tout l :
k
l
!
=
k!
(k − l)! l!
=
(k − (l − 1)) ∗ · · · ∗ k
l!
≤
k ∗ · · · ∗ k
l!
=
k
l
l!
avec comme convention que a − b = 0 si a < b.
Cela signifie que pour un l fixé,
k
l
est borné par le polynôme k
l/l! et donc
dans l’expression suivante :
k
j − i
!
λ
k−(j−i)4.2 Matrices strictement positives 79
comme |λ| < 1 nous avons le terme λ
k−(j−i) qui converge vers 0 de façon exponentielle
alors que le terme
k
j−i
croit vers l’infini de façon polynômiale. Donc
finalement chaque coefficient du bloc J(λ, n)
k
converge vers 0. Ceci fini de montrer
le théorème.
Quelques points de formalisation
Matrice et convergence Nous allons d’abord parler de lemmes généraux sur la
convergence des suites de matrices. Un premier lemme important que nous avons
utilisé est celui qui fait le lien entre la convergence des matrices et la convergence
coefficient par coefficient. Ce lemme s’énonce formellement ainsi :
Variable R : numFieldType.
Lemma mx_cvgP m n (U : nat -> ’M_(m,n)) (A :’M[R]_(m,n)) :
U >->> A <-> (forall i j, (fun n => (U n) i j) >->> (A i j)).
Nous nous en sommes servi pour montrer que la suite des puissances des blocs
de Jordan convergeait vers 0.
Le second résultat sur la convergence des matrices que nous allons voir est
celui qui fait le lien entre la convergence des matrices diagonales par blocs et
la convergence bloc à bloc. Rappelons qu’une matrice diagonale par blocs est
définie formellement à l’aide d’une fonction F : forall n, nat -> ’M_n.+1 qui
donne les blocs diagonaux (voir 2.1), et d’une séquence qui correspond à peu de
choses près à la taille des blocs. Une suite U1, U2, . . . de matrices diagonales par
blocs correspondra formellement à une suite :
diag_block_mx s (UF 1), diag_block_mx s (UF 2), ...
où UF est la suite des fonctions qui donnent les blocs diagonaux. Nous avons donc
UF qui est de type nat -> forall n, nat -> ’M_n.+1. Le lemme s’énonce ainsi :
Lemma diag_block_mx_cvg s (UF : nat -> forall n, nat -> ’M[R]_n.+1)
(F : forall n, nat -> ’M[R]_n.+1) :
(forall i, (i < size s)%N ->
(fun k => UF k (nth 0%N s i) i) >->> (F (nth 0%N s i) i)) ->
(fun k => diag_block_mx s (UF k)) >->> (diag_block_mx s F).
Nous l’utilisons pour montrer que la forme normale de Jordan de la matrice A
converge vers 0.
Convergence sur les nombres réels ou complexes Nous avons également
utilisé le fait qu’il y a équivalence entre |λ| < 1 et la convergence de la suite
(λ
k
)k∈N vers zéro. La preuve de ce résultat utilise la propriété archimédienne
des nombres réels. Or dans notre cas nous utilisons ces lemmes sur les nombres
complexes qui n’est pas archimédien.
La structure archifieldType de la bibliothèque SSReflect est une structure
realFieldType qui vérifie l’axiome suivant :80 Perron-Frobenius
Definition archimedean_axiom (R : numDomainType) :=
forall (x : R), exists ub : nat, ‘|x| < ub%:R.
La preuve de ce résultat n’utilise pas le fait que la structure de base est de
type realFieldType, mais seulement le fait que l’axiome ci-dessus est vérifié. Or il
se trouve que l’ensemble des nombres complexes vérifie cet axiome (car le module
d’un nombre complexe est réel).
Pour éviter d’avoir à dupliquer les lemmes sur les nombres réels et sur les
nombres complexes, nous allons définir une nouvelle structure plus faible que la
structure archiFieldType dont le type de base sera la structure numFieldType :
Structure class_of (R : Type) := Class
{ base : NumField.class_of R;
_ : archimedean_axiom (@NumDomain.Pack R base) }.
Coercion base : class_of >-> NumField.class_of.
Structure type := Pack {sort; _ : class_of sort}.
Coercion sort : type >-> Sortclass.
Notation archiDomainType := type.
Nous avons déjà rencontré ce genre de définition dans le chapitre 3 sur la
présentation des structures topologiques. La structure class_of est la structure
d’hérédité. Elle contient un champ base qui correspond à la structure d’hérédité
du type de base, et un preuve que ce type de base vérifie les propriétés supplé-
mentaires qui se trouve dans la structure mixin_of qui ici est seulement réduite
à l’axiome archimedean_axiom. Ce genre de structure est expliquée plus en détail
dans [15, 14].
Cette structure étant basée sur la structure numFieldType hérite des propriétés
de cette dernière, et aussi de la topologie (et de la métrique) que nous avons
instanciée pour la structure numDomainType.
L’ensemble des nombres réels et l’ensemble des nombres complexes étant tous
les deux des instances de la structure ci-dessus, nous pouvons utiliser dans les
deux cas les deux lemmes suivants qui nous intéressent :
Variable R : archiDomainType.
Lemma cvg_lt1 (x : R) :
reflect ((fun k => x ^+ k) >->> 0) (‘|x| < 1).
Lemma polyM_exp_cvg0 i (a : R) :
‘|a| < 1 -> (fun k => k%:R ^+ i * a ^+ k) >->> 0.
4.3 Matrices à coefficients positifs ou nuls
Nous avons montré que pour toute matrice A ∈ Mn(R) telle que 0 < A, il existe
un vecteur propre x de A tel que 0 < x et que Ax = ρ(A)x. Nous allons voir4.3 Matrices à coefficients positifs ou nuls 81
maintenant comment l’on généralise ce résultat pour le cas où 0 ≤ A. Ce que
nous allons voir dans cette section n’est pas formalisé. Nous discuterons ici du
travail qu’il reste à faire.
4.3.1 La preuve
Le théorème que nous allons étudier maintenant est donc le suivant :
Perron-Frobenius Soit A ∈ Mn(R) telle que 0 ≤ A, alors ρ(A) est une valeur
propre de la matrice A et possède un vecteur propre associé dont tous les
coefficients sont positifs.
Prenons donc une matrice A telle que 0 ≤ A. Posons Ak = (aij +
1
k
)1≤i,j≤n.
Les matrices Ak sont des matrices strictement positives. Donc d’après le théorème
que nous venons de montrer dans la section 4.2.1, nous avons ρ(Ak) qui est une
valeur propre de Ak et qui possède un vecteur propre associé xk strictement positif.
Quitte à normaliser, nous pouvons choisir le vecteur xk de norme 1. Comme la
suite des matrices Ak converge vers A, alors la suite des ρ(Ak) converge vers ρ(A).
De plus, comme les vecteurs de la suite xk sont dans un ensemble compact, alors
d’après le théorème de Bolzano-Weierstraß (chapitre 3) il existe une sous-suite
xϕ(k) qui converge vers un vecteur x positif. Pour tout entier k nous avons donc
Aϕ(k)xϕ(k) = ρ(Aϕ(k))xϕ(k)
, donc d’après ce qui précède, en passant à la limite
nous obtenons Ax = ρ(A)x. Ainsi ρ(A) est une valeur propre de A et possède un
vecteur propre associé à coefficients positifs ou nuls.
Les deux principaux résultats de cette preuve qui demanderont le plus de
travail de formalisation sont :
• Si (An)n∈N est une suite de matrice qui converge vers A alors la suite des
ρ(An) converge vers ρ(A).
• L’ensemble des vecteurs de norme 1 est un ensemble compact.
4.3.2 Convergence des rayons spectraux
Nous avons deux façons de montrer que la suite (ρ(Ak))k∈N∗ décrite plus haut
converge vers ρ(A). La première utilise un argument de convergence des suites
réelles décroissantes et minorées, et la deuxième utilise un argument de continuité.
Argument de convergence
Pour montrer que la suite des rayons spectraux est décroissante, nous utilisons le
lemme suivant :
Lemme 7. Si A, B ∈ Mn(K) (avec K = R ou C) sont des matrices telles que
|A| ≤ B alors ρ(A) ≤ ρ(B).82 Perron-Frobenius
Démonstration. Soit ε > 0. Définissons les matrices suivantes :
Aε =
A
ρ(B) + ε
et Bε =
B
ρ(B) + ε
Comme |A| ≤ B, nous avons |Aε| ≤ Bε et donc |Aε|
k ≤ Bk
ε
.
D’une part ρ(Bε) = ρ(B)/(ρ(B) + ε) < 1. D’après ce que nous avons vu dans
la section 4.2.3, cela signifie que la suite (Bk
ε
)k∈N converge vers 0.
D’autre part pour tout entier k nous avons |Ak
ε
| ≤ |Aε|
k ≤ Bk
ε
. D’après ce
qui précède, cela signifie que la suite (Ak
ε
)k∈N converge aussi vers 0, et donc cela
implique que ρ(Aε) < 1.
Donc finalement :
ρ(Aε) = ρ(A)
ρ(B) + ε
< 1 ⇔ ρ(A) < ρ(B) + ε
et ce pour tout ε > 0 donc ρ(A) ≤ ρ(B).
Grâce à ce lemme nous pouvons montrer que la suite (ρ(Ak))k∈N∗ est une suite
décroissante et minorée par ρ(A) donc cette suite converge vers un réel ρ tel que
ρ ≥ ρ(A).
De plus nous avons vu que en passant à la limite, nous avons l’égalité Ax = ρx.
Cela nous donne que ρ ≤ ρ(A) et donc par double inégalité ρ = ρ(A).
Le développement sur la topologie est assez développé pour faire ce genre de
preuve.
Argument de continuité
Une autre façon de faire est de montrer que la fonction A → ρ(A) est continue.
Ainsi comme la suite (Ak)k∈N converge vers A alors la suite (ρ(Ak))k∈N∗ converge
vers ρ(A).
L’argument le plus souvent utilisé pour montrer la continuité du rayon spectral
est le suivant :
• Les coefficients du polynôme caractéristique d’une matrice varient continuement
en fonction des coefficients de la matrice.
• Les racines d’un polynôme varient continuement en fonction des coefficients
du polynôme.
• Le rayon spectral est continu en tant que composée d’applications continues.
Le polynôme caractéristique d’une matrice est le déterminant de sa matrice
caractéristique. Donc une manière de prouver le premier point est d’instancier
une métrique sur l’ensemble des polynômes et de prouver que l’application déterminant
est continue.4.4 Conclusion 83
On peut trouver une preuve du second point dans [34]. C’est une preuve qui
demanderait encore du travail de formalisation, mais qui je pense reste abordable
avec les outils que nous avons déjà formalisés.
Le troisème point est un résultat général sur la continuité qui est déjà formalisé
dans le développement sur la topologie.
4.3.3 Compacité de la boule unité
Pour pouvoir utiliser le théorème de Bolzano-Weierstraß que nous avons vu au
chapitre 3, il nous faut montrer que l’ensemble des vecteurs de norme 1 est un
ensemble compact. Pour montrer ce résultat, on montre d’abord que les intervalles
fermés sur R sont compacts.
Ensuite on montre que la boule unité est incluse dans un pavé qui est le
produit cartésien d’intervalles de R. Comme le produit cartésien fini d’ensembles
compacts est compact, nous avons la boule unité qui est un ensemble fermé inclus
dans un compact et est donc compact.
Une première étape serait de définir le produit cartésien de deux ensembles.
Nous avons vu qu’il existe déjà dans Coq un type produit pour le produit carté-
sien de deux types (voir 1.1.1). Nous pourrions réutiliser ce produit cartésien sur
les types pour avoir une définition du produit cartésien sur les ensembles :
Variables (T1 T2 : Type).
Definition cartesian_product (A : T1 -> Prop) (B : T2 -> Prop) :=
fun x : (T1 * T2) => (x.1 ’in A) /\ (x.2 ’in B).
Mais je n’ai aucune idée si cette définition est praticable.
Un second problème va apparaître lorsque nous voudrons utiliser ce résultat
sur l’ensemble des nombres complexes. Ici l’argument est que l’on peut voir l’ensemble
C comme le produit cartésien R × R. Il faudrait alors expliquer que la
topologie obtenue à partir de la topologie produit sur R × R est équivalente à la
topologie que nous avons instanciée sur l’ensemble des nombres complexes. Pour
l’instant, telle qu’est définie la structure d’espace topologique, c’est quelque chose
de difficile à exprimer.
Le fait qu’un ensemble fermé inclus dans un compact est compact est déjà
formalisé dans le développement sur la topologie générale.
4.4 Conclusion
Le théorème de Perron-Frobenius est un exemple de théorème d’algèbre linéaire
qui fait intervenir des arguments d’analyse et de topologie. Bien que la formalisation
de ce théorème ait motivé la formalisation de la forme normale de Jordan et
des espaces topologiques et métriques, ces développements ont été fait de manière
indépendantes.
La premère partie du théorème a permis de montrer que ces développements
étaient réutilisables. Nous avons pu ainsi avoir une formalisation complète du84 Perron-Frobenius
théorème de Perron-Frobeniuspour les matrices strictements positives.
Toutefois pour montrer le théorème dans le cas générale, il reste encore à
prouver des résultats comme la continuité du rayon spectrale ou la compacité de
l’ensemble des vecteurs de norme 1.
4.5 Travaux reliés
A ma connaissance, il n’existe pas de travaux de formalisation à propos du théorème
du théorème de Perron-Frobenius. Un des rares papiers que j’ai trouvé sur
la formalisation de sujet semblable est celui de Karol Pąk où le concept de valeur
propre est formalisé en Mizar [40].Conclusion
La formalisation du théorème de Perron-Frobenius a permis de formaliser des
résultats plus généraux d’algèbre linéaire, mais aussi de topologie générale. C’est
ce théorème qui a principalement motivé cette thèse.
La bibliothèque SSReflect contient déjà une formalisation assez avancée
sur les matrices, les polynômes et les propriétés algébriques. Ceci nous a fourni
une bonne base pour développer les travaux de cette thèse.
La formalisation des formes normales de Frobenius et de Jordan vue au chapitre
2, outre le fait d’avoir une preuve formelle de ces résultats, a occasionné
le développement de théories sur les matrices diagonales par blocs, et sur les
matrices semblales ou équivalentes. Ce sont des théories qui sont utilisées dans
d’autres contextes mathématiques et donc nous espérons que ces outils pourront
être réutilisés pour la formalisation d’autres résultats mathématiques.
Dans le chapitre 3 nous avons formalisé les structures d’espace métrique et topologique.
Il existe déjà une topologie dans la bibliothèque standard de Coq sur
les nombre réels. Ici nous avons défini une structure générale de topologie pour
avoir des résultats qui puissent être utilisés aussi bien sur des réels que sur des matrices
ou sur des nombres complexes. Le résultat important de ce développement
sur la topologie est le théorème de Bolzano-Weierstraß. Pour l’utilisation de ce
théorème, il serait intéressant par la suite d’implémenter les structures d’espace
normé et euclidien, ainsi que les propriétés de compacité des produits cartésiens
d’ensembles. Cela permettrait d’avoir des théorèmes généraux supplémentaires
pour montrer la compacité d’un ensemble.
Les développements sur les formes normales de matrices et sur la topologie ont
été formalisés de manière indépendante et dans le but de pouvoir être réutilisés.
Le théorème de Perron-Frobenius est une première application de l’utilisation de
ces développements formels. En effet, nous avons réussi à instancier une métrique
et une topologie sur les matrices et les nombres réels ou complexes. Ensuite nous
avons pu prouver des résultats sur la convergence de certaines suites. Et la forme
normale de Jordan a permis de montrer un résultat important sur la convergence
des suites des puissances de matrices.
Cependant la partie du théorème de Perron-Frobenius utilisant le théorème
de Bolzano-Weierstraß n’a pu être encore formalisée. Pour finir cette partie de
la preuve, il reste à montrer quelques résultats comme la continuité du rayon
spectral, et d’autres résultats de topologie pour pouvoir montrer la compacité
d’un ensemble, et utiliser Bolzano-Weierstraß.Bibliographie
[1] Andrea Asperti, Claudio Sacerdoti Coen, Ferruccio Guidi, Enrico
Tassi et Stefano Zacchiroli : Matita v0.99.1 : User manual, 2006.
http://matita.cs.unibo.it/. 3
[2] Andrea Asperti, Maria Emilia Maietti, Claudio Sacerdoti Coen, Giovanni
Sambin et Silvio Valentini : Formalization of formal topology
by means of the interactive theorem prover matita. In Proceedings of the
18th Calculemus and 10th International Conference on Intelligent Computer
Mathematics, MKM’11, pages 278–280, Berlin, Heidelberg, 2011. SpringerVerlag.
67
[3] Yves Bertot et Pierre Castéran : Interactive Theorem Proving and Program
Development – Coq’Art : The Calculus of Inductive Constructions.
Texts in Theoretical Computer Science. An EATCS Series. Springer Verlag,
2004. 9
[4] Yves Bertot, Georges Gonthier, Sidi Ould Biha et Ioana Paşca : Canonical
big operators. In Theorem Proving in Higher Order Logics, 21st
International Conference, TPHOLs 2008, Montreal, Canada, volume 5170
de Lecture Notes in Computer Science, pages 86–101. Springer, 2008. 18
[5] François Bobot, Sylvain Conchon, Évelyne Contejean, Mohamed
Iguernelala, Stéphane Lescuyer et Alain Mebsout : The Alt-Ergo
automated theorem prover, 2008. http://alt-ergo.lri.fr/. 3
[6] Robert Stephen Boyer et J Strother Moore : A Computational Logic
Handbook. Academic Press, Inc, 1988. 3
[7] Guillaume Cano et Maxime Dénès : Matrices à blocs et en forme canonique.
In JFLA - Journées francophones des langages applicatifs, Aussois, France,
2013. 25
[8] Cyril Cohen : Formalized algebraic numbers : construction and first-order
theory. Thèse de doctorat, École Polytechnique, 2012. 23
[9] Cyril Cohen, Maxime Dénès, Anders Mörtberg et Vincent
Siles : Smith Normal form and executable rank for matrices, 2012.88 Bibliographie
http://wiki.portal.chalmers.se/cse/pmwiki.php/ForMath/ProofExamples.
33, 35
[10] Robert L. Constable, Stuart F. Allen, H. M. Bromley, W. R. Cleaveland,
J. F. Cremer, R. W. Harper, Douglas J. Howe, T. B. Knoblock,
N. P. Mendler, P. Panangaden, James T. Sasaki et Scott F. Smith :
Implementing mathematics with the nuprl proof development system, 1986.
3
[11] Leonardo de Moura et Nikolaj Bjørner : Z3 : An efficient SMT solver.
In Conference on Tools and Algorithms for the Construction and Analysis of
Systems (TACAS), Budapest, Hungary, 2008. http://z3.codeplex.com/.
3
[12] Maxime Dénès : Étude formelle d’algorithmes efficaces en algèbre linéaire.
Thèse de doctorat, Université de Nice - Sophia Antipolis, 2013. 33
[13] The Coq development team : The Coq proof assistant : Reference manual,
2013. http://coq.inria.fr/. 3
[14] François Garillot : Outils génériques de preuve et théorie des groupes finis.
These, Ecole Polytechnique X, décembre 2011. 59, 80
[15] François Garillot, Georges Gonthier, Assia Mahboubi et Laurence Rideau
: Packaging Mathematical Structures. In Tobias Nipkow et Christian
Urban, éditeurs : Theorem Proving in Higher Order Logics, volume 5674 de
Lecture Notes in Computer Science, Munich, Germany, 2009. Springer. 80
[16] Isabelle Gil : Contribution à l’algèbre linéaire formelle. Thèse de doctorat,
Institut Nationale Polytechnique de Grenoble, 1993. 25
[17] Ruben Gomboa, John Cowles et Jeff Van Baalen : Using ACL2 arrays
to formalize matrix algebra. ACL2 Workshop 2003, Boulder, 2003. 50
[18] Georges Gonthier : The four colour theorem : Engineering of a formal
proof. In Computer Mathematics, 8th Asian Symposium, ASCM 2007, volume
5081 de Lecture Notes in Computer Science, page 333. Springer, 2007.
4
[19] Georges Gonthier, Andrea Asperti, Jeremy Avigad, Yves Bertot, Cyril
Cohen, François Garillot, Stéphane Le Roux, Assia Mahboubi, Russell
O’Connor, Sidi Ould Biha, Ioana Paşca, Laurence Rideau, Alexey
Solovyev, Enrico Tassi et Laurent Théry : A machine-checked proof of
the odd order theorem. In Interactive Theorem Proving - 4th International
Conference, ITP 2013, Rennes, France. Proceedings, volume 7998 de Lecture
Notes in Computer Science, pages 163–179. Springer, 2013. 5Bibliographie 89
[20] Georges Gonthier et Assia Mahboubi : A Small Scale Reflection Extension
for the Coq system. Research Report RR-6455, INRIA, 2008. 4
[21] Thomas Callister Hales : Introduction to the flyspeck project. In Mathematics,
Algorithms, Proofs, volume 05021 de Dagstuhl Seminar Proceedings.
Internationales Begegnungs- und Forschungszentrum für Informatik (IBFI),
Schloss Dagstuhl, Germany, 2005. 5
[22] Thomas Callister Hales, John Harrison, Sean McLaughlin, Tobias Nipkow,
Steven Obua et Roland Zumkeller : A revision of the proof of the
kepler conjecture. Discrete & Computational Geometry, 44(1):1–34, 2010. 5
[23] John Harrison : A HOL theory of Euclidean space. In Joe Hurd et
Tom Melham, éditeurs : Theorem Proving in Higher Order Logics, 18th
International Conference, TPHOLs 2005, volume 3603 de Lecture Notes in
Computer Science, Oxford, UK, 2005. Springer-Verlag. 50, 67
[24] John Harrison : Handbook of Practical Logic and Automated Reasoning.
Cambridge University Press, New York, NY, USA, 1st édition, 2009. 3
[25] John Harrison : The HOL-Light system reference. University of Cambridge,
2013. http://www.cl.cam.ac.uk/~jrh13/hol-light/. 3
[26] Johannes Hölzl, Fabian Immler et Brian Huffman : Type classes and
filters for mathematical analysis in Isabelle/HOL. In Proceedings of the
4th International Conference on Interactive Theorem Proving, ITP’13, pages
279–294, Berlin, Heidelberg, 2013. Springer-Verlag. 67
[27] Katarzyna Jankowska : Matrices. Abelian group of matrices. Formalized
Mathematics, 2(4):475–480, 1991. 50
[28] Matt Kaufmann et J Strother Moore : ACL2, 2013.
http://www.cs.utexas.edu/~moore/acl2/. 3
[29] Matt Kaufmann, J. Strother Moore et Panagiotis Manolios : ComputerAided
Reasoning : An Approach. Kluwer Academic Publishers, Norwell, MA,
USA, 2000. 3
[30] David R. Lester : Topology in PVS : Continuous mathematics with applications.
In Proceedings of the Second Workshop on Automated Formal
Methods, AFM ’07, pages 11–20, New York, NY, USA, 2007. ACM. 67
[31] Guillaume Melquiond : User’s guide for gappa, 2013.
http://gappa.gforge.inria.fr/. 3
[32] Jean-Pierre Merlet : Interval Analysis and Reliability in Robotics, mars
2006. 6, 6990 Bibliographie
[33] Michał Muzalewski : An outline of PC Mizar. Fondation Philippe le
Hodey, 1993. http://mizar.uwb.edu.pl/. 3
[34] Raúl Naulin et Carlos Pabst : The roots of a polynomial depend continuously
on its coefficients. Revista Colombiana de Matemáticas, 28(1):35–37,
1994. 83
[35] Michael Norrish, Konrad Slind et al. : The HOL system reference. Automated
Reasoning Group, University of Cambridge, Computer Laboratory,
2013. http://hol.sourceforge.net/. 3
[36] Steven Obua : Proving bounds for real linear programs in Isabelle/HOL.
In Joe Hurd et Thomas F. Melham, éditeurs : TPHOLs, volume 3603 de
Lecture Notes in Computer Science, pages 227–244. Springer, 2005. 50
[37] Patrick Ozello : Calcul exact des formes de Jordan et de Frobenius d’une
matrice. Thèse de doctorat, Université Scientifique Technologique et Médicale
de Grenoble, 1987. 25
[38] Beata Padlewska et Agata Darmochwał : Topological spaces and continuous
functions. Formalized Mathematics, 1(1):223–230, 1990. 67
[39] Karol Pąk : Block diagonal matrices. Formalized Mathematics, 16(3):259–
267, 2008. 50
[40] Karol Pąk : Eigenvalues of a linear transformation. Formalized Mathematics,
16(4):289–295, 2008. 84
[41] Karol Pąk : Jordan matrix decomposition. Formalized Mathematics, 16(4):
297–303, 2008. 50
[42] Ioana Paşca : Vérification formelle pour les méthodes numériques. Thèse
de doctorat, Université Nice-Sophia Antipolis, 2010. 6, 69, 73, 77
[43] Giovanni Sambin : The basic picture, a structure for topology (the basic
picture, i). Rapport technique, 2001. 67
[44] Stephan Schulz : E 1.8 : User manual, 2013.
http://www4.informatik.tu-muenchen.de/~schulz/E/. 3
[45] Natarajan Shankar, Sam Owre, John M. Rushby et David William John
Stringer-Calvert : PVS prover guide, 2001. http://pvs.csl.sri.com/.
3
[46] Vincent Siles : A formal proof of the Cauchy-Binet formula, 2012.
http://wiki.portal.chalmers.se/cse/pmwiki.php/ForMath/ProofExamples.
38Bibliographie 91
[47] Matthieu Sozeau et Nicolas Oury : First-Class Type Classes. In Otmame
Aït-Mohamed, César Muñoz et Sofiène Tahar, éditeurs : 21th International
Conference on Theorem Proving in Higher Order Logics, volume 5170
de Lecture Notes in Computer Science. Springer, août 2008. 53
[48] Shlomo Sternberg : Dynamical Systems. Dover Publications, 2010. Chapitre
9. 69
[49] Joe Hendrix University et Joe Hendrix : Matrices in ACL2, 2003. 50
[50] Makarius Wenzel et al. : The Isabelle/Isar reference manual, 2013.
http://www.cl.cam.ac.uk/research/hvg/Isabelle/. 3
M´ethodes num´eriques pour la spatialisation sonore, de
la simulation `a la synth`ese binaurale
Matthieu Aussal
To cite this version:
Matthieu Aussal. M´ethodes num´eriques pour la spatialisation sonore, de la simulation `a la
synth`ese binaurale. Mathematics. Ecole Polytechnique X, 2014. French.
HAL Id: tel-01095801
https://pastel.archives-ouvertes.fr/tel-01095801
Submitted on 16 Dec 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.Thèse pour l’obtention du titre de
Docteur de l’École Polytechnique
Spécialité : Mathématiques appliquées
par Matthieu Aussal
Méthodes numériques pour
la spatialisation sonore,
de la simulation à la
synthèse binaurale.
Soutenue le 02 octobre 2014
Rapporteurs et membres du jury
Directeur de thèse : François Alouges (École Polytechnique)
Rapporteurs : Leslie Greengard (New York University)
Jean-Marc Jot (DTS inc.)
Séraphin Mefire (Université de Lorraine)
Examinateurs : Toufic Abboud (École Polytechnique)
Joël Bensoam (IRCAM)
Marc Bonnet (ENSTA)
Directeurs Industriels : Vincent Mouret (Digital Media Solutions)
Hervé Roux (Digital Media Solutions)Remerciements
Mes premiers remerciements vont tout naturellement à Hervé Roux, initiateur
de ces recherches à travers la société Digital Media Solutions et
Vincent Mouret, qui a repris le flambeau avec la même ferveur. Merci de
m’avoir fait confiance, et ce dès le début, en me laissant toute la liberté
d’agir sans autre contrainte que celle d’imaginer l’avenir. En m’impliquant
doucement mais sûrement dans les rouages de la société, vous m’avez transmis
le goût de l’entrepreneuriat.
Je remercie mes rapporteurs, MM. Leslie Greengard, Jean-Marc Jot et
Séraphin Mefire d’avoir accepté de consacrer une partie de leurs vacances
à relire mon manuscrit. J’ai été très honoré qu’ils acceptent cette charge et
particulièrement touché par les compliments de leurs rapports respectifs.
Je tiens aussi à remercier MM. Toufic Abboud, Joël Bensoam et Marc
Bonnet d’avoir accepté de faire partie de mon jury. Merci à Toufic de nous
avoir proposé son aide lorsque nous en avions besoin. Merci à Joël de m’avoir
donné le goût des équations intégrales pour l’acoustique. Merci à Marc pour
les nombreux échanges passés et à venir.
Par ailleurs, je remercie les doctorants et personnels du Centre de Mathématiques
Appliquées de l’École Polytechnique qui se sont prêtés de nombreuses
fois à des expériences sonores diverses et variées, et toujours avec le
sourire. Un grand merci aussi à l’École Polytechnique, et plus spécifiquement
au CMAP et Antonin Chambolle, pour m’avoir accueilli pendant ce doctorat,
et pour m’accueillir encore pendant quelques temps.
Une pensée toute particulière accompagne l’équipe Audio 3D de DMS,
qui a réussie à supporter mon encadrement sans (trop) broncher ! ;-) Encore
Bravo à Mathieu Coïc pour la quantité/qualité colossale de travail abattu et
merci pour cette ambiance si chaleureuse. Merci à Alexandre Dazzoni pour ses
conseils et sa grande disponibilité. Je souhaiterais aussi féliciter et remercier
les nombreux stagiaires que j’ai eu le plaisir d’encadrer : Ivan Alouges, Louis
Anglionin, Martin Averseng, Pierre Bézard, Timothée Chevalier, Marie-Julie
Dhaou, Louis Faucon (et merci à l’ADO !), Valentin Labourette, Hanna Ma-tahri, Lasse Munk, François Salmon, Adel Chelghoum et Augustin Deprez.
J’en profite pour remercier tout le personel de DMS et tout particulièrement
Nathalie, Alix, Mika, Walid, Ludo, Pascal C., Eric, Matthieu D., PatrickGilles,
Guillaume E., Lucas et Alberto.
En vrac, encore merci à Sylvie Tonda-Goldstein pour son aide précieuse
en démêlage de sac de nœuds, à Hervé Le Meur pour ses nombreux coups
de pouce, à Timothée Chevalier pour ses maillages de tête à trous, à Sylvain
Faure et Pascal Frey pour leurs maillages de tête sans trou, à Jean-Christophe
Messonnier pour les nombreuses conversations, à Hervé Déjardin pour ses
riches conseils, aux membres du consortium BiLi, à Sophie-Anaïs pour son
expertise, à Isabelle et Jean pour la transmission de savoirs, à Manou et
So pour leurs coups de main, à Grany, à The Mathworks d’avoir inventé
Matlab, au bâtiment 334, aux d’Yvette d’en face pour leurs superbes voix et
à Vincent, l’ami éternel.
Enfin, il faudrait bien plus qu’un merci à ma famille, ma belle-famille et
mes amis pour leur soutien sans faille.
Et puisqu’il est coutume de garder le meilleur pour la fin, je tiens à
adresser mes plus sincères et chaleureux remerciements à François Alouges.
Au-delà d’un encadrement scientifique d’une rare qualité, tu as été d’une
extrême bienveillance pendant ces trois années qui, grâce à toi, furent d’une
richesse inouïe. Je te dois cette thèse, alors vraiment, merci.à Caroline
et à nos enfants
Crédits : Bob de Groot et Turk, Léonard est un génie, ed. Le Lombard, 1977.Résumé
Les recherches effectuées lors de ce doctorat ont été initiées par un besoin
industriel identifié par la société Digital Media Solutions, à savoir la
réalisation d’un outil de spatialisation sonore au casque destiné aux nonvoyants.
Malgré les nombreux dispositifs déjà existants, les techniques de
synthèse binaurale butent, depuis leur apparition, sur un obstacle majeur,
qui empêche la réalisation de produits de haute qualité. En effet, pour rendre
l’illusion d’un espace sonore perceptible, les déformations temporelles et spectrales
issues de la propagation d’une onde sonore jusqu’aux tympans doivent
être restituées le plus fidèlement possible. En plus des difficultés classiques
rencontrées en traitement du signal audio, ceci entraîne, de facto, la nécessité
d’individualiser les fonctions de transfert HRTF, traduisant pour chacun
l’empreinte spatiale d’une source sonore. Pour réaliser cette personnalisation,
une première approche consiste à mesurer en laboratoire les HRTF de
chaque individu. Bien qu’offrant des résultats convaincants, cette technique
n’est pas encore applicable au grand public, car le processus est long, pé-
nible et relativement coûteux. C’est pourquoi la modélisation mathématique
a été envisagée. Sous réserve d’un maillage représentatif de la morphologie
de l’auditeur, la résolution numérique des équations de propagation des
ondes pourrait avantageusement remplacer la mesure. Aujourd’hui, des outils
grand public (e.g. Kinect de Microsoft) permettent la réalisation de maillages
satisfaisants, qui peuvent être perfectionnés, voire couplés, à des formes élé-
mentaires analytiques (Sphères, Ellipses, Cônes, etc.). La thèse se concentre
alors sur deux axes principaux et complémentaires.
D’une part, nous avons développé (conjointement avec F. Alouges) un
nouveau moteur de calcul intégral par éléments finis de frontières (MyBEM),
réalisé sous Matlab. Ce dernier est appliqué à la résolution des équations de
l’acoustique. Pour pouvoir calculer les fonctions de transfert HRTF sur l’ensemble
des fréquences audibles, une nouvelle méthode rapide de convolution a
été conçue, implémentée, puis validée analytiquement. À partir d’une quadrature
monodimensionnelle performante d’un noyau de Green quelconque (Laplace,
Helmholtz, Stokes, Maxwell, etc), une séparation des variables permet
1le calcul rapide d’un produit de convolution dans l’espace. Dénommée "Dé-
composition Creuse en Sinus Cardinal" (SCSD), cette méthode est confrontée
à la "Méthode Multipolaire Rapide" (FMM), référence reconnue en la matière.
D’autre part, une fois les HRTF mesurées ou calculées sur une grille sphé-
rique discrète, une résolution de quelques degrés angulaires est indispensable
pour pouvoir effectuer un rendu spatial de grande qualité. Il faut donc procéder
à des interpolations de filtres, qui nuisent à la qualité du rendu audio
et à l’impression d’externalisation. Cependant, une nouvelle compréhension
des HRTF initiée avant la thèse a permis un sous-échantillonnage spatial des
bases de données, sans produire d’artefacts audibles, mais aussi une personnalisation
par filtrage inverse. Mise en œuvre au sein d’un moteur de rendu
audio spatialisé sous Matlab (PifPaf3D), cette technique appelée "Décomposition
par Modèle Morphologique" a montré des qualités reconnues par validations
subjectives. Par ailleurs, de nombreux outils connexes ont été intégrés
à ce moteur, pour améliorer encore le rendu spatial, comme des acoustiques
de salles ou la compensation du casque audio.
Ces deux étapes, abouties et maîtrisées, doivent désormais être couplées
en vue de réaliser une chaîne complète de synthèse binaurale numérique.
2Abstract
Research conducted during this PhD were initiated by an industrial need
identified by Digital Media Solutions, namely the creation of a tool for spatial
sound rendering through headphones for blind people. Despite the many existing
devices, techniques for binaural synthesis face, since their appearance,
a major obstacle that prevents to realize high quality products. Indeed, to
make the illusion of a perceptible sound space, temporal and spectral distortions
resulting from the propagation of a sound wave to the ears must be
reproduced as accurately as possible. In addition to traditional difficulties in
audio signal processing, this enlightens the need to individualize the Head
Related Transfer Functions (HRTF), that encode the spatial impression of a
sound source. To achieve this individualization, a first approach consists in
measuring in the laboratory the HRTF of each individual. Although offering
convincing results, this technique is not yet applicable to the general public,
because the process is long, painful, and relatively expensive. This is why
mathematical modeling has been considered. Subject to a mesh representing
the morphology of the listener, the numerical solution of the wave propagation
equations could advantageously replace the measure. Today, large public
tools (e.g. Microsoft Kinect) allow the construction of satisfactory meshes,
which can be refined, when coupled with analytical basic shapes (spheres, Ellipse,
cones, etc..). The thesis then focuses on two main and complementary
axes.
On the one hand, we have developed (jointly with F. Alouges) a new
boundary element method software (MyBEM). Realized in Matlab, we apply
it to solve the equations of acoustics. For the calculation of the HRTF across
all audible frequencies, a new fast convolution method has been designed,
implemented and validated analytically. From the efficient one dimensional
quadrature of any Green kernel (Laplace, Helmholtz, Stokes, Maxwell, etc.), a
separation of variables allows a fast convolution in space calculation. Called
"Sparse Cardinal Sine Decomposition" (SCSD), this method is confronted
with the Fast Multipole Method (FMM) renowned as the state-of-the-art in
the domain.
3Moreover, once the HRTF are measured or calculated on a discrete spherical
grid, a resolution of a few angular degrees is essential to perform a high
quality spatial rendering. It is therefore necessary to interpolate the filters,
and that affects the quality of the audio rendering. However, a new understanding
initiated before the PhD allows an undersampling of the databases,
without producing audible artifacts, and providing with a possibility of individualization
by inverse filtering. Implemented in a spatial audio rendering
engine (PifPaf3D), this technique called "Morphological Model Decomposition"
has been validated by subjective tests. Moreover, many related tools
have been integrated into the engine, to further improve the spatial rendering,
such as acoustic rooms or headphones compensation.
These two stages, accomplished and mastered must now be coupled in
order to achieve a complete chain of digital binaural synthesis.
4Table des matières
Résumé/Abstract 1
1 Synthèse binaurale et HRTF 7
1.1 Introduction à l’écoute spatialisée . . . . . . . . . . . . . . . . 7
1.1.1 Espace sonore . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Théorie du Duplex . . . . . . . . . . . . . . . . . . . . 9
1.1.3 Head-Related Transfer Function . . . . . . . . . . . . . 11
1.2 Exemples de systèmes de spatialisation sonore . . . . . . . . . 14
1.2.1 Panning d’Amplitude, de la stéréo au VBAP . . . . . . 14
1.2.2 High Order Ambisonics, captation et restitution . . . . 17
1.2.3 Technologies binaurales, enregistrement et synthèse . . 21
1.3 Head-Related Transfer Function, what else ? . . . . . . . . . . 24
1.3.1 Modèle de HRTF, la sphère rigide . . . . . . . . . . . . 25
1.3.2 Mesures de HRTF, Acoustics Research Institute . . . . 31
1.3.3 Interpolation linéaire . . . . . . . . . . . . . . . . . . . 34
1.3.4 Interpolation par harmoniques sphériques . . . . . . . . 43
1.4 Décomposition par Modèle Morphologique . . . . . . . . . . . 48
1.4.1 Principe et résultats . . . . . . . . . . . . . . . . . . . 48
1.4.2 Interpolation optimisée . . . . . . . . . . . . . . . . . . 54
1.4.3 Variations de position . . . . . . . . . . . . . . . . . . 57
1.4.4 Déraffinement spatial d’une base de données . . . . . . 59
1.4.5 Vers une méthode d’individualisation . . . . . . . . . . 62
2 Moteur binaural PifPaf3D 67
2.1 Introduction et configuration . . . . . . . . . . . . . . . . . . . 67
2.2 Transport et contrôle . . . . . . . . . . . . . . . . . . . . . . . 70
2.3 Traitement Binaural . . . . . . . . . . . . . . . . . . . . . . . 72
2.4 Acoustique de salle et Ambisonics . . . . . . . . . . . . . . . . 77
2.5 Compensation du casque et égalisation . . . . . . . . . . . . . 81
2.6 SpherAudio Headphones . . . . . . . . . . . . . . . . . . . . . 83
53 Formulations intégrales rapides pour l’acoustique 89
3.1 Représentation et équations intégrales . . . . . . . . . . . . . . 91
3.1.1 Diffraction dans l’espace libre . . . . . . . . . . . . . . 91
3.1.2 Diffraction en présence d’un obstacle . . . . . . . . . . 93
3.1.3 Équations intégrales . . . . . . . . . . . . . . . . . . . 96
3.1.4 Formulations discrètes . . . . . . . . . . . . . . . . . . 99
3.2 Introduction aux méthodes multipolaires rapides . . . . . . . . 101
3.3 Nouvelle méthode rapide - SCSD . . . . . . . . . . . . . . . . 104
3.3.1 Vers un problème mono-dimensionnel . . . . . . . . . . 105
3.3.2 Résolution du problème . . . . . . . . . . . . . . . . . 106
3.3.3 Formalisme final pour l’équation de Helmholtz . . . . . 116
3.3.4 Extension vers Laplace (et plus si affinités...) . . . . . . 120
3.4 Comparaisons et performances . . . . . . . . . . . . . . . . . . 123
3.4.1 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . 123
3.4.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . 124
4 Moteur intégral MyBEM 131
4.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.2 Validations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.3 Applications au calcul de HRTF . . . . . . . . . . . . . . . . . 142
Conclusion 153
Bibliographie 155
Articles 163
6Chapitre 1
Synthèse binaurale et HRTF
Ce premier chapitre a pour but de poser le cadre théorique des recherches
en spatialisation sonore effectuées avant, puis pendant la thèse, notamment
en synthèse binaurale. En effet, il est important de préciser que les travaux
de recherche exposés ici s’inscrivent dans la continuité de travaux effectués
au préalable et par le même auteur au sein de la société Digital Media Solutions.
Ces travaux ont donné naissance à un spatialisateur innovant, appelé
PifPaf3D, écrit exclusivement en langage Matlab, dont le développement s’est
poursuivi au cours de ces trois années de thèse. Aussi, certains aspects pré-
sentés dans ce chapitre sortent du sujet de thèse initial, mais ont néanmoins
motivé des axes de développement non négligeables.
1.1 Introduction à l’écoute spatialisée
De par sa grande complexité et ses multiples domaines d’étude (physiologie,
neurologie, psycho-acoustique, physique ondulatoire, etc.), seuls les
principes généraux de la perception spatiale liée au système auditif humain
sont présentés ici, en guise d’introduction ou de rappel. Le lecteur curieux
est invité à se documenter sur les ouvrages de références [10], [15] et [68], ou
encore les manuscrits de thèse [20] et [70]. Pour une courte introduction, [14]
et [17] présentent un excellent résumé, avec une bibliographie détaillée.
1.1.1 Espace sonore
La perception sonore de l’espace, bien que souvent négligée au profit
de la perception visuelle, n’en est pas moins fondamentale puisqu’elle est
l’unique indicateur environnemental qui ne souffre d’aucune restriction spatiale.
À titre comparatif, le système visuel (vision fovéale + périphérique)
7Figure 1.1 – Vue subjective du célèbre jeu de tir à la première personne
Counter Strike.
ne délivre d’informations que sur une faible portion de l’espace, alors que
le système auditif est effectif pour toutes les directions, avec une précision
angulaire (Just Noticeable Difference) de l’ordre de quelques degrés. De plus,
le système auditif effectue une analyse permanente et souvent inconsciente de
l’environnement, tandis que le système visuel est de plus en plus requis pour
effectuer des tâches quotidiennes, nécessitant une attention particulière.
La capture d’écran présentée en figure 1.1 est un exemple issu du monde
des jeux vidéos. Cette vision subjective du célèbre jeu de tir à la première
personne (FPS) Counter Strike présente un certain nombre d’objets, comme
les mains du joueur, des caisses, une terrasse, des murs, etc. Bref, aucun
danger n’est visuellement apparent. Si le joueur ne dispose pas d’un système
de rendu sonore, il n’aura aucune information relative à son environnement
autre que celles fournies par la vision, ce qui est restrictif. Si, au contraire, le
joueur dispose d’un rendu stéréo classique, il aura accès à d’autres données
non visibles. Cependant, privé d’une perception sonore en rendu spatialisé, le
joueur devra balayer visuellement l’ensemble de la scène à la moindre alerte
auditive, pour identifier la position de la source sonore (tirs, bruits de pas,
explosion, etc.). Ce temps perdu peut lui être dommageable. Aussi, pour
que le joueur puisse pleinement et rapidement appréhender tout danger non
visible à l’écran, un rendu spatial de la scène sonore serait souhaitable. Les
mêmes principes s’appliquent au quotidien, à savoir que le système auditif
fournit l’ensemble des informations nécessaires à une perception spatiale de
l’environnent, dynamique et analytique.
La spatialisation sonore est une branche de l’Acoustique dont on peut défi-
8Figure 1.2 – Système auditif humain. (source www.alynsimardaudio.com)
nir l’objectif général comme étant "la (re)création d’un espace sonore subjectif
au niveau de l’auditeur" [20]. D’un point de vue physiologique, l’étude de la
spatialisation sonore part d’une hypothèse fondatrice, à savoir que l’oreille
interne et l’oreille moyenne n’interviennent pas dans la création des indices
de localisation tridimensionnels. La figure 1.2 fournit un embryon d’explication
par une représentation en coupe du système auditif humain. Lorsqu’une
onde sonore (une variation de pression dans l’air) atteint le tympan, celle-ci
est ensuite transmise mécaniquement par les osselets vers la cochlée. Cette
dernière encode alors le signal sonore en impulsions électriques, acheminées
au cerveau par le nerf auditif. Dans ce schéma simpliste, une fois que l’onde
sonore a fait vibrer le tympan, ce dernier transmet un signal qui se propage de
l’oreille moyenne jusqu’au cerveau, sans aucun ajout possible d’informations
spatiales. Aussi, la compression des informations de localisation encodées
dans ce signal ne peut être faite qu’avant.
1.1.2 Théorie du Duplex
Des indices dits de localisation sont inhérents à l’analyse discriminatoire
de l’espace sonore, effectuée par notre système cognitif. Dans ce sens, deux
contributions principales ont été mises en évidence par Lord Rayleigh en 1907,
formant ainsi la théorie du Duplex [74]. Cette dernière fut ainsi nommée car
elle met en lumière l’analyse des indices acoustiques interauraux, c’est-à-dire
issus des signaux perçus conjointement par les deux oreilles. Sur le schéma
9Figure 1.3 – Représentation graphique de l’ITD et de l’ILD. (source
www.kfs.oeaw.ac.at)
de la figure 1.3, l’onde sonore incidente est supposée provenir de l’infini.
De ce fait, les isovaleurs de pression acoustique sont orthogonales au sens
de propagation. Ainsi, de par l’orientation de l’onde dans le plan horizontal,
l’oreille gauche percevra l’information plus tôt et plus fort que l’oreille droite.
Ces écarts de temps et d’intensité sont caractérisés respectivement par l’ITD
et l’ILD :
– Interaural Time Difference, ITD : La différence interaurale de temps
est la différence de temps d’arrivée d’une onde sonore entre les deux
oreilles. Cet indice de localisation joue un rôle fondamental pour la
localisation dans le plan horizontal, notamment en basse fréquence ;
– Interaural Level/Intensity Difference, ILD ou IID : La différence interaurale
de niveau est la différence d’intensité de l’onde sonore entre
les deux oreilles. Cet indice de localisation joue de même un rôle fondamental
pour la localisation azimutale, notamment en moyenne et haute
fréquence.
En revanche, cette théorie est incomplète pour les sources sonores qui seraient,
par exemple, dans le plan médian. En effet, l’ITD et l’ILD sont grossièrement
identiques pour une source sonore devant, dessus ou encore derrière
un auditeur. Pourtant, l’être humain est capable de discriminer ces directions,
avec une précision exemplaire. Le fait est que la théorie du Duplex ne tient
pas compte des dissymétries de la tête et du pavillon.
10Figure 1.4 – Cônes de confusion, représentant les isovaleurs de l’ITD et
de l’ILD pour une approximation de tête sphérique sans pavillon. (source
www.humansystems.arc.nasa.gov)
1.1.3 Head-Related Transfer Function
Avec l’approximation de tête sphérique [85], l’ILD et l’ITD de la théorie
du Duplex n’apportent pas d’informations discriminatoires dans le plan median,
ni dans des cônes communément appelés "cônes de confusion" (fig. 1.4).
Il manque donc un indice de localisation pour compléter cette théorie. Ce dernier
indice est principalement lié à la morphologie de l’auditeur, notamment
la géométrie du pavillon et du conduit auditif de l’oreille externe (fig. 1.2)
qui modifient singulièrement l’onde sonore incidente. En effet, des ondes ré-
fléchies peuvent être engendrées selon l’incidence, ainsi que des déformations
spectrales liées à des modes de résonance (fig. 1.5). Le timbre du signal émis
par la source sonore est alors modifié et ce, en fonction de sa position dans
l’espace. Il en résulte des filtres spatio-fréquentiels relativement complexes,
encore appelés Direction-Dependent Filters (fig. 1.6).
Ces trois indices (ITD, ILD et DDF) sont inclus dans un modèle plus
général de filtres fréquentiels communément appelés Head-Related Transfert
Functions (HRTF). Par Transformée de Fourier, ces filtres s’expriment aussi
bien en domaine fréquentiel qu’en domaine temporel, sous forme de HeadRelated
Impulse Responses (HRIR), et peuvent être définis comme suit :
HRTF : R
3 × R
+ → C
(r, θ, φ) × f → HRT F
HRIR : R
3 × R
+ → R
(r, θ, φ) × t → HRIR
11Figure 1.5 – Modes de résonance de l’oreille externe. (source
www.dtmblabber.blogspot.fr, d’après [78])
Figure 1.6 – Représentation directionelle des Directions Depending Filters
de l’oreille gauche du sujet 003 de la base CIPIC. Visualisation de l’amplitude
spectrale (dB) pour des sources sonores situées sur la sphère unité (croix
noire), à fréquence fixe, dans le repère de la figure 1.4. De gauche à droite,
la fréquence vaut respectivement 2 kHz, 8 kHz et 15 kHz.
12Figure 1.7 – Amplitude spectrale (dB) des HRTF de l’oreille gauche du
sujet 003 de la base CIPIC, dans le plan médian.
L’amplitude spectrale (dB) pour quelques positions de ces filtres est représentée
sur la figure 1.7. L’azimut est fixé à 0˚, pour une élévation croissante de 0˚
à 80˚ (plan median). Comme le montre cette figure, il existe une forte variabilité
entre chacun de ces filtres, induisant une grande complexité dans leur
étude. Ces fonctions de transfert HRTF établissent donc une cartographie
spatiale minutieuse du système auditif humain et sont, de par leur nature
même, propres à chaque individu. Enfin, il est intéressant de souligner que
ces filtres peuvent être :
– Mesurés par réponse impulsionnelle sous forme de HRIR (e.g. [3], [62],
[6]) ;
– Modélisés de manière analytique (e.g. [85], [57], [25]) ou par simulation
numérique (e.g. [50], [51], [39]) ;
– Échangés sous forme de bases de données (e.g. [65], [9]) ;
– Individualisés, par divers et nommbreux procédés.
La compréhension et l’exploitation de ces HRTF représente un enjeu majeur
pour la recherche en spatialisation sonore, mais aussi pour les industriels
soucieux d’innovations technologiques. En effet, la perception d’un espace sonore
réaliste devient possible dès lors que les trois indices formant les HRTF
sont correctement restitués, ou dans une moindre mesure au moins l’un des
trois. Aussi, tout système de restitution sonore en exploite certaines proprié-
tés, directement sur casque audio ou indirectement sur enceintes.
13Figure 1.8 – Principe de la stéréophonie et notion de "Sweet Spot".
1.2 Exemples de systèmes de spatialisation
sonore
Il existe de nombreux systèmes de spatialisation sonore, chacun exploitant
de savants mélanges au sein des dimensions perceptives et physiques.
Dans cette section, trois de ces techniques sont détaillées, à savoir le panning
d’amplitude et sa généralisation au Vector Base Amplitude Panning (VBAP),
l’approche Ambisonics et son extension en High Order Ambisonics et pour
terminer la synthèse binaurale. Ce choix est principalement motivé par le fait
qu’elles ont toutes trois été intégrées dans le spatialisateur PifPaf3D, moteur
de rendu audio 3D Matlab détaillé dans le chapitre suivant.
1.2.1 Panning d’Amplitude, de la stéréo au VBAP
Le panning d’amplitude est apparu avec les premiers supports utilisant
plus d’un canal de diffusion et fait partie des plus anciennes techniques de
spatialisation sonore [83]. Le principe théorique est relativement simple, à
savoir la création d’une image sonore virtuelle dite "Fantôme", en jouant
sur la différence d’intensité de sources sonores réelles ( haut-parleurs). Tout
l’art de l’ingénieur du son consiste en l’obtention d’une image sonore robuste
et réaliste, répartissant judicieusement l’ensemble des objets virtuels
sur des segments reliant les sources réelles. La restitution stéréophonique,
encore très largement dominante aujourd’hui, est fondée sur ce principe. En
disposant l’auditeur et deux haut-parleurs (gauche et droit) sur les sommets
d’un triangle équilatéral, ce système permet une restitution spatialisée sur
une dimension d’espace. Il est important de noter qu’une contrainte forte af-
14Figure 1.9 – Disposition fixée de haut-parleurs en 5.1 (en traits pleins), 9.1
(en tirets) et 22.2 (en pointillés). (source Wikipedia)
fecte l’ensemble des systèmes de spatialisation sonore sur enceintes, à savoir
le positionnement des sources sonores par rapport à l’auditeur (notion de
Sweet Spot). Celle-ci est déjà présente sur un système à deux canaux, tel que
le montre la figure 1.8.
Dans la lignée de la stéréophonie, plusieurs systèmes de restitution en
audio spatialisé sont progressivement apparus, comme la quadriphonie, le
5.1, le 7.1, le 9.1, ou plus récemment le 22.2 de la NHK (fig. 1.9, [42]).
Tous utilisent des maillages de haut-parleurs répartis sur des positions préalablement
fixées dans l’espace autour de l’auditeur. Ces systèmes permettent
d’étendre les principes fondateurs de la stéréophonie sur des maillages plus
denses de haut-parleurs, sur un cercle entourant l’auditeur (1D), voire sur
une sphère (2D). En appliquant des lois de panning prédéfinies, des sources
sonores fantômes peuvent ainsi être créées. Il est intéressant de remarquer
qu’aucun de ces systèmes n’est réellement 3D en terme de répartition de
haut-parleurs. Ceci est notamment lié à la faible précision de la localisation
en distance, qui est préférentiellement rendue dans sa dimension perceptive
plutôt que physique [48].
Enfin, de récents travaux ont donné naissance aux techniques de Vector
15Figure 1.10 – Principe du Vector Base Amplitude Panning : la source virtuelle,
symbolisée par sa pression acoustique p, est générée par panning d’intensité
de coefficients Ij appliqués aux trois sources sonores adjacentes j.
(source www.ausim3d.com/products/Vectsonic)
Base Amplitude Panning (VBAP), autorisant une répartition quelconque des
haut-parleurs sur une sphère entourant l’auditeur [73]. Cette approche est une
extension de la stéréo vers un système à multiples sources sonores réelles,
ce qui permet de définir un support quelconque pour les sources fantômes
(triangle, quadrangle, etc.). Une loi d’interpolation est alors appliquée aux
canaux pour déterminer leurs gains, en utilisant notamment les cordonnées
barycentriques de la source virtuelle dans la base formée par les sources réelles
(fig. 1.10). Un maillage quelconque de haut-parleurs peut être envisagé, ce
qui permet de s’affranchir des contraintes liées aux systèmes fixes précédents.
Cette méthode a été implémentée dans le spatialisateur PifPaf3D, en marge
des travaux de thèse, et testée sur un maillage de 16 haut-parleurs répartis
dans une pièce de type bureau. Le script réalisé permet notamment de générer
le maillage triangulaire selon la position absolue des haut-parleurs, et de
naviguer en temps réel dans ses éléments pour créer les sources fantômes.
Les résultats de cette étude feront éventuellement l’objet d’une publication
ultérieure.
Face au développement de ces nouveaux systèmes de restitution, toujours
plus complexes et précis, la notion d’objet sonore ponctuel devient dès
lors incontournable pour que les techniques de spatialisation soient humaine-
16Figure 1.11 – (Gauche) Schéma du microphone Soundfield tel que breveté
[19]. Quatre capsules cardioïdes sont placées sur les faces d’un tétraèdre
régulier, dont les signaux (RF,LF,RB,LB) constituent le A-Format, ou format
ambisonique brut. (Droite) Les composantes directionnelles du B-Format
(W,X,Y,Z) ou format encodé. (source [20]).
ment réalisables. En effet, le mixage stéréo ne nécessite qu’un potentiomètre
pour répartir l’intensité sonore de la source virtuelle entre les deux canaux
de diffusion. Dans le cas d’un maillage triangulaire dense, il est nécessaire
de manipuler des objets sur des surfaces, ce qui complique singulièrement
l’interface homme-machine. C’est pourquoi l’ensemble de la chaîne de traitement
audio, de la captation à la restitution en passant par le mixage, subit
aujourd’hui de grands bouleversements.
1.2.2 High Order Ambisonics, captation et restitution
Parmi les nombreuses techniques émergentes de spatialisation sonore,
l’approche Ambisonics et son extension High Order Ambisonics (HOA) fournissent
une gamme d’outils complète sur l’ensemble de la chaîne de production
(e.g. [19], [20], [21], [33]). Originellement, elles sont issues des techniques
de prise de son par couple MS. Le principe général est de capter simultanément
et ponctuellement un champ sonore à l’aide d’un micro bidirectif
et d’un micro omnidirectionnel. Des informations directionnelles de la scène
sonore sont alors nativement incluses dans les signaux de sortie des microphones,
qui peuvent-être stockés ou échangés comme tels. Pour que l’image
sonore soit directement rendue, dans une dimension d’espace, il suffit ensuite
de restituer ce champ sur un système stéréophonique, par une sommation
17des signaux sur un haut-parleur et une opposition de phase sur l’autre. Cette
technique de prise de son fut généralisée aux trois dimensions d’espace par
Gerzon et donna naissance au fameux encodage B-Format du microphone
Soundfield (fig. 1.11). À la restitution, le B- Format est décodé pour s’adapter
au système de haut-parleurs, par exemple disposés sur les sommets d’un
cube. Ce processus d’encodage-décodage d’une scène sonore spatialisée est
une caractéristique propre des méthodes Ambisonics.
Cependant, cette approche souffre d’une faible précision spatiale de par la
nature même de la captation, à savoir cardioïde. Aussi, de nombreux travaux,
notamment ceux de J. Daniel [20], ont permis de créer un cadre robuste
pour étendre Ambisonics vers une précision supérieure, appelée High order
Ambisonics (HOA). Cette extension peut s’introduire de façon théorique en
considérant le problème de propagation des ondes dans un espace Ω homogène
et isotrope, dénué de sources, en régime harmonique. Sous ces hypothèses,
l’équation de Helmholtz formalise mathématiquement ce type de problème
et s’écrit comme suit :
−(∆ + k
2
)u = 0 avec u ∈ Ω. (1.1)
Cette équation peut être résolue en introduisant les harmoniques sphériques
(Y
m
l
), qui sont des fonctions propres de l’opérateur Laplace Beltrami sur la
sphère S
2
, associées aux valeurs propres l(l + 1) (e.g. [69], [82] et fig. 1.12).
Elles forment une base orthonormée pour le produit scalaire L
2
(S
2
) et sont
définies comme la trace sur la sphère unité S
2 des polynômes homogènes
harmoniques de degré l (i.e. à Laplacien nul sur R
3
). Cette base orthonormée
(Y
m
l
) peut être considérée comme un équivalent pour la sphère dans R
3 de
la base (e
inθ) pour le cercle dans le plan R
2
. D’un point de vue plus formel,
les fonctions de Legendre :
P
m
l
(x) = (−1)m(1 − x
2
)
m/2
d
m
dxm
Pl(x) avec m ≥ 0,
définies pour tout l dans N, −l ≤ m ≤ l et −1 < x < 1, construisent la
famille (Y
m
l
), définie par :
Y
m
l
(θ, φ) =
vuut
2l + 1
4π
(l − m)!
(l + m)!P
m
l
(cos(φ))e
imθ
. (1.2)
En fixant Ω comme l’intérieur ou l’extérieur de la sphère unité S
2
, toute
fonction u solution de l’équation de Helmholtz (1.1) peut se décomposer en
harmoniques sphériques comme suit :
u(k, r, θ, φ) = X
l,m
α
m
l
(k)Ul(kr)Y
m
l
(θ, φ). (1.3)
18Figure 1.12 – Représentation spatiale des cinq premières harmoniques sphé-
rique Y
m
l
, telles que r = |Y
m
l
(θ, φ)|.
En pratique, selon les conditions aux limites du problème considéré (Dirichlet,
Neumann, Fourier, etc.), la fonction radiale Ul(kr) est construite par
des combinaisons linéaires dans C de fonctions de Bessel sphériques, Hankel
sphériques et de leurs dérivées.
D’un point de vue strictement mathématique, le formalisme HOA est
pleinement contenu dans l’équation (1.3) et la propriété d’orthonormalité des
harmoniques sphériques pour le produit L
2
(S
2
) [20]. En effet, la captation
puis l’encodage HOA consiste en la création des signaux de projection α
m
l
sur
les harmoniques sphériques. Ces signaux peuvent être stockés, échangés et
utilisés en l’état pour effectuer des opérations simples, comme des zooms ou
des rotations spatiales. Par exemple, le B-Format est l’équivalent du signal
α
m
l pour l ≤ 1. Enfin, s’ensuit l’étape de décodage pour la restitution sur un
système de haut-parleurs en calculant cette fois les canaux u correspondants
aux signaux α
m
l
. Le protocole suivant, non exhaustif, résume les grandes
étapes d’un encodage-décodage HOA dans le cas d’une captation-restitution
d’une scène sonore spatialisée.
Encodage :
1. Suite à la captation d’une scène sonore par une sphère de microphones,
le problème aux limites correspondant est formalisé en domaine de Fou-
19rier pour expliciter les fonctions Ul(kr) sous forme de filtres fréquentiels
;
2. En considérant les valeurs du champ u aux positions des microphones
par rapport au centre de la sphère, la série en (1.3) peut alors être
tronquée ;
3. En projetant la série (1.3) tronquée sur la base orthonormée des harmoniques
sphériques par intégration sur S
2
, un système linéaire est
formé ;
4. Puis, ce système est résolu, fréquence par fréquence, pour déterminer
les coefficients α
m
l
(k) de la décomposition.
Cette étape d’encodage HOA permet de créer les signaux fréquentiels α
m
l
(k),
ou encore temporels α
m
l
(t) par transformée de Fourier inverse. Ces derniers
définissent un format d’échange évolutif et modulable (rotation, zoom, etc.),
indépendant de la sphère de microphones utilisée pour la captation. Le BFormat
Ambisonics est la version à l’ordre l = 1 du format HOA et le couple
MS en est la version d’ordre l = 1 avec m = 0 uniquement.
Décodage :
1. Un nouveau problème aux limites est formalisé pour la diffusion en
champ libre par une sphère de haut-parleurs, explicitant notamment
un nouveau filtre fréquentiel et une nouvelle matrice de décodage liés
aux positions des haut-parleurs dans l’espace centré sur l’auditeur ;
2. Par intégration sur S
2
, un nouveau système linéaire est formé ayant
pour inconnues les signaux ui discrets ;
3. Ce système est cette fois inversé, délivrant ainsi le signal à diffuser par
les haut-parleurs pour recréer un champ sonore identique à la captation.
Une version améliorée de ce protocole a été implémentée durant la thèse dans
le moteur PifPaf3D, notamment pour effectuer un rendu binaural d’une captation
par microphone Soundfield en A-Format (fig. 1.11). De nombreux dé-
tails soulèvent de grandes difficultés, non présentées dans ce manuscrit, mais
bien connues de l’homme de l’art. Peuvent être citées en exemple la troncature
de la série harmonique dans l’équation (1.3), les phénomènes d’aliasing
fréquentiel liés aux diverses discrétisations, la pseudo inversion de la matrice
rectangulaire des harmoniques sphériques, ou encore la régularisation
des filtres fréquentiels faisant appels aux fonctions de Bessel et Hankel sphé-
riques. Néanmoins, le module Matlab d’encodage-décodage HOA a donné
des résultats encourageants pour des captations par microphone Soundfield.
Il fera sans doute l’objet de recherches ultérieures, par exemple sur le rendu
20de microphones d’ordres plus élevés, ou non sphériques, ou encore pour de la
localisation spatiale de sources sonores.
Pour conclure, comme toute technique audio, HOA présente des avantages
et des inconvénients, à la fois sur les plans perceptif, physique et technique.
Ce manuscrit n’ayant pas pour vocation d’en faire une étude détaillée, mais
plutôt d’en expliciter les grandes lignes pour comprendre et exploiter l’outil,
le lecteur curieux pourra se documenter sur une littérature abondante
(e.g. [11], [20], [21], [59], [71]).
1.2.3 Technologies binaurales, enregistrement et synthèse
Binaural, binaurale, binauraux (adj. du latin bini/paire et auris/oreille)
se dit des perceptions auditives engendrées par une stimulation simultanée
des deux oreilles. (Larousse 2013 )
Cette définition introductive a pour but de fixer le vocabulaire employé
dans ce manuscrit. En effet, le terme binaural tend à se démocratiser ces
dernières années, en devenant un nom commun synonyme d’une écoute spatialisée
sur casque audio. En accord avec la définition précédente, il doit en
réalité être employé comme adjectif caractérisant une stimulation simultanée
des deux oreilles, ce qui induit une certaine prudence d’utilisation 1
... Ceci
étant, les technologies binaurales peuvent être introduites en distinguant
deux grandes techniques, ayant comme point commun leur mode de restitution
essentiellement sur casque audio, voire sur haut-parleur par Cross-Talk
Cancellation.
Tout d’abord, l’enregistrement binaural (fig. 1.13) consiste à effectuer une
prise de son par l’intermédiaire de deux microphones placés au niveau des
tympans d’un être humain, ou d’un objet reprenant tout ou partie des caractéristiques
de l’oreille externe (mannequin Gras Kemar, tête artificielle Neumann
KU100, oreilles Otokinoko, sphère The Audio BS3D, etc.). Cette technique
contient nativement des informations perceptives relatives à la scène
sonore originale, ce qui lui confère (en général) un rendu plutôt réaliste, à
la fois en direction et en distance. Cependant, elle souffre des contraintes
suivantes, liées à la "compression" des informations spatiales dans un signal
stéréo :
1. En effet, la quasi-totalité du monde de l’audio est basé sur une stimulation simultanée
des deux oreilles... Au même titre, les HRTF sont bien souvent associées au "binaural",
alors que tout système de restitution audio exploite de manière directe ou indirecte tout
ou partie des informations de localisation contenues dans ces filtres.
21Figure 1.13 – (Gauche) Enregistrement binaural par microphones DPA,
situés à l’embouchure du conduit auditif d’un joueur de violoncelle. (Droite)
Tête artificielle Neumann KU100, avec microphones intégrés au creux de
chaque "oreille". (source www.neumann.com)
1. Les divers objets de la scène sonore forment un tout difficilement dissociable
;
2. Il est difficile de construire manuellement une scène sonore ;
3. Les retouches par égaliseurs, compresseurs, limiteurs, réverbérateurs et
autres effets risquent d’altérer fortement la spatialisation, native à la
captation ;
4. A posteriori, les filtres HRTF liés à la prise de son ne peuvent pas être
individualisés à la morphologie de l’auditeur.
Aussi, même si cette approche est connue depuis la fin des années 60, ces
difficultés ont sans doute fait obstacle à sa popularisation, à la fois chez les
professionnels et les particuliers.
La seconde technique, appelée synthèse binaurale (fig. 1.14), réside en
l’application d’algorithmes de traitement du signal audio pour recréer artifi-
ciellement la perception spatialisée d’une scène sonore. Le principe de base
consiste à mesurer par réponse impulsionnelle les filtres HRIR gauches et
droits d’un auditeur, pour une position donnée dans l’espace. Puis, après
convolution d’une source audio mono par ces deux filtres, le fichier stéréo
issu de cette manipulation peut être écouté sur n’importe quel casque audio
(de facture honorable !). Dès lors, la source mono sera perçue dans la
direction de la position mesurée. En pratique, les HRIR sont mesurées en
plusieurs positions de l’espace et une interpolation spatiale de ces filtres est
effectuée pour convoluer n’importe quelle source audio dans n’importe quelle
22Figure 1.14 – (Gauche) Principe de base de la synthèse binaurale : x˜(t) correspond
au signal mono xA(t), perçu à la position (r, θ, φ) et délivré par les signaux
binauraux xL(t) et xR(t). Pour ce faire, xA(t) est convolué par les filtres
HRIR gauches h˜
L(t) et droit h˜
R(t) de la position (r, θ, φ), généralement obtenus
par interpolation sur une base de données de HRIR. (source Wikipedia)
(Droite) Système de mesure de HRTF de l’ARI. (source www.kfs.oeaw.ac.at)
23direction. Sous réserve d’un workflow draconien, la synthèse binaurale peut
s’affranchir des contraintes précédentes liées à l’enregistrement binaural, à
savoir :
1. Les sources sonores peuvent être des objets dissociés, issus de prises de
son séparées ou non ;
2. Une scène sonore se construit manuellement, par positionnement des
sources dans l’espace ;
3. Toutes les retouches nécessaires peuvent être faites avant le rendu par
synthèse binaurale, préférentiellement effectué en dernier dans la chaîne
de production sonore ;
4. Les bases de données HRIR utilisées pour les convolutions peuvent être
différentes selon l’utilisateur, voire même individualisées.
Ce sont toutes ces possibilités offertes par la synthèse binaurale qui ont motivé
l’ensemble de ce travail de recherche appliquée, en particulier le dernier point
sur l’individualisation des filtres HRIR/HRTF par des méthodes numériques
non intrusives. Aussi, même si cette technique est beaucoup plus difficile à
mettre en œuvre, les progrès matériels et logiciels de ces dix dernières années
appliqués au traitement du signal offrent aujourd’hui de nouvelles perspectives.
Le contexte CIFRE de cette thèse n’est d’ailleurs pas sans rappeler
que de nombreux industriels suivent de très (très) près les récentes avancées
faites en synthèse binaurale, toujours plus prometteuses.
1.3 Head-Related Transfer Function, what else ?
Pour mieux saisir les difficultés liées à l’utilisation des filtres HRTF en
synthèse binaurale, une analyse systémique de ces filtres est présentée dans
cette section. Cette analyse est effectuée dans la dimension physique des fonctions
de transfert, sans se soucier des questions perceptives. La méthodologie
est discutable au regard de la psycho-acoustique, mais facilite l’appréhension
des résultats de mesures, ainsi que leur couplage avec des résultats issus de
modélisations analytiques ou de simulations numériques. Par ailleurs, cette
approche rigoureuse a donné naissance à une décomposition fonctionnelle
des HRTF en éléments modélisables et résiduels, détaillée dans la section
suivante. Aussi, dans toute la suite, les HRTF seront avant tout considérées
comme des solutions de radiation sphérique d’un problème de diffraction des
ondes sonores par un objet essentiellement rigide, à savoir l’être humain.
24Figure 1.15 – Repère en coordonnées sphériques, convention en rayonlongitude-latitude
correspondant respectivement à la distance (ρ), l’azimut
(θ) et l’élévation (φ). (source Wikipedia)
1.3.1 Modèle de HRTF, la sphère rigide
Avant de s’intéresser aux HRTF réelles issues de mesures en laboratoire,
certaines bases méritent d’être posées en étudiant un modèle simplifié, comme
les HRTF d’une sphère rigide sans pavillon. Ceci permet notamment d’introduire
différents modes de représentations, ainsi que des résultats utiles pour
la suite. Pour ce faire, il existe deux principaux modèles associés au problème
de diffraction d’une onde sonore par un objet sphérique.
Le premier modèle fournit une solution dans le domaine temporel, à savoir
une évaluation analytique du retard interaural (ITD) pour une sphère rigide
(e.g. [57], [85]). Ce retard correspond à la différence de temps de propagation
d’une onde sonore à l’infini entre deux points diamétralement opposés sur
la sphère. En considérant que la direction d’une source sonore à l’infini est
caractérisée par un angle d’azimut θ et d’élévation φ dans un repère sphérique
(fig. 1.15), le retard interaural τ s’exprime par :
τ =
a
c
× (arcsin(cos φ sin θ) + cos φ sin θ), (1.4)
avec a le rayon de la tête sphérique considérée et c la célérité des ondes sonores
dans l’air. La figure (fig. 1.16) donne une représentation du retard τ calculé
par le modèle d’ITD (1.4), en fonction de l’azimut θ, pour trois élévations φ
significatives. Le rayon de tête choisi pour les calculs correspond au rayon de
tête sphérique moyen (a = 8.74 cm [58]) et la vitesse du son dans l’air est
25Figure 1.16 – Représentation de l’ITD τ calculé par le modèle de Larcher
(1.4), en fonction de l’azimut θ, pour trois élévations φ significatives.
prise à 15˚C (c = 340 m/s). En pratique, ce modèle peut simplement être mis
en œuvre en approchant les HRTF comme une combinaison de déformations
spectrales en amplitude et d’un retard pur :
HRT F(θ, φ) = |HRT F(θ, φ)|e
iτ(θ,φ)
.
Cette décomposition est surtout valable en basse fréquence, lorsque l’approximation
de tête sphérique est légitime. Cette technique a été implémentée dès
la toute première version du logiciel PifPaf3D, notamment pour faciliter les
interpolations de filtres et autoriser une personnalisation de la synthèse binaurale
au diamètre de la tête de l’auditeur. Cependant, malgré des résultats
perceptifs encourageants, cette approche est trop grossière en haute fréquence
pour être raisonnablement suffisante.
Le second modèle sphérique a été introduit par Duda [25] et exploite les
solutions analytiques du problème de diffraction d’onde par une sphère rigide
de rayon a, en régime harmonique de nombre d’onde k. La source sonore est
cette fois ponctuelle et localisée dans l’espace. Comme ce problème possède
une symétrie de révolution, la position de cette source sera entièrement dé-
terminée par sa distance r et son angle d’incidence θ. La fonction de transfert
HS issue de cette modélisation est analytique et donnée par :
HS(k, a, r, θ) = −
r
ka2
e
−ikr X∞
m=0
(2m + 1)Pm(cos θ)
hm(kr)
h
0
m(ka)
, r > a, (1.5)
où Pm est le polynôme de Legendre de degré m et hm la fonction de Hankel
sphérique de degré m. De plus, Duda propose un algorithme récursif
pour évaluer les fonctions de Hankel et leurs dérivées, ce qui permet un calcul
rapide et facilite l’étude. Les deux premières représentations graphiques
26Figure 1.17 – Représentations des HRTF du modèle sphérique de Duda,
dans le plan azimutal. (Haut) Amplitude spectrale. (Milieu) Portrait de
phase. (Bas) Amplitude signal HRIR.
27de la figure 1.17 montrent l’amplitude spectrale et le portrait de phase des
HRTF sphériques de Duda, évalués à partir de l’équation (1.5). Dans le repère
sphérique de la figure 1.15, ces deux grandeurs sont données pour "l’oreille
gauche", située en (0, a, 0). La discrétisation angulaire du plan d’incidence
(azimutal) est de l’ordre du degré et la discrétisation fréquentielle compte 129
échantillons répartis régulièrement entre 0 et 24 kHz. Les valeurs d’amplitude
spectrale sont données en dB sur un intervalle audible fixe ([−60, 0] dB) et
la phase est exprimée en radian ([−π, π] rad). Sur la figure 1.17, les amplitudes
spectrales des sources ipsilatérales sont relativement monotones,
alors qu’apparaissent des interférences constructives et destructives pour les
sources contralatérales. De plus, pour les sources diamétralement opposées
au point de mesure sur la sphère (θ = 270˚), les interférences constructives
amènent un gain jusque 20 dB supérieur aux sources juxtaposées. Enfin, le
portrait de phase est relativement uniforme, avec des isovaleurs caractéristiques
d’un problème à géométrie sphérique, excepté pour ces mêmes sources
diamétralement opposées, qui présentent un saut de phase. La dernière repré-
sentation graphique de la figure 1.17 montre la transformée de Fourier inverse
des HRTF sphériques, soit les HRIR du modèle sphérique de Duda dans le
plan d’incidence. La discrétisation temporelle compte 256 échantillons sur
un intervalle de l’ordre de quelques millisecondes. Les valeurs d’amplitude
du signal sont données en dB sur un intervalle audible fixe ([−60, 0] dB). Le
modèle d’ITD de Larcher (1.4) en élévation nulle (fig. 1.16) est clairement
visible sur la représentation temporelle des HRIR sphériques. Il est néanmoins
intéressant de noter un lissage pour l’azimut θ = 90˚, correspondant
à une source ipsilatérale. Ceci peut s’expliquer par l’approximation d’onde
incidente à l’infini dans le modèle de Larcher, qui diffère de l’approximation
en sources ponctuelles dans le modèle de Duda. Par ailleurs, un second front
d’ondes d’amplitude non négligeable apparaît pour les sources contralaté-
rales, retardé par rapport au front d’onde caractérisant l’ITD. Ce résidu est
généré par les ondes contournant la sphère par le chemin diamétralement
opposé au plus court trajet, dans le plan d’incidence.
La figure 1.17 donne une première forme de représentation graphique des
HRTF sphériques, à la fois en fréquence, en temps et en espace. Cependant,
autant où les représentations strictement azimutales s’avèrent consistantes
pour les HRTF sphériques, autant où elles sont incomplètes pour les HRTF
réelles. En effet, ces dernières sont des données directionnelles n’ayant a priori
pas de symétries particulières. Or, l’ajout d’une dimension pour l’élévation
complique grandement l’analyse, qui nécessite des supports clairs et intuitifs
pour être rigoureuse et efficace. Aussi, en fixant la fréquence, une représentation
aplatie en azimut θ et élévation φ de l’amplitude spectrale (fig. 1.18) et
du portrait de phase (fig. 1.19), est un bon complément des représentations
28Figure 1.18 – Amplitude spectrale (dB) des HRTF gauches du modèle
sphérique de Duda (eq. 1.5). Représentation en azimut θ et élévation φ, à
fréquence fixe f.
29Figure 1.19 – Portrait de phase (radian) des HRTF gauches du modèle
sphérique de Duda (eq. 1.5). Représentation en azimut θ et élévation φ, à
fréquence fixe f.
30Figure 1.20 – Répartition spatiale des positions de mesures pour la base de
données ARI. (source [6])
exclusivement fréquence-azimut précédentes. Sur ces figures, les discrétisations
en azimut θ et élévation φ pour le modèle analytique de Duda sont
de l’ordre du degré dans chaque dimension. Cette nouvelle représentation
offre l’avantage d’afficher toutes les données spatiales sans idées reçues et de
mesurer pleinement la nature ondulatoire des HRTF. En effet, l’amplitude
spectrale et la phase des HRTF sphériques de Duda (fig. 1.18 et 1.19) ne
sont pas sans rappeler les figures d’interférences classiques des problèmes de
diffraction d’onde. Enfin, la symétrie axiale d’axe de rotation interaural Oy
est parfaitement visible.
Tous les outils de représentation graphique étant désormais établis avec
un modèle analytique, le problème réel des HRTF mesurées peut maintenant
être abordé.
1.3.2 Mesures de HRTF, Acoustics Research Institute
La base de données récemment mesurée à l’Acoustics Research Institute
de l’Austrian Academy of Science a été utilisée dans cette section à des fins
de recherche, sous licence Creative Commons (cc). Ces mesures présentent
l’avantage de compter 1550 positions, quasi-uniformément espacées sur plus
d’une demi-sphère (fig. 1.20), avec un écart angulaire de 2.5˚ frontalement
et de 5˚ sinon. Au vu des schémas de diffraction précédents pour le modèle
sphérique analytique (fig. 1.18 et 1.19), ce faible écart angulaire semble
31indispensable pour représenter le plus fidèlement possible les variations en
hautes fréquences. Pour réaliser ces mesures, le dispositif expérimental mis
en place consiste en une batterie de haut-parleurs disposés en arc de cercle
autour d’une chaise rotative où s’assoit le sujet, dans une chambre semianechoïque
(fig. 1.14). Les HRIR sont mesurées par sweep multiples [64] de
50 Hz à 20 kHz, puis post-traitées par filtrage inverse en minimum de phase
de l’amplitude spectrale de la Common Transfer Function (CTF), afin de
compenser l’impact de l’équipement sur la mesure. Pour finir, elles ont été
filtrées par coupe-haut à 18 kHz (ce qui rend les données non valables au-delà
de cette limite), puis fenêtrées en temps sur 256 échantillons (Tukey asymé-
trique). Pour plus d’informations sur le protocole expérimental, un extrait
est disponible sur le site de l’ARI [6]. Enfin, il n’est pas inutile de préciser
que cette base de données est disponible au format Matlab, ce qui en facilite
grandement l’usage.
La figure 1.21 donne les représentations de l’amplitude spectrale, de la
phase et de l’amplitude signal des HRTF du sujet NH5 de la base ARI, en
azimut-fréquence. La discrétisation azimutale θ est semi-régulière, avec un
pas de 2.5˚ autour de θ = 0˚ et un pas de 5˚ sinon. Les valeurs d’amplitude
spectrale ont été normalisées et sont données en dB sur l’intervalle audible
fixe [−60, 0] dB, pour faciliter les comparaisons avec le modèle sphérique
de Duda (fig. 1.17). La discrétisation fréquentielle compte 129 échantillons
répartis régulièrement entre 0 et 24 kHz et l’équivalent temporel présente
256 échantillons sur un intervalle de l’ordre de quelques millisecondes. D’une
part, sur la représentation temporelle, le modèle d’ITD de Larcher (fig. 1.16)
est parfaitement visible, avec le même décrochement à θ = 90˚ que pour la
modélisation analytique de Duda (fig. 1.17). De plus, un certain nombre de
réflexions supplémentaires, engendrées par le pavillon de l’oreille, mais aussi
les épaules et le torse, se dessinent en suivant les mêmes courbes d’ITD.
Ces réflexions sont à l’origine des importantes déformations spectrales en
amplitude et en phase, caractéristiques des HRTF. D’autre part, certaines
remarques peuvent se dégager de l’analyse comparative des représentations
fréquentielles des HRTF modélisées (fig. 1.17) et mesurées (fig. 1.21) :
– Les HRTF des sources contralatérales (θ proche de 270˚) sont beaucoup
plus complexes que celles ipsilatérales (θ proche de 90˚) ;
– L’amplitude spectrale des HRTF mesurées est relativement lisse, dans
le sens où ses variations présentent peu de sauts critiques, excepté en
faible amplitude ;
– Le portrait de phase présente quant à lui de fortes variations et de
nombreux sauts ;
– Le modèle de Duda est visible sur l’amplitude spectrale, notamment
en basse fréquence pour l’oreille contralatérale et se retrouve aussi sur
32Figure 1.21 – Représentations des HRTF du sujet NH5 de la base de données
ARI, dans le plan azimutal. (Haut) Amplitude spectrale, avec filtrage coupehaut
d’origine. (Milieu) Portrait de phase. (Bas) Amplitude signal HRIR.
33toute la bande fréquentielle du portrait de phase.
Ce dernier point, parfaitement empirique, est fondamental puisqu’il a donné
naissance au principe de Décomposition par Modèle Morphologique des HRTF,
présenté dans la suite de ce manuscrit.
En complément des représentations azimutales précédentes, les figures 1.22
et 1.23 donnent les représentations en azimut-élévation à fréquence fixe des
HRTF mesurées du sujet NH5 de la base ARI. La discrétisation spatiale de
cette base oscillant entre 2.5˚ et 5˚, ces figures présentent une discrétisation
tous les degrés d’espace en considérant la valeur du plus proche voisin mesuré,
ce qui correspond aux diagrammes de Voronoï. Ceci permet d’afficher
les résultats de mesures bruts, sans interpolations graphiques éventuellement
préjudiciables à l’analyse des données. Les positions spatiales des données mesurées
sont représentées par des points noirs. Les propriétés précédemment
observées se retrouvent dans la représentation spatiale des HRTF. En effet,
l’amplitude spectrale (fig. 1.22) est relativement lisse, y compris en haute
fréquence. Certains décrochements sont néanmoins visibles pour les sources
contralatérales (en bleu foncé). Mais ces valeurs sont relativisées par leur
faible amplitude en échelle logarithmique. Cette représentation laisse penser
que la discrétisation spatiale de la base ARI semble surdéterminée, au regard
des faibles variations entre chaque point de mesure. Une interpolation,
linéaire ou d’ordre supérieur, pourrait donc être envisagée. En revanche, le
portrait de phase est quant à lui bien plus oscillant (fig. 1.23). La discrétisation
spatiale est suffisante pour une représentation à 0.5 kHz, mais commence
à pêcher pour les sources contralatérales à 8 kHz et devient manifestement
insuffisante pour ces mêmes positions à 16 kHz. Une interpolation de ces
données en l’état est donc relativement difficile à haute fréquence, mais reste
envisageable (cf. section suivante). Il est néanmoins intéressant de remarquer
une certaine symétrie axiale par rotation autour de l’axe interaural, qui
n’est pas sans rappeler le portrait de phase sphérique du modèle de Duda
(fig. 1.19).
Toutes les représentations brutes des HRTF et des HRIR équivalentes
étant établies, celles-ci vont désormais servir de référence dans toute la suite
de ce chapitre.
1.3.3 Interpolation linéaire
Les représentations précédentes des diagrammes de Voronoï en azimut-
élévation (fig. 1.22 et 1.23) amènent naturellement la question de l’interpolation
spatiale des filtres HRTF, à savoir :
Comment construire des données pertinentes entre les positions
discrètes des mesures ?
34Figure 1.22 – Amplitude spectrale (dB) des HRTF gauches du sujet NH5
de la base de données ARI. Représentation en azimut θ et élévation φ, à
fréquence fixe. Les positions des mesures sont données par les points noirs.
35Figure 1.23 – Portrait de phase (radian) des HRTF gauches du sujet NH5
de la base de données ARI. Représentation en azimut θ et élévation φ, à
fréquence fixe. Les positions des mesures sont données par les points noirs.
36Cette question est fondamentale pour la compréhension de ces fonctions de
transfert, ainsi que pour leur exploitation industrielle (e.g. [17], [45], [57]).
Par exemple, une interpolation spatiale de haute qualité permet notamment :
– Un rendu dynamique de la spatialisation sonore en minimisant les artefacts
audibles ;
– L’ajout d’un head-tracking transparent ;
– Une minimisation de la densité spatiale des mesures, ce qui diminue
leur durée, simplifie les appareillages nécessaires et décroit la taille des
bases de données de façon quadratique.
Pour ce faire, une interpolation linéaire par triangularisation sphérique de la
sphère de mesures a été préférentiellement choisie. Tant que la discrétisation
des fonctions à interpoler est suffisante pour appliquer une hypothèse de
linéarité locale, ce type d’interpolation est un bon compromis entre précision
et coûts de calcul. L’algorithme exploité pour produire les représentations
ci-après peut se résumer comme suit :
1. Considérer le nuage de points de mesures en coordonnées sphériques ;
2. Subdiviser la surface sphérique en triangles plans, ayant pour sommets
les points des mesures ;
3. Construire une grille régulière plus fine, par exemple, tous les degrés
en azimut θ et élévation φ ;
4. Interpoler linéairement triangle par triangle les données aux nœuds sur
cette nouvelle grille.
Au vu des variations des HRTF brutes (fig. 1.22 et 1.23), le module et
la phase des HRTF ont été traités séparément. Les figures (fig. 1.24 et 1.25)
représentent respectivement en azimut-élévation les interpolations linéaires
de l’amplitude spectrale et de la phase des HRTF mesurées du sujet NH5
de la base ARI. L’interpolation linéaire de l’amplitude spectrale (fig. 1.24)
donne d’excellents résultats puisque, comparativement aux mesures originales
(fig. 1.22), les variations semblent entièrement décrites avec la discrétisation
spatiale de la base ARI et ce, quelle que soit la fréquence. Autour de l’oreille
contralatérale, seuls quelques "trous" de faible amplitude mériteraient une
étude plus approfondie, mais leur importance est moindre au regard de la
faible amplitude de la zone avoisinante. D’autre part, à 8 kHz, des stries
horizontales apparaissent pour l’oreille ipsilatérale et semblent fonctions de
l’élévation. Selon le protocole expérimental, à savoir une rangée de hautparleurs
distincts en élévation, il est possible que l’égalisation du dispositif
impacte la mesure. Cette problématique limite les mesures d’erreurs possibles
et peut justifier qu’une interprétation purement graphique des résultats soit
suffisante en première approche. En revanche, l’interpolation linéaire de la
37Figure 1.24 – Interpolation linéaire de l’amplitude spectrale (dB) des HRTF
gauches du sujet NH5 de la base de données ARI. Représentation en azimut
θ et élévation φ, à fréquence f fixe. Les positions des mesures sont données
par les points noirs. 38Figure 1.25 – Interpolation linéaire du portrait de phase (radian) des HRTF
gauches du sujet NH5 de la base de données ARI. Représentation en azimut
θ et élévation φ, à fréquence f fixe. Les positions des mesures sont données
par les points noirs. 39phase (fig. 1.25), peut quant à elle être considérée comme un échec. En effet,
même si le portrait de phase original (fig. 1.25) est relativement consistant
pour les fréquences 1 kHz, voire 8 kHz, la discrétisation spatiale de la base
ARI est clairement insuffisante pour ce type d’interpolation à 15 kHz. En
effet, étant donné que les données spatiales brutes présentent de nombreux
sauts de π vers −π, une interpolation linéaire entre ces sauts génère des artefacts
visibles et audibles. À titre comparatif, le portrait de phase théorique
des HRTF sphériques de Duda (fig. 1.19) peut être mis en regard du portrait
de phase interpolé (fig. 1.25).
Comme les oscillations observées résultent en grande partie de la repré-
sentation modulo 2π, une approche classique consiste à "dérouler" la phase
pour retirer les sauts de π vers −π, obtenant ainsi une phase continue sur un
intervalle élargi [10]. Mais, comme le montrent les mesures brutes (fig. 1.23),
la question de la direction du déroulement est loin d’être triviale. En effet,
celui-ci doit respecter la causalité, qui est difficile à évaluer directement pour
des fonctions de transfert définies sur deux dimensions d’espace (azimut et
élévation). Des travaux de recherches ont précédemment été entrepris pour
tenter de résoudre cette problématique, donnant lieu à des méthodes comme :
– Soustraire la portion de phase linéaire liée au retard de propagation ;
– Soustraire la portion de phase minimale déduite du spectre d’amplitude
et représenter l’excès de phase déroulé ("unwrapped").
La seconde approche est considérée notamment dans la thèse de Véronique
Larcher et propose de mesurer le retard de propagation par une approximation
linéaire de l’excès de phase (e.g. [57]).
Une autre méthode, utilisée ici, consiste à interpoler directement les HRTF
dans le domaine complexe, en séparant la partie imaginaire et la partie réelle.
Étant donné que la transformée de Fourier et la méthode d’interpolation sont
toutes deux linéaires, cela revient à effectuer une interpolation linéaire en domaine
temporel, soit directement sur les HRIR [45]. L’amplitude spectrale
(dB) et la phase (rad) peuvent alors être extraites du résultat et représentées
en azimut-élévation à fréquence fixe. Suivant cette technique, le portrait de
phase (fig. 1.27) semble cette fois plus cohérent que précédemment (fig. 1.25),
notamment à 1 kHz, voire 8 kHz. Cependant, les variations à 16 kHz étant
toujours trop fortes pour être interpolées correctement, de nouveaux artefacts
apparaissent, comme des phases spatialement constantes (visibles aussi
à 8 kHz pour les sources contralatérales). D’autre part, l’amplitude spectrale
de cette méthode (fig. 1.27) est quant à elle plutôt médiocre à 8 kHz et
16 kHz, car un aliasing spectral perturbe la reconstruction. Même si la répartition
générale est respectée (fig. 1.22), ces oscillations locales de l’amplitude
spectrale sont du domaine de l’audible. Ceci modifie de manière conséquente
le timbre de la source sonore restituée et peut affecter la localisation spa-
40Figure 1.26 – Amplitude spectrale (dB) de l’interpolation linéaire complexe
des HRTF gauches du sujet NH5 de la base de données ARI (équivalent
de l’interpolation des HRIR). Représentation en azimut θ et élévation φ, à
fréquence fixe. 41Figure 1.27 – Phase (radian) de l’interpolation linéaire complexe des HRTF
gauches du sujet NH5 de la base de données ARI (équivalent de l’interpolation
des HRIR). Représentation en azimut θ et élévation φ, à fréquence fixe.
42tiale. Cet aliasing est majoritairement dû à la sous-discrétisation spatiale de
la phase, qui vient perturber l’interpolation linéaire en domaine temporel.
En effet, l’interpolation linéaire des HRTF fait appel à des combinaisons de
filtres, qui peuvent générer des erreurs lorsque les interpolants présentent une
trop grande variabilité, ou un mauvais alignement temporel.
À partir de ces résultats, une première intuition pour interpoler les HRTF
serait de combiner une interpolation linéaire de l’amplitude spectrale (fig. 1.24)
avec la phase d’une interpolation temporelle (fig. 1.27). Mais cette phase
étant reliée à une amplitude spectrale avec fort aliasing (fig. 1.26), rien ne
garantit la validité du résultat. Une nouvelle méthode, dite de "Décomposition
par Modèle Morphologique", a été mise au point pour répondre à cette
problématique.
1.3.4 Interpolation par harmoniques sphériques
En complément de l’interpolation linéaire précédente, un autre type d’interpolation
a été étudié, issu des travaux de R. Duraiswami et N. Gumerov
(e.g. [27], [28], [53]). Le principe général de la méthode consiste à projeter
sur les harmoniques sphériques Y
m
l
(eq. 1.2, fig. 1.12) des fonctions u défi-
nies sur la sphère S
2
, afin de les interpoler en n’importe quel point. Comme
les harmoniques sphériques forment une base orthonormée de L
2
(S
2
), toute
fonction u ∈ L
2
(S
2
) peut se décomposer selon la série (1.3), indépendamment
de r :
u(θ, φ) = X∞
l=0
X
+l
m=−l
α
m
l Y
m
l
(θ, φ), (1.6)
avec α
m
l
les coefficients de cette décomposition. Cette écriture autorise la
formation de systèmes matriciels, qui peuvent être résolus ou inversés selon
le changement de base souhaité. Pour ce faire, la série précédente doit être
tronquée à une valeur fixe l ≤ L, ce qui donne (L + 1)2
termes. Puis, en
considérant N données discrètes ui évaluées aux points (θi
, φi) sur la sphère
S
2
, la série (1.6) peut être réécrite sous la forme matricielle :
U = Aα, (1.7)
avec A une matrice rectangulaire formée par les harmoniques sphériques tronquées,
évaluées aux points de mesures (θi
, φi). Cette matrice peut être mal
conditionnée, notamment par une répartition parfois incomplète des N mesures
sur la sphère. Aussi, lorsque les coefficients α
m
l
sont obtenus par inversion
du système linéaire (1.7), une régularisation de type Tikhonov peut-être
mise en place [27] :
A
TU = (A
TA + D)α. (1.8)
43Dans l’équation (1.8), D = diag(1 + l(l + 1)) est une matrice diagonale
favorisant les harmoniques sphériques d’ordre peu élevé, pour minimiser les
perturbations générées par des "trous" spatiaux présents dans les données
originales. D’autre part, est introduit comme constante de pondération
de cette régularisation. Après de nombreux essais, un algorithme empirique,
relativement simpliste, a été conçu pour calculer automatiquement . En
effet, les grandes valeurs de favorisent le lissage, dont l’excès engendre une
perte de précision importante dans les informations spatiales. Par ailleurs, les
petites valeurs de peuvent rendre la régularisation parfaitement inopérante.
Par conséquent, ce paramètre doit être judicieusement choisi pour obtenir de
bons résultats, notamment selon le conditionnement du système à résoudre
(M = ATA + D). Pour cela, un estimateur normalisé du conditionnement
est calculé par le produit ||M||2 × ||M−1
||2, avec une donnée initiale 0 fixée
à 10−6
. Tant que la valeur de l’estimateur est plus grande que 104
, ce qui
correspond traditionnellement à un système mal conditionné, est multiplié
par 10 et l’estimateur est recalculé. Cette régularisation semble relativement
efficace pour pallier les nombreuses erreurs numériques engendrées par les
troncatures, ou les répartitions de données incomplètes. Pour résumer, une
interpolation par harmoniques sphériques d’une fonction u ∈ L
2
(S
2
) peut
être effectuée par l’algorithme suivant :
1. Considérer N valeurs connues de la fonction u sur la sphère, pour former
le vecteur second membre U de l’équation régularisée (1.8) ;
2. Tronquer la série (1.6) à un ordre L en fonction de la précision de
l’interpolation voulue, pour construire la matrice A aux N positions
connues de la fonction u ;
3. Appliquer la régularisation de Tikhonov, ce qui permet a priori de
prendre L relativement quelconque ;
4. Résoudre l’équation (1.8) par inversion matricielle pour calculer le vecteur
α des coefficients de décomposition α
m
l
;
5. Construire une nouvelle matrice B d’harmoniques sphériques, évaluées
aux M positions (θ, φ) à interpoler ;
6. Calculer le produit matrice-vecteur Bα pour obtenir le vecteur des
valeurs de la fonction u aux positions interpolées.
Cet algorithme, parfaitement générique, peut être appliqué à toute fonction
u ∈ L
2
(S
2
), à valeurs dans R ou C.
Or, en décomposant les HRTF fréquence par fréquence, les données ré-
sultantes sont typiquement des fonctions de L
2
(S
2
) à valeurs dans C. Par
ailleurs, leurs module, phase et transformée de Fourier (HRIR) sont aussi des
44fonctions de L
2
(S
2
), à valeurs dans R. L’interpolation par harmoniques sphé-
riques peut donc être appliquée à tous ces objets, pour estimer des données
spatiales non mesurées. Ce type d’interpolation présente l’avantage d’être
global, contrairement à l’interpolation linéaire qui est un algorithme local.
De plus, la régularisation de Tikhonov induit un certain lissage, qui peut
avantageusement compenser les erreurs ponctuelles inhérentes aux mesures.
Enfin, les coefficients α
m
l ne sont rien d’autres que les signaux utilisés par
les technologies HOA présentées dans la section précédente. Aussi, cet algorithme
peut-être utilisé pour assurer la conversion des mesures discrètes
aux signaux ambisonics. Néanmoins, la répartition non uniforme des données
issues de systèmes de mesures mécaniques peut générer des erreurs difficilement
maîtrisables, notamment à haute fréquence pour des bases de HRTF
non suffisamment denses.
Pour limiter le nombre de figures, cet algorithme a uniquement été appliqué
à l’amplitude spectrale des HRTF du sujet NH5 de la base ARI (fig. 1.28
et 1.29). Ces données sont donc à valeurs dans R, avec N = 1550 mesures
sur une calotte sphérique d’élévation comprise entre −30˚< φ < 80˚ (points
noirs). Dans un premier temps, la troncature a été arbitrairement fixée à
L = b
√
Nc = 39 (fig. 1.28) et la constante de régularisation calculée vaut
= 1, significative d’un système assez mal conditionné. Au vu des données
manquantes pour compléter la sphère, cette valeur n’est pas vraiment surprenante.
La comparaison de ces résultats aux mesures brutes (fig. 1.22), ainsi
qu’à l’interpolation linéaire (fig. 1.24), semble montrer que ce type d’algorithme
est bien adapté à l’interpolation de ces HRTF, et ce, quelque soit la
fréquence. Ceci est principalement dû à la grande densité spatiale des mesures
originales, autorisant un ordre élevé d’harmoniques sphériques. Cette
approche avec L grand conduit à une interpolation fidèle des données, qui
ressemble finalement beaucoup à une interpolation linéaire (fig. 1.24). En
effet, un des intérêts de cet algorithme réside dans sa considération globale
de l’information spatiale, ce qui est assez peu visible sur la figure (fig. 1.28)
tant l’ordre de troncature est élevé. Aussi, un ordre de troncature arbitraire
a été fixé à L = 15, tout en conservant les autres paramètres à l’identique.
Le coefficient calculé vaut cette fois 0.1, la matrice étant mieux conditionnée.
Un système extrêmement surdéterminé est donc résolu, engendrant un
moyennage spatial de l’ensemble des données disponibles. Les résultats de
cette approximation sont représentés sur la figure 1.29. Quelle que soit la
fréquence, un lissage est clairement visible, tout en conservant les principales
variations des HRTF originales (fig. 1.22). Ceci a pour conséquence d’égaliser
sphériquement les mesures entre elles, pour en dégager l’essentiel. En faisant
l’hypothèse (raisonnable) que le système auditif est limité en précision, donc
en ordre de troncature d’harmoniques sphériques, cette méthode permet de
45Figure 1.28 – Interpolation par harmoniques sphériques (L = 39) de l’Amplitude
spectrale (dB) des HRTF gauches du sujet NH5 de la base de données
ARI. Représentation en azimut θ et élévation φ, à fréquence fixe.
46Figure 1.29 – Interpolation par harmoniques sphériques (L = 15) de l’Amplitude
spectrale (dB) des HRTF gauches du sujet NH5 de la base de donnée
ARI. Représentation en azimut θ et élévation φ, à fréquence fixe.
47générer des bases de données HRTF particulièrement adaptées à la synthèse
binaurale. Il reste néanmoins à trouver par des tests subjectifs l’ordre de
troncature optimal minimisant les erreurs de localisation.
Que ce soit pour la conversion des HRTF en format HOA, pour l’égalisation
sphérique de l’information, ou encore pour l’interpolation globale
et automatique des mesures, une attention particulière a été portée à cette
méthode durant cette recherche doctorale. Ces études ont conduit à la publication
de deux articles de conférence [8] et [9]. Le premier de ces articles
concerne l’interpolation harmonique de l’ITD, qui est une fonction de L
2
(S
2
)
dans R. Le second propose une analyse approfondie de la précision de cet
algorithme, en mesurant l’erreur d’une interpolation des HRTF sur une grille
de mesure dense déraffinée.
1.4 Décomposition par Modèle Morphologique
La Décomposition par Modèle Morphologique est issue du constat classique
que les modèles sphériques de Larcher [57] et Duda [25] (fig. 1.16 et
1.17) se retrouvent nettement dans les représentations temporelles des HRIR
mesurées (fig. 1.21). Aussi, de nombreuses recherches ont été faites et sont
actuellement en cours, pour affiner ces modélisations en construisant analytiquement
et/ou numériquement des HRTF s’approchant de mesures réelles,
en phase comme en amplitude spectrale (e.g. [4], [26], [37], [52], [72], [81]).
Toutes ces méthodes ont comme point commun de s’inscrire dans une logique
de "construction" de modèles de HRTF, se voulant de plus en plus
proches de mesures expérimentales. La simulation numérique par Boundary
Element Method accélérés en Fast Multipole sur des maillages de tête individuels
haute-résolution en est un aboutissement des plus complexes (e.g. [30],
[39], [56]). La Décomposition par Modèle Morphologique suit une démarche
inverse, qui consiste cette fois à "retirer" des mesures originales les solutions
exactes ou approchées issues de modélisations élémentaires. Les HRTF
deviennent dès lors le résultat d’un couplage astucieux entre modèle(s) et
mesures, ayant vocation à exploiter les avantages de chacun. Cette distinction
de cheminement est le point fondamental de cette nouvelle approche,
dont le formalisme, ainsi que trois applications, sont détaillés dans la suite
de ce chapitre.
1.4.1 Principe et résultats
La Décomposition par Modèle Morphologique s’effectue en trois étapes,
dans un contexte de traitement du signal en régime harmonique. Tout d’abord,
48des fonctions de transfert HRTF originales H(Xi), mesurées en N points de
l’espace Xi = (ri
, θi
, φi), sont décomposées en une série de filtres élémentaires
paramétriques Hm(p
m, Xi). Ces filtres sont des solutions analytiques ou numériques
de modèle m, paramétrées par un jeu de données p
m en lien avec la
morphologie. La fonction de transfert résiduelle issue de cette décomposition
sera notée Hr
(Xi) et est, a priori, parfaitement inconnue. La Décomposition
par Modèle Morphologique s’écrit alors :
H(Xi) = H
r
(Xi) ·
Y
m
H
m(p
m, Xi), ∀i ∈ [1, N]. (1.9)
Cette décomposition est équivalente a une décomposition additive de l’amplitude
en dB et de la phase en radians. La seconde étape consiste en la
réécriture de cette décomposition (1.9) par filtrage inverse, afin d’en expliciter
le résidu :
H
r
(Xi) = H(Xi)
Q
m Hm(pm, Xi)
, ∀i ∈ [1, N]. (1.10)
Ce filtre résiduel Hr
(Xi) peut alors être étudié pour valider, invalider, ou
affiner la décomposition. En effet, le résidu est directement équivalent a des
erreurs de modélisation, calculées par soustraction. Par exemple, dans le cas
idéal où le modèle coïnciderait exactement avec les données mesurées, le
résidu serait uniformément nul pour l’amplitude spectrale et la phase, et égal
en temps à une impulsion de Dirac. En pratique, si le module ou la phase du
résidu présente une plus grande régularité (des variations plus petites) que la
fonction de transfert originale H(Xi), alors la décomposition peut être jugée
satisfaisante. Dans le cas contraire, il faudra retravailler la modélisation d’un
ou plusieurs éléments, séparément ou non. Enfin, la dernière étape réside en
la recomposition des HRTF, en exploitant notamment les solutions issues des
modèles et connues en tous points de l’espace. Des propriétés propres aux
modèles, ainsi que les paramètres p
m peuvent aussi être exploités pendant
cette étape, en fonction du but recherché.
À titre d’exemple d’utilisation de cette méthode, trois applications sont
détaillées dans la suite de cette section, à savoir l’interpolation optimisée
des HRTF, la sous-discrétisation spatiale et l’individualisation. Pour ce faire,
la Décomposition par Modèle Morphologique (1.9) a été appliquée au modèle
sphérique de Duda [25], dont la fonction de transfert (1.5) sera notée
Hsp(a, Xi). Ce choix est guidé par un confort d’utilisation, puisque ce modèle
est un modèle analytique abouti, aisément calculable. Les solutions sont
donc connues en tous points de l’espace, avec en outre un rayon de tête
paramétrique a. Cette décomposition s’écrit alors :
H(Xi) = H
r
(Xi) · H
sp(a, Xi). (1.11)
49Figure 1.30 – Représentations fréquentielles et temporelle dans le plan azimutal
du résidu Hr de la décomposition sphérique des HRTF gauches du
sujet NH5 de la base ARI. (Haut) Amplitude spectrale. (Milieu) Portrait de
phase. (Bas) Amplitude signal HRIR.50La figure 1.30 donne les représentations azimut-fréquence de l’amplitude
spectrale et de la phase du résidu Hr
(Xi), aux points de mesures Xi
. Ces
valeurs sont calculées par filtrage inverse de Hsp(a, Xi) (eq. 1.10), avec un
rayon de tête sphérique a = 8.74 cm, correspondant au rayon de tête moyen
[58]. Il en ressort de prime abord que le portrait de phase de ce résidu est
beaucoup plus droit que celui des HRTF originales (fig. 1.21) et présente,
dans l’ensemble, moins de variations, en fréquence comme en azimut. Cependant,
les sources contralatérales ont toujours des irrégularités locales assez
fortes. Une des conséquences de ce résultat réside dans l’alignement temporel
des HRIR résiduelles, clairement visible sur la représentation en temps
azimut-fréquence du résidu (fig. 1.30). Par ailleurs, en comparaison avec
les HRTF originales (fig. 1.21), l’amplitude spectrale du résidu semble avoir
été globalement égalisée, notamment certains creux en amplitude de l’oreille
contralatérale. En revanche, des stries apparaissent, similaires au portrait
d’amplitude des HRTF sphériques (fig. 1.17). Ces stries sont la conséquence
d’une modélisation trop grossière, ou mal adaptée, qui vient surcompenser
les HRTF originales. Ceci montre les limitations d’un modèle de HRTF sphé-
rique, notamment pour l’oreille contralatérale. Il faudrait donc l’affiner, en
conservant certaines propriétés visiblement bénéfiques pour la phase.
Les figures 1.31 et 1.32 viennent compléter les représentations azimutales
précédentes, en donnant l’amplitude spectrale (dB) et le portrait de phase
(radian) en azimut-élévation du résidu Hr de la décomposition sphérique de
rayon a = 8.74 cm, pour les HRTF gauches du sujet NH5 (base ARI). Au
même titre que pour les représentations azimut-fréquence (fig. 1.30), l’amplitude
spectrale et la phase sont globalement lissées et ce, quelle que soit la
fréquence. D’une part, le portrait de phase présente particulièrement peu de
variations, comparé à l’original avant décomposition (fig. 1.23), d’autre part
l’amplitude spectrale semble avoir été partiellement "rebouchée", notamment
dans la zone contralatérale. Cependant, cette même zone présente encore des
irrégularités importantes, en amplitude et en phase. De plus, des sauts de
phase verticaux sont à noter en haute fréquence, caractérisés par des stries
horizontales à 8 et 16 kHz (fig. 1.32). Celles-ci peuvent être causées par le
dispositif expérimental, qui compte un haut-parleur différent par élévation et
dont les variations résiduelles sont faibles au regard de la fréquence élevée.
Pour conclure, il semblerait que la décomposition de HRTF par un modèle
sphérique de Duda soit plutôt pertinente, surtout pour la phase. L’analyse
du résidu Hr montre une bonne concordance du modèle, surtout en basse
fréquence. De plus, même si par construction Hr n’a pas de sens physique
véritable, les résultats de la décomposition précédente donnent l’impression
que ce résidu pourrait caractériser des HRTF "privées" d’une tête sphérique.
Mais cette hypothèse reste encore à démontrer... En revanche, cette modé-
51Figure 1.31 – Amplitude spectrale (dB) du résidu Hr de la décomposition
sphérique des HRTF gauches du sujet NH5 de la base ARI. Représentation
en azimut θ et élévation φ, à fréquence fixe. Les positions des mesures sont
données par les points noirs. 52Figure 1.32 – Portrait de phase (rad) du résidu Hr de la décomposition
sphérique des HRTF gauches du sujet NH5 de la base ARI. Représentation
en azimut θ et élévation φ, à fréquence fixe. Les positions des mesures sont
données par les points noirs. 53lisation montre des limites importantes pour les sources contralatérales qui
semblent assez mal prises en compte, surtout en haute fréquence. Ceci peut
s’expliquer par la sphéricité du modèle qui tend à exagérer la reconstruction
des ondes contralatérales par des oreilles diamétralement opposées, induisant
une mise en phase contraire à la réalité. Une première amélioration de cette
décomposition consisterait par exemple en une modélisation ovoïdale de la
tête, avec des oreilles non diamétralement opposées [26]. Mais il n’existe pas
de solutions analytiques simples à ce problème, qui nécessite dès lors des outils
de simulation numérique. Aussi, malgré ce défaut, trois applications de
la décomposition sphérique sont présentées.
1.4.2 Interpolation optimisée
Comme expliqué précedemment, la question de l’interpolation des HRTF
n’est pas triviale de par la grande variabilité de ces filtres, en temps comme
en espace [45]. Une première application de la Décomposition par Modèle
Morphologique consiste à optimiser l’interpolation spatiale en tenant compte
de solutions modélisées, connues en tous points de l’espace.
Plus exactement, les figures 1.31 et 1.32 montrent que le résidu Hr
(Xi),
issu du filtrage inverse d’une HRTF mesurée H(Xi) par sa décomposition
sphérique Hsp(a, Xi), est plus régulier que la fonction de transfert originale
(fig. 1.22 et 1.23), notamment en phase. En complément, la représentation
temporelle de ce résidu (fig. 1.30) montre un alignement azimutal des filtres.
Fort de ces deux constats, une idée naturelle consiste à interpoler linéairement
en espace le résidu Hr
(Xi) sous sa forme temporelle, ce qui revient par
transformée de Fourier à une interpolation du résidu sous sa forme complexe.
Ceci fait, des HRTF peuvent être recomposées, calculées avec les valeurs des
HRTF sphériques de Duda aux points interpolés. Une grille quelconque peut
alors être générée, en tout point de l’espace. Par ailleurs, si les modèles de
décomposition et de recomposition sont identiques et que l’interpolation n’est
pas régularisante, alors les HRTF aux points de mesure originaux reste inchangées
par cette opération. Les figures 1.33 et 1.34 représentent respectivement
l’amplitude spectrale et le portrait de phase des HRTF gauches du
sujet NH5 de la base ARI, après interpolation optimisée par décomposition
morphologique. La nouvelle grille possède un pas constant de 1˚ en azimut
et élévation, au même titre que les représentations précédentes (fig. 1.22 à
1.27). La symétrie sphérique du portrait de phase semble cette fois plutôt bien
reconstituée, y compris à 16 kHz. Le résultat est lisse sans aberrations flagrantes,
avec une causalité respectée, même pour les sources contralatérales.
En revanche, même si l’interpolation de l’amplitude spectrale semble réussie
à 1 et 8 kHz, un aliasing spectral est toujours visible à 16 kHz (fig. 1.33).
54Figure 1.33 – Amplitude spectrale (dB) de l’interpolation linéaire par dé-
composition sphérique, des HRTF gauches du sujet NH5 de la base ARI.
Représentation en azimut θ et élévation φ, à fréquence fixe.
55Figure 1.34 – Portrait de phase (radian) de l’interpolation linéaire après
décomposition par modèle sphérique, HRTF gauches du sujet NH5 de la
base ARI. Représentation en azimut θ et élévation φ, à fréquence fixe.
56Bien que plus faible qu’en interpolation linéaire directe (fig. 1.26), cette erreur
montre néanmoins les limites du modèle, qui mériterait donc d’être affiné.
Pour conclure, cette interpolation par décomposition morphologique est
suffisamment robuste pour être mise en pratique et les résultats de test
d’écoute à la volée sont plutôt satisfaisants. Il reste cependant des artefacts
d’interpolation audibles pour les sources situées proches de l’axe interaural,
dues aux erreurs visibles dans les représentations du résidu Hr
(Xi) (fig. 1.31
et 1.32). Enfin, d’autres méthodes d’interpolation (quadratiques, cubiques,
harmoniques sphériques, etc.) peuvent être appliquées sur le résidu Hr
(Xi)
et ce, indépendamment de la décomposition morphologique choisie.
1.4.3 Variations de position
Une des principales applications de l’interpolation optimisée des HRTF
concerne le Head-Tracking, qui consiste à corriger en temps réel la direction
spatiale (θ, φ) des sources sonores, en fonction des rotations de la tête. L’utilisation
d’un tel dispositif augmente singulièrement la qualité d’expérience
binaurale, grâce à un rendu dynamique de l’espace, contrôlé consciemment
(ou inconsciemment) par l’utilisateur (e.g. [10], [12]). Par exemple, l’image
sonore est plus stable, la localisation des directions spatiales des sources sonores
est facilitée et l’externalisation est, elle aussi, bien meilleure. Pour ce
faire, l’ensemble des directions de l’espace doit être synthétisable par rendu
binaural, ce qui implique une définition continue des HRTF. Comme les mesures
sont discrètes par nature, il est nécessaire de recourir à des algorithmes
d’interpolations à la fois rapides et transparents.
Cependant, l’accès à un Head-Tracker n’était pas possible lors de la réalisation
du spatialisateur PifPaf3D, c’est pourquoi une méthode de rendu dynamique
sans Head-Tracking a été imaginée. La démarche consiste à rendre
mobiles les sources sonores pour profiter d’indices de localisation dynamiques
(e.g. [47], [84]), sans pour autant détériorer le rendu binaural par un détimbrage
permanent. Des trajectoires spatiales autour des positions fixes ont
donc été mises en place, d’amplitude angulaire de l’ordre de la Just Noticeable
Difference (1˚ à 4˚ selon l’azimut θ), afin de s’adresser à la partie
inconsciente de la localisation spatiale.
Une trajectoire de micro-variations est représentée par des ronds noirs
sur la figure 1.35, en azimut-élévation. Elle est tout d’abord superposée aux
HRTF brutes du sujet NH5 de la base ARI, à 16 kHz, autour de la position
θ = 180˚ et φ = 0˚ (en haut). Comme la JND est de l’ordre du degré, l’amplitude
maximale du mouvement doit être du même ordre, arbitrairement
fixé à 2˚. Il apparaît clairement que sans interpolation spatiale des HRTF,
les micro-variations sont proprement inutiles, puisque le même filtre HRTF
57Figure 1.35 – Représentation en azimut θ et élévation φ à 16 kHz des HRTF
gauches du sujet NH5 de la base ARI, centrées sur la position θ = 180˚ et
φ = 0˚. Les positions successives des micros-variations sont représentées par
les ronds noirs. (Haut) Amplitude spectrale (dB) des mesures brutes. (Milieu)
Amplitude spectrale (dB) après interpolation optimisée par décomposition
sphérique. (Bas) Phase (rad) après interpolation optimisée par décomposition
sphérique.
58est toujours utilisé, quelle que soit la position de la source sonore dans l’espace.
Les deux représentations suivantes montrent en revanche l’intérêt d’une
interpolation optimisée des HRTF, ici par décomposition sphérique. Sur la
trajectoire du milieu, des variations en amplitude spectrale sont cette fois
bien présentes, principalement en élévation (entre −12 et −2 dB). Sur la
trajectoire du bas, les isovaleurs de phase (agissant notamment sur l’ITD)
sont plutôt verticales, ce qui conduit à des variations principalement azimutales.
Ces deux constats peuvent s’expliquer par la géométrie de la tête et
du pavillon. En effet, il est coutumier de dire que les variations d’ITD sont
principalement azimutales, car reliées à la forme plutôt sphérique de la tête.
D’autre part, les fortes variations spectrales sont surtout causées par la géométrie
du pavillon, qui génère de plus grandes variations dans les HRTF en
élévation qu’en azimut (e.g. [15], [12]). Fort de ces deux remarques, la trajectoire
des micro-variations représentée sur la figure 1.35 a donc été choisie
de manière à exciter à la fois la phase et l’amplitude spectrale, sans a priori.
Par ailleurs, ces résultats se retrouvent bien entendu pour des fréquences plus
basses que 16 kHz, mais avec des variations moins intenses.
Un stage a été encadré durant cette thèse pour évaluer subjectivement
l’impact des micro-variations, mais ces travaux n’ont pas abouti à une conclusion
probante. De plus, de nouvelles recherches pourraient être menées sur
ce thème, notamment pour générer des trajectoires optimales, trouver des
amplitudes et des périodes d’oscillations adaptées, ou encore comparer des
trajectoires continues contre des apparitions stochastiques localisées. Enfin,
le traitement du signal audio se faisant par blocs de données, la question du
nombre de blocs nécessaires pour construire proprement une trajectoire est
encore à déterminer.
1.4.4 Déraffinement spatial d’une base de données
Les résultats de l’interpolation par décomposition morphologique ouvrent
une perspective intéressante sur la discrétisation spatiale des HRTF. En effet,
une interpolation de haute fidélité permet notamment de réduire le nombre
d’interpolants nécessaires à la reconstruction spatiale des données. Or, la
représentation en azimut-élévation à fréquence fixe de l’amplitude spectrale
de la HRTF brute du sujet NH5 de la base ARI (fig. 1.22) laisse supposer une
sur-discrétisation du problème. En effet, moyennant une égalisation visible
des haut-parleurs entre eux (stries horizontales), les variations en module
semblent plutôt faibles au regard de l’échantillonnage spatial des mesures,
compris entre 2.5˚et 5˚en azimut et élévation.
Aussi, un déraffinement arbitraire a été envisagé, de l’ordre de 15˚ en
moyenne en azimut et élévation. De plus, une grille uniforme est préférentiel-
59Figure 1.36 – Représentation en azimut θ et élévation φ à 8 kHz de l’amplitude
spectrale (dB) des HRTF gauches du sujet NH5 de la base ARI. Les positions
des mesures sont données par les points noirs. (Haut) Mesures brutes
uniformément déraffinées tous les 15˚. (Milieu) Interpolation par décomposition
sphérique sur la grille déraffinée. (Bas) Mesures brutes originales.
60Figure 1.37 – Représentation en azimut θ et élévation φ à 8 kHz du portrait
de phase (rad) des HRTF gauches du sujet NH5 de la base ARI. Les positions
des mesures sont données par les points noirs. (Haut) Mesures brutes uniformément
déraffinées tous les 15˚. (Milieu) Interpolation par décomposition
sphérique sur la grille déraffinée. (Bas) Mesures brutes originales.
61lement extraite de la grille originale, notamment pour limiter les redondances
locales. Ce faisant, le nombre de mesures utiles passe de 1550 positions à environ
220, puisque diviser par 3 le nombre de mesures sur chaque dimension
revient à diviser par 8 le nombre de mesures total sur la sphère. Cette division
est résolument excessive, l’idée étant simplement de montrer une application
de la Décomposition par Modèle Morphologique, qui mériterait d’être approfondie
par la recherche de grilles optimales en fonction du modèle choisi.
La figure 1.36 (haut) donne une représentation en azimut-élévation de l’amplitude
spectrale brute de la HRTF du sujet NH5 de la base ARI, sur la
grille déraffinée. La fréquence a été fixée à 8 kHz, puisqu’un aliasing spectral
apparaissait déjà à 16 kHz, lorsque l’ensemble des mesures était pris en
compte (fig. 1.33). Après interpolation par décomposition sphérique (fig. 1.36,
milieu), l’amplitude spectrale résultante semble consistante avec l’originale
(fig. 1.36, bas), excepté pour l’oreille contralatérale. Apparaît dans cette zone
la diffraction de la sphère par surcompensation, ce qui démontre que le modèle
n’est pas suffisamment fin pour être directement exploité. En revanche, le
portrait de phase semble plutôt convaincant, comme le montre la figure 1.37,
et ce, malgré le peu de mesures originales exploitées. En effet, il n’y a pas
d’artefacts visibles, la causalité est respectée et la phase semble se dérouler
correctement.
Au vu de ces représentations, la Décomposition par Modèle Morphologique
semble une technique tout à fait prometteuse pour le déraffinement
spatial des HRTF. Malgré la simplicité apparente du modèle utilisé, les ré-
sultats pour la phase sont plutôt bons et ceux pour l’amplitude spectrale ne
sont pas dénués d’intérêt. Par ailleurs, il n’est pas inutile de rappeler que la
fréquence choisie est assez élevée et le déraffinement plutôt fort. Aussi, comme
spécifié plus haut, une piste pour améliorer cet algorithme sans changer de
modèle serait de chercher une répartition optimale des données sur la sphère,
minimisant les erreurs d’interpolation spectrale sur l’amplitude. Enfin, pour
définitivement valider cette approche, des tests subjectifs complémentaires
sont encore à réaliser.
1.4.5 Vers une méthode d’individualisation
Selon l’équation (1.9), la Décomposition par Modèle Morphologique fait
intervenir des paramètres propres aux modèles, notés p
m. Ces paramètres
peuvent être purement abstraits, ou en lien avec des éléments de la morphologie
individuelle, à l’origine des HRTF. Auquel cas, les deux applications
précédentes pourraient voir leurs performances améliorées, en individualisant
les étapes de décompositions et recompositions par un modèle correctement
ajusté aux HRTF considérées. En outre, les étapes de décomposition et de
62recomposition étant indépendantes, il serait même envisageable de décomposer
des HRTF par un modèle adapté, puis de les recomposer en utilisant
cette fois une nouvelle paramétrisation dudit modèle, propre à l’auditeur.
Sous réserve que le résidu obtenu par décomposition soit bien indépendant
des paramètres utilisés, cette approche autoriserait une réelle individualisation
des fonctions de transfert HRTF. Par exemple, des mesures de haute
qualité, dont les paramètres morphologiques seraient connus, pourraient être
couplées à des modèles analytiques ou numériques en vue d’une individualisation
sur un ou plusieurs critères morphologiques. Afin d’estimer la faisabilité
d’une telle approche, une paramétrisation individualisée a été appliquée à
une décomposition par modèle sphérique de Duda (eq. 1.11, [25]). Comme
la représentation temporelle du résidu (fig. 1.30) issue de cette décomposition
laisse penser que les HRTF décomposées par une sphère ne possède plus
d’ITD, ce dernier a préférentiellement été choisi pour valider le concept. De
plus, le rayon de la sphère peut être choisi en lien avec le périmètre crânien
de l’auditeur, ce qui offre un premier pas vers l’individualisation des HRTF.
Pour ce faire, la première étape consiste à mesurer sur le plan azimutal
l’ITD de HRIR originales, ici celles du sujet NH5 de la base ARI (fig. 1.38,
haut). Cet ITD a été mesuré en recherchant pour chaque azimut les premiers
échantillons temporels où le niveau de l’amplitude signal franchit un certain
seuil. Aussi, pour compenser la perte de niveau en distance imputable au
décentrage de l’oreille, les HRIR ont préalablement été multipliées par un
facteur (t × c)
2
, où t correspond au temps de propagation (en seconde) et c
correspond à la célérité des ondes dans l’air à 15˚ (soit 340 m/s). Enfin, afin
de limiter les erreurs dues aux imperfections de mesures, chaque échantillon
temporel compensé en niveau a été moyenné par un fenêtrage de Hann sur
ses plus proches voisins. Le résultat de ces deux traitements, après normalisation,
est représenté sur la figure (fig. 1.38, milieu). En accord avec cette
représentation, le seuil de recherche a été fixé à −15 dB. L’ITD ainsi mesuré
est représenté par un liserai marron sur les HRIR originales (fig. 1.38, haut)
et semble suffisamment satisfaisant pour continuer.
La seconde étape consiste en l’ajustement du rayon a d’un modèle de tête
sphérique, pour coller par essai-erreur un ITD sphérique analytique sur l’ITD
mesuré précedemment. Cet ITD sphérique est calculé pour chaque azimut en
considérant le maximum des HRIR sphériques analytiques. Ces deux ITD
sont représentés en bleu sur la figure (fig. 1.39). Les deux courbes coïncident
plutôt bien pour les azimuts situés à l’arrière, voire sur les côtés, mais plus
difficilement sur le plan frontal. Ce résultat est probablement causé par la
géométrie de la tête, qui tend vers une sphère à l’arrière, mais qui s’en éloigne
assez fortement vers l’avant. C’est la raison pour laquelle le "zéro" de l’ITD
a été placé à θ = 180˚, sans tenir compte de θ = 0˚. Le rayon de la sphère
63Figure 1.38 – (Haut) Représentation temporelle dans le plan azimutal des
HRIR du sujet NH5 de la base de données ARI, amplitude signal avant
décomposition sphérique (ITD en marron). (Milieu) Représentation temporelle
de ces mêmes HRIR compensées en distance et lissées par fenêtrage
afin de mesurer l’ITD par seuil de l’amplitude signal, fixé à −15 dB. (Bas)
Représentation temporelle de ces mêmes HRIR après individualisation par
décomposition sphérique de rayon inférieur (ITD en marron).
64Figure 1.39 – Représentation de l’ITD (ms) en fonction de l’azimut θ (˚),
pour les HRTF originales, sphériques et individualisées avec Décomposition
par Modèle Morphologique.
des HRTF azimutales du sujet NH5 a ainsi été estimé à a = 9.7 cm.
Une fois ce paramètre de la décomposition sphérique établi, l’étape suivante
consiste à établir un nouveau jeu de paramètres pour le modèle considéré.
Dans cette étude, un rayon b = 8.0 cm a été choisi arbitrairement, afin
de générer une tête sphérique de circonférence inférieure à celle du sujet NH5.
Dès lors, les HRTF originales peuvent être décomposées par le modèle sphé-
rique de paramètre correspondant a, avant d’être recomposées par le même
modèle reparamétré par b. Si l’hypothèse d’indépendance est bien vérifiée,
les HRTF ainsi générées deviennent individualisées.
La dernière étape permettant de valider le concept consiste alors à mesurer
l’ITD des HRTF recomposées par le même protocole de mesures que
pour les HRTF originales. Le résultat ainsi obtenu est représenté par un liseré
marron et superposé aux HRIR individualisées (fig. 1.38, bas). Une bonne
coïncidence entre l’ITD mesuré et le front d’onde est de nouveau obtenu
par cette méthode. De plus, la HRIR individualisée ne semble pas présenter
d’aberration flagrante faisant suite au traitement subi, ce qui donne du cré-
dit au résultat obtenu pour l’ITD. Aussi, ce dernier a été tracé en rouge sur
la figure 1.39, au même titre que la mesure de l’ITD du modèle sphérique
équivalent. Comme le montrent ces deux dernières courbes, l’ITD individualisé
semble coller à son modèle et ce dernier est bien représentatif d’une tête
65sphérique singulièrement plus petite que l’originale (en bleu). Donc, mises à
part les aberrations frontales déjà présentes pour le modèle sphérique original,
il semble bien que l’ITD soit indépendant du résidu de la décomposition
sphérique, ce qui en autorise la personnalisation.
Pour poursuivre cette étude, il faudrait désormais valider l’individualisation
de la phase et de l’amplitude spectrale. Cette étape, bien plus complexe,
n’a pas été abordée durant cette thèse et fera très probablement l’objet de
recherches ultérieures. Par ailleurs, des modèles numériques peuvent désormais
être utilisés pour affiner l’individualisation, comme des têtes ellipsoïdes,
des "snowman model", ou encore des maillages de têtes.
66Chapitre 2
Moteur binaural PifPaf3D
Une grande partie des travaux de thèse a porté sur la conception et la
réalisation d’un moteur de synthèse binaurale innovant, nommé PifPaf3D
(fig. 2.1). Ce moteur intègre de nombreuses fonctionnalités pour chaque étape
de la chaîne de production sonore, de la captation à la restitution. Il a été entièrement
programmé et optimisé en langage Matlab, bénéficiant ainsi d’une
grande souplesse de programmation pour en faire un outil de prototypage
efficace (≈ 2000 lignes de code). De plus, aucune librairie externe n’a été
utilisée, ceci afin d’assurer un contrôle total sur l’ensemble des traitements
effectués. Aussi, l’essentiel des recherches effectuées en spatialisation sonore,
présentées ou non dans ce manuscrit, ont été implémentées dans ce moteur,
testées et validées de manière analytique et/ou subjective. Par ailleurs, ce
spatialisateur ayant été développé dans le contexte industriel de la thèse
CIFRE, pour des raisons évidentes de protection de la propriété industrielle,
seule une revue générale des différents modules est présentée dans ce chapitre.
Les détails de conception et de programmation de ce moteur ne seront
donc pas explicités.
2.1 Introduction et configuration
Le spatialisateur PifPaf3D est un logiciel exclusivement écrit en langage
Matlab, interfacé avec une interface graphique (GUI) faisant appel aux différentes
parties de la librairie, selon le traitement audio souhaité (fig. 2.1).
Il se décompose en différents modules, indépendants et autonomes, ce qui
permet de réaliser n’importe quel traitement audio dans un ordre déterminé
par l’utilisateur. Les passerelles pour assurer la communication entre chaque
module ont été implémentées sous forme de pipe-line et tous les traitements
ont été programmés sous forme de fonctions callback. Cette logique de pro-
67Figure 2.1 – PifPaf3D, prototype Matlab pour la spatialisation sonore en temps réel.
68Figure 2.2 – PifPaf3D - Module de Configuration.
grammation rend ce code suffisamment flexible pour s’adapter au traitement
audio temps réel. À titre informatif, sur un ordinateur portable standard dont
le processeur est cadencé à 1.6Ghz, il est possible de spatialiser et contrôler
en temps réel au moins seize sources sonores dynamiques simultanément. En
mode offline, un nombre illimité de sources peut être joué puisque le temps
de calcul est simplement proportionnel au nombre de canaux traités.
Au démarrage de PifPaf3D, la première étape consiste à configurer le
moteur avec l’interface graphique (fig. 2.2), qui permet d’accéder aux principaux
paramètres. Tout d’abord, l’utilisateur fait le choix dans une liste de
fichiers audio multicanaux, présents dans un dossier ’wav/input/’ à la racine
du script de lancement du logiciel. Ces fichiers doivent être au format .wav,
préférentiellement échantillonnés à 44.1 kHz et de nombre de canaux fixe
(mono, stéréo, 5.1, 7.1, n.m, etc.). Ensuite, l’utilisateur peut choisir son routing
dans une batterie de fichiers .txt, disponibles par défaut dans un dossier
’data/speakers’. Ces fichiers contiennent à la fois des positions statiques de
sources audio et des trajectoires pré-établies en fonction du temps et de l’espace.
L’utilisateur peut ainsi utiliser les routing présents, ou créer son propre
fichier. Voici, par exemple, un script pour effectuer une trajectoire dynamique
sur deux canaux. Ici, le premier canal se déplace pendant 30 secondes derrière
l’auditeur, tandis que le second passe au-dessus sur la même durée :
% Source 1
sources.azimuth{1} = [90,270]; % Azimut (deg)
sources.elevation{1} = [0,0]; % Elevation (deg)
sources.range{1} = [2,2]; % Distance à l’auditeur (m)
sources.time{1} = [0,30]; % Durée entre les 2 positions (s)
% Source 2
sources.azimuth{2} = [270,270];
sources.elevation{2} = [0,180];
69sources.range{2} = [2,2];
sources.time{2} = [0,30];
Cette étape effectuée, l’intervalle de lecture du fichier audio est défini, avec
pour unité la seconde. Enfin, la latence du rendu temps réel peut être modi-
fiée, ainsi que la taille des blocs de traitement du signal. Ces deux paramètres
agissent essentiellement sur la fluidité de la lecture en rendu temps réel, qui
est fonction de la puissance de calcul disponible sur la machine. Une fois tous
ces choix établis, le spatialisateur peut être lancé en cliquant sur le bouton
"GO !", ce qui affichera l’interface complète (fig. 2.1) et bloquera définitivement
le module de configuration (fig. 2.2). PifPaf3D devra donc être relancé
pour tout changement ultérieur dans ces données.
Pour les utilisateurs plus avancés, il est possible de choisir d’autres paramètres
directement dans le code source. À titre d’exemple, peuvent être
cités la forme des fenêtres de traitement audio (Hann, Porte, Sine, Linear,
etc.), le répertoire de sortie des fichiers audio après traitement (par défaut
’wav/output/’) ou la taille des filtres utilisés.
2.2 Transport et contrôle
Le module de transport (fig. 2.3) se décompose en deux parties. La première
partie (onglet "Play") propose les principales fonctionnalités de lecture
et de navigation dans un fichier audio, à savoir un curseur de lecture, un curseur
de volume pour le monitoring, un bouton play/pause, ainsi qu’un bouton
de répétition. Par ailleurs, il est possible de désactiver la lecture temps réel
pour traiter des fichiers audio plus rapidement en mode offline. Tous les algorithmes
de traitement du signal sont routés sur ce module, qui réalise une
transformée de Fourier en overlap-add [7] sur des blocs fenêtrés, typiquement
par des fenêtres de Hann. Ce fenêtrage est nécessaire pour limiter l’impact
d’éventuels changements brutaux dans des fonctions de transfert utilisées
lors d’un filtrage, qui peuvent introduire des claquements audibles perturbant
l’écoute. Par exemple, des sauts de filtres interviennent en continu lors
du traitement binaural de sources en mouvement. Aussi, cette combinaison
entre overlap-add et fenêtrage a été optimisée pour le cas particulier du filtrage
binaural, dont les fonctions de transfert HRTF ont des caractéristiques
propres. Cette optimisation a conduit au développement d’un algorithme
type overlap performant, qui fera l’objet d’une publication ultérieure.
La seconde partie de ce module (onglet "Sources", fig. 2.3) permet de visualiser
séparément des informations relatives aux canaux audio, préalablement
définis dans le routing, dans un esprit de mixage objet. C’est pourquoi
70Figure 2.3 – PifPaf3D - Module de transport.
chaque tranche donne la couleur et les coordonnées sphériques de la source
associée, représentée dans le module de contrôle détaillé ci-après (fig. 2.4).
De plus, il est possible d’activer ou de désactiver une source sonore par des
boutons "Mute/Solo" interconnectés, ainsi que de modifier le gain d’entrée de
chaque tranche de +/- 3 dB.
Au même titre que le module de transport, le module de contrôle (fig. 2.4)
se décompose en deux parties. La première partie (fig. 2.4, gauche) donne
une représentation de l’espace péri-personnel, avec un auditeur représenté
en trois dimensions entouré de sources sonores ponctuelles. Pour faciliter la
visualisation, les axes cartésiens ont été rajoutés, ainsi que trois cercles de
positionnement inclus dans une sphère de rayon unité, le tout complété par
un plan sur lequel repose l’auditeur. De plus, des rotations de la camera et
de l’éclairage sont autorisées, notamment pour lever d’éventuelles indéterminations
de positionnement en naviguant au sein de la scène sonore. Enfin,
un onglet situé en haut à gauche de l’interface graphique permet de choisir
le mode de déplacement des sources sonores pour les contrôler en temps
réel. Les sources à mouvoir sont sélectionnées dans le module de transport
(fig. 2.3) par un clic sur le bouton donnant les coordonnées sphériques de
leur position, puis déplacées par le pavé numérique du clavier, la souris, ou
encore une manette de type Microsoft XBox 360. Le clavier et la manette
71Figure 2.4 – PifPaf3D - Module de contrôle.
font bouger les sources relativement à leurs positions respectives, tandis que
la souris fixe une position absolue. Dans ce dernier cas, la position de la croix
rouge sur la grille du module de contrôle (fig. 2.4, droite) détermine les coordonnées
azimutales des sources sonores sélectionnées, tandis qu’un curseur
sur le côté permet d’en modifier l’élévation. Toutes ces fonctionnalités faisant
appel à un rafraîchissement graphique récurent (plutôt gourmand en CPU),
le ratio entre la charge de calcul disponible et le coût de la mise à jour est
vérifié en permanence, notamment pour que ces dernières ne soient pas faites
au détriment des traitements audio.
Il est important de souligner que ces outils ont avant tout été conçus pour
naviguer et contrôler des sources sonores en temps réel sous Matlab, afin de
tester et valider les différents traitements audio. Ils n’ont donc pas vocation
à former une véritable plate-forme de mixage professionnel.
2.3 Traitement Binaural
Le module de traitement binaural (fig. 2.5) s’appuie essentiellement sur les
recherches présentées dans le premier chapitre de ce manuscrit. Tout d’abord,
les bases de données de fonctions HRTF utilisées pour le filtrage (onglet
"HRIR" de la figure 2.5) sont issues des bases publiques suivantes :
– CIPIC, Université de Californie [3] ;
– ARI, Institut de Recherche en Acoustique de l’Académie des sciences
d’Autriche [6] ;
– LISTEN, Institut de Recherche et Coordination en Acoustique et
Musique [62].
72Figure 2.5 – PifPaf3D - Module de traitement binaural.
Ces bases ont comme points communs d’être disponibles au format Matlab
et d’être livrées avec des filtres sous forme HRIR, des coordonnées des points
de mesures, ainsi que des données morphologiques associées à chaque sujet.
Ces trois informations sont nécessaires et suffisantes pour le bon fonctionnement
du filtrage binaural dispensé par PifPaf3D. En effet, la convolution
en domaine de Fourier entre un signal monophonique et les filtres gauches
et droits d’une HRTF à une position donnée est réalisée par interpolation
linéaire locale quadrangle sur des grilles régularisées de filtres. Pour ce type
de support, la recherche des filtres voisins à la position souhaitée est instantanée
: les parties entières de l’azimut et de l’élévation donnent directement
les indices des filtres à interpoler, tandis que les parties décimales fournissent
les coefficients de pondération de la sommation. Il n’y a donc pas de parcours
d’arbre, ce qui diminue d’autant les charges de calcul pour chaque position
à évaluer. Aussi, une attention particulière a été portée sur l’interpolation
globale des HRTF brutes, notamment pour minimiser les erreurs générées au
cours de la formation des grilles régulières, à l’origine d’artefacts audibles.
Les recherches sur cette problématique ont conduit à la Décomposition par
Modèle Morphologique (1.9), présentée dans le chapitre précédent. Ainsi,
dans un premier temps, des bases de données fidèles aux mesures brutes ont
été créées en vue de pratiquer une interpolation locale inaudible (fig. 1.33
et 1.34). Le modèle sphérique de Duda [25] a été utilisé et paramétré par le
rayon de la tête dont sont issues les HRTF mesurées. Lorsque celui-ci n’est
pas disponible, le rayon de tête moyen (8.74 cm) sert de référence [58]. Pour
effectuer des comparaisons subjectives, trois raffinements sont prévus dans
l’onglet "Database" de la figure 2.5, à savoir "Low", "Medium" et "High density",
correspondant respectivement à 15, 10 et 5 degrés de discrétisation en
azimut et élévation. D’autre part, il est important de souligner que les bases
de données [3], [6] et [62] ne sont pas les seules exploitables par PifPaf3D,
puisque l’algorithme d’interpolation globale est applicable dès lors que les
73filtres et les positions des mesures sont fournis.
Par la suite, il est apparu après quelques optimisations que la Décomposition
par Modèle Morphologique était peu coûteuse en calcul, ce qui rendait
le processus adapté pour du traitement en temps réel. Aussi fut-elle inté-
grée directement dans PifPaf3D pour pratiquer les interpolations locales sur
des grilles de filtres régulières et déraffinées (exemple fig. 1.36 et 1.37), plus
rapides d’accès puisque plus légères en mémoire. De plus, le peu d’espace
nécessaire au stockage de ces données favorise le traitement embarqué sur
processeurs dédiés de type DSP, qui disposent de plus de ressources de calcul
que de mémoire vive. En pratique, PifPaf3D exploite désormais les grilles
échantillonnées tous les 15 degrés par défaut, sans artefact d’interpolation
audible. Le choix de la densité des grilles est toujours proposé à titre comparatif,
mais inusité en pratique. Enfin, l’espace mémoire requis pour de telles
grilles est d’environ 2 Mo, ce qui constitue un format d’échange exploitable.
Par ailleurs, un bouton "on/off " est disponible sur l’interface graphique
(fig. 2.5) pour comparer en temps réel l’activation du binaural contre un
downmix stéréo du contenu multicanal original. Afin d’estimer le gain à fournir
aux canaux gauches et droits, le downmix utilise la norme Root Mean
Square (moyenne quadratique) normalisée des filtres HRTF aux positions
des sources sonores. Ainsi, le downmix est bien rendu en stéréophonie, il
tient compte de la position des sources sonores et conserve la norme RMS du
signal "downmixé" constante par rapport au traitement binaural. Ce faisant,
les écoutes comparées permettent d’apprécier à sa juste valeur la spatialisation,
sans autres biais que le Loudness.
Pour les utilisateurs avertis, PifPaf3D propose quatre paramètres avancés
disponibles dans l’onglet "Advanced" de la figure 2.5 :
1. Le premier de ces paramètres ("D") offre une première étape d’individualisation.
Le principe est fondé sur la Décomposition par Modèle
Morphologique pour l’individualisation, telle que présentée dans le chapitre
précédent. L’utilisateur rentre le diamètre de sa tête en cm, qui
sera utilisé pendant l’étape de recomposition par modèle sphérique.
Les réponses fréquentielles présentes dans les HRTF finales se trouve
dès lors plus proches de celles de l’utilisateur que de celles des HRTF
originales, notamment pour l’ITD (fig. 1.39).
2. Les deux paramètres suivants ("A","T") règlent respectivement l’amplitude
(degré) et la période (seconde) des oscillations des micro-variations
de sources, détaillées dans le chapitre précédent (fig. 1.35). Par défaut,
ces paramètres sont fixés en deçà du seuil de perception. Des recherches
par tests perceptifs ont été effectuées par un stagiaire pour analyser
l’impact de ces paramètres sur la localisation. Ces travaux n’ayant pas
74Figure 2.6 – Schématisation des premières réflexions intervenant lors
de la propagation d’une onde sonore dans un espace clos. (source
www.audacity.sourceforge.net)
donné de résultats significatifs, des études restent encore à mener pour
évaluer les micro-variations et trouver des paramètres rigoureux.
3. La dernière option permet d’activer ou de désactiver un modèle dynamique
de premières réflexions (early reflexions, fig 2.6), fruit d’une
discussion avec J.-C. Messonnier du Conservatoire National Supérieur
de Musique et de Danse de Paris [66]. Ce modèle est fondé sur une
méthode source-image temps réel [2], indépendante pour chaque source
sonore, ayant vocation à simuler la présence de panneaux réflecteurs
autour de la source pour favoriser la création d’énergie précoce [63].
Pour ce faire, deux HRTF sont superposées à l’originale, choisies symétriquement
de part et d’autre et de la source. Chacune est retardée
manuellement, relativement à la distance entre l’auditeur et la source
fantôme ainsi créée. Cet outil offre des perspectives intéressantes, en
rajoutant des indices de localisation pour lever l’indétermination de positionnement
des sources sonores. Une analyse plus approfondie, ainsi
qu’une validation subjective fera l’objet de travaux ultérieurs.
Pour terminer, plusieurs effets de distance ont été rajoutés, afin d’imiter
artificiellement l’éloignement entre la source sonore et l’auditeur (fig. 2.5). Le
premier effet, simple et efficace, consiste à jouer sur le volume de la source
sonore en fonction de son éloignement. Une loi en 1
rα a été employée, avec α
contrôlé par l’utilisateur pour adapter le gain en fonction du contenu audio.
75Figure 2.7 – Cross-ear selection pour la correction des HRTF gauches et
droites, en champ proche [75]. Sur ce schéma, la sphère verte représente une
tête, le maillage quadrangle appartient à la sphère de mesure des HRTF, la
flèche bleu indique l’avant (axe Ox), la flèche verte indique la gauche (axe Oy)
et la flèche rouge le dessus (axe Oz). Pour une source proche de l’auditeur
(trait plein noir), le filtre HRTF sans traitement spécifique est celui donné
par la direction en pointillés, invariant selon la distance. Après cross-ear
selection, les filtres gauches et droits sont donnés par les directions en tirets.
Le deuxième effet intervient lors de la Décomposition par Modèle Morphologique,
en recomposant le résidu sphérique par les HRTF sphériques évaluées
cette fois à la distance souhaitée. Le troisième effet consiste à filtrer
le signal d’entrée par un coupe-haut modélisant l’absorption de l’air selon
la distance parcourue par l’onde sonore. Cet effet intervient principalement
pour les sources en champ lointain. Pour le champ proche, un quatrième et
dernier effet nommé cross-ear selection vient compléter cette panoplie [53]
[75]. Les HRTF utilisées pour le traitement binaural sont sélectionnées sur
la sphère de mesure originale, en calculant géométriquement les coordonnées
des HRTF réellement mises en jeu lorsqu’une source se rapproche de l’auditeur
(fig. 2.7). Mathématiquement, cela revient à résoudre une équation du
second degré pour chaque oreille, puisque la position cherchée est solution de
l’intersection entre une droite et une sphère. Pour l’ensemble de ces effets, il
est important de préciser que, faute de base de données de HRTF en distance
aisément disponible, aucun procédé n’a été validé analytiquement. Seule une
évaluation perceptive a été pratiquée, donnant des résultats encourageants.
Une analyse approfondie de ces effets doit désormais être faite pour s’assurer
que les HRTF ainsi modifiées respectent bien la physique du problème.
76Figure 2.8 – Microphone Soundfield SPS200 et enceinte KH pour la mesure
impulsionelle en B-Format du studio de répétition de l’École Polytechnique.
(Atelier des Ondes, www.atelierdesondes.net)
2.4 Acoustique de salle et Ambisonics
Comme les HRTF sont classiquement mesurées en chambre anéchoïque, le
traitement binaural issu de la convolution avec de tels filtres souffre bien souvent
d’un manque d’espace, minimisant la sensation d’externalisation. C’est
pourquoi, un module d’acoustique de salle vient avantageusement compléter
le module binaural précédent, en apportant l’illusion de la diffusion au sein
d’une pièce. Le principe consiste en l’ajout d’une réverbération directionnelle
pour chaque source sonore, captée en trois dimensions en High Order
Ambisonics (HOA) et restituée en binaural par un système de haut-parleurs
virtuels fixes. La thèse de J. Daniel [20] en explicite toute la théorie, qui ne
sera donc pas reprise ici, mais survolée d’un point de vue pratique en accord
avec la courte introduction du premier chapitre.
La première étape pour réaliser ce traitement consiste à construire une
base de données de réponse impulsionnelle d’une salle (Room Impulse Responses)
en format HOA. Pour ce faire, il existe principalement deux mé-
thodes :
– Virtuellement en simulant numériquement la mesure avec des logiciels
adaptés, tels que Catt-Acoustique 1
. Cette approche permet d’obtenir
un ordre HOA flexible, de considérer n’importe quelle pièce et de disposer
les points de mesures à n’importe quelle position de l’espace. En
1. Un résultat de simulation numérique d’un studio de type LEDE, effectuée au
LIMSI/CNRS, a été utilisé dans cette étude.
77Figure 2.9 – Projection sur les harmoniques sphériques de la norme RMS
des quatre signaux du B-Format, représentation spatiale d’une mesure par
microphone SoundField.
revanche, certaines simulations peuvent générer des artefacts audibles,
notamment en haute fréquence, qui nuisent au rendu.
– Réellement en mesurant des réponses impulsionnelles avec une sphère
de microphones. Cette technique demande à la fois du matériel de haute
qualité (microphones HOA, carte son, haut-parleurs, salle mesurable,
etc.), ainsi que des logiciels de traitement du type encodeur/décodeur
HOA. Cette technique est plus difficile à mettre en œuvre, mais offre
souvent des résultats plus convaincants à l’écoute.
Ces deux approches ont été testées durant la thèse et les résultats intégrés
dans PifPaf3D. Ainsi, un outil Matlab a été spécifiquement programmé pour
réaliser des mesures de réponses impulsionnelles par microphone HOA. Cependant,
comme le seul microphone 3D à disposition pendant la thèse était
un Soundfield SPS200 (à gauche sur la figure 2.8), toutes les prises de son
ont été faites à l’ordre 1 (équivalent du B-Format). Ce logiciel doit donc encore
être éprouvé pour les ordres supérieurs. Cela étant, trois pièces ont été
mesurées, à savoir la salle à manger de la société Digital Media Solutions, le
bureau de l’équipe Audio 3D de DMS et le studio de répétition des étudiants
de l’École Polytechnique (fig. 2.8). Dans le cas du studio, un haut-parleur a
été placé tous les 30 degrés en azimut, à élévation nulle, pour générer une
base de données sur douze positions. Le signal de mesure utilisé est une
combinaison entre codes de Golay [32], bruit blanc et sweep-sine fréquentiel
[80]. À titre d’exemple issu d’une de ces mesures, la projection sur les har-
78Figure 2.10 – Méthode des haut-parleurs virtuels pour le rendu ambisonique
en binaural. (source [20])
moniques sphériques de la norme RMS des quatre signaux du B-Format est
représentée dans l’espace sur la figure 2.9. Cette enveloppe prend la forme
d’un champignon, dont le maximum est symbolisé par l’étoile noire, tandis
que le cercle noir donne la position théorique du haut- parleur comme réfé-
rence. La mesure est validée dès lors que ces deux objets sont suffisamment
proches, preuve que l’onde directe est captée à la bonne incidence. Avec ce
type de représentation, cet outil peut aussi servir à la localisation de sources
sonores. En complément de ces données, les RIR effectuées par A. Farina en
B-format dans une salle de classe, une bibliothèque et une salle de concert
(www.isophonics.net, [29]) ont aussi été intégrées dans PifPaf3D.
La deuxième étape consiste à filtrer les sources sonores ponctuelles par les
fonctions de transfert tridimensionnelles de la pièce, obtenues pendant l’étape
précédente. Tout d’abord, chaque position est associée à la plus proche RIR
mesurée et le contenu audio de la source est filtré en domaine ambisonique
pour obtenir la projection du signal original sur les harmoniques sphériques.
Suivant cette étape d’encodage, un filtrage supplémentaire peut éventuellement
être ajouté pour corriger la proximité des haut-parleurs, ou encore la
sphéricité du microphone dans le cas d’une mesure réelle. Une fois toutes
les sources audio traitées par leurs réponses respectives, celles-ci sont sommées,
toujours en domaine ambisonique. Un décodage associe alors le signal
à diffuser sur chaque haut-parleur virtuel, qui sont in fine rendus par filtrage
binaural comme résumé figure 2.10.
En pratique, le module d’acoustique de salle de PifPaf3D (gauche, fig. 2.11)
est capable de traiter jusqu’à huit sources sonores en temps réel avec un dé-
codage HOA d’ordre 3, diffusé sur un système à vingt canaux disposés aux
79Figure 2.11 – PifPaf3D - (Gauche) Module de traitement acoustique de
salle. (Droite) Module de traitement High Order Ambisonics.
sommets d’un dodécaèdre. Pour ce faire, l’algorithme d’overlap-add optimisé
pour le traitement binaural a été adapté à l’ajout d’acoustique de salle par
convolution, ce qui diminue considérablement les coûts de calculs effectués
par Matlab. De plus, l’interface graphique offre la possibilité de comparer
l’ajout d’acoustique de salle au signal original par un bouton "on/off ", qui
active/désactive l’effet en temps réel. Pour respecter les niveaux lors d’écoutes
comparées, un contrôle des gains à la volée a été ajouté pour que la norme
RMS du signal de sortie soit proche de celle du signal d’entrée. Cette option
est disponible par simple clic sur le bouton "Volume" de l’interface. Par
ailleurs, comme expliqué précédemment, plusieurs salles sont présentes par
défaut, comme le studio de l’école Polytechnique, et l’utilisateur averti peut
aisément rentrer ses propres mesures dans le code source. Un ordre ambisonique
variable est proposé, entre 0 (réverbération classique) et 3 (réverbération
directionelle), scalable au besoin selon la théorie HOA. Un curseur
permet en outre de jouer sur le rapport "Dry-Wet", couramment utilisé par
les ingénieurs du son utilisant ce type d’effet. Pour finir, un filtre additionnel
permet de compenser la proximité des haut-parleurs (bouton "Near LS") et
l’utilisateur peut activer une interpolation linéaire des RIR, à la place d’une
recherche de la RIR la plus proche (bouton "Interp").
Suite aux développements effectués pour les mesures réelles de réponses
impulsionelles de salle en High Order Ambisonics, un module autonome de
traitement HOA a été ajouté à PifPaf3D (droite, fig. 2.11). Ce dernier pratique
un encodage/décodage des signaux bruts issus de microphones sphé-
riques, couplé à des filtres correctifs. En pratique, seul le Soundfield SPS200
a été éprouvé, faute de microphones d’ordre plus élevé disponibles. Les signaux
de sortie sont donc directement projetés sur les harmoniques sphé-
riques, relativement aux positions des capsules, avant d’être filtrés en domaine
ambisonique pour compenser notamment la répartition sphérique et
la directivité des capsules. Enfin, le décodage HOA est effectué sur le sys-
80Figure 2.12 – Représentation fréquentielle du module des filtres associés au
casque Sennheiser HD25.
tème de haut-parleurs choisi lors de la première étape de configuration de
PifPaf3D. Comme le montre l’interface graphique, un choix de microphones
est néanmoins possible et les filtres spatiaux associés sont activables (bouton
"Spatial filter"). De plus, il est possible de visualiser en trois dimensions le
microphone utilisé en cliquant sur le bouton "Visu Mic", notamment pour
s’assurer du routing entre les canaux de sortie du microphone et les entrées
fixées dans ce module. Enfin, le contenu encodé en HOA peut être sauvé pour
une éventuelle utilisation extérieure des signaux bruts encodés en domaine
ambisonique (bouton "Save Content").
2.5 Compensation du casque et égalisation
Le dernier module présenté dans ce chapitre concerne la compensation
du casque et l’égalisation tri-bande du signal de sortie. La compensation
du casque consiste en la suppression de la fonction de transfert issue à la
fois des transducteurs utilisés, de la forme et des matériaux de la structure
du casque, ainsi que de la cavité formée par le système {Oreille Externe ;
Casque} dans le cas d’une écoute fermée. Pour ce faire, plusieurs séries de
mesures ont été pratiquées en plaçant différents casques sur la tête artifi-
cielle Neumann KU100, isolée phoniquement par des panneaux absorbants.
Le signal utilisé pour l’obtention des fonctions de transfert est une combinaison
entre code de Golay, bruit blanc et sweep-sine, au même titre que
pour les mesures de réponses impulsionnelles de salle. Entre chaque excitation,
le casque est retiré puis remis, ceci afin de moyenner intrinsèquement
les différents positionnements possibles sur les oreilles. Un code Matlab a été
81Figure 2.13 – PifPaf3D - Module de compensation de casque et d’égalisation
tri-bandes.
spécifiquement développé pour traiter les données ainsi obtenues et livrer un
filtre brut utilisable par PifPaf3D. Un exemple de module fréquentiel d’une
fonction de transfert mesurée avec un casque type Sennheiser HD25 est représenté
en bleu sur la figure 2.12. Sur cette même figure, apparaissent les
différents étapes de traitement avec, en premier lieu, le filtre brut tronqué
(en rouge) par un gabarit (en noir), dont la bande fréquentielle est définie par
l’utilisateur. Étant donné que la mesure par tête artificielle nécessite l’utilisation
d’un filtre coupe-bas pour limiter le bruit, la valeur minimale du gabarit
a été fixée à 400 Hz. La valeur maximale est déterminée par une estimation
empirique de la zone de linéarité des transducteurs au delà de laquelle les
mesures ne sont plus considérées comme tangibles (ici 4000 Hz). Le module
de la fonction de transfert ainsi obtenue est alors inversé pour servir de réfé-
rence à la création d’un filtre à minimum de phase par modélisation du type
Yulewalk (en vert sur la figure 2.12). Ce filtre compensatoire est alors utilisé
par convolution en domaine de Fourier sur les signaux gauches et droits.
L’interface graphique associée au module de compensation du casque
(fig. 2.13) propose ainsi un ensemble de corrections de casques, mesurés au
sein de la société DMS et obtenu d’après le protocole précédent. Le module
du filtre fréquentiel associé est affiché en noir sur cette figure et le résultat du
filtrage des canaux gauche et droit est donné en temps réel par les courbes
bleu (canal gauche) et rouge (canal droit). Un bouton "on/off " permet d’activer
ou désactiver le traitement en temps réel, notamment pour les écoutes
comparées. Par ailleurs, en utilisant cette fonctionnalité, un bruit blanc a été
compensé par PifPaf3D pour chaque casque mesuré. Le fichier audio obtenu
a été diffusé et enregistré sur le même dispositif que celui utilisé pour les mesures,
à savoir le casque positionné sur la tête artificielle Neumann KU100.
Ce résultat a été comparé en domaine fréquentiel à la diffusion du bruit blanc
de référence, où la fonction de transfert est non compensée. Ainsi, pour la
82plupart des casques, le module fréquentiel obtenu après compensation est
bien plus aplati, ce qui valide expérimentalement le procédé et les résultats.
Enfin, en complément de cet outil, un égaliseur tri-bande du second ordre
est proposé, notamment pour compenser d’éventuelles détériorations fréquentielles
du signal original traité par les différents modules composant PifPaf3D.
Ce dernier est accessible en temps réel par trois curseurs modifiant les gains
par bande de fréquence ("Low", "Medium" et "High", fig. 2.12). Un bouton
"Reset" a été ajouté pour remettre rapidement l’ensemble de ces gains à leur
valeur par défaut.
2.6 SpherAudio Headphones
Dès ses premières versions, PifPaf3D a démontré des performances étonnantes
d’un point de vue qualitatif, validées par de nombreux ingénieurs du
son, ainsi que d’importants industriels du monde de l’audio. La société DMS
a donc rapidement monté une équipe de développement pour créer une librairie
C/C++ industrialisable, dont l’équivalence au code Matlab est certifiée
par une batterie de tests de non régression. Afin d’assurer une retranscription
inaudible sur l’ensemble des traitements effectués, ces tests adoptent tous une
précision relative fixée à 10−6
sur les signaux de sortie. PifPaf3D reste donc
l’unique référence, limitant les conflits éventuels entre les différents codes.
Par ailleurs, la librairie C/C+ a été popularisée sous la marque SpherAudio
Headphones (fig. 2.14 et 2.15), et interfacée avec :
– un plug’in VST sous Reaper (SpherAudioVST) ;
– un processeur dédié (BP84 ) ;
– une tablette Samsung Galaxy Tab (SpherAudioDroid) ;
– une web audio API en HTML5 (SpherAudioAPI) ;
– un serveur audio (SpherAudio@Home).
Mis à part le BP84, tous ces développements ont été réalisés par M. Mathieu
Coïc, que j’ai eu le plaisir d’encadrer en parallèle des travaux de recherche
doctorale présentés dans ce manuscrit. Par ailleurs, de nombreux stagiaires
ont contribué à la réalisation de ces outils. Dès lors, il est agréable de préciser
que le plug’in VST et le processeur dédié ont été utilisés par de nombreux
organismes, publics ou privés (CNSMDP, Radio France, France Télévision,
INA, Technicolor, etc.). De plus, Radio France a mis en ligne un site internet
pour diffuser des contenus spatialisés, utilisant la gamme SpherAudio
pour l’encodage binaural (fig. 2.16). Je profites donc de ce court aparté pour
renouveler à tous et à toutes mes sincères félicitations et remerciements.
83Figure 2.14 – Outils et logiciels dérivés de PifPaf3D, développés en parallèle de la thèse par la société Digital
Media Solutions. (Haut, gauche) Spatialisateur SpherAudioAPI pour les plate-formes web compatibles HTML5,
comme Google Chrome. (Haut, droite) Spatialisateur SpherAudioDroid pour les tablettes Androïd du type Samsung
Galaxy et les terminaux mobiles compatibles. (Bas, gauche) Plug’in VST SpherAudioVST pour le logiciel de Musique
Assisté par Ordinateur Reaper. (Bas, droite) Processeur Binaural BP84 pour le traitement professionnel sur système
embarqué, proposant huit entrées mono et quatre sorties binaurales.
84Figure 2.15 – Outils et logiciels dérivés de PifPaf3D, développés en parallèle
de la thèse par les ingénieurs de la société Digital Media Solutions. (Gauche)
Interface "télécommande" pour serveur d’Audio spatialisé sous tablette Androïd.
(Droite) Interface "télécommande" pour serveur d’Audio-description
spatialisée sous tablette Androïd, en vue d’améliorer l’accessibilité au cinéma
des personnes non-voyantes.
85Figure 2.16 – Visuels extraits de nouvoson.radiofrance.fr, plate-forme de
contenus multicanaux mis en ligne par Radio France, utilisant les outils dé-
rivés de PifPaf3D pour l’encodage binaural (BP84 et SpherAudioVST).
868788Chapitre 3
Formulations intégrales rapides
pour l’acoustique
Une fois que le spatialisateur PifPaf3D eut atteint un stade de développement
suffisant pour être exploité dans la suite des recherches, la seconde
partie de la thèse porta sur la génération numérique des fonctions de transfert
HRTF, notamment pour leurs individualisations. En effet, comme expliqué
dans les chapitres précédents, une des difficultés majeures que rencontrent
aujourd’hui les technologies binaurales concerne la personnalisation de ces
filtres, propres à chacun. De nombreuses études ont démontré qu’un filtrage
générique est insuffisant pour un rendu de l’espace réellement convaincant
(e.g. [12], [67], [86]). C’est pourquoi le but original de l’ensemble du projet
de thèse consiste en l’obtention et l’exploitation de HRTF individualisées
pour le grand public, obtenues par une reproduction numérique des mesures
physiques (e.g. [39], [49], [50], [51], [52]). Le protocole alors envisagé (fig. 3.1)
est découpé en trois grandes étapes :
1. Création et adaptation de maillages de tête/corps individuels, obtenus
par traitement d’images et fusionnés ou non avec des maillages paramétriques
de formes élémentaires (sphères, ovoïdes, cônes, etc.). Cette
étape, détaillée dans le chapitre suivant, a notamment été réalisée en
Matlab à partir de données issues d’une Kinect Microsoft.
2. Réalisation d’un moteur de calcul intégral pour résoudre rapidement les
équations de propagation des ondes sur lesdits maillages. Cette étape
a donné naissance à la librairie MyBEM, entièrement programmée en
Matlab et optimisée par vectorisation. De plus, une nouvelle méthode
rapide intitulée "Décomposition Creuse en Sinus Cardinal" ("Sparse
Cardinal Sine Decomposition") a été implémentée en lieu et place des
classiques méthodes multipolaires FMM (e.g. [31], [34], [35], [38], [82]).
89Figure 3.1 – Résumé de la méthodologie envisagée pour la création de HRTF
numériques individualisées. Diagramme issu du projet de thèse initial, entre
mathématiques appliquées et acoustique.
903. Validation par tests perceptifs des HRTF issues des simulations numériques
sur les maillages individuels, en utilisant le moteur binaural
PifPaf3D pour le rendu audio. Cette étape n’a pas été réalisée pendant
la thèse et fera l’objet de recherches ultérieures. 1
Une revue théorique des équations intégrales fait donc l’objet de la première
partie de ce chapitre, adjointe à l’introduction de la méthode multipolaire rapide
(Fast Multipole Method). Dans une seconde partie, la nouvelle méthode
rapide SCSD est présentée, non pas de façon théorique, mais en suivant les
différentes étapes du raisonnement qui ont menées vers le formalisme final.
Une présentation moins empirique, établie en parallèle de la rédaction de
ce manuscrit, est disponible dans l’article [5] joint en annexe. La réalisation
pratique au sein de la librairie MyBEM, développée conjointement avec
F. Alouges, est quant à elle présentée dans le chapitre suivant.
3.1 Représentation et équations intégrales
Il existe différentes méthodes pour la modélisation numérique des phé-
nomènes de propagation d’ondes, classés parmi les problèmes hyperboliques
linéaires. En effet, la linéarité permet un traitement de la variable temps par
transformée de Fourier, ce qui autorise une formulation en temps comme en
fréquence. Dans le cas de l’acoustique fréquentielle, le problème de diffraction
résultant peut être écrit sous une forme intégrale, puis discrétisé par éléments
finis de frontière. Cette section introduit donc quelques rappels classiques des
équations intégrales sous forme variationnelle. Pour plus de précisions, le lecteur
curieux peut se documenter sur les ouvrages suivants : [13], [16], [55],
[69] et [82].
3.1.1 Diffraction dans l’espace libre
Les équations de l’acoustique s’obtiennent par linéarisation des équations
d’Euler, caractérisant les fluides :
– Conservation de la masse ;
– Conservation de la quantité de mouvement ;
– Conservation de l’entropie pour les fluides parfaits.
1. En complément, des itérations sur l’ensemble de ce processus sont envisagées pour
obtenir une personnalisation optimale. En effet, il doit être possible d’exploiter les données
issues des tests perceptifs pour guider la création des maillages de calcul, ainsi que pour
définir les conditions aux limites du problème à résoudre. Cette piste fera très probablement
l’objet de travaux futurs.
91En fixant c la vitesse du son dans un fluide au repos, la pression acoustique
p vérifie l’équation des ondes scalaire :
1
c
2
∂
2
t
p − ∆p = 0. (3.1)
Pour que ce modèle conduise à un problème bien posé, il est nécessaire d’ajouter
des conditions initiales à t = 0.
Par ailleurs, comme l’équation des ondes scalaire (3.1) est linéaire, la
transformée de Fourier en convention temporelle e
iωt conduit à l’équation de
Helmholtz scalaire :
−∆u −
ω
2
c
2
u = −∆u − k
2u = 0, (3.2)
où k représente le nombre d’onde (rad.m−1
) et u(ω) = p(ω), ω étant la
pulsation (rad.s−1
). Il existe certaines solutions non triviales à cette équation,
mentionnées à toutes fins utiles :
– Les ondes planes, dont le vecteur d’onde k, de module k, fixe la direction
de propagation :
u(x) = u0e
−ik·x ∀x ∈ Ω, (3.3)
– Les ondes sphériques :
u(x) = u0
e
±ik|x|
|x|
∀x ∈ Ω
∗
. (3.4)
Enfin, pour que le problème fréquentiel (3.2) équivalent à la formulation
temporelle (3.1) soit bien posé, il faut rajouter des conditions aux limites
pour fixer le sens du temps et fermer le système. La condition de radiation
de Sommerfeld (3.5), introduite à partir de considérations énergétiques, joue
ce rôle en assurant l’unicité d’une solution :
r (∂ru + iku) → 0 quand r = |x| → +∞. (3.5)
Il est d’ores et déjà possible de constater que certaines solutions de l’équation
de Helmholtz (3.2) ne respectent pas cette condition, à l’instar des ondes
planes (3.3), dites non causales (ou non physiques). Pour résumer, un problème
bien posé de diffraction dans l’espace libre s’écrit dans le cas général :
−∆u − k
2u = f,
r (∂ru + iku) → 0 quand r → +∞.
92Figure 3.2 – Notations associées à la modélisation des phénomènes de propagation
d’ondes. (source [82])
Pour f ≡ δy, ce système possède une solution élémentaire E ∈ D0
(R
3
),
au sens des distributions. Dans le cas tridimensionnel, le noyau (ou fonction)
de Green G(x, y) est introduit à partir de E :
G(x, y) = E(x − y) = e
−ik|x−y|
4π|x − y|
∀(x, y) ∈ R
3
, (3.6)
et permet d’établir l’expression de la solution générale u du problème, issue
du produit de convolution ? suivant :
u(x) = (E ? f)(x) = Z
R3
G(x, y)f(y)dy =
Z
R3
e
−ik|x−y|
4π|x − y|
f(y)dy. (3.7)
Pour que cette expression ait un sens, des restrictions sur f doivent être
imposées avec, par exemple, f ∈ L
2
(R
3
).
3.1.2 Diffraction en présence d’un obstacle
Une surface fermée régulière et orientable Γ découpe désormais l’espace Ω
en un ouvert borné Ω
i
et un ouvert non borné Ω
e
(fig. 3.2). La présence d’une
telle frontière permet de définir deux distributions surfaciques, utilisées pour
établir les résultats fondamentaux de ce chapitre :
– Pour toute fonction λ régulière définie sur une surface Γ, la distribution
de simple couche de densité λ sur Γ correspond à la mesure de Radon
s(λ) = λ(x)dΓx telle que :
hs(λ), φi =
Z
Γ
λ(x)φ(x)dΓx ∀φ ∈ D(R
3
). (3.8)
93– La distribution de double couche de densité µ, notée d(µ), est quant à
elle définie par :
hd(µ), φi =
Z
Γ
µ(x)∂nφ(x)dΓx ∀φ ∈ D(R
3
). (3.9)
Ainsi, dans le cas particulier du rayonnement de sources réparties sur la
surface Γ, le potentiel de simple couche Sλ peut être établi comme la solution
u du problème de diffraction dans l’espace libre pour une distribution de
simple couche s(λ) (3.8) :
−∆u − k
2u = s(λ),
r (∂ru + iku) → 0 quand r → +∞.
D’après la formulation générale des solutions de ce problème (3.7), Sλ s’écrit
donc comme le produit de convolution :
Sλ(x) = (E ? s(λ))(x) = Z
Γ
G(x, y)λ(y)dΓy ∀x ∈ R
3
, (3.10)
et possède les propriétés suivantes :
– Continuité dans R
3
;
– C
∞ en dehors de Γ ;
– Solution de l’équation de Helmholtz homogène (3.2) en dehors de Γ ;
– Vérifie la condition de radiation à l’infini de Sommerfeld.
L’opérateur S associé est appelé "opérateur de simple couche" et sa restriction
à la frontière Γ sera notée S. Au même titre, un opérateur dit de "double
couche" D peut être appliqué à toute fonction régulière µ, définie sur Γ, pour
former le potentiel de double couche suivant :
Dµ(x) = (E ? d(µ))(x) = Z
Γ
∂nyG(x, y)µ(y)dΓy ∀x ∈ R
3
, (3.11)
où d(µ) est la distribution de double couche (3.9). Le potentiel de double
couche Dµ possède les mêmes propriétés que celui de simple couche Sλ, mais
présente une discontinuité sur R
3 par un saut de −µ à la traversée de Γ. La
restriction de l’opérateur double couche D à la frontière Γ sera notée D.
Les solutions u
tot du problème de diffraction en présence d’un obstacle
peuvent désormais être explicitées à partir de ces potentiels de rayonnement.
En posant le champ diffracté u = u
tot − u
in comme la différence entre le
champ total u
tot et le champ incident u
in
, u est solution de l’équation de
Helmholtz homogène (3.2), pour laquelle le théorème de représentation inté-
grale s’applique.
94Théorème 1 (de représentation intégrale) Soit u une fonction régulière dé-
finie de part et d’autre d’une frontière Γ régulière orientée. La restriction de
u à Ω
i
est notée u
i
et la restriction à Ω
e
est notée u
e
. Les sauts de u et de
sa dérivée normale ∂nu sont notés µ et λ :
µ = [u] = u
i − u
e
et λ = [∂nu] = ∂nu
i − ∂nu
e
sur Γ.
D’après la formule des sauts appliquée à la distribution {u}, définie par u en
dehors de Γ :
∆{u} = {∆u} − s([∂nu]) + d([u]),
si les hypothèses suivantes sont satisfaites :
−(∆u
i + k
2u
i
) = 0 dans D0
(Ωi
),
−(∆u
e + k
2u
e
) = 0 dans D0
(Ωe
),
r (∂ru
e + ikue
) → 0 quand r → +∞,
alors la fonction u vérifie :
−(∆ + k
2
)u = s(λ) − d(µ) dans D
0
(R
3
),
ainsi que la condition de radiation à l’infini. u est donc la somme d’un potentiel
de simple couche et d’un potentiel de double couche :
u = E ? s(λ) − E ? d(µ),
u = Sλ − Dµ dans D
0
(R
3
).
Plus précisément, les formulations de représentation intégrale suivantes peuvent
être explicitées :
u(x) = Sλ(x) − Dµ(x) ∀x ∈ Ω
i ∪ Ω
e
,
1
2
(u
i
(x) + u
e
(x)) = Sλ(x) − Dµ(x) ∀x ∈ Γ,
1
2
(∂nu
i
(x) + ∂nu
e
(x)) = D
∗λ(x) − Hµ(x) ∀x ∈ Γ,
où les opérateurs S, D, S et D sont tels qu’introduits dans (3.10) et (3.11).
Les opérateurs D∗
et H (hypersingulier), sont respectivement obtenus par
dérivation normale des opérateurs de simple et double couches S et D. Par
ailleurs, dans le cas de singularités géométriques présentes sur une surface Γ
lipschitzienne, les facteurs 1
2
doivent être remplacés par les rapports à 4π des
limites des angles solides intérieurs et extérieurs.
953.1.3 Équations intégrales
Le théorème de représentation intégrale 1 est la pierre angulaire des mé-
thodes intégrales. Il peut élégamment s’écrire sous la forme d’opérateurs matriciels,
appelés projecteurs de Calderón intérieur Ci et extérieur Ce.
Théorème 2 (Projecteurs de Calderón) Soient λ et µ deux fonctions régulières
quelconques définies sur Γ, alors la fonction u définie par u = Sλ−Dµ
dans D0
(R
3
) est solution de l’équation de Helmholtz dans Ω
i ∪ Ω
e
et vérifie la
condition de radiation à l’infini. De plus, les traces intérieures et extérieures
de u et de sa dérivée normale sur Γ sont données par :
u
i
∂nu
i
= (Id
2
+ C)
µ
λ
= Ci
µ
λ
,
u
e
∂nu
e
= (−
Id
2
+ C)
µ
λ
= Ce
µ
λ
,
où C est l’opérateur
−D S
−H D∗
.
De plus, les projecteurs Ce et Ci satisfont les relations suivantes :
C
2
i = Ci
, C2
e = Ce, Ci − Ce = Id,
qui peuvent se réécrire à partir des opérateurs surfaciques usuels :
DS = SD∗
, HD = D
∗H, D2 − SH = D
∗2 − HS =
Id
4
. (3.12)
Ces projecteurs confirment que les potentiels de simple et double couches
sont définis partout et vérifient l’équation de Helmholtz en dehors de Γ, ainsi
que la condition de radiation de Sommerfeld à l’infini.
Cependant, afin de calculer explicitement la solution du problème de diffraction
en présence d’un obstacle, il reste encore à déterminer les sauts µ
et λ. Pour cela, des prolongements sur les traces intérieures et extérieures
de u permettent d’établir des équations intégrales, définies sur la frontière Γ.
Pour former un système bien posé, ces équations sont alors couplées à des
conditions de bord, fixées par la modélisation physique de la structure diffractante.
Trois types de condition de bord sont utilisés en pratique :
96– La condition de Dirichlet, pour les obstacles dits mous (ou soft) :
u = uD régulière sur Γ; (3.13)
– La condition de Neumann, pour les obstacles dits rigides (ou hard) :
∂nu = grad(u) · n = uN régulière sur Γ; (3.14)
– La condition de Robin (ou Fourier), pour les obstacles d’impédance β :
∂nu − ikβu = uR régulière sur Γ. (3.15)
Selon la modélisation physique souhaitée, il existe de nombreuses équations
intégrales liées aux conditions de bord et au choix du prolongement des traces
intérieures ou extérieures. Aussi, pour ne pas surcharger le manuscrit par de
nombreuses formules, seuls les problèmes extérieurs de Dirichlet et Neumann
sont détaillés.
Dans le cas d’un problème de Dirichlet extérieur (3.13), la formulation
bien posée est la suivante :
−(∆u
e + k
2u
e
) = 0 dans Ω
e
,
u
e = uD régulière sur Γ,
r (∂ru
e + ikue
) → 0 quand r → +∞,
et selon le prolongement choisi pour la trace intérieure, cinq équations inté-
grales peuvent être formulées en saut :
Prolongement µ λ
Dirichlet 0 Sλ = uD
Neumann −(0.5Id + D)µ = uD 0
Zéro −uD Sλ = (0.5Id − D)uD
Zéro (∂n) −uD (0.5Id + D∗
)λ = −HuD
Robin, β ∈ C (ikβS − (0.5Id + D))µ = uD ikβµ
Pour les quatre premières équations, le prolongement n’est pas unique si k
2
est une valeur propre du problème de Dirichlet intérieur relatif à l’opérateur
−∆. L’opérateur associé à l’équation intégrale ne sera donc pas inversible
pour ces fréquences propres.
97Dans le cas d’un problème de Neumann extérieur (3.14), la formulation
bien posée s’écrit cette fois :
−(∆u
e + k
2u
e
) = 0 dans Ω
e
,
∂nu
e = uN régulière sur Γ,
r (∂ru
e + ikue
) → 0 quand r → +∞,
avec les équations intégrales associées :
Prolongement µ λ
Dirichlet 0 (−0.5Id + D∗
)λ = uN
Neumann −Hµ = uN 0
Zéro −Hµ = (0.5Id + D∗
)uN −uN
Zéro (trace) (0.5Id − D)µ = SuN −uN
Robin, β ∈ C −(H + ikβ(0.5Id − D∗
))µ = uN ikβµ
Au même titre que pour le problème de Dirichlet, seule la dernière équation
assure l’existence et l’unicité d’une solution pour toutes les fréquences.
Une fois ces équations établies, il ne reste plus qu’à les résoudre numé-
riquement pour obtenir les sauts µ et λ. En accord avec le théorème de
représentation intégrale, la solution générale u pourra dès lors être calculée
en tous points de l’espace, par rayonnement des potentiels de simple et
double couches Sλ et Dµ. Pour mémoire, les opérateurs intégraux mis en jeu
s’écrivent dans l’espace tridimensionnel :
Sλ(x) = Z
Γ
G(x, y)λ(y)dΓy pour x ∈ R
3
\ Γ, (3.16)
Dµ(x) = Z
Γ
∂nyG(x, y)µ(y)dΓy pour x ∈ R
3
\ Γ, (3.17)
Sλ(x) = Z
Γ
G(x, y)λ(y)dΓy pour x ∈ Γ, (3.18)
Dµ(x) = Z
Γ
∂nyG(x, y)µ(y)dΓy pour x ∈ Γ, (3.19)
D
∗λ(x) = Z
Γ
∂nxG(x, y)λ(y)dΓy pour x ∈ Γ, (3.20)
Hµ(x) = Z
Γ
∂
2
nxyG(x, y)µ(y)dΓy pour x ∈ Γ, (3.21)
où G(x, y) est le noyau de Green introduit en (3.6). De plus, en posant
x = |x|ν = rν dans R
3
, à ces relations s’ajoutent les potentiels de champ
98lointain, obtenus par développement limité du noyau de Green pour |x| |y| :
Sλ(x) = e
−ikr
4πr
S
∞λ(ν) + O(
1
r
2
)
avec S
∞λ(ν) = Z
Γ
e
ikν·yλ(y)dΓy, (3.22)
et Dµ(x) = e
−ikr
4πr
D
∞µ(ν) + O(
1
r
2
)
avec D
∞µ(ν) = ik Z
Γ
(ny · ν)e
ikν·yµ(y)dΓy. (3.23)
Les opérateurs S
∞ et D∞ sont appelés "opérateurs de rayonnement à l’infini"
et sont couramment utilisés pour représenter la radiation en champ lointain,
sans tenir compte de la décroissance 1
r
.
3.1.4 Formulations discrètes
Le problème de Dirichlet extérieur prolongé par un problème de Dirichlet
intérieur a été choisi pour établir une formulation discrète des équations inté-
grales. À partir de cet exemple, la méthodologie peut aisément être reproduite
pour obtenir les formulations d’autres problèmes. Aussi, pour toute fonction
régulière f, l’équation intégrale à résoudre s’écrit :
Sλ = f,
Sλ(x) = Z
Γ
G(x, y)λ(y)dΓy = f(x) pour x ∈ Γ.
Ce problème peut alors être formulé sous la forme variationnelle :
trouver λ ∈ V = H− 1
2 (Γ) tel que
hSλ, λt
i = hf, λt
i ∀λ
t ∈ V.
Les méthodes par éléments finis de frontière consistent, en premier lieu,
à approcher la surface Γ par un maillage élémentaire Th de taille h, composé
par exemples de triangles Ti
formant une discrétisation Γh de Γ. Ce maillage
doit vérifier les propriétés classiques sur l’intersection de deux éléments, la
qualité des éléments, etc. Dès lors, l’espace variationnel V peut être approché
par un espace :
Vh = {λh = λi sur le triangle Ti
, Ti ∈ Th},
et la formulation variationnelle devient :
trouver λh ∈ Vh tel que
hSλh, λt
h
i = hf, λt
h
i ∀λ
t
h ∈ Vh.
99Cette approximation, dite P
0
, est conforme et permet d’approcher λ par λh,
constante par morceau. De plus, Vh est de dimension N égale au nombre de
triangles de Th et sa base {φi
, i = 1, · · · , N} s’exprime relativement simplement
par :
φi(x) =
1 sur le triangle Ti
,
0 ailleurs.
Une fois ce cadre formel établi, en posant Λ
h
les coordonnées de λh ∈ Vh
dans la base {φi
, i = 1, .., N} telles que :
λh(x) = X
N
i=1
Λ
h
i φi(x),
le problème discret équivalent à la formulation variationnelle approchée consiste
en la résolution du système linéaire S
hΛ
h = F
h
. Chaque coefficient de la matrice
S
h
est défini par :
S
h
i,j =
Z
Ti
Z
Tj
G(x, y)dTj (y)dTi(x) pour (i, j) ∈ {1, · · · , N}
2
,
et le vecteur F
h a pour coordonnées :
F
h
i =
Z
Ti
f(x)dTi(x).
En supposant, d’une part, que k
2 n’est pas une valeur propre du problème de
Dirichlet intérieur pour −∆, d’autre part, que le maillage est suffisamment
fin pour que la base choisie puisse représenter correctement le problème, le
système linéaire ainsi formé admet une unique solution Λ
h
.
Dès lors, le champ approché uh de la solution du problème de diffraction
u peut être calculé dans tout l’espace, par représentation intégrale des
potentiels de simple et double couches approchés S
hλh et Dhµh. Dans le cas
d’un problème de Dirichlet extérieur prolongé par Dirichlet intérieur, µ = 0
et la représentation discrète s’écrit :
uh(x) = Z
Γh
G(x, y)λh(y)dΓh(y)
=
X
N
j=1
Λ
h
j
Z
Tj
G(x, y)dTj (y).
Heuristiquement, pour obtenir des résultats raisonnables en approximation
P
0
, il faut que la taille h des éléments soit au minimum inférieure au
dixième de la longueur d’onde (donnée empirique). Un espace variationnel
100discret P
1 permet d’estimer λh par des fonctions de bases plus précises, linéaires
par morceaux (fonctions chapeaux). Auquel cas, au prix d’une inté-
gration locale plus fine, la taille h des éléments peut être seulement inférieure
au sixième, voire au quart de la longueur d’onde. In fine, quelle que soit la dimension
de l’espace d’approximation variationnelle, l’assemblage du système
linéaire à résoudre est principalement fonction des interactions élémentaires
dans Th, estimées numériquement par intégration de Gauss. En omettant les
problèmes liés aux singularités des intégrales, ceci revient donc à calculer
l’ensemble des interactions au sein d’un nuage de points, évaluées avec une
complexité quadratique. C’est pourquoi le calcul rapide de ces interactions
est un enjeu majeur pour la compétitivité des méthodes intégrales.
3.2 Introduction aux méthodes multipolaires
rapides
La méthode des multipoles rapides (Fast Multipole Method) a été introduite
par L. Greengard et V. Rokhlin à la fin du XXe
siècle [34], pour ramener
la complexité des méthodes intégrales de quadratique (N2
) à quasi-linéaire
(N log N). Cet algorithme a littéralement bousculé les ordres de grandeurs
des problèmes jusqu’alors résolus, et, pour cela, a été classé parmi les dix
algorithmes majeurs du siècle dernier (source Wikipedia). Pour réaliser cette
compression, le principe de base consiste à calculer des produits matricesvecteurs
de manière économique, à la fois en mémoire vive et en charge de
calcul. Seule une brève introduction est présentée dans ce manuscrit, essentiellement
pour illustrer les concepts principaux mis en jeu. Pour de plus
amples détails, de nombreux ouvrages de référence expliquent les fondements
théoriques et pratiques de cette méthode (e.g. [35], [38], [82]).
En méthodes intégrales, quelle que soit la formulation variationnelle et
l’équation intégrale considérée, le produit matrice vecteur calculé dans la
résolution d’un problème de diffraction se ramène toujours à la forme :
Z
Γh
Z
Γh
G(x, y)f(x)g(y)dΓh(x)dΓh(y),
avec f et g des fonctions scalaires. Hors singularités, les quadratures utilisées
pour l’évaluation numérique des intégrales font généralement appel à des
points de Gauss xg et yg, répartis sur la surface Γh. La formulation précédente
peut donc être approchée par la discrétisation :
X
xg∈Γh
X
yg∈Γh
G(xg, yg)f(xg)g(yg), (3.24)
101Figure 3.3 – Configuration type d’une répartition spatiale pour l’application
du théorème d’addition de Gegenbauer. (source [82])
où les fonctions f et g incluent aussi les poids d’intégration des quadratures.
L’idée générale de la FMM consiste à séparer les variables spatiales xg et
yg, pour calculer indépendamment, donc rapidement, les deux sommes de la
formulation (3.24) :
X
xg∈Γh
X
yg∈Γh
G(xg, yg)g(yg)
f(xg). (3.25)
Pour cela, le noyau de Green est décomposé à l’aide du théorème suivant :
Théorème 3 (d’addition de Gegenbauer) Soient x, y, M1 et M2 quatre
points de l’espace, avec x "proche" de M1 et y "proche" de M2 (fig. 3.3). s
est un point de la sphère unité S
2 dans R
3
, Pl
le polynôme de Legendre de
rang l et hl
la fonction de Hankel sphérique du premier type de rang l. En
posant le vecteur xy = xM1 + M1M2 + M2y, le noyau de Green G(x, y)
peut se décomposer en :
G(x, y) = ik
16π
2
lim
L→+∞
Z
s∈S2
e
iks·xM1T
L
M1M2
(s)e
iks·M2y
ds, (3.26)
avec
T
L
M1M2
(s) = X
L
l=0
(2l + 1)i
lhl(k|M1M2|)Pl(cos(s,M1M2)).
Dans (3.26), les variables x et y sont bien séparées et les trois termes de
l’intégrale sphérique peuvent s’interpréter comme suit :
– e
iks·xM1 transporte l’information du point source x au centre M1 ;
– T
L
M1M2
(s) transfère l’information du centre M1 au centre M2 ;
– e
iks·M2y
envoie l’information du centre M2 au point de destination y.
102Figure 3.4 – (Gauche) Traitement des interactions sans regroupement multipolaire.
(Droite) Traitement des interactions en FMM. (source [82])
Ainsi, de par la centralisation des informations sur M1 et M2 due au théorème
d’addition de Gegenbauer (3.26), le nombre d’interactions à calculer
entre le nuage de points en x et celui en y diminue grandement entre la
méthode classique et la méthode multipolaire (fig. 3.4). Il reste néanmoins
à choisir une valeur de troncature pour L, ainsi qu’une quadrature sur la
sphère unité S
2
, en fonction de la précision souhaitée pour l’évaluation des
interactions ponctuelles entre les deux groupes de points. Cette étape, particulièrement
délicate, est grandement liée à la "proximité" des objets mis en
jeu dans la configuration type (fig. 3.3). Le domaine de calcul original Ω doit
donc être découpé en sous-domaines, où la séparation des variables est valable
lorsque les deux sous-domaines en interaction ne sont pas voisins. Si tel
est le cas, le calcul de la double somme (3.24) sera traité classiquement, sans
regroupement multipolaire. Dans l’exemple de gauche de la figure 3.5, les interactions
entre C et C
0 peuvent être calculées par séparation des variables,
centrées respectivement sur M et M0
. Ce découpage conduit à la formulation
FMM mono-niveau du produit matrice-vecteur discret (3.24), entre C et C
0
:
ik
16π
2
X
xg∈C0
Z
s∈S2
X
yg∈C
e
iks·ygMf(yg)
T
L
MM0(s)e
iks·M0xgds
g(xg).
En considérant l’ensemble des interactions entre chaque sous-domaines,
la complexité finale de l’algorithme mono-niveau est de l’ordre de N3/2
. Pour
atteindre la limite N log N, les interactions multipolaires doivent être effectuées
suivant un algorithme du type Divide and Conquer. Pour ce faire, des
sous-domaines hiérarchiques sont construits à l’aide d’un octree (fig. 3.5 à
droite), en vue de former par bloc le produit matrice vecteur associé au problème.
Les interactions très lointaines seront, dès lors, traitées différemment
des interactions lointaines, banlieues, proches, etc. Cette méthode, bien que
robuste et bien maîtrisée, est relativement complexe, notamment dans sa
programmation, et de nombreux détails soulèvent toujours de grandes diffi-
cultés. Par ailleurs, bien que la complexité théorique de l’algorithme FMM
103Figure 3.5 – (Gauche) Découpage mono-niveau du domaine original Ω et de
la frontière Γ en sous-domaines de calcul. (Droite) Découpage multi-niveaux.
(source [82])
multi-niveaux ait pour limite N log N, la constante de cette complexité peut
être assez lourde si l’algorithme n’est pas correctement réglé pour le problème
à résoudre. Ces deux raisons ont poussé les recherches effectuées lors
de cette thèse vers une solution alternative, la Décomposition Creuse en Sinus
Cardinal (SCSD).
3.3 Nouvelle méthode rapide - SCSD
La séparation des variables d’espace (3.25) conduit au calcul rapide des
produits matrices-vecteurs (3.24), issus des équations intégrales. Dans le cas
de l’acoustique tridimensionnelle, cet assemblage se résume à évaluer le produit
de convolution (Gf )(xp), défini pour toute fonction régulière f par :
(Gf )(xp) = X
Ny
q=1
G(xp, yq)f(yq) = X
Ny
q=1
e
−ik|xp−yq|
4π|xp − yq|
f(yq). (3.27)
Ce résultat n’est pas sans rappeler la forme des solutions générales d’un
problème de diffraction (3.7), construites par le produit de convolution ?.
1043.3.1 Vers un problème mono-dimensionnel
Le fondement de la Décomposition Creuse en Sinus Cardinal (SCSD)
réside dans la représentation intégrale de la fonction sinus cardinal [69] et
[82]. Pour tout z dans R
3
:
sin(k|z|)
|z|
=
k
4π
Z
S2
e
iks·z
ds, (3.28)
avec S
2
est la sphère unité de R
3
et k le nombre d’onde (positif). En posant
|z| = |x − y|, la partie imaginaire du noyau de Green (3.6) peut s’écrire en
variables séparées :
sin(k|x − y|)
4π|x − y|
=
k
(4π)
2
Z
S2
e
iks·(x−y)
ds (3.29)
=
k
(4π)
2
Z
S2
e
iks·x
e
−iks·y
ds.
Sous réserve d’une quadrature efficace pour la sphère unité S
2
, cette séparation
des variables peut se substituer au théorème d’addition de Gegenbauer
(3.26), dont dérivent la FMM. Par ailleurs, une intégration sur S
2
apparaît aussi dans (3.26), mais le couplage avec les fonctions de transfert
T
L
M1M2
(s) complexifie grandement la tâche. Dans (3.29), ces fonctions de
transfert ont disparu.
Une transformée de Fourier en espace F[.] est appliquée sur l’équation
élémentaire de Helmholtz, pour obtenir une représentation intégrale de la
partie réelle du noyau de Green (3.6) :
F
h
(−∆ − k
2
)G(x, y)
i
= F[δy].
En posant y = 0 dans l’égalité précédente, celle-ci devient :
(|ξ|
2 − k
2
) F[G(x, 0)] = 1,
ce qui permet d’écrire la transformée de Fourier du cosinus cardinal :
F
"
cos(k|x|)
|x|
#
=
4π
|ξ|
2 − k
2
.
Une représentation intégrale de la partie réelle du noyau de Green est alors
obtenue par transformée de Fourier inverse sur l’équation précédente :
cos(k|x − y|)
4π|x − y|
=
1
(2π)
3
Z
R3
1
|ξ|
2 − k
2
e
iξ·(x−y)
dξ,
105amenant de nouveau la séparation des variables d’espace :
cos(k|x − y|)
4π|x − y|
=
1
(2π)
3
Z
R3
1
|ξ|
2 − k
2
e
iξ·x
e
−iξ·y
dξ. (3.30)
La singularité du cosinus cardinal présente en 0 lui confère une forte irré-
gularité. Celle-ci est traduite en domaine de Fourier par une représentation
intégrale sur tout l’espace R
3
, alors que la partie sinus s’intègre sur uniquement
sur S
2
(eq. 3.29). À cela s’ajoute une singularité en |ξ| = k, ce qui peut
sembler rédhibitoire.
Néanmoins, après réécriture de l’équation (3.30) en coordonnées sphé-
riques, la représentation intégrale du sinus cardinal (3.28) permet d’établir
l’égalité suivante :
cos(k|x − y|)
4π|x − y|
=
1
(2π)
3
Z +∞
ρ=0
ρ
2
ρ
2 − k
2
Z
S2
e
iρs·(x−y)
ds
dρ,
=
2
π
Z +∞
ρ=0
ρ
ρ
2 − k
2
sin(ρ|x − y|)
4π|x − y|
dρ. (3.31)
Si l’intégrale sur ρ converge bien dans (3.31), alors une séparation des variables
de la partie réelle pourrait découler de celle obtenue pour la partie
imaginaire (3.29). De plus, pour éviter de retomber sur les difficultés de
programmation de la FMM, il est nécessaire qu’une même quadrature, la
plus précise possible, puisse être utilisée pour R dans un grand intervalle
[Rmin, Rmax]. Pour étudier ce problème, l’intégrale (3.31) est réécrite sous la
forme :
cos(R) = 2
π
Z +∞
ρ=0
ρ
ρ
2 − 1
sin(ρR)dρ, (3.32)
avec R = k|x − y|.
3.3.2 Résolution du problème
Le problème d’intégration mono-dimensionnel à résoudre est le suivant :
Existe-il une quadrature vérifiant l’égalité (3.32) pour tout R dans
un intervalle [Rmin, Rmax] le plus grand possible, avec peu de points
d’intégration ρ dans un intervalle [0, A] petit ?
En première approche, des méthodes classiques de quadrature du type
Trapèze, Simpson, ou encore Fourier ont été appliquées sur une formulation
106Figure 3.6 – Calcul du cosinus par intégration de Simpson, pour R dans
[0, 15]. 71 points d’intégrations en ρ, espacés régulièrement sur [0, 7], ont été
utilisés pour approcher l’intégrale (3.33). L’erreur relative est inférieure au
seuil de 5% pour R > 3.
tronquée en A et régularisée avec une solution analytique :
cos(R) ≈
2
π
Z A
ρ=0
ρ
ρ
2 − 1
(sin(ρR) − sin(R))dρ!
+
2 sin(R)
π
Z A
ρ=0
ρ
ρ
2 − 1
dρ. (3.33)
Dans cette approximation, le membre de gauche est bien régulier pour ρ autour
de 1 et le membre de droite s’intègre exactement au sens des valeurs
principales. Les résultats présentés sur la figure 3.6 sont peu satisfaisants et
dépendent beaucoup de l’intervalle dans lequel évolue R. Pour R petit, A est
grand avec des points d’intégration relativement espacés, tandis que pour R
grand, A est petit mais il faut de nombreuses valeurs pour discrétiser l’intervalle
[0, A]. Ces résultats sont, bien entendu, liés à la singularité du cosinus,
quand R tend vers 0. Une quadrature classique pour l’évaluation de cos(R)
sur un intervalle [Rmin, Rmax] grand n’est donc pas raisonnable.
Une quadrature entièrement numérique pour la résolution de ce problème
a donc été envisagée. Pour ce faire, l’équation (3.32) est réécrite sous la
formulation discrète suivante, tronquée en N ∈ N :
cos(R) ≈
X
N
n=0
αn sin(ρnR). (3.34)
Le problème d’intégration approchée à résoudre devient :
107Figure 3.7 – Calcul du cosinus par quadrature numérique issue d’une minimisation
sous contrainte (3.35), pour R dans [0, 15]. 5 points d’intégrations
en ρ, espacés régulièrement sur [0, 1.2], ont été trouvés pour évaluer l’approximation
(3.34). L’erreur relative est inférieure au seuil de 5% pour R > 3.
Pour N le plus petit possible, existe-il un vecteur (ρn)n∈[0,N] de petites
valeurs, associées à un vecteur (αn)n∈[0,N], tels que la relation
(3.34) soit vérifiée pour tout R dans un intervalle [Rmin, Rmax] le plus
grand possible ?
Comme il n’est pas évident de résoudre analytiquement cette question, une
minimisation sous contrainte a d’abord été programmée pour tenter d’obtenir
des éléments de réponses. Une discrétisation (Ri)i∈[0,M] de R dans
[Rmin, Rmax] est utilisée pour former un système matriciel, dont chaque ligne
i est définie par :
(cos(Ri))i∈[0,M] =
X
N
n=0
αn sin(ρnRi)
!
i∈[0,M]
. (3.35)
Dans ce système linéaire, (αn)n∈[0,N] est le vecteur inconnu, recherché au sens
des moindres carrés. Les contraintes sont fixées sur le calcul de (ρn)n∈[0,N]
,
discrétisé par pas régulier sur [0, A], avec A exigé le plus petit possible. De
plus, à chaque itération de la minimisation, le rang du système linéaire est
estimé avec une précision donnée. Si ce rang n’est pas plein, l’ordre de
troncature N est diminué pour assurer un nombre de termes minimal dans la
quadrature. Ce procédé permet de tenir compte du défaut de rang constaté
dans les opérateurs intégraux issus du noyau de Green (3.6) et exploité dans
d’autres méthodes de compression comme H-matrix [43], GGQ [18], Skeletonization,
ACA, etc. Cet algorithme a été développé en langage Matlab
108et la structure "optimset" a été utilisée pour établir la minimisation sous
contraintes du système matriciel. La figure 3.7 donne un résultat issu de
cette approche empirique, avec une configuration identique à l’intégration
de Simpson précédente (fig. 3.6). Après convergence, 5 points en ρ ont été
trouvés, compris entre 0 et 1.2. Ces valeurs apportent cette fois une solution
tangible au problème mono- dimensionnel et le calcul d’un produit matricevecteur
rapide peut être envisagé, pour toutes les interactions entre x et y
telles que Rmin < k|x − y| < Rmax.
Cependant, malgré une certaine robustesse éprouvée à l’usage, l’algorithme
de minimisation sous contrainte ne permet pas de comprendre les
mécanismes mis en jeu, ce qui a poussé les recherches vers une quadrature
analytique. Celle-ci peut être introduite à partir de la quadrature de l’unité
suivante :
1 ≈
X
N
n=0
βn sin(ρnR). (3.36)
En effet, il existe une formule exacte similaire à l’approximation (3.36), définie
pour tout t dans (0, π) :
X∞
n=0
4
π(2n + 1) sin((2n + 1)t) = 1.
Cette série, couramment utilisée en traitement du signal pour définir la fonction
créneau, est issue de la décomposition en série de Fourier de la fonction
2π-périodique égale à −1 sur (−π, 0) et 1 sur (0, π). En posant le changement
de variable t =
R
b
π pour tout R dans (0, b), l’égalité précédente devient :
X∞
n=0
4
π(2n + 1) sin
π
b
(2n + 1)R
= 1.
La convergence de cette série est assez lente et dépend fortement des valeurs
de R. Aussi, une troncature avec N petit conduit à de fortes oscillations aux
extrémités de l’intervalle de R, dues à la discontinuité en zéro de la fonction
créneau (phénomène de Gibbs). Cet artefact est classiquement lissé par l’introduction
d’un facteur correctif de Lanczos, encore appelé σ-approximation
(e.g. [1], [44]), qui consiste à pondérer la série précédente par une puissance
de sinus cardinal :
N
X−1
n=0
4
π(2n + 1)
sinc
2n + 1
2N
π
q
sin
π
b
(2n + 1)R
≈ 1,
avec q entier (typiquement q = 1 ou 2). En fixant dans (3.36) :
βn =
4
π(2n + 1)
sinc
2n + 1
2N
π
q
et ρn =
π
b
(2n + 1), (3.37)
109Figure 3.8 – Calcul du cosinus par quadrature analytique issue des coeffi-
cients exacts (3.37) de la quadrature de l’unité (3.36), avec q = 1 pour R
dans [0, 15]. 6 points d’intégration en ρ, espacés régulièrement sur [0, 1.4],
sont nécessaires pour une erreur relative inférieure à 5%.
une quadrature analytique de l’unité avec une bonne convergence est ainsi
établie.
Une quadrature analytique du cosinus (3.34) peut être déduite en multipliant
(3.36) par cos(R), puis en appliquant la formule trigonométrique
sin(A) cos(B) = 0.5(sin(A + B) + sin(A − B)) :
cos(R) ≈
X
N
n=0
0.5βn (sin((1 + ρn)R) − sin((1 − ρn)R)), (3.38)
où les ρn sont donnés par (3.37). Enfin, lorsque b = 2πL avec L ∈ N
∗
, la
variante (3.38) se décompose sous la forme :
cos(R) ≈
X
N
n=0
0.5βn (sin((1 + ρn)R))
−
L
X−1
n=0
0.5βn (sin((1 − ρn)R))
+
X
N
n=L−1
0.5βn (sin((ρn − 1)R)),
où tous les facteurs devant R appartiennent à la même discrétisation de
ρ dans l’intervalle [ρ0; 1 + ρN ]. Ainsi, après réagencement et unification des
termes de cette nouvelle série, la quadrature analytique du cosinus (3.34) peut
être obtenue à partir de celle de l’unité (3.36). En pratique, pour tout R dans
[Rmin, Rmax] ⊂ [Rmin, b], il suffit de rechercher N tel que l’erreur relative
de cette quadrature soit inférieure à une précision fixée. Par ailleurs, pour
110limiter l’impact du phénomène de Gibbs et minimiser N, il est avantageux
de symétriser l’erreur commise en posant b ≥ (Rmax+Rmin), multiple de 2π.
La figure 3.8 offre une comparaison de la quadrature analytique avec les deux
quadratures précédentes (fig. 3.6 et 3.7). Même si ce résultat est du même
ordre de grandeur que celui de la figure 3.7, les valeurs de ρn et N sont
légèrement supérieures à celles obtenues par l’algorithme de minimisation
sous contraintes. Cette remarque est d’autant plus vraie pour b plus grand,
non représenté ici.
Aussi, une quadrature hybride a été développée à partir des deux quadratures
précédentes. Comme les valeurs analytiques de ρn sont connues pour
tout n ≤ N (eq. 3.37), celles-ci peuvent directement être utilisées dans la
quadrature du cosinus (3.34) pour former le système matriciel (3.35), utilisé
par l’algorithme de minimisation sous contrainte. Après résolution, les valeurs
calculées de αn lissent au sens des moindres carrés l’erreur relative , pour
tout R sur l’intervalle de quadrature [Rmin, Rmax]. En itérant ce processus sur
N pour atteindre une précision donnée, cette approche permet d’estimer αn
pour que l’erreur commise soit plus uniforme. Par ailleurs, suivant le même
principe, il est possible d’estimer βn par une quadrature hybride de l’unité
et d’obtenir une nouvelle quadrature du cosinus en utilisant la formule de
passage (3.38). Trois méthodes peuvent donc être confrontées (fig. 3.9) :
1. Quadrature analytique du cosinus, d’après une quadrature analytique
de l’unité lissée par σ-approximation avec q = 2 ("Analytique", courbe
bleue) ;
2. Quadrature analytique du cosinus, d’après une quadrature hybride de
l’unité lissée au sens des moindres carrés ("Hybride Un", ronds verts) ;
3. Quadrature numérique du cosinus lissée au sens des moindres carrés.
("Hybride Cos", croix rouges).
cos(R) Rmin Rmax N ρN erreur L
2
erreur L
∞
1. Analytique 3 15 14 4.5 2.26e
−4 7.83e
−4
2. Hybride Un 3 15 14 4.5 1.83e
−6 5.27e
−6
3. Hybride Cos 3 15 14 4.5 7.91e
−8 1.91e
−7
Pour R dans [Rmin, Rmax] et ρ dans [ρ0, ρN ] avec N fixé, il apparaît très nettement
sur ces valeurs numériques et sur la figure 3.9 que l’évaluation de αn par
ces trois méthodes fournit des erreurs relatives et uniformes singulièrement
différentes. En effet, plus d’un facteur 1000 sépare la quadrature analytique
de la quadrature hybride en cosinus. Aussi, en fixant un seuil d’erreur relative
∞ à 10−3
(norme L
∞) pour R ∈ [Rmin, Rmax], puis en minimisant le
111Figure 3.9 – Quadratures de l’unité et du cosinus pour R dans [3, 15], avec
respectivement 11 et 14 points d’intégrations fixés, inclus dans [0, 3.5] et
[0, 4.5]. L’erreur relative (∞ en norme L
∞) en fonction de R est donnée en
échelle logarithmique pour une meilleure lisibilité.
112Figure 3.10 – Quadratures de l’unité et du cosinus pour R dans [3, 15], avec
un seuil d’erreur relative ∞ fixée à 1e−3. Le nombre de points d’intégration
N varie en fonction de la quadrature.
113nombre N de points d’intégrations nécessaires pour atteindre cette précision,
les résultats suivants sont obtenus (fig. 3.10) :
cos(R) Rmin Rmax N ρN erreur L
2
erreur L
∞
1. Analytique 3 15 14 4.5 2.26e
−4 7.83e
−4
2. Hybride Un 3 15 10 3.17 1.95e
−4 5.62e
−4
3. Hybride Cos 3 15 8 2.5 1.40e
−4 3.47e
−4
Pour une précision fixée, les valeurs de N et ρN sont fortement liées à la quadrature
considérée, ce qui est particulièrement intéressant dans le contexte
de cette étude. Par exemple, la quadrature hybride en cosinus semble tout à
fait adaptée pour répondre au problème mono-dimensionnel posé dans cette
section.
Au vu de ces résultats, l’intervalle [Rmin, Rmax] et la précision relative en
norme L
∞ ont donc été modifiés, pour éprouver la robustesse des quadratures
(fig. 3.11) :
Cosinus Rmin Rmax N ρN erreur L
2
erreur L
∞
1. Analytique 3 150 115 4.58 7.05e
−5 9.65e
−4
2. Hybride Un 3 150 80 3.18 1.11e
−4 9.41e
−4
3. Hybride Cos 3 150 61 2.42 1.13e
−4 9.98e
−4
1. Analytique 3 1000 734 4.58 2.81e
−5 9.97e
−4
2. Hybride Un 3 1000 510 3.18 4.68e
−5 9.97e
−4
3. Hybride Cos 3 1000 392 2.45 5.02e
−5 9.95e
−4
1. Analytique 0.5 150 436 4.58 5.92e
−5 8.85e
−4
2. Hybride Un 0.5 150 281 3.18 6.06e
−5 6.89e
−4
3. Hybride Cos 0.5 150 259 2.45 9.09e
−5 9.93e
−4
1. Analytique 3 150 - - - -
2. Hybride Un 3 150 213 8.5 1.16e
−13 7.96e
−13
3. Hybride Cos 3 150 189 4.4 1.62e
−13 9.21e
−13
Pour les quadratures hybrides de l’unité et du cosinus, la linéarité apparente
114Figure 3.11 – Représentation du nombre N de termes nécessaires à chaque
quadrature. (Haut) Rmin dans [1, 3] et Rmax = 150, pour une précision relative
fixée à 10−3
. (Milieu) Rmin = 3 et Rmax dans [10, 1000], pour une
précision relative fixée à 10−3
. (Bas) [Rmin, Rmax] = [3, 150], pour une précision
relative dans [10−13
, 10−2
].
115de l’ensemble des courbes de la figure 3.11 permet de conjecturer la relation :
N ∝
Rmax + Rmin
Rmin
| log()|. (3.39)
Une dépendance logarithmique en erreur relative est donc empiriquement
établie, ainsi qu’une dépendance linéaire pour l’intervalle de R. Ce résultat
est fondamental pour les applications visées. Il ne reste plus qu’à savoir si
la linéarité de la conjecture (3.39) sur N va permettre d’atteindre une complexité
finale raisonnable pour le calcul rapide du noyau de Green.
Pour terminer, non seulement il apparaît que l’efficacité d’une quadrature
ne dépende que de αn, mais aussi N diminue lorsque le rapport entre l’erreur
L
2
et l’erreur L
∞ tend vers 1. Les trois méthodes proposées ne seraient donc
peut-être pas les seules et de nouveaux algorithmes pourraient être recherchés
en vue de diminuer N, ce qui aurait un impact très fort sur l’efficacité globale
de la méthode SCSD.
3.3.3 Formalisme final pour l’équation de Helmholtz
Pour une précision donnée, la section précédente a mis numériquement
en lumière qu’il existe deux suites (αn)n∈[0,N] et (ρn)n∈[0,N] telles que, pour
tout R dans [Rmin, Rmax] :
cos(R) ≈
X
N
n=0
αnsin(ρnR) avec N ∝
Rmax + Rmin
Rmin
| log()|.
Le retour vers le problème tri-dimensionnel original s’effectue simplement à
travers la définition de R, à savoir R = k|x − y| pour tous points x et y de
l’espace R
3
. En divisant la relation précédente par 4π|x − y|, la partie réelle
du noyau de Green (3.6) peut être approchée par la quadrature suivante :
cos(k|x − y|)
4π|x − y|
≈
X
N
n=0
αn
sin(ρnk|x − y|)
4π|x − y|
,
équivalent discret de (3.31). En ajoutant à cette relation la partie imaginaire
du noyau de Green, la quadrature complète du noyau peut être établie, sous
la forme d’une somme pondérée de sinus cardinaux :
G(x, y) ≈
N
X
+1
n=0
αn
sin(ρnk|x − y|)
4π|x − y|
,
où αN+1 = −i et ρN+1 = 1. En appliquant la représentation intégrale du
sinus cardinal (3.28) sur ce résultat fondamental, la séparation des variables
116de la SCSD peut être formulée comme une somme pondérée d’intégrales
surfaciques sur N + 2 sphères unités :
G(x, y) ≈
k
(4π)
2
N
X
+1
n=0
αnρn
Z
S2
e
ikρns·x
e
−ikρns·y
ds, (3.40)
ou encore sur des sphères emboîtées de rayon kρn :
G(x, y) ≈
1
(4π)
2
N
X
+1
n=0
αn
Z
kρnS2
e
is·x
e
−is·y
ds.
Pour obtenir une version totalement discrète de la séparation des variables
du noyau de Green (3.40), il reste à choisir une dernière quadrature pour
l’intégration sphérique. De nombreux travaux traitent de ce sujet récurrent
et certaines solutions sont couramment utilisées dans divers domaines des
mathématiques appliquées [46]. Pour la SCSD, les quadratures de GaussLegendre
ont été préférées aux grilles de Fibonacci [41], ou encore aux sphères
de Lebedev [60].
Quadrature de Gauss-Legendre sur la sphère unité S
2
:
Pour un entier Na donné, les angles azimutaux (θi)i∈[1,2Na] sont choisis dans
{0,
π
Na
, ..., 2π −
π
Na
}, tandis que les angles d’élévations (φj )j∈[1,Na] sont tels
que cos(φj ) appartient aux zéros du Nième
a polynôme de Legendre PNa
. Une
grille sphérique (si,j )i×j∈[1,Ns] de dimension Ns = 2N2
a peut alors être générée
en (θ, φ), associée aux poids d’intégrations ωs.
Cette quadrature intègre exactement toutes les harmoniques sphériques Y
m
l
(1.2) de degré inférieur ou égal à 2Na − 1, mais discrétise la sphère par pas
régulier en azimut, ce qui créé une concentration de points élevée aux pôles.
En pratique, la quadrature de Gauss-Legendre dans l’approximation (3.40)
est telle que Na doit être au moins proportionnel à la plus grande distance
évaluée sous l’intégrale, c’est-à-dire :
Na ∝ kρn max(|x − y|) ⇒ Ns ∝ (ρnRmax)
2
. (3.41)
L’approximation (3.40) conduit alors à :
G(x, y) ≈
k
(4π)
2
N
X
+1
n=0
αnρn
X
Ns
s
ωse
ikρns·x
e
−ikρns·y
.
Puis, pour tout l dans [1, Nξ] tel que Nξ =
PN+1
n=0 Ns, en posant :
ξl = kρns dans R
3
et ωl =
kαnρnωs
(4π)
2
dans R, (3.42)
117Figure 3.12 – Représentation du nombre total de points Nξ d’une quadrature
SCSD, pour le noyau de Helmholtz (3.43). (Haut) Rmin dans [2, 3] et
Rmax = 150, pour une précision relative fixée à 10−3
. (Milieu) Rmin = 3
et Rmax dans [10, 250], pour une précision relative fixée à 10−3
. (Bas)
[Rmin, Rmax] = [3, 50] pour une précision relative dans [10−12
, 10−2
].
118la version discrète de la séparation des variables SCSD peut être établie :
G(x, y) ≈
X
Nξ
l=1
ωle
iξl
·x
e
−iξl
·y
. (3.43)
De plus, d’après les relations (3.37) et (3.41) :
Ns ∝
Rmax
Rmin + Rmax
(2n + 1)2
.
Dès lors, à partir de la conjecture (3.39) sur N, Nξ peut être estimé par une
majoration de la somme des carrés impairs pour Rmax Rmin :
Nξ =
N
X
+1
n=0
Ns ∝
Rmax
Rmin
| log()|
3
. (3.44)
La figure 3.12 vient confirmer ce résultat, par l’apparente linéarité des fonctions
représentées. La séparation des variables de la SCSD est donc logarithmique
en erreur et le nombre de points total est simplement fonction du
rapport des extremums Rmax sur Rmin, élevé au cube.
Pour terminer, la quadrature en ξ (3.43) est directement injectée dans le
produit de convolution initial (3.27) :
Gf (xp) ≈
X
Ny
q=1
f(yq)
X
Nξ
l=1
ωle
iξl
·xp e
−iξl
·yq
,
pour aboutir au calcul rapide par SCSD :
Gf (xp) ≈
X
Nξ
l=1
e
iξl
·xp
X
Ny
q=1
e
−iξl
·yq f(yq)
ωl
. (3.45)
Ce résultat, fondateur de la méthode de Décomposition Creuse en Sinus Cardinal,
est le pendant discret du théorème d’addition de Gegenbauer (3.26),
qui conduit à la séparation des variables en FMM. En comparaison, cette
formulation est bien moins complexe et le calcul des sommes du type :
Xn
q=0
e
±iap·bq h(bq) avec (ap, bq) ∈ R
3
,
peut être réalisé par transformée de Fourier 3D rapide, non uniforme en espace/fréquence.
Cet algorithme, plus connu sous le nom de Type-III Non
Uniform Fast Fourier Transform (NUFFT), est notamment utilisé en traitement
d’image et propose une complexité quasi-linéaire N log N (e.g. [24],
[36], [61]). Un calcul de produit matrice-vecteur en SCSD (3.45) se résume
donc à :
1191. Passer du domaine spatial (en y) vers le domaine de Fourier (en ξ), par
NUFFT directe de type-III ;
2. Multiplier le résultat obtenu par les poids ωl
, liés aux quadratures de
la SCSD ;
3. Retourner dans l’espace (en x) par NUFFT inverse de type-III.
In fine, comme le produit matrice-vecteur (3.27) est issu d’une convolution
spatiale entre le noyau de Green G(x, y) et la fonction régulière f(y) (eq. 3.7),
la SCSD reflète simplement l’idée qu’une telle convolution se traduit en
domaine de Fourier par un produit. Toute l’originalité de la méthode ré-
side finalement dans l’efficacité et la robustesse de la quadrature monodimensionnelle
(3.34).
3.3.4 Extension vers Laplace (et plus si affinités...)
Avant de poursuivre vers des résultats applicatifs, une légère digression
mérite d’être faite pour les problèmes de Laplace, qui interviennent dans
de nombreux domaines de la physique (Électrostatique, Magnétostatique,
Gravitation, etc.). Introduite par l’équation :
−∆u = f, avec f régulière sur R
3
,
la solution générale d’un problème de Laplace est formée par interactions
Coulombiennes :
u(x) = ELap ? f(x) = Z
R3
f(y)
4π|x − y|
dy,
dont la version discrète s’écrit :
u(xp) = X
Ny
q=1
1
4π|xp − yq|
f(yq). (3.46)
Sensiblement proche des interactions helmholtziennes (3.27), seules les oscillations
liées à l’exponentielle complexe n’apparaissent plus dans ce nouveau
noyau de Green.
Or, le problème mono-dimensionnel a été résolu à la fois pour la quadrature
du cosinus (3.34) et pour celle de l’unité (3.36). En effet, les résultats
précédents montrent bien que l’unité peut être approchée comme une somme
pondérée de sinus, pour une précision donnée sur un intervalle [Rmin, Rmax].
Par conséquent, suivant le même raisonnement, les grandes étapes de la Dé-
composition Creuse en Sinus Cardinal du noyau de Laplace sont données
120Figure 3.13 – Représentation du nombre total de points N0
ξ d’une quadrature
CSD, pour le noyau de Laplace (3.48). (Haut) Rmin dans [2, 3] et
Rmax = 150, pour une précision relative fixée à 10−3
. (Milieu) Rmin = 3
et Rmax dans [10, 250], pour une précision relative fixée à 10−3
. (Bas)
[Rmin, Rmax] = [3, 50] pour une précision relative dans [10−12
, 10−2
].
121par :
1
4π|xp − yq|
≈
X
N
n=0
βn
sin(ρn|xp − yq|)
4π|xp − yq|
,
≈
1
(4π)
2
X
N
n=0
βnρn
Z
S2
e
iρns·xp e
−iρns·yq ds,
≈
1
(4π)
2
Nξ
X0
l=1
ω
0
l
e
iξ0
l
·xp e
−iξ0
l
·yq
,
avec ξ
0
l
et ω
0
l
similaires à ξl et ωl dans (3.42) :
ξ
0
l = ρns dans R
3
et ω
0
l =
βnρnωs
(4π)
2
dans R. (3.47)
Ce résultat offre donc une séparation des variables identique à l’équation
(3.45) :
u(xp) ≈
N0 X
ξ
l=1
e
iξ0
l
·xp
X
Ny
q=1
e
−iξ0
l
·yq f(yq)
ω
0
l
, (3.48)
où chaque somme peut être calculée rapidement par NUFFT de type III.
L’étude détaillée des quadratures du noyau de Laplace n’est pas présentée
ici, mais la figure 3.13 montre bien que la loi sur Nξ, établie pour Helmholtz
(eq. 3.44), semble toujours vérifiée pour Laplace. De plus, l’article [5] disponible
en annexe propose une revue théorique de la SCSD pour Laplace,
étendue ensuite sur Helmholtz. Cet article fait donc office de référence en la
matière et n’est donc pas repris dans ce manuscrit.
Il est donc fondamental de remarquer qu’une même méthode générique
peut-être appliquée à deux noyaux distincts, en vue de calculer rapidement
des interactions ponctuelles, oscillantes ou non. Cette constatation s’étend
aux noyaux de Stokes ou Maxwell, respectivement dérivés des noyaux de Laplace
et d’Helmholtz, ou plus largement encore à tous noyaux de Green exprimés
en domaine de Fourier. Par conséquent, la SCSD est intrinsèquement
multi-physique, contrairement à la FMM, qui nécessite des développements
propres à chaque noyau. À elle seule, cette remarque peut justifier l’intérêt
des recherches effectuées sur cette nouvelle méthode.
1223.4 Comparaisons et performances
Comme les produits de convolution par les noyaux de Green pour Helmholtz
(3.27) et Laplace (3.46) sont tous deux définis par :
Gp =
X
N
q=1
G(xp, xq)fq ∀p ∈ [1, N], (3.49)
un nuage de N points x est défini dans R
3
, associé à un vecteur (fq)q∈[1,N]
de valeurs aléatoires complexes. Une routine Matlab a été programmée pour
comparer l’évaluation du produit Gp (3.49) par différentes méthodes, dont
la SCSD. Ce code n’est pas un solveur d’équations intégrales, mais un outil
de validation analytique. La machine utilisée pour l’ensemble des tests de
cette section est un PC portable disposant de 8 GO de mémoire vive et d’un
processeur à 8 cœurs cadencés à 1.6 GHz.
3.4.1 Méthodologie
En premier lieu, le nuage de N points x dans R
3
est créé suivant trois
répartitions :
– Aléatoire dans une boule ;
– Aléatoire dans un cube ;
– Uniforme sur une sphère.
Chacune de ces répartitions est centrée en zéro, de sorte à maximiser par
symétrie l’efficacité de la méthode SCSD. Pour assurer un régime fréquentiel
adapté aux méthodes approchées, une normalisation sur la position des points
x est effectuée : la plus grande distance au sein du nuage est imposée telle
que Rmax =
√3 N et le nombre d’onde k, intervenant dans le noyau de Green
de Helmholtz (3.6), est fixé à 1.
Une fois le domaine de calcul établi, la SCSD a été programmée en neuf
grandes étapes, tirées des formulations du produit de convolution (3.49) pour
Helmholtz (3.45) et Laplace (3.48) :
1. Quadrature hybride de l’unité ou du cosinus pour les interactions lointaines
dans [Rmin, Rmax] ;
2. Quadrature des sphères d’intégrations et construction du domaine de
Fourier en (ξl)l∈[1,Nξ] associé aux poids (ωl)l∈[1,Nξ]
;
3. NUFFT type-III directe de l’espace (xq)q∈[1,N] vers les fréquences (ξl)l∈[1,Nξ]
,
appliquée sur (fq)q∈[1,N]
;
4. Pondération du résultat précédent par les poids de quadrature (ωl)l∈[1,Nξ]
;
1235. NUFFT type-III inverse des fréquences (ξl)l∈[1,Nξ] vers l’espace (xp)p∈[1,N]
,
appliquée sur le résultat pondéré ;
6. Recherche des interactions proches, définies par |xp − xq| ≤ Rmin ;
7. Calcul du noyau de Green pour les interactions proches ;
8. Calcul de la partie réelle de la quadrature SCSD pour les interactions
proches, inexacte, mais régulière sur [0, Rmin] ;
9. Addition des résultats issus des interactions proches et lointaines, puis
soustraction des évaluations inexactes SCSD.
Cet algorithme permet une implémentation vectorielle relativement simple.
Aussi, toutes les routines ont été écrites nativement en Matlab, à l’exception
de la NUFFT qui dispose de nombreuses versions .mex en accès libre sur
internet (e.g. [93], [94], [95], [96], etc.). Après quelques tests comparatifs, celle
proposée par L. Greengard [95] a été choisie, notamment pour sa rapidité, sa
précision et sa simplicité d’utilisation.
Pour valider les résultats issus de la SCSD, deux autres méthodes ont
servi de référence au calcul du produit de convolution (3.49) :
– La méthode directe, notée DM (exacte, complexité quadratique) ;
– La méthode multipolaire rapide FMM (approchée, complexité quasilinéaire).
Les deux routines utilisées sont issues d’une autre librairie Fortran écrite par
L. Greengard, toujours interfacée Matlab, mais dédiée cette fois au calcul
intégral [88]. Étant donné que L. Greengard est un pionnier de la FMM, les
comparaisons avec cette librairie ont semblé toutes naturelles. Pour s’assurer
du bon réglage de ces outils, la précision machine a été vérifiée sur des petits
cas (N < 10000), en comparant les méthodes directe et rapide proposées par
L. Greengard, avec un produit de convolution écrit nativement en Matlab.
Afin d’être le plus objectif possible, le multi-threading a été désactivé pour
les exécutions Matlab (options ’-singleCompThread’ au démarrage) et pour
les bibliothèques externes (re-compilées sans OpenMP). Seul le parallélisme
du calcul direct de la méthode exacte en Fortran a été conservé, afin de
minimiser l’impact de la complexité quadratique sur les temps de calcul.
3.4.2 Résultats
La figure 3.14 compare les temps de calcul de la convolution avec le noyau
de Laplace, en fonction du nombre N de points dans l’espace. La précision
des méthodes relatives est fixée à 10−3
et Rmin est fixé à 1. Tout d’abord, il
apparaît que la méthode directe présente bien des temps de calcul supérieurs,
ce qui est attendu. Ensuite, les temps d’assemblage FMM et SCSD sont
124Figure 3.14 – Temps totaux comparatifs pour la convolution (3.49) du noyau
de Laplace, en fonction du nombre N de points x en interactions dans R
3
.
La précision relative des méthodes approchées est fixée à 10−3
et Rmin = 1
pour la SCSD. 125comparables sur une boule, alors que la FMM est légèrement plus rapide
pour le cube et bien plus rapide pour la sphère. Ceci peut s’expliquer par les
fondements même de chaque méthode :
– La SCSD est optimale pour les répartitions volumiques dans une boule.
En effet, sa complexité est fonction de la quadrature en domaine de
Fourier, dont le nombre de points Nξ est, dans ce cas, très proche de N
(eq. 3.44 avec Rmin = 1 et Rmax =
√3 N) ;
– La FMM est plus adaptée aux répartitions volumiques dans un cube,
de par le découpage de l’espace en octree. De plus, quelle que soit la
répartition spatiale, sa complexité reste N log N. C’est pourquoi le cas
sphérique n’est pas plus difficile en FMM.
Par ailleurs, toutes les erreurs relatives finales obtenues entre méthode directe,
FMM et SCSD sont de l’ordre de grandeur de la précision souhaitée
(dans ce cas ≈ 10−3
). Enfin, autant la pente de la méthode directe montre
bien une complexité plus grande que les méthodes approchées, autant la
SCSD et la FMM présentent la même linéarité, malgré quelques accrocs numériques
inexpliqués. Ceci laisse penser que la complexité empirique de la
SCSD pourrait être du même ordre que celle de la FMM, de mille à un million
de points en interactions (soit mille milliards d’interactions calculées).
De plus, en pré-calculant les interactions proches lors de calculs itératifs, le
produit matrice-vecteur résultant (SCSD - MV, fig. 3.14) est quant à lui tout
à fait compétitif avec la FMM.
La figure 3.15 présente les mêmes courbes que la figure 3.14, mais pour une
convolution avec le noyau oscillant de Helmholtz. La précision des méthodes
relatives est toujours fixée à 10−3
, et Rmin à 1. Quelle que soit la répartition
spatiale de x dans R
3
, il apparaît cette fois que la méthode SCSD est la plus
rapide. De plus, les pentes des courbes des méthodes approchées montrent
toujours une complexité empirique équivalente. Enfin, le pré-calcul des parties
proches lors de résolutions itératives offre un produit matrice-vecteur
particulièrement rapide.
Pour terminer, la figure 3.16 donne les temps de calculs pour les convolutions
de Laplace et Helmholtz sur une sphère, avec une précision fixée à 10−6
.
Pour réaliser des calculs SCSD en accord avec la loi (3.44), Rmin a été augmenté
et fixé arbitrairement à 3. Il apparaît de nouveau une grande similitude
pour les divers temps de résolution, malgré une précision relative mille fois
supérieure. Par conséquent, la SCSD montre en outre une certaine robustesse
à la précision, comparable à celle de la FMM.
En conclusion, la SCSD semble tout à fait comparable à la FMM, tant en
terme de complexité que de précision. La plupart des résultats présentés a
d’ailleurs été démontrée dans un article rédigé en parallèle de ce manuscrit,
ce qui a permis de valider et maîtriser pleinement cette approche [5]. De plus,
126Figure 3.15 – Temps totaux comparatifs pour la convolution (3.49) du noyau
de Helmholtz, en fonction du nombre N de points x en interactions dans R
3
.
La précision relative des méthodes approchées est fixée à 10−3
et Rmin = 1
pour la SCSD.
127Figure 3.16 – Temps totaux comparatifs pour la convolution (3.49) des
noyaux de Laplace (Haut) et Helmholtz (Bas), en fonction du nombre N de
points x en interactions dans R
3
. La précision relative des méthodes approchées
est fixée à 10−6
et Rmin = 3 pour la SCSD.
128de nombreuses optimisations mathématiques et algorithmiques sont encore
envisageables (et envisagées) pour chacune des étapes de cette méthode (pré-
calculs, parallélismes, amélioration des quadratures, etc.), ouvrant un large
pan de recherche pour de futurs travaux. Par ailleurs, comme le même code
Matlab a été utilisé pour calculer les produits de convolution (3.49) pour Laplace
(3.48) et Helmholtz (3.45), ces optimisations impacteront directement
toutes les physiques compatibles (gravitation, acoustique, électromagnétisme,
mécanique des fluides, etc). C’est pourquoi cette méthode a d’ores et déjà
été implémentée avec succès dans un moteur de calcul d’équations intégrales
pour l’acoustique, présenté dans le dernier chapitre de ce manuscrit.
129130Chapitre 4
Moteur intégral MyBEM
Une fois la SCSD validée pour le calcul des interactions au sein d’un nuage
de points, elle fut aussitôt implémentée dans une nouvelle routine Matlab, qui
assemble par collocation les opérateurs sphériques de simple couche (3.18) et
de double couche (3.19). En estimant les interactions lointaines par le produit
matrice-vecteur (3.45), des solutions tirées d’une résolution itérative sont obtenues,
pour des problèmes de diffraction de 1 000 à 50 000 inconnues. Ces
résultats furent alors confrontés aux solutions analytiques du rayonnement
sphérique, avec succès. Ce principe montra de bonnes performances, mais il
n’était pas possible d’aller plus loin sans une approximation de Galerkin bien
établie. Il fut donc décidé d’implémenter la SCSD dans un vrai moteur de
calcul intégral en éléments finis P
1
(MyBEM), dont le prototype est présenté
dans ce dernier chapitre. Ce moteur a été développé en collaboration avec
François Alouges à partir d’une librairie Matlab dont il est l’auteur, initialement
conçue pour l’enseignement des éléments finis 2D. Ce co-développement
a permis d’en étendre rapidement et très significativement la portée.
4.1 Présentation
MyBEM est une librairie de calcul intégral par éléments finis de frontières,
appliquée à l’acoustique tri-dimensionnelle et nativement écrite en
langage Matlab. De nombreux services connexes y ont été associés, comme
la gestion de maillage, le pré/post-traitement de données et la visualisation
de résultats. De prime abord, le choix d’une implémentation Matlab peut
surprendre au regard des performances exigibles en calcul numérique, mais
cette plateforme fut initialement adoptée pour assurer un prototypage rapide
et efficace. Au final, il aura fallu moins d’une année pour aboutir à la version
présentée dans ce manuscrit. Par ailleurs, une vectorisation drastique de
131Figure 4.1 – MyUI, interface graphique de MyBEM, prototype Matlab pour le calcul intégral en acoustique tridimensionelle.
132l’ensemble des opérations a été effectuée, ceci afin d’assurer des performances
comparables à celles obtenues par des langages de plus bas niveau. Enfin, la
Parallel Computing Toolbox proposée par Mathwork a définitivement scellé
ce choix, puisque les calculs les plus gourmands ont pu bénéficier d’un multithreading
efficace, au prix d’un effort de développement réellement modique
(remplacer les boucles "for" par "parfor"). En pratique, les temps de calcul
sont en moyenne divisés par cinq sur une machine comptant huit cœurs.
MyBEM est programmé dans une logique objet et les fonctions membres
comme les attributs sont accessibles par appels directs, ou par interface graphique
dédiée à l’utilisateur (MyUI, fig. 4.1). L’ensemble des données et des
traitements est inclu dans six objets distincts, relatifs aux différentes étapes
intervenant dans la résolution d’une formulation intégrale :
1. Mesh : Contient l’ensemble des données sur maillages, ainsi que les
routines de lecture de fichiers .vtk, .ply, .mat, .mesh, etc. Toutes les
données utiles (arêtes, normales, tangentes, surfaces, etc.) sont calculées
par MyBEM, à partir des nœuds et des éléments.
2. Mef : Contient l’ensemble des données relatives à l’espace d’éléments
finis des méthodes de Galerkin (degrés de liberté, fonctions de bases,
formules d’intégrations, matrices d’intégrations de Gauss, etc.). Ces
données sont automatiquement générées à partir des maillages et ne
nécessitent, a priori, aucune intervention de la part de l’utilisateur.
Dans sa version actuelle, MyBEM se limite aux formulations P
1
, avec
les inconnues aux nœuds de mailles triangulaires. Des travaux sont en
cours pour ajouter d’autres éléments finis.
3. Opr : Contient l’ensemble des données relatives aux opérateurs inté-
graux usuels (eq. 3.16 à 3.23), ainsi que les différentes méthodes pour les
assembler. En effet, MyBEM propose non seulement une construction
matricielle classique par évaluation exacte des noyaux de Green, mais
aussi des assemblages FMM et SCSD de produits matrices-vecteurs approchés
(3.27). Dans tous les cas, les opérateurs sont construits à partir
des interactions entre les points de Gauss des éléments finis, puis intégrés
pour former le système final aux degrés de liberté. Par ailleurs,
pour limiter les erreurs dues aux singularités, les intégrations proches
sont régularisées analytiquement [77].
4. Sol : Contient l’ensemble des données relatives à la modélisation mathé-
matique du problème de diffraction, ainsi qu’à sa résolution. Les fonctions
membres permettent à l’utilisateur de définir les sources [ondes
planes (3.3) ou ondes sphériques (3.4)], les conditions de bord [Dirichlet
(3.13) ou Neumann (3.14)] et le prolongement de la trace. Le
système linéaire correspondant est ensuite établi, puis résolu de ma-
133nière directe ou itérative selon la méthode d’assemblage choisie pour
former les opérateurs. De plus, pour accélérer les résolutions itératives,
des préconditionneurs issus des identités de Calderón (3.12) sont couplés
à la décomposition LU des interactions proches (e.g. [54], [79]). Les
solutions alors obtenues sont rendues en saut, pour conserver le cadre
généraliste des formulations indirectes.
5. Rad : Contient l’ensemble des services de post-traitement des résultats,
notamment de rayonnement dans l’espace. Par exemple, des solutions
peuvent être calculées sur le maillage surfacique initial, mais aussi sur
un maillage volumique quelconque fourni par l’utilisateur, ainsi que
dans toutes les directions d’un rayonnement infinitésimal.
6. Draw : Contient l’ensemble des outils de visualisation graphique, en
domaine fréquentiel et temporel.
Parmi l’ensemble des traitements proposés par MyBEM, trois librairies externes
interfacées avec Matlab ont été utilisées :
– FMM : Librairie Fortran de L. Greengard [88], pour le calcul de produits
matrices-vecteurs approchés. La routine d’interaction ponctuelle
hfmm3dpart de L. Greengard est couplée aux matrices d’intégrations de
Galerkin calculées par MyBEM pour obtenir une formulation éléments
finis P
1
. Cette librairie est utilisable pour les maillages conséquents,
lorsque l’assemblage matriciel des opérateurs n’est plus envisageable.
Elle est nativement parallèle.
– NUFFT : Librairie Fortran de L. Greengard [95], pour le calcul de
transformées de Fourier non uniformes, de une à trois dimensions. La
routine nufft3d3 intervient dans la SCSD. Bien que déjà très performante,
elle est néanmoins non parallèle, ce qui impacte les temps
de calcul lors des résolutions itératives. De plus, de nombreux pré-
calculs pourrait être réalisés, toujours en vue de minimiser les temps
de chaque itération. C’est pourquoi le développement d’une nouvelle
librairie NUFFT est actuellement envisagé.
– OpenTSTOOL : Librairie C++ de C. Merkwirth [98], pour le calcul
rapide de distances au sein d’un nuage de points. La routine range_
search est utilisée par la SCSD pour rechercher et calculer les interactions
ponctuelles dont la distance est inférieure au rayon Rmin. Cette
librairie n’est pas parallèle, mais son usage est très localisé donc peu
impactant. Par ailleurs, la fonction rangeSearch est aussi proposée par
MathWorks dans la Statistics Toolbox, mais celle-ci n’était pas à disposition
lors de la création de MyBEM.
134Avant de clore cette brève présentation, il n’est pas inutile de préciser que
l’interface graphique MyUI (fig. 4.1) interagit par callback avec chacune de
ces structures. C’est pourquoi, les différentes étapes de résolution liées à ces
objets ont été identifiées par couleurs : en bleu la gestion de maillage, en
jaune la création des opérateurs, en rouge la résolution du problème et en
vert le post-traitement. Seuls les éléments finis ne sont pas visibles, puisque
leur paramétrisation n’est pas nécessaire et requiert une certaine expertise.
4.2 Validations
Un protocole de validation analytique de la librairie MyBEM a été mis
en place dès l’obtention des premiers résultats numériques. Celui-ci permet
d’assurer le bien-fondé des solutions obtenues, ainsi qu’une assurance de nonrégression
lors des fréquentes mises à jour. Lors de ces tests, les divers temps
de calcul sont aussi comparés, ce qui permet l’élaboration d’algorithmes toujours
plus rapides, avec une précision maîtrisée. Par ailleurs, des résultats
similaires sont discutés dans [22] et peuvent être confrontés à ceux présentés
ici. Enfin, tous les résultats de cette section ont été calculés sur une machine
disposant de 8 cœurs cadencés à 3.3 Ghz, de 128 Go de mémoire vive et de
la version R2013a de Matlab.
Lorsqu’une onde plane (3.3) est diffractée par une sphère, des solutions
explicites peuvent être calculées analytiquement à l’aide d’une décomposition
en harmoniques sphériques [23]. En effet, pour des conditions de Dirichlet au
bord de la sphère (3.13), le système :
−(∆u + k
2u) = 0 dans Ω
e
,
u = uD = −e
−ik·x
sur S
2
,
r (∂ru + iku) → 0 quand r → +∞,
possède des solutions analytiques, données en coordonnées sphériques par :
uref (r, θ, φ) = X∞
n=0
i
n
(2n + 1)κnh
(2)
n
(kr)Pn(cos(γ)). (4.1)
γ représente l’angle d’incidence avec la direction k de l’onde plane et la
constante κn est définie par :
κn = −
jn(k)
h
(2)
n (k)
, (4.2)
135Figure 4.2 – Champ total issu de la diffraction d’une onde plane par
une sphère unité, à la fréquence f = 300 Hz. Représentation en décibel
(20 log |u|). (Haut) Solutions analytiques. (Bas) Solutions numériques calculées
par MyBEM, pour une sphère à 1000 inconnues. (Gauche) Problème de
Dirichlet. (Droite) Problème de Neumann.
136avec jn la fonction de Bessel sphérique et h
(2)
n
la fonction de Hankel sphérique
de seconde espèce. Cette solution décrit exactement l’évolution du champ
diffracté pour tout r ≥ 1 et la série converge suffisamment rapidement pour
être estimée avec une bonne précision. Par ailleurs, pour un problème de
Neumann, le système :
−(∆u + k
2u) = 0 dans Ω
e
,
∂nu = uN = −∂ne
−ik·x
sur S
2
,
r (∂ru + iku) → 0 quand r → +∞,
a pour solution (4.1), avec une nouvelle constante κn :
κn = −
j
0
n
(k)
h
(2)0
n (k)
. (4.3)
À titre d’exemple, des solutions analytiques de problèmes de diffraction sphé-
riques de Dirichlet et Neumann ont été représentées en haut de la figure 4.2
(respectivement à gauche et à droite). Des solutions numériques issues de
MyBEM, sur un maillage de sphère à 1000 inconnues, sont quant à elles visibles
en bas de cette même figure. Toutes ces représentations sont données
en décibel (20 log |u|).
Même si les résultats concordent à première vue, la décroissance du rayonnement
en 1
r
complique l’utilisation d’une mesure objective de l’erreur commise
dans l’espace. C’est pourquoi la solution en champ lointain, indépendante
de la distance r, a été préférentiellement choisie :
u
∞
ref (θ, φ) = i
k
X∞
n=0
(−1)n
(2n + 1)κnPn(cos(γ)). (4.4)
Comme cette solution est symétrique par rapport à l’incidence k, l’évaluation
pour γ dans [0, 2π] est suffisante, voire préférable pour la lisibilité des résultats.
Par ailleurs, l’équivalent numérique de (4.4), noté u
∞, est donné par
le rayonnement des potentiels de champ lointain (3.22) et (3.23). Ce rayonnement
a donc été ajouté dans les fonctionnalités proposées par MyBEM,
avec une évaluation rapide par NUFFT type-III. L’analyse des résultats est
réalisée à la fois par superposition graphique des deux solutions et par l’intermédiaire
des normes quadratiques et infinies du rapport signal sur bruit
137(Signal/ Noise Ratio), définies par :
SNR2 =
vuuut
1
Nγ
X
γi∈[1,Nγ]
20 log 10
u∞(γi)
u∞
ref (γi)
!2
, (4.5)
SNR∞ = max
γi∈[1,Nγ]
20 log 10
u
∞(γi)
u∞
ref (γi)
!
. (4.6)
Les résultats de validation présentés dans les différents tableaux de la
figure 4.3 ont été obtenus en utilisant les formulations Brackage-Warner des
problèmes de Dirichlet et Neumann préconditionnés. Ce choix découle essentiellement
de la forme bien posée issue du prolongement de Robin, qui
assure l’existence et l’unicité de la solution quelque soit la fréquence. Les
différentes méthodes d’assemblage proposées dans MyBEM sont comparées
(BEM, FMM et SCSD), en précision (SNR2 et SNR∞), mais aussi en
temps d’assemblage des parties proches (tpsP ) et temps de résolution (tpsR).
Le nombre d’itérations des résolutions approchées est précisé (Niter), ce qui
donne une estimation du temps passé dans un produit matrice-vecteur. Pour
tous les problèmes étudiés, les sphères unités sont maillées à l’aide de grilles
uniformes de Fibonacci, de 103 à 106 points. Étant donné que MyBEM est
programmé en formulation variationnelle approchée par éléments finis de
frontière P
1
, les N inconnues correspondent exactement aux sommets du
maillage. Par ailleurs, comme 3 points de Gauss ont été utilisés par élé-
ments, le calcul des interactions ponctuelles pour l’assemblage des différents
opérateurs a donc lieu entre les 6N points de gauss. De plus, pour qu’une
longueur d’onde soit représentée au minimum par 6 inconnues, la fréquence
f a été ajustée pour chaque grille, en fonction de la taille de la plus grande
arête amax (kamax ≈ 1). Enfin, la précision des méthodes approchées a été
fixée à 10−3
, au même titre que celle du solveur GMRES [76] utilisé pour
les résolutions itératives de la FMM et de la SCSD. En complément de ces
données, les figure 4.4 et 4.5 offrent une représentation graphique des rayonnements
analytiques u
∞
ref , superposés aux solutions numériques u
∞ obtenues
par SCSD.
Il apparaît d’une part que les rapports signal sur bruit (SNR) sont
stables, et montrent une grande précision pour tous les résultats. En effet,
l’écart entre les solutions numériques et analytiques sont de l’ordre de
10−2 dB en norme quadratique et 10−1 dB en norme infinie. Ces performances
se retrouvent dans les représentations graphiques des figures 4.4 et
4.5, puisque les solutions numériques et analytiques sont trait sur trait, en
échelle logarithmique (dB). Les temps de calcul totaux, somme des temps
d’assemblage des parties proches tpsP et des temps de résolution tpsR, sont
138DIRICHLET BEM FMM SCSD
N f (Hz) krmax SNR2 SNR∞ SNR2 SNR∞ SNR2 SNR∞
103 300 5 0.017 0.032 0.033 0.067 0.016 0.032
104 1000 19 0.002 0.008 0.017 0.060 0.009 0.024
105 3200 118 - - 0.011 0.039 0.019 0.073
106 10000 368 - - 0.021 0.120 0.014 0.090
NEUMANN BEM FMM SCSD
N f (Hz) krmax SNR2 SNR∞ SNR2 SNR∞ SNR2 SNR∞
103 300 5 0.050 0.161 0.052 0.159 0.047 0.158
104 1000 19 0.021 0.134 0.026 0.201 0.019 0.179
105 3200 118 - - 0.015 0.093 0.017 0.110
106 10000 368 - - 0.025 0.214 0.013 0.061
DIRICHLET BEM FMM SCSD
N f (Hz) krmax tpsP tpsR tpsP tpsR Niter tpsP tpsR Niter
103 300 5 1.78 0.13 0.74 1.02 5 0.96 0.71 5
104 1000 19 140 22.4 3.21 12.5 7 4.49 3.58 7
105 3200 118 - - 23.4 174 9 56.7 39.1 9
106 10000 368 - - 235 2460 12 782 618 12
NEUMANN BEM FMM SCSD
N f (Hz) krmax tpsP tpsR tpsP tpsR Niter tpsP tpsR Niter
103 300 5 1.78 0.13 0.74 2.83 5 0.96 0.84 5
104 1000 19 140 24.2 3.21 34.8 6 4.49 4.59 6
105 3200 118 - - 23.4 479 7 56.7 47.0 7
106 10000 368 - - 235 6324 9 782 740 9
Figure 4.3 – Tableaux comparatifs de la précision et des temps de calculs de
MyBEM pour un problème de diffraction sphérique de 103 à 106
inconnues.
Tous les temps sont donnés en secondes et les SNR sont données en décibel
(20 log |u|).
139Figure 4.4 – Représentations en décibel des diagrammes de rayonnement
en champs lointains des solutions analytiques (u
∞
ref ) et numériques, obtenues
par MyBEM en SCSD (u
∞
SCSD). (Gauche) Problèmes de Dirichlet. (Droite)
Problèmes de Neumann.
140Figure 4.5 – Représentations en décibel des diagrammes de rayonnement en
champs lointains des solutions analytiques (u
∞
ref ) et numériques, obtenues par
MyBEM en SCSD (u
∞
SCSD). (Haut) Problèmes de Dirichlet. (Bas) Problèmes
de Neumann.
141favorables à la méthode SCSD. En effet, bien qu’assez performante dans
son assemblage, la BEM ne peut pas résoudre des problèmes d’une taille
supérieure à 25 000 inconnues, puisque le stockage mémoire des opérateurs
explose de façon quadratique. D’autre part, la FMM est globalement moins
rapide que la SCSD, à précision équivalente. Néanmoins, ces résultats sont
à nuancer par les nombreuses différences intrinsèques aux deux algorithmes
(niveau de langage, parallélisme de la FMM mais pas des NUFFT, accessibilité
aux différentes étapes de construction, etc.), qui rendent hasardeuse
toute conclusion objective. De nouvelles études sont donc à prévoir, ainsi que
divers benchmark, mais il apparaît déjà que MyBEM, l’interface FMM de L.
Greengard et la nouvelle méthode rapide SCSD semblent prometteurs pour
réaliser du calcul intégral haute performance sous Matlab.
4.3 Applications au calcul de HRTF
La validité des calculs de la librairie intégrale MyBEM étant désormais
établie, des exemples d’applications plus concrètes sont présentés dans cette
dernière section. Pour ne pas s’écarter du but initial, des simulations sur des
maillages de têtes et d’oreilles ont été effectués. Néanmoins, par manque de
temps, la construction d’une HRTF complète n’a pas encore été réalisée et
fera l’objet de travaux futurs, en vue d’une confrontation finale aux mesures
réelles.
Dans un premier temps, des maillages de calcul ont été générés en trois
étapes (fig. 4.6). Tout d’abord, un maillage initial d’une tête artificielle Neumann
KU100 [91] a été réalisé par balayage optique, à l’aide de la Kinect [90]
et du kit de développement Microsoft. Ce maillage n’étant pas utilisable en
l’état (trous, intersections d’éléments, abérations géométriques, etc.), l’oreille
gauche en a été extraite. Ensuite, un maillage paramétrique de "tête" a été
créé sous Matlab, à partir d’une grille sphérique de Fibonacci, déformée en
ovoïde. Pour finir, les deux maillages ont été fusionnés sous Matlab, puis corrigés
et rééchantillonnés à l’aide d’outils comme MeshLab [92], Remesh [97],
VTK [99], etc. Trois maillages de tête ont ainsi été générés, comptant respectivement
4 000, 15 000 et 50 000 sommets, pour des fréquences optimales
de 5 000, 10 000 et 20 000 Hz. En complément, l’oreille tirée du maillage
initial a été fermée par un demi-ovoïde, pour disposer d’un maillage d’étude
de petite taille, fonctionnel sur toute la bande de fréquence audible. Ce dernier
maillage ne comte que 6 000 sommets, ce qui autorise l’assemblage BEM
exact avec résolution directe.
À partir de ces maillages, une première application de MyBEM a consisté
à calculer des modes de résonance du pavillon auditif, notamment pour tes-
142Figure 4.6 – Balayage de la tête artificielle Neumann KU100 par mesures
optiques Kinect, et création de maillages de calcul. (Haut) Système de mesure
de la tête Neumann et tête de Timothée. (Bas, gauche) Maillage obtenu avec
le kit de développement Microsoft. (Bas, droite) Maillage final par fusion de
l’oreille gauche sur un ovoïde.
143Figure 4.7 – (Gauche) Excitation par onde plane de l’oreille fermée.
(Droite) Modes de résonances du pavillon obtenus par BEM. (Haut) 5 000
Hz. (Milieu) 10 000 Hz. (Bas) 20 000 Hz.
144Figure 4.8 – (Gauche) Modes de résonances du pavillon obtenus par FMM.
(Droite) Modes obtenus par SCSD. (Haut) 5 000 Hz. (Milieu) 10 000 Hz.
(Bas) 20 000 Hz.
145Figure 4.9 – Modes de résonance du pavillon avec diffraction par une tête
ovoïdale. (Gauche) Assemblage BEM et FMM en bas. (Droite) Assemblage
SCSD uniquement. (Haut) 5 000 Hz. (Milieu) 10 000 Hz. (Bas) 20 000 Hz.
146ter les trois méthodes d’assemblage (BEM, FMM et SCSD) sur un cas
concret difficile. Pour chaque fréquence (5 000, 10 000 et 20 000 Hz), le problème
de Neumann homogène a été résolu, modélisant mathématiquement la
rigidité de la peau [50]. Les formulations en Brackage-Werner ont été choisies
pour assurer l’existence et l’unicité de la solution, préconditionnées par
identités de Calderón et décomposition LU, et toutes les précisions ont été
fixée à 10−3
. Les solutions sont représentées sur les figures 4.7, 4.8 et 4.9, en
décibel (20 log |u|), avec les temps suivants :
OREILLE BEM FMM SCSD
f (Hz) tpsP tpsR tpsP tpsR Niter tpsP tpsR Niter
5 000 58.0 7.10 2.34 41.6 14 5.75 5.80 14
10 000 56.5 7.26 2.42 44.7 15 5.95 5.55 15
20 000 57.2 7.07 2.36 52.4 17 5.73 6.17 17
TÊTE BEM FMM SCSD
f (Hz) tpsP tpsR tpsP tpsR Niter tpsP tpsR Niter
5 000 19.6 2.45 1.84 17.5 8 5.00 2.49 8
10 000 454 77.8 5.28 101 12 15.4 10.9 12
20 000 - - 14.8 434 18 46.8 50.2 18
D’une part, pour un cas non trivial (résonances dans plusieurs cavités de
tailles diverses), la concordance entre toutes ces figures montre bien que l’ensemble
des méthodes d’assemblage implémentées dans MyBEM donnent des
résultats tout à fait comparables. En considérant la BEM comme la référence
(assemblage et résolution exacte), les méthodes approchées semblent donc relativement
robustes. D’autre part, la SCSD montre des temps totaux plus
rapides que les deux autres méthodes, pour un nombre d’itérations identique
aux FMM.
Pour terminer, un embryon de calcul HRTF a été pratiqué sur un maillage
de tête réelle (fig. 4.10). Fourni par P. Frey [89], ce maillage présente 15 000
sommets et autorise les calculs jusqu’à 5 000 Hz. La méthode consiste à placer
une source ponctuelle au creux du pavillon auditif (étoile cyan, fig. 4.10),
puis résoudre le problème de Neumann homogène associé avant de faire rayonner
les solutions obtenues sur la sphère unité (e.g. [49], [50], [39]). D’après
le principe de réciprocité, les déformations spectrales causées par la morphologie
sont alors bien prises en compte [87]. Pour valider la démarche, ce
147Figure 4.10 – Maillage de tête à 15 000 sommets, réalisé par P. Frey.
(Gauche) Vue de face. (Droite) Vue de profil, avec une étoile bleue au creux de
l’oreille droite, correspondant à la source ponctuelle pour le calcul de HRTF
par réciprocité.
problème a aussi été résolu sur un maillage sphérique de rayon a = 8.74
cm [58], avec une source ponctuelle placée à la surface en lieu et place de
l’oreille droite. Comme il existe une solution analytique (eq. 1.5, [25]), les
résultats numériques peuvent s’y référer. Pour ces derniers calculs, la formulation
Brackage-Werner préconditionnée a de nouveau été utilisée et la
précision fixée à 10−3
. Les figures 4.11 et 4.12 représentent en décibel les solutions
obtenues par BEM, FMM et SCSD, à 1 mètre de distance et 5 000 Hz.
Les temps de calcul sont résumés dans le tableau suivant :
SPHÈRE TÊTE
Méthode tpsP tpsR Niter tpsP tpsR Niter
BEM 29.9 4.38 - 805 70.1 -
FMM 1.28 18.4 6 8.24 85.6 11
SCSD 2.18 2.52 6 22.1 9.85 11
Tout d’abord, il apparaît que les rayonnements de la méthode exacte et
des méthodes approchées sont bien concordants dans le cas sphérique, et ces
résultats semblent coïncider avec le modèle de Duda (fig. 1.18). Néanmoins,
il existe quelques écarts entre les méthodes approchées et la méthode exacte,
visibles sur la tête réelle pour les gains relativement faibles (variations des
échelles de couleurs). Ceci peut s’expliquer par la finesse de ce problème, à
148Figure 4.11 – HRTF sphérique du modèle de Duda de rayon 8.74 cm, calculée
par MyBEM à 5 000 Hz, représentation en décibel sur la sphère unité.
(Haut) Assemblage BEM. (Bas, gauche) Assemblage FMM. (Bas, droite)
Assemblage SCSD.
149Figure 4.12 – HRTF du maillage de P. Frey calculée par MyBEM à 5 000 Hz,
représentation en décibel sur la sphère unité. (Haut) Assemblage BEM. (Bas,
gauche) Assemblage FMM. (Bas, droite) Assemblage SCSD.
150savoir le rayonnement en champ proche d’une source ponctuelle dans une
cavité, où des différences minimes peuvent générer des perturbations consé-
quentes. Mais vu l’ordre de grandeur relatif de ces écarts, il est possible qu’ils
soient inaudibles.
Aussi, ces calculs montrent que MyBEM est prêt pour la génération numérique
de HRTF par méthodes intégrales, que ce soit en BEM, FMM ou
SCSD. Pour générer une HRTF complète, il ne reste désormais plus qu’à
boucler sur les fréquences, en raffinant éventuellement le maillage de calcul.
151DÉFI IDIOT MAIS RÉUSSI : " Salut tout le monde ! Je suis désormais
en pleine phase de rédaction du manuscrit de thèse, c’est donc le moment de
m’envoyer votre liste de mots à caser (en français). Le principe de ce jeu est
le suivant, pour chaque mot soumis présent dans le manuscrit final, vous me
payez une bière de votre choix. Si le mot est jugé de façon impartiale mal
adapté au contexte, c’est moi qui régale... A vos plumes !"
– ADRIEN : platokaolinophile.
– ALAIN : zygomatique, xérodermie et yttrialite.
– ANTOINE : lama.
– BENJAMIN : courgette, pornographique.
– CAROLINE A. : érythème, eczéma, petit-jama, cromalin.
– CAROLINE F. : Tchoupi.
– CLAIRE A. : coelioscopie.
– CLAIRE Ette : formication et kyphonisme
– EMILIE : on ne vit pas dans le monde de oui-oui ! !
– FRANCOIS : procrastination, turlututu, François Fromont.
– FREDERIQUE : prurit.
– GUILLAUME : canal de Nidus, rage quit, GG.
– JULIE : priapisme.
– SOPHIE : ratatouille, sapristouille.
– STEPHANE : phugoïde.
– STEVEN : swag, "c’est aussi rébarbatif que de placer une béchamel
dans un micro-ondes soviétique pour la rendre déliquescente".
– THIBAULT : 1=0 ;
– TIMOTHÉE : censuré.
– VICTOR : immixtion, cristallisation, Canaan, prophète, Hypokhâgne,
Zoé, Django Reinhart, pronosthud.
– VINCENT : soviétique, rébarbatif, déliquescent, micro-ondes, béchamel.
– XAVIER : pachydermique.
ATTENTION : L’auteur de ce manuscrit n’est en rien responsable du
contenu de cette page et décline toute responsabilité quand au vocabulaire
employé ici.
152Conclusion
Pour conclure, l’ensemble des travaux présenté dans ce manuscrit offre des
perspectives réellement prometteuses. D’une part, la Décomposition par Modèle
Morphologique propose une nouvelle voie pour étudier les HRTF. Au lieu
de construire des filtres basés sur des considérations arbitraires, des mesures
réelles sont déconvoluées par des fonctions de transferts issues de modèles
morphologiques paramétriques, obtenus analytiquement ou par simulation.
Le résidu de cette décomposition peut alors être analysé, pour valider la
bonne correspondance au modèle considéré. Cette démarche a prouvé son
efficacité et de nombreuses applications industrielles en ont découlé (interpolation
haute qualité, micro-variations de sources, déraffinement spatial de
bases de données, individualisation des HRTF, etc.). D’autre part, la Décomposition
Creuse en Sinus Cardinal permet la convolution rapide par un noyau
de Green. Initiée par une démarche essentiellement expérimentale, une nouvelle
théorie a vu le jour et les premiers tests de performances ont démontré
l’efficacité de cette approche.
Des développements logiciels ont toujours accompagné les problèmes rencontrés,
pour mieux cerner les idées visibles, comme les subtilités cachées.
Cette méthode de travail a engendré la création de prototypes innovants et
fonctionnels, directement exploitables par le milieu industriel. Deux librairies
indépendantes regroupent l’essentiel de ces codes. D’une part, PifPaf3D
propose de nombreuses technologies pour la spatialisation sonore en temps
réel, comme la synthèse binaurale, la captation-restitution en High Order
Ambisonics, ou encore la réverbération de salles en trois dimensions. De multiples
logiciels créés par la société Digital Media Solutions, à l’initiative de
cette thèse CIFRE, en sont issus. D’autre part, MyBEM résout les équations
intégrales de l’acoustique par éléments finis de frontières, incluant diverses
méthodes d’assemblage et de résolution (BEM, FMM et SCSD). Ce code est
aujourd’hui capable de traiter des problèmes de l’ordre du million d’inconnues
relativement rapidement, avec une très bonne précision.
Ainsi, tous les outils dédiés à l’individualisation numérique de la spatialisation
sonore sont réalisés et fonctionnels. Il ne reste désormais plus qu’à
153générer des HRTF par équations intégrales pour "écouter" des mathématiques
appliquées par synthèse binaurale. En effet, le formalisme de la Décomposition
par Modèle Morphologique est particulièrement adapté au couplage
entre les mesures réelles et les résultats de simulation numérique.
Par ailleurs, d’autres applications, qui dépassent largement le cadre de
cette thèse, sont aussi envisageables pour l’acoustique, comme la simulation
numérique architecturale ou la détection sonar. Enfin, d’un point de vue mathématique,
nous sommes persuadés que la SCSD a un potentiel qu’il faudra
exploiter dans les années à venir. Par exemple, il est fortement envisagé de
l’utiliser pour résoudre des problèmes de très grandes tailles par équations
intégrales, dans des domaines aussi variés que l’acoustique, la gravitation,
l’élasticité linéaire, l’électromagnétisme, la mécanique des fluides, etc.
154Bibliographie
[1] Acton, F. S. (1990). Numerical methods that usually work. Washington,
DC : Mathematical Association of America.
[2] Allen, J. B., & Berkley, D. A. (1979). Image method for efficiently simulating
small-room acoustics. The Journal of the Acoustical Society of
America, 65(4), 943-950.
[3] Algazi, V. R., Duda, R. O., Thompson, D. M., & Avendano, C. (2001).
The cipic hrtf database. In Applications of Signal Processing to Audio
and Acoustics, 2001 IEEE Workshop on the (pp. 99-102).
[4] Algazi, V. R., Duda, R. O., Duraiswami, R., Gumerov, N. A., & Tang,
Z. (2002). Approximating the head-related transfer function using simple
geometric models of the head and torso. The Journal of the Acoustical
Society of America, 112(5), 2053-2064.
[5] Alouges, F., Aussal, M. (2014) The Sparse Cardinal Sine Decomposotion
and its application for fast numerical convolution.
[6] HRTF database from Acoustic Research Institute, www.kfs.oeaw.ac.at
[7] Armelloni, E., Giottoli, C., & Farina, A. (2003, October). Implementation
of real-time partitioned convolution on a DSP board. In Applications of
Signal Processing to Audio and Acoustics, 2003 IEEE Workshop on. (pp.
71-74).
[8] Aussal, M., Alouges, F., & Katz, B. F. (2012, March). ITD interpolation
and personalization for binaural synthesis using spherical harmonics. In
Audio engineering society UK conference. New York, UK (p. 04).
[9] Aussal, M., Alouges, F., & Katz, B. (2013, June). A study of spherical
harmonics interpolation for HRTF exchange. In Proceedings of Meetings
on Acoustics (Vol. 19, No. 1, p. 050010). Acoustical Society of America.
[10] Begault, D. R. (1994). 3-D sound for virtual reality and multimedia (Vol.
955). Boston etc : AP professional.
[11] Bertet, S., Daniel, J., & Moreau, S. (2006, May). 3d sound field recording
with higher order ambisonics-objective measurements and validation
155of spherical microphone. In Audio Engineering Society Convention 120.
Audio Engineering Society.
[12] Begault, D. R., Wenzel, E. M., & Anderson, M. R. (2001). Direct comparison
of the impact of head tracking, reverberation, and individualized
head-related transfer functions on the spatial perception of a virtual speech
source. Journal of the Audio Engineering Society, 49(10), 904-916.
[13] Bensoam, J. (2003). Représentation intégrale appliquée à la synthèse sonore
par modélisation physique (Doctoral dissertation, PhD thesis, Université
du Maine).
[14] Blauert, J. (1994). La technologie binaurale : bases scientifiques et domaines
d’application génériques. Le Journal de Physique IV, 4 (C5-11).
[15] Blauert, J. (1997). Spatial hearing.
[16] Bonnet, M. (1999). Boundary integral equation methods for solids and
fluids. Meccanica, 34(4), 301-302.
[17] Cheng, C. I., & Wakefield, G. H. (1999, September). Introduction to
head-related transfer functions (HRTFs) : Representations of HRTFs in
time, frequency, and space. In Audio Engineering Society Convention 107.
Audio Engineering Society.
[18] Chaillat, S., & Bonnet, M. (2014). A new Fast Multipole formulation for
the elastodynamic half-space Green’s tensor. Journal of Computational
Physics, 258, 787-808.
[19] Craven, P. G., & Gerzon, M. A. (1977). U.S. Patent No. 4,042,779.
Washington, DC : U.S. Patent and Trademark Office.
[20] Daniel, J. (2000). Représentation de champs acoustiques, application à
la transmission et à la reproduction de scènes sonores complexes dans un
contexte multimédia (Doctoral dissertation, Ph. D. Thesis, University of
Paris VI, France).
[21] Daniel, J., Moreau, S., & Nicol, R. (2003, March). Further investigations
of high-order ambisonics and wavefield synthesis for holophonic sound
imaging. In Audio Engineering Society Convention 114. Audio Engineering
Society.
[22] Darbas, M., Darrigrand, E., & Lafranche, Y. (2013). Combining analytic
preconditioner and fast multipole method for the 3-D Helmholtz equation.
Journal of Computational Physics, 236, 289-316.
[23] Durufle, M. (2006). Intégration numérique et éléments finis d’ordre élevé
appliqués aux équations de Maxwell en régime harmonique (Doctoral dissertation,
ENSTA ParisTech).
156[24] Dutt, A., & Rokhlin, V. (1993). Fast Fourier transforms for nonequispaced
data. SIAM Journal on Scientific computing, 14(6), 1368-1393.
[25] Duda, R. O., & Martens, W. L. (1998). Range dependence of the response
of a spherical head model. The Journal of the Acoustical Society of
America, 104(5), 3048-3058.
[26] Duda, R. O., Avendano, C., & Algazi, V. R. (1999, March). An adaptable
ellipsoidal head model for the interaural time difference. In Acoustics,
Speech, and Signal Processing, 1999. Proceedings., 1999 IEEE International
Conference on (Vol. 2, pp. 965-968).
[27] Duraiswaini, R., Zotkin, D. N., & Gumerov, N. A. (2004, May). Interpolation
and range extrapolation of HRTFs [head related transfer functions].
In Acoustics, Speech, and Signal Processing, 2004. Proceedings.
(ICASSP’04). IEEE International Conference on (Vol. 4, pp. iv-45).
[28] Evans, M. J., Angus, J. A., & Tew, A. I. (1998). Analyzing head-related
transfer function measurements using surface spherical harmonics. The
Journal of the Acoustical Society of America, 104(4), 2400-2411.
[29] Farina, A. (2000, February). Simultaneous measurement of impulse response
and distortion with a swept-sine technique. In Audio Engineering
Society Convention 108. Audio Engineering Society.
[30] Fiala, P., Huijssen, J., Pluymers, B., Hallez, R., & Desmet, W. (2010,
September). Fast Multipole BEM modeling of head related transfer functions
of a dummy head and torso. In ISMA 2010 Conference, Leuven,
Belgium.
[31] Fischer, M., Gauger, U., & Gaul, L. (2004). A multipole Galerkin boundary
element method for acoustics. Engineering analysis with boundary
elements, 28(2), 155-162.
[32] Foster, S. (1986, April). Impulse response measurement using Golay
codes. In Acoustics, Speech, and Signal Processing, IEEE International
Conference on ICASSP’86. (Vol. 11, pp. 929-932).
[33] Gerzon, M. A. (1985). Ambisonics in multichannel broadcasting and video.
Journal of the Audio Engineering Society, 33(11), 859-871.
[34] Greengard, L., & Rokhlin, V. (1987). A fast algorithm for particle simulations.
Journal of computational physics, 73(2), 325-348.
[35] Greengard, L. (1988). The rapid evaluation of potential fields in particle
systems. MIT press.
[36] Greengard, L., & Lee, J. Y. (2004). Accelerating the nonuniform fast
Fourier transform. SIAM review, 46(3), 443-454.
157[37] Gumerov, N. A., Duraiswami, R., & Tang, Z. (2002, May). Numerical
study of the influence of the torso on the HRTF. In Acoustics, Speech,
and Signal Processing (ICASSP), 2002 IEEE International Conference on
(Vol. 2, pp. II-1965).
[38] Gumerov, N. A., & Duraiswami, R. (2005). Fast multipole methods for
the Helmholtz equation in three dimensions. Elsevier.
[39] Gumerov, N. A., O’Donovan, A. E., Duraiswami, R., & Zotkin, D. N.
(2010). Computation of the head-related transfer function via the fast multipole
accelerated boundary element method and its spherical harmonic
representation. The Journal of the Acoustical Society of America, 127(1),
370-386.
[40] M.A. Hamdi, An integral equation variational formulation for the resolution
of the Helmholtz equation including mixed boundary conditions.
Comptes Rendus de l’Académie des Sciences. Paris. 192 (1981) 17–20
[41] Hannay, J. H., & Nye, J. F. (2004). Fibonacci numerical integration on a
sphere. Journal of Physics A : Mathematical and General, 37 (48), 11591.
[42] Hamasaki, K., Hiyama, K., & Okumura, R. (2005, May). The 22.2 multichannel
sound system and its application. In Audio Engineering Society
Convention 118. Audio Engineering Society.
[43] Hackbusch, W. (2009). Hierarchische matrizen. Algorithmen und
AnalysisSpringer-Verlag, Berlin.
[44] Hamming, R. (2012). Numerical methods for scientists and engineers.
Courier Dover Publications.
[45] Hartung, K., Braasch, J., & Sterbing, S. J. (1999, March). Comparison of
different methods for the interpolation of head-related transfer functions.
In Audio Engineering Society Conference : 16th International Conference :
Spatial Sound Reproduction. Audio Engineering Society.
[46] Hesse, K., Sloan, I. H., & Womersley, R. S. (2010). Numerical integration
on the sphere. In Handbook of Geomathematics (pp. 1185-1219). Springer
Berlin Heidelberg.
[47] Hill, P. A., Nelson, P. A., Kirkeby, O., & Hamada, H. (2000). Resolution
of front–back confusion in virtual acoustic imaging systems. The Journal
of the Acoustical Society of America, 108(6), 2901-2910.
[48] Jot, J. M. (1997, September). Efficient models for reverberation and
distance rendering in computer music and virtual audio reality. In Proc.
1997 International Computer Music Conference.
[49] Kahana, Y. (2000). Numerical modelling of the head-related transfer
function (Doctoral dissertation, University of Southampton).
158[50] Katz, B. F. (2001). Boundary element method calculation of individual
head-related transfer function. I. Rigid model calculation. The Journal of
the Acoustical Society of America, 110(5), 2440-2448.
[51] Kahana, Y., & Nelson, P. A. (2006). Numerical modelling of the spatial
acoustic response of the human pinna. Journal of Sound and Vibration,
292 (1), 148-178.
[52] Kahana, Y., & Nelson, P. A. (2007). Boundary element simulations of
the transfer function of human heads and baffled pinnae using accurate
geometric models. Journal of sound and vibration, 300(3), 552-579.
[53] K-V. Nguyen, T. Carpentier, M. Noisternig, O. Warusfel, Calculation
of the head related transfer function in the proximity region using spherical
harmonics decomposition : comparison with measurements and evaluation.
Proc. of the 2nd International Symposium on Ambisonics and
Spherical Acoustics - Paris, 2010.
[54] Kechroud, R., Soulaimani, A., Saad, Y., & Gowda, S. (2004). Preconditioning
techniques for the solution of the Helmholtz equation by the finite
element method. Mathematics and Computers in Simulation, 65(4), 303-
321.
[55] Kirkup, S. (1998). The boundary element method in acoustics (Vol. 129).
Heptonstall : Integrated sound software.
[56] Kreuzer, W., Majdak, P., & Chen, Z. (2009). Fast multipole boundary
element method to calculate head-related transfer functions for a wide
frequency range. The Journal of the Acoustical Society of America, 126(3),
1280-1290.
[57] Larcher, V., & Jot, J. M. (1997, April). Techniques d’interpolation de
filtres audio-numériques, Application a la reproduction spatiale des sons
sur écouteurs. In Proc. CFA : Congres Français d’Acoustique.
[58] Larcher, V. (2001). Techniques de spatialisation des sons pour la réalité
virtuelle (Doctoral dissertation).
[59] Laborie, A., Bruno, R., & Montoya, S. (2003, March). A new comprehensive
approach of surround sound recording. In Audio Engineering Society
Convention 114. Audio Engineering Society.
[60] Lebedev, V. I., & Laikov, D. N. (1999). A quadrature formula for the
sphere of the 131st algebraic order of accuracy. In Doklady. Mathematics(Vol.
59, No. 3, pp. 477-481). MAIK Nauka/Interperiodica.
[61] Lee, J. Y., & Greengard, L. (2005). The type 3 nonuniform FFT and its
applications. Journal of Computational Physics, 206(1), 1-5.
159[62] HRTF database from listen project, www.recherche.ircam.fr/
equipes/salles/listen
[63] Lokki, T., & Pätynen, J. (2011). Lateral reflections are favorable in
concert halls due to binaural loudness. The Journal of the Acoustical
Society of America, 130(5), EL345-EL351.
[64] Majdak, P., Balazs, P., & Laback, B. (2007). Multiple exponential sweep
method for fast measurement of head-related transfer functions. Journal
of the Audio Engineering Society, 55(7/8), 623-637.
[65] Majdak, P., Iwaya, Y., Carpentier, T., Nicol, R., Parmentier, M., Roginska,
A., ... & Noisternig, M. (2013, May). Spatially Oriented Format for
Acoustics : A Data Exchange Format Representing Head-Related Transfer
Functions. In Audio Engineering Society Convention 134. Audio Engineering
Society.
[66] Messonnier, J. C., & Moraud, A. (2011, May). Auditory Distance Perception
: Criteria and Listening Room. In Audio Engineering Society
Convention 130. Audio Engineering Society.
[67] Middlebrooks, J. C. (1999). Individual differences in external-ear transfer
functions reduced by scaling in frequency. The Journal of the Acoustical
Society of America, 106(3), 1480-1492.
[68] Møller, H. (1992). Fundamentals of binaural technology. Applied acoustics,
36(3), 171-218.
[69] J.C Nédélec, Acoustics ans Electromagnetic equations. Integral representations
for harmonic problems. Applied Mathematics Science, 144, Springer
Verlag, New-York (2001).
[70] Nicol, R. (1999). Restitution sonore spatialisée sur une zone étendue :
application à la téléprésence. PhD these, Université Du Maine, France.
[71] Nicol, R., & Emerit, M. (1999, March). 3D-sound reproduction over an
extensive listening area : A hybrid method derived from holophony and
ambisonic. In Audio Engineering Society Conference : 16th International
Conference : Spatial Sound Reproduction. Audio Engineering Society.
[72] Otani, M., & Ise, S. (2003). A fast calculation method of the head-related
transfer functions for multiple source points based on the boundary element
method. Acoustical Science and Technology, 24(5), 259-266.
[73] Pulkki, V. (1997). Virtual sound source positioning using vector base
amplitude panning. Journal of the Audio Engineering Society, 45(6), 456-
466.
[74] Rayleigh, L. (1907). XII. On our perception of sound direction. The
London, Edinburgh, and Dublin Philosophical Magazine and Journal of
Science, 13(74), 214-232.
160[75] Romblom, D., & Cook, B. (2008, October). Near-field compensation for
HRTF processing. In Audio Engineering Society Convention 125. Audio
Engineering Society.
[76] Saad, Y., & Schultz, M. H. (1986). GMRES : A generalized minimal residual
algorithm for solving nonsymmetric linear systems. SIAM Journal
on scientific and statistical computing, 7(3), 856-869.
[77] Salles, N. (2013). Calcul des singularités dans les méthodes d’équations
intégrales variationnelles (Doctoral dissertation, Université Paris SudParis
XI).
[78] Shaw, E. A. G., & Teranishi, R. (1968). Sound Pressure Generated in an
External-Ear Replica and Real Human Ears by a Nearby Point Source.
The Journal of the Acoustical Society of America, 44(1), 240-249.
[79] Steinbach, O., & Wendland, W. L. (1998). The construction of some
efficient preconditioners in the boundary element method. Advances in
Computational Mathematics, 9(1-2), 191-216.
[80] Stan, G. B., Embrechts, J. J., & Archambeau, D. (2002). Comparison of
different impulse response measurement techniques. Journal of the Audio
Engineering Society, 50(4), 249-262.
[81] Takemoto, H., Mokhtari, P., Kato, H., Nishimura, R., & Iida, K. (2010).
A simple pinna model for generating head-related transfer functions in
the median plane. Proc. 20th Int. Congr. Acoust.(ICA’10).
[82] Terrasse, I., & Abboud, T. (2007). Modélisation des phénomenes de propagation
d’ondes. (Modeling of wave propagation phenomena), Ecole Polytechnique.
[83] Mercier, D. (2002). Le livre des techniques du son-Tome 1-3. Dunod.
[84] Wightman, F. L., & Kistler, D. J. (1999). Resolution of front-back ambiguity
in spatial hearing by listener and source movement. The Journal
of the Acoustical Society of America, 105(5), 2841-2853.
[85] Woodworth, R. S., & Schlosberg, H. (1962). Experimental psychology.
Holt, Rinehart and Winston.
[86] Zotkin, D. N., Hwang, J., Duraiswaini, R., & Davis, L. S. (2003, October).
HRTF personalization using anthropometric measurements. In Applications
of Signal Processing to Audio and Acoustics, 2003 IEEE Workshop
on. (pp. 157-160).
[87] Zotkin, D. N., Duraiswami, R., Grassi, E., & Gumerov, N. A. (2006).
Fast head-related transfer function measurement via reciprocity. The Journal
of the Acoustical Society of America, 120(4), 2202-2215.
161[88] Voir http ://www.cims.nyu.edu/cmcl/fmm3dlib/fmm3dlib.html
[89] Voir https ://www.ljll.math.upmc.fr/frey
[90] Voir http ://www.xbox.com/fr-FR/Kinect
[91] Voir http ://www.neumann.com
[92] Voir http ://meshlab.sourceforge.net
[93] Voir http ://www.mathworks.com/matlabcentral/ fileexchange/25135-
nufft–nfft–usfft
[94] Voir http ://web.eecs.umich.edu/ fessler/code/index.html
[95] Voir http ://www.cims.nyu.edu/cmcl/nufft/nufft.html
[96] Voir http ://www-user.tu-chemnitz.de/ potts/nfft
[97] Voir http ://remesh.sourceforge.net
[98] Voir http ://www.physik3.gwdg.de/tstool
[99] Voir http ://www.vtk.org
162Noname manuscript No.
(will be inserted by the editor)
The Sparse Cardinal Sine Decomposition and its
application for fast numerical convolution
Fran¸cois Alouges · Matthieu Aussal
Received: date / Accepted: date
Abstract Fast convolution algorithms on unstructured grids have become a
well established subject. Algorithms such as Fast Miltipole Method (FMM),
adaptive cross approximation (ACA) or H-matrices for instance are, by now,
classical and reduce the complexity of the matrix-vector product from O(N2
)
to O(N log N) with a broad range of applications in e.g. electrostatics, magnetostatics,
acoustics or electromagnetics. In this paper we describe a new
algorithm of which we would like to explore the potential. Based on the Non
Uniform FFT algorithm, it is at the same time simple, efficient and versatile.
Keywords Quadrature · Non Uniform FFT · Fast convolution · Fast
Multipole Method
Mathematics Subject Classification (2000) 65T50 · 65Z05
1 Introduction
In many areas of computational physics appears the problem of solving a
PDE via the convolution of a distribution with an explicit Green kernel. This
is for instance the case in electrostatics, magnetostatics or gravitation where
a Coulombian interaction is used. In order to fix the ideas we set the problem
as computing for N given punctual masses (fk){1≤k≤N} located at the points
F. Alouges
CMAP - Ecole Polytechnique, Route de Saclay, 91128, Palaiseau Cedex, France.
Tel.: +33-1-69334631
Fax: +33-1-69334646
E-mail: francois.alouges@polytechnique.edu
M. Aussal
CMAP - Ecole Polytechnique, Route de Saclay, 91128, Palaiseau Cedex, France and Digital
Media Solutions, 45 Grande All´ee du 12 F´evrier 1934, 77186 Noisiel, France.
E-mail: matthieu.aussal@gmail.com2 Fran¸cois Alouges, Matthieu Aussal
(xk){1≤k≤N} in ❘3
, the Coulombian potential at the same points defined by
∀k ∈ {1, · · · , N}, gk =
X
N
l=1
fl
4π|xk − xl
|
. (1)
The previous problem is easily solved with the O(N2
) algorithm by computing
straightforwardly the potential generated by each source at each target. However
for big values of N (e.g. a million or a billion), the above formula is too
slow to be used. Techniques already exist to speed up this computation, the
most famous of which being certainly the FMM (for Fast Multipole Method)
developed by Greengard and coauthors (see the seminal book [9] for instance).
We hereafter would like to present a different method that is based on a sparse
Fourier representation.
2 Principle of the method
Introducing the N × N matrix A whose entries are Akl =
1
4π|xk−xl|
, we recast
the problem as storing A and computing the matrix-vector product G = AF
, where G = (g1, · · · , gN )
t and F = (f1, · · · , fN )
t
. A fast algorithm is at hand
if we are able to write A as a sum of a small number of rank one matrices1
A =
X
n
CnRn ,
where Cn and Rn are respectively column and row vectors of size N. Indeed,
the matrix vector product is computed in this case as
AF =
X
n
CnRnF =
X
n
Cn(R
t
n
· F), (2)
and each term in the sum is computed in O(N) operations.
Notice that such a decomposition is formally given by writing the Fourier
transform of the kernel 1
4π|x|
in ❘3
F
1
4π|x|
=
1
|ξ|
2
.
Indeed, this enables us to write
1
4π|x − y|
=
1
(2π)
3
Z
❘3
e
i(x−y)·ξ
|ξ|
2
dξ ,
1 This is by the way the basis of the principle of H−matrices, see [11].Title Suppressed Due to Excessive Length 3
while coming back to the problem (1), we deduce
X
N
l=1
1
4π|xk − xl
|
fl =
1
(2π)
3
X
N
l=1
Z
❘3
e
i(xk−xl)·ξ
|ξ|
2
dξ
fl
=
1
(2π)
3
Z
❘3
e
ixk·ξ
X
N
j=1
e
−ixl·ξ
|ξ|
2
fl
dξ. (3)
This latter formula is exactly under the desired form (2) with
Cξ =
1
(2π)
3
(e
ix1·ξ
, · · · , eixN ·ξ
)
t
and Rξ =
(e
−ix1·ξ
, · · · , e−ixN ·ξ
)
t
|ξ|
2
,
except that the finite sum indexed by n is now replaced by an integral over
ξ ∈ ❘3
. We can thus produce a formula of the desired form if we can derive a
quadrature formula that approximates the integral. For efficiency reasons, it is
also desirable to have the smallest possible number of terms in this quadrature
formula2
. In order to proceed, we pass in spherical coordinates, and further
transform (3) into
gk =
X
N
l=1
1
4π|xk − xl
|
fl
=
1
(2π)
3
Z +∞
0
Z
❙2
e
iλxk·ξ
X
N
l=1
e
−iλxl·ξ
λ2
fl
!
λ
2
dξ!
dλ
=
1
(2π)
3
Z +∞
0
Z
❙2
e
iλxk·ξ
X
N
l=1
e
−iλxl·ξ
fl
!
dξ!
dλ. (4)
The basis of our method thus consists in finding numerical quadratures for
the integrals in λ and ξ. This would eventually permit us to approximate the
above formula by
X
N
l=1
1
4π|xk − xl
|
fl ∼
X
S
s=1
ωse
iλsxk·ξs
X
N
l=1
e
−iλsxl·ξs fl
!
=
X
S
s=1
ωse
ixk·ζs
X
N
l=1
e
−ixl·ζs fl
!
,
having set ζs = λsξs ∈ λs❙
2
. Afterwards, the convolution can be done in two
passes :
• Compute ηs =
PN
l=1 e
−ixl·ζs fl from the (fl)1≤l≤N for all 1 ≤ s ≤ S ;
• Compute gk =
PS
s=1 e
ixk·ζs (ωsηs) knowing the previously computed (ηs)1≤s≤S
.
2 Notice that similar ideas are already used in [2] and [8], though in a different context.4 Fran¸cois Alouges, Matthieu Aussal
Both steps can be realized using a (direct and inverse) type-3 Non Uniform
FFT (NUFFT) algorithm [4, 15, 16]. We will be more explicit on this point
later.
Afterall, the method is not surprising and simply relies on the fact that a
convolution is a product in Fourier space. The difficulty however stands in the
fact that one needs, to make the method of practical use, a good quadrature
which is both precise and efficient (i.e. that possesses a small number of points).
It turns out that this is feasible to a very reasonable cost, and at the end
gives a quite powerful numerical method that we have called Sparse Cardinal
Sine Decomposition (SCSD). Maybe the originality of the present approach lies
in the fact that, having written the integral in spherical coordinates permits
us furthermore to decouple the approximation problem (in λ and ξ), and treat
them separately. The aim of the paper is to give such a method and estimate
its complexity through the following Proposition.
Proposition 1 Assume that the original points are uniformly distributed in a
ball then the SCSD algorithm has a global complexity which scales as O(N log N).
If instead, the points are spread uniformly on a regular surface in ❘3
, then the
complexity is O(N6/5
log N).
The paper is divided as follows. Section 3 addresses the problem of finding
a good quadrature in λ, by introducing a so-called sparse cardinal sine decomposition.
Section 4 explain the spherical quadrature. Actually, a classical
Gauss-Legendre quadrature is used whose parameters are thoroughly studied
(see [10] for instance). Eventually Section 5 explains how to take into
account the close interactions, while Section 6 details how to choose the parameters
of the method. Other kernels are treated in Section 7 and numerical
results are provided the last Section. In particular, we compare the timings
obtained to compute the convolution using either a FMM routine provided by
Leslie Greengard on CMCL website [18] or the abovementionned quadrature
and NUFFT approach where the (type-3) NUFFT routine is also taken from
the same website [17]. (Another implementation, which in particular uses the
FFTW package, is also available in the NFFT project of D. Potts [19] but the
type 3 NFFT does not yet have a Matlab interface.).
3 The Sparse Cardinal Sine Decomposition
In order to decouple the problem in spherical coordinates we notice that the
formula (4) can be rewritten under the form
X
N
l=1
1
4π|xk − xl
|
fl =
1
(2π)
3
Z +∞
0
X
N
l=1
Z
❙2
e
iλxk·ξ
(e