Étude des facteurs de pertinence dans la recherche de microblogs.

Étude des facteurs de pertinence dans la recherche de microblogs. - Thèse Informatique

Étude des facteurs de pertinence dans la recherche de microblogs. - thèse Informatique - Revenir à l'accueil

Autres thèses en informatique :

[TXT]

 APISENSE-a-distribut..> 05-Jan-2015 08:09  5.7M

[TXT]

 APISENSE-terminaux-i..> 04-Jan-2015 21:53  5.4M

[TXT]

 Addition-formulae-on..> 04-Jan-2015 21:26  3.0M

[TXT]

 Architecture-de-comm..> 05-Jan-2015 08:04  4.4M

[TXT]

 Catalogage-de-petits..> 05-Jan-2015 08:06  3.8M

[TXT]

 Classification-et-ca..> 04-Jan-2015 11:58  1.3M

[TXT]

 Collaboration-de-tec..> 04-Jan-2015 21:27  2.4M

[TXT]

 Completion-combinato..> 05-Jan-2015 08:11  2.6M

[TXT]

 Contributions-a-la-v..> 04-Jan-2015 21:51  5.4M

[TXT]

 Cryptographie-sur-le..> 05-Jan-2015 08:01  3.4M

[TXT]

 Detection-de-rails-m..> 05-Jan-2015 08:04  5.1M

[TXT]

 Environnements-urbai..> 05-Jan-2015 08:03  6.3M

[TXT]

 Equilibrage-de-charg..> 04-Jan-2015 21:25  3.2M

[TXT]

 Evaluation-analytiqu..> 05-Jan-2015 08:07  3.5M

[TXT]

 Faciliter-le-develop..> 04-Jan-2015 21:56  4.4M

[TXT]

 Factorisation-matric..> 04-Jan-2015 11:59  2.7M

[TXT]

 Generation-automatiq..> 03-Jan-2015 22:04  2.6M

[TXT]

 Gestion-de-la-variab..> 04-Jan-2015 21:55  4.8M

[TXT]

 IdÃ©alisation-d-asse..> 04-Jan-2015 11:57  2.1M

[TXT]

 Inference-d-invarian..> 04-Jan-2015 11:58  1.5M

[TXT]

 Integration-de l-inf..> 04-Jan-2015 21:25  3.4M

[TXT]

 Intelligence-en-essa..> 05-Jan-2015 08:03  5.6M

[TXT]

 Interrogation-de-gra..> 03-Jan-2015 22:04  2.9M

[TXT]

 La-gestion-du-trafic..> 03-Jan-2015 22:01  4.1M

[TXT]

 Langage-de-mashup-Th..> 04-Jan-2015 21:24  4.1M

[TXT]

 Les-logiciels-de-ges..> 03-Jan-2015 22:03  3.1M

[TXT]

 Lh-rs-p2p-une-nouvel..> 04-Jan-2015 11:59  2.7M

[TXT]

 Mesure-de-la-fragili..> 04-Jan-2015 21:24  3.8M

[TXT]

 Meta-modelisation-du..> 04-Jan-2015 21:56  4.1M

[TXT]

 Methode-de-classific..> 04-Jan-2015 11:58  1.3M

[TXT]

 Methode-de-game-desi..> 05-Jan-2015 08:10  4.2M

[TXT]

 Methodes-sequentiell..> 04-Jan-2015 21:27  2.2M

[TXT]

 Mise-en-oeuvre-appli..> 04-Jan-2015 21:54  4.4M

[TXT]

 Modele-et-experience..> 05-Jan-2015 08:01  3.8M

[TXT]

 Modelisation-d-une-a..> 04-Jan-2015 21:53  5.0M

[TXT]

 Modelisation-et-dete..> 04-Jan-2015 11:57  1.6M

[TXT]

 Normalisation-et-App..> 03-Jan-2015 22:01  4.1M

[TXT]

 Nouvelles-approches-..> 05-Jan-2015 08:09  2.3M

[TXT]

 Planification-d-une-..> 05-Jan-2015 08:06  4.1M

[TXT]

 Prise-en-compte-de-l..> 03-Jan-2015 22:04  2.8M

[TXT]

 Qualification-system..> 04-Jan-2015 21:26  2.8M

[TXT]

 Reconnaissance-de-co..> 03-Jan-2015 22:03  3.6M

[TXT]

 Segmentation-supervi..> 04-Jan-2015 11:58  1.3M

[TXT]

 Services-de-repartit..> 03-Jan-2015 21:59  4.7M

[TXT]

 Techniques-visuelles..> 04-Jan-2015 21:27  2.7M

[TXT]

 The-Emergence-of-Mul..> 03-Jan-2015 22:05  2.5M

[TXT]

 Trigraphes-de-Berge-..> 03-Jan-2015 22:02  3.9M

[TXT]

 Un-ilot-formel-pour-..> 05-Jan-2015 08:07  3.1M

[TXT]

 Vers-une-capitalisat..> 03-Jan-2015 22:00  4.6M

Congrès d'informatique :

[TXT]

 Application-Agnostic..> 03-Jan-2015 21:16  2.1M

[TXT]

 Continuity-Editing-f..> 03-Jan-2015 17:35  4.0M

[TXT]

 Double-WP-Vers-une-p..> 03-Jan-2015 17:36  4.0M

[TXT]

 Effective-Reproducib..> 03-Jan-2015 21:18  2.0M

[TXT]

 Enforcing-reuse-and-..> 03-Jan-2015 21:17  2.0M

[TXT]

 Extracting-Bounded-s..> 03-Jan-2015 21:19  4.0M

[TXT]

 Fingerprint-Quality-..> 03-Jan-2015 21:16  2.1M

[TXT]

 GPU-Load-Balance-Gui..> 03-Jan-2015 21:18  4.0M

[TXT]

 Minkowski-sum-of-pol..> 03-Jan-2015 21:17  2.0M

[TXT]

 Quality-Assessment-o..> 03-Jan-2015 21:16  2.1M

[TXT]

 Rester-statique-pour..> 03-Jan-2015 17:35  4.0M

[TXT]

 The-Power-of-Polynom..> 03-Jan-2015 21:16  2.1M

Cours d'informatique :

[TXT]

 Analyse-numerique-Co..> 03-Jan-2015 17:33  3.0M

[TXT]

 Approches-m-k-firm-p..> 03-Jan-2015 17:27  3.7M

[TXT]

 COURS-LA-CULTURE-INF..> 03-Jan-2015 17:25  3.8M

[TXT]

 CRYPTANALYSE-DE-RSA-..> 03-Jan-2015 17:33  3.0M

[TXT]

 Cours-Interconnexion..> 03-Jan-2015 17:34  3.0M

[TXT]

 Cours-d-Analyse-et-C..> 03-Jan-2015 17:22  3.9M

[TXT]

 Efficient-C++finite-..> 03-Jan-2015 17:30  3.5M

[TXT]

 Efficient-C++finite-..> 03-Jan-2015 17:31  3.2M

[TXT]

 Fondements-de-l-Info..> 03-Jan-2015 17:22  4.0M

[TXT]

 INTRODUCTION-A-L-INF..> 03-Jan-2015 17:24  3.8M

[TXT]

 Informatique-et-Ling..> 03-Jan-2015 17:24  3.8M

[TXT]

 Initiation-a-l-infor..> 03-Jan-2015 17:26  3.8M

[TXT]

 Intelligence-Artific..> 03-Jan-2015 15:16  2.5M

[TXT]

 Introduction-a-l-ana..> 03-Jan-2015 17:27  3.7M

[TXT]

 Introduction-a-la-ge..> 03-Jan-2015 17:26  3.8M

[TXT]

 Le-routage-externe-B..> 03-Jan-2015 17:32  3.1M

[TXT]

 Le-systeme-d-informa..> 03-Jan-2015 17:32  3.1M

[TXT]

 Lecture1_Linear_SVM_..> 03-Jan-2015 14:57  2.4M

[TXT]

 Lecture2_Linear_SVM_..> 03-Jan-2015 14:56  2.4M

[TXT]

 Lecture3_Linear_SVM_..> 03-Jan-2015 14:56  2.4M

[TXT]

 Lecture4_Kenrels_Fun..> 03-Jan-2015 14:55  2.4M

[TXT]

 Lecture5_Kernel_SVM...> 03-Jan-2015 14:55  2.4M

[TXT]

 Lecture6_SVDD.pdf.htm   03-Jan-2015 14:54  2.4M

[TXT]

 Lecture7_Cross_Valid..> 03-Jan-2015 14:54  2.4M

[TXT]

 Lecture8_Multi_Class..> 03-Jan-2015 14:57  2.4M

[TXT]

 Lecture9_Multi_Kerne..> 03-Jan-2015 14:53  2.5M

[TXT]

 Lecture10_Outilier_L..> 03-Jan-2015 14:53  2.5M

[TXT]

 Les-reseaux-sans-fil..> 03-Jan-2015 15:17  2.5M

[TXT]

 NooJ-pour-l-Intellig..> 03-Jan-2015 17:30  3.2M

[TXT]

 Outils-Logiques-pour..> 03-Jan-2015 15:15  2.8M

[TXT]

 Presentation-de-la-r..> 03-Jan-2015 17:33  3.0M

[TXT]

 Projet-IP-SIG-Signal..> 03-Jan-2015 15:16  2.5M

[TXT]

 Robotique-Mobile-PDF..> 03-Jan-2015 15:16  2.6M

[TXT]

 Systeme-informatique..> 03-Jan-2015 15:17  2.5M

[TXT]

 Systemes-Multi-Agent..> 03-Jan-2015 17:28  3.5M

[TXT]

 Tutoriel-Android-TP-..> 03-Jan-2015 14:57  2.3M

[TXT]

 Understanding-SVM-th..> 03-Jan-2015 14:57  2.4M

[TXT]

 Une-histoire-de-la-m..> 03-Jan-2015 17:28  3.5M

[TXT]

 Une-introduction-aux..> 03-Jan-2015 17:31  3.1M

[TXT]

 Vers-une-signalisati..> 03-Jan-2015 17:25  3.8M

Etude des facteurs de pertinence dans la recherche de ´ microblogs. Firas Damak To cite this version: Firas Damak. Etude des facteurs de pertinence dans la recherche de microblogs.. Information ´ Retrieval. Universit´e Paul Sabatier, 2014. French. HAL Id: tel-01074732 https://tel.archives-ouvertes.fr/tel-01074732 Submitted on 15 Oct 2014 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destin´ee au d´epˆot et `a la diffusion de documents scientifiques de niveau recherche, publi´es ou non, ´emanant des ´etablissements d’enseignement et de recherche fran¸cais ou ´etrangers, des laboratoires publics ou priv´es.THESE ` En vue de l’obtention du DOCTORAT DE L’UNIVERSITE DE TOULOUSE ´ D´elivr´e par : l’Universit´e Toulouse 3 Paul Sabatier (UT3 Paul Sabatier) Pr´esent´ee et soutenue le 15/07/2014 par : Firas Damak Etude des facteurs de pertinence dans la recherche de microblogs. ´ JURY Claude CHRISMENT Professeur, Université Toulouse 3 Pr´esident du Jury Patrice BELLOT Professeur, Aix-Marseille Université Rapporteur Patrick GALLINARI Professeur, Université Pierre et Marie Curie Rapporteur Brigitte GRAU Professeur, ENSIIE Examinatrice Christian SALLABERRY MCF/HDR, UPPA Examinateur Mohand BOUGHANEM Professeur, Université Toulouse 3 Directeur Guillaume CABANAC MCF, Université Toulouse 3 Co-encadrant Karen PINEL-SAUVAGNAT MCF, Université Toulouse 3 Co-encadrante Ecole doctorale et sp ´ ´ecialit´e : MITT : Image, Information, Hypermedia Unit´e de Recherche : Institut de Recherche en Informatique de Toulouse (UMR 5505) Directeur(s) de Th`ese : Mohand BOUGHANEM, Guillaume CABANAC et Karen PINEL-SAUVAGNAT Rapporteurs : Patrice BELLOT et Patrick GALLINARI2Du plus profond de mon cœur, je dédie ce travail, À Mes parents Ridha et Sabeh Pour lesquels j’exprime mon amour et ma gratitude pour leur sacrifice et leur soutien moral. Ils n’ont eu de cesse de m’encourager et de m’offrir des conditions favorables durant la période de mes études. Que DIEU leur préserve une bonne vie. À Mes frères Farah et Mehdi Qu’ils trouvent dans ce travail l’expression de ma reconnaissance en leur souhaitant un avenir plein de succès et de bonheur. À Ma meilleure amie Ines Pour son soutien moral et pour les moments inoubliables que nous avons passés ensemble tout au long de ces années. À Toute personne qui m’a soutenu moralement durant la réalisation de ce mémoire, En témoignage de ma fidélité et mon attachement en leur souhaitant toute la joie et le bonheur du monde. . .4Remerciements Il m’est agréable de manifester ici toute ma gratitude à tous ceux et à toutes celles qui m’ont aidé de près ou de loin, afin d’aboutir au couronnement de quatre années de travail et de labeur. Toutefois je ne peux me permettre d’omettre de citer les honorables personnes auxquelles j’adresse ma modeste reconnaissance. Il s’agit de Monsieur Mohand Boughanem, Mme Karen Pinel-Sauvagnat et Monsieur Guillaume Cabanac, qui m’ont été d’un grand apport durant les moments les plus difficiles et ont atténué le poids du dépaysement. Elles m’ont permis de surpasser des périodes difficiles et ont fait renaître en moi la volonté d ’aller de l’avant et de continuer mon chemin vers la réussite. Je remercie chaleureusement Monsieur Claude Chrisment, Monsieur Christian Salaberry, Madame Brigitte Grau, Monsieur Patrick Gallinari et Monsieur Patrice Bellot d’avoir accepté de juger ce travail. Mes vifs remerciements s’adressent également à tous mes amis de l’IRIT qui m’ont prêté main forte pour la réalisation du projet : Mădălina, Dana, Ali, Mohamed, Rafik, Bilel, Lamjed, Arlind, Laure Eya, Ismail. Je tiens à remercier mes amis quotidiens de Toulouse : Faeiz, Bou7a, Marwa, Amine, Yessine, Faty, Sameh, Khouloud, Sami et Cycy. Enfin, je souhaite remercier toute ma famille et mes amis en Tunisie. i6Résumé Notre travail se situe dans le contexte de recherche d’information (RI) sociale et s’intéresse plus particulièrement à la recherche de microblogs. Les microblogs sont des messages de faible longueur à travers lesquels les utilisateurs publient des informations sur différents sujets : des opinions, des événements, des statuts... Les microblogs occupent aujourd’hui une part considérable de l’information générée sur le web. Dans Twitter, la plate-forme de microblogging la plus populaire, le nombre de microblogs par jour peut atteindre 500 millions. Les microblogs ont une forme différente des traditionnels documents. Leur taille est réduite par rapport aux blogs et aux articles publiés sur le web (140 caractères pour Twitter). De plus, les microblogs peuvent contenir une syntaxe spécifique telle que les #hashtags, les @citations ou bien encore des URLs. Les plateformes de microblogging représentent également un modèle de réseau social différent des autres réseaux sociaux. Les relations entre les utilisateurs ne sont pas forcément réciproques et les abonnements sont sans restrictions entre microbloggeurs. Les utilisateurs de plateformes de microblogging, outre la publication de microblogs, effectuent également des recherches. Les motivations de ces recherches sont diverses. Certaines sont similaires à la recherche sur le web (comme par exemple la recherche d’actualités), et d’autres sont spécifiques à la recherche de microblogs (comme par exemple la recherche temps réel ou d’informations sociales). Dans Twitter, 1,6 milliards de requêtes sont ainsi émises chaque jour. Les modèles de RI doivent s’adapter aux spécificités des microblogs : fraîcheur, aspect social et spécificités syntaxiques doivent ainsi être pris en compte. C’est dans ce contexte de recherche d’information dans les microblogs que se situent plus particulièrement nos travaux. Nous nous plaçons plus précisément dans le cadre de la recherche adhoc. L’objectif est de retrouver les microblogs répondant à un besoin d’information spécifié par un utilisateur. Nos travaux visent à améliorer la qualité des résultats de recherche d’information adhoc dans les microblogs. Nos contributions se situent à plusieurs niveaux : -Afin de déterminer exactement les facteurs limitant les performances des modèles de recherche classiques dans un corpus de microblogs, nous avons mené à une analyse de défaillance d’un modèle de recherche usuel. Nous avons sélectionné les 7RÉSUMÉ microblogs pertinents mais non retrouvés par le modèle de recherche. Ensuite, nous avons identifié les facteurs empêchant leur restitution. Nous avons trouvé que le problème principal vient de la concision des microblogs. Cette concision engendre une correspondance limitée entre les termes des microblogs et les termes des requêtes, même s’ils sont sémantiquement similaires. -Afin de compenser l’impact de la concision des microblogs, nous avons proposé et testé plusieurs solutions. Nous avons proposé d’étendre les requêtes (i) en exploitant des ressources de type actualités, (ii) en utilisant la base lexicale Wordnet, (iii) en applicant des techniques de réinjection de pertinence de l’état de l’art qui ont souvent prouvé leur efficacité : Rocchio pour identifier les termes susceptibles de ramener la pertinence ainsi que pour la pondération des termes de la nouvelle requête, et le mécanisme naturel d’extension de requêtes du modèle BM25. Dans Rocchio, nous avons testé différentes méthodes de calcul de poids de termes d’expansion. Nous avons enfin étendu les microblogs grâce aux liens (URLs) qu’ils contiennent. Nos expérimentations ont montré que l’emploi des URLs et l’expansion de requêtes sont primordiales pour la RI dans les microblogs. La plupart de ces expérimentations (expansion de requêtes et de microblogs) ont été réalisées en se basant sur le modèle vectoriel et sur le modèle probabiliste comme modèle de restitution. Ceci nous a permis de comparer les comportements des deux modèles sur les microblogs et avec les deux types d’expansion. De manière générale, nous avons trouvé que le modèle vectoriel est plus performant que modèle probabiliste au niveau de la sélection des microblogs pertinents (meilleur rappel). Cependant, le modèle probabiliste met plus en valeur les microblogs pertinents restitués par rapport à tous les microblogs restitués (meilleure précision). -Un deuxième volet de notre travail concerne l’étude des critères utilisés pour identifier les microblogs pertinents. Nous avons repris les critères souvent utilisés dans l’état de l’art (critères de contenu, critères sur l’importance des auteurs, critères sur les URLs) et nous les avons évalués. Nous avons réalisé cette analyse selon 3 axes. Dans le premier axe, nous avons analysé l’impact de la combinaison des scores des critères avec le score de pertinence du contenu, calculé avec un modèle de RI usuel. Dans le deuxième axe, nous avons étudié le comportement des critères dans les documents pertinents et les avons comparés avec leurs comportements dans les documents non pertinents. Dans le troisième axe, nous avons utilisé des techniques d’apprentissage ainsi que des algorithmes de sélection de critères qui peuvent être utiles en entrée de ces techniques d’apprentissages. De manière générale, nous avons montré que les critères en relation avec les URLs publiées dans les tweets sont les plus discriminants. Les critères liés aux auteurs ne reflètent pas la pertinence. -Afin de prendre en compte l’aspect temporel dans la restitution des microblogs pertinents vis-à-vis d’un besoin d’information, nous avons proposé trois méthodes qui intègrent le temps dans le calcul de la pertinence. Cette intégration du temps 8RÉSUMÉ n’a cependant pas montré son intérêt dans nos méthodes. Pour réaliser nos expérimentations, nous nous sommes basés sur le corpus fourni par la campagne d’évaluation internationale TREC (Text Retrieval Conference) dans la tâche Microblogs des années 2011 et 2012. Nos différentes contributions ont également fait l’objet de participations aux trois tâches de Microblogs de TREC (2011, 2012 et 2013). 9Abstract This work deals with the context of social information retrieval (IR), more particularly the retrieval of microblogs. Microblogs are messages of short length. They contain information on various topics :opinions, events, articles... Microblogs represent a significant part of the information generated on the Web. In the case of Twitter, the most popular platform, the number of microblogs can reach 500 million per day. Microblogs have a different form from traditional documents. Their length is reduced compared to traditional blogs and articles on the web (only 140 characters in the case of Twitter). Moreover, microblogs can have specific syntax such as #hashtags, @mentions or shortened URLs... Microblogging platforms are a social network model different from other social networks. Relationships between users are not necessarily reciprocal and subscriptions are unrestricted between microbloggers. Users of microblogging platforms do not only produce but they also search for information. The motivations of this research are diverse. Some are inspired from Web search (e.g. the search for news) and others are specific to the search for microblogs (e.g. real-time search or social information). In Twitter, 1.6 billion queries are issued every day. Though, the IR models must adapt to the specificities of microblogs : freshness, social aspect and syntactic characteristics must therefore be taken into account. The aim of our work is to improve the quality of the results of adhoc information retrieval in microblogs. Our contributions are at several levels : - In order to accurately determine the factors limiting the performance of conventional models of search in a corpus of microblogs, we conducted an analysis of failure of a conventional model search. We selected relevant microblogs. However, they are not found by the search pattern. Then, we identified the factors preventing their return. We found that the main problem is the shortness of microblogs. - To offset the impact of the shortness of microblogs, we proposed and tested several solutions : to extend the queries by (i) exploiting news articles, (ii) using the WordNet lexical database, (iii) applying techniques of relevance feedback of the state of art which often proved effective : Rocchio to identify terms likely to bring relevance and for weighting the terms of the new query, and the natural extension mechanism queries of the BM25 model. Using Rocchio, we tested different methods of calculating the weight of expansion terms. We finally extended microblogs thanks 10ABSTRACT to the links (URLs) they contain. Our experiments have shown that the use of URLs and the expansion of the query are crucial for IR in microblogs. Most of these experiments (expansion of queries and microblogs) were performed on the basis of the vector model and the probabilistic model, as a model of restitution. This allowed us to compare the behavior of the two models on microblogs and with the two types of expansion. In general, we found that the Vector Space Model is more efficient than the probabilistic one in the selection of relevant microblogs (better recall). However, the probabilistic model puts more value on relevant microblogs returned over all returned microblogs (better precision). - A second part of our work is concerned with the study of the features used to identify relevant microblogs. We selected the features often used in the state of art (content features, features on the importance of authors, URLs features and quality features).Then, we evaluated them. We conducted this analysis in 3 axes. In the first axis, (i) we studied the behavior of the features in the relevant documents and compared them with their behavior in non-relevant documents. In the second axis, (ii) we analyzed the impact of the combination of the features scores with the content’s score, calculated with a model of conventional IR. In the third axis, (iii) we used learning techniques as well as algorithms of feature selection that may be useful as input to the learning techniques. In general, we have shown that the features related to URLs posted in tweets are the most discriminating. The features related to the authors do not reflect the relevance. - To take into account the temporal aspect when selecting relevant microblogs, we have proposed three methods that incorporate time in the calculation of relevance. However, this integration of time did not show any positive impact in our methods. To perform our experiments, we used the corpus provided by TREC (Text Retrieval Conference) international survey in the task Microblogs for the years 2011 and 2012. Our various contributions have also been the subject of participations for the three tasks of Microblogs TREC (2011, 2012 and 2013). 11ABSTRACT 12Table des matières Résumé 7 Abstract 10 Table des matières 13 Table des figures 17 Liste des tableaux 19 Introduction 1 1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 Problématiques de la RI dans les microblogs . . . . . . . . . . . . . . 4 4 Présentation des contributions . . . . . . . . . . . . . . . . . . . . . . 6 5 Organisation du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . 7 1 RI Sociale 11 1 Information sociale dans le web . . . . . . . . . . . . . . . . . . . . . 12 1.1 Contenus générés par les utilisateurs (UGC) . . . . . . . . . . 12 1.2 Contenus générés par la pratique . . . . . . . . . . . . . . . . 14 2 RI : historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.1 Processus de RI . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Modèles de RI . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3 Utilisation des informations sociales en RI : RI sociale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.1 Côté utilisateur . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2 Côté documents . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 13TABLE DES MATIÈRES 2 RI dans les microblogs 35 1 Présentation et spécificités des plate-formes de microblogging : cas de Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 1.1 Présentation générale de Twitter . . . . . . . . . . . . . . . . 36 1.2 Spécificités des microblogs . . . . . . . . . . . . . . . . . . . . 41 1.3 Spécificités des recherches dans les microblogs . . . . . . . . . 43 2 Accès à l’information dans les microblogs . . . . . . . . . . . . . . . . 45 2.1 Recherche temps-réel de microblogs . . . . . . . . . . . . . . . 45 2.2 Recherche de microbloggeurs . . . . . . . . . . . . . . . . . . . 46 2.3 Détection d’opinions . . . . . . . . . . . . . . . . . . . . . . . 47 2.4 Classification thématique des microblogs . . . . . . . . . . . . 48 2.5 Détection de tendances . . . . . . . . . . . . . . . . . . . . . . 48 3 Recherche adhoc de microblogs . . . . . . . . . . . . . . . . . . . . . 49 3.1 Facteur de pertinence textuelle . . . . . . . . . . . . . . . . . 50 3.2 Facteur de pertinence social . . . . . . . . . . . . . . . . . . . 51 3.3 Facteur de pertinence temporelle . . . . . . . . . . . . . . . . 52 3.4 Facteur de pertinence d’hypertextualité . . . . . . . . . . . . . 53 3.5 Autres facteurs de pertinence . . . . . . . . . . . . . . . . . . 54 3.6 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4 Évaluation de la RI dans les microblogs . . . . . . . . . . . . . . . . . 55 4.1 La tâche TREC Microblog . . . . . . . . . . . . . . . . . . . . 55 4.2 Discussion sur les mesures d’évaluation . . . . . . . . . . . . . 57 5 Bilan et limites de l’état de l’art . . . . . . . . . . . . . . . . . . . . . 58 3 Analyse de défaillance des modèles de RI classique sur les microblogs 61 1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.1 Cadre expérimental . . . . . . . . . . . . . . . . . . . . . . . . 62 3.2 Observations . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4 Expansion de requêtes et de documents 71 1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2 Expansion de requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.1 Exploitation des articles d’actualités . . . . . . . . . . . . . . 72 2.2 Exploitation de la base lexicale WordNet . . . . . . . . . . . . 74 2.3 Suggestions orthographiques . . . . . . . . . . . . . . . . . . . 75 2.4 Réinjection de pertinence . . . . . . . . . . . . . . . . . . . . . 76 14TABLE DES MATIÈRES 3 Expansion de microblogs . . . . . . . . . . . . . . . . . . . . . . . . . 80 3.1 Expansion de hashtags dans les tweets . . . . . . . . . . . . . 80 3.2 Emploi des URLs . . . . . . . . . . . . . . . . . . . . . . . . . 81 4 Expansion de requêtes et de documents . . . . . . . . . . . . . . . . . 82 5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 6 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5 Analyse des facteurs de pertinence 89 1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 2 Description des facteurs de pertinence . . . . . . . . . . . . . . . . . . 90 2.1 Facteurs de pertinence basés sur le contenu des tweets . . . . . 90 2.2 Facteurs de pertinence basés sur l’hypertextualité . . . . . . . 91 2.3 Facteurs de pertinence basés sur les hashtags . . . . . . . . . . 91 2.4 Facteurs de pertinence basés sur la popularité des auteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 2.5 Facteurs de pertinence relatifs à la qualité des tweets . . . . . 92 3 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.1 Étude de la distribution des scores . . . . . . . . . . . . . . . 93 3.2 Étude par la combinaison linéaire des scores . . . . . . . . . . 93 3.3 Étude avec les techniques de sélection d’attributs . . . . . . . 94 4 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.1 Étude par la distribution des scores . . . . . . . . . . . . . . . 94 4.2 Étude par la combinaison linéaire des scores . . . . . . . . . . 98 4.3 Étude avec les techniques de sélection d’attributs . . . . . . . 104 5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6 Prise en compte du temps dans la recherche de microblogs 111 1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 2 Emploi de la fraîcheur dans la restitution des microblogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 2.1 Favoriser des tweets récents . . . . . . . . . . . . . . . . . . . 112 2.2 Favoriser les termes récents . . . . . . . . . . . . . . . . . . . 113 2.3 Observations . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 3 Prise en compte de la fréquence temporelle . . . . . . . . . . . . . . . 117 4 Analyse requête par requête . . . . . . . . . . . . . . . . . . . . . . . 118 5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 7 Conclusion générale 123 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 15TABLE DES MATIÈRES 16Table des figures 1.1 Processus en U de la recherche d’information . . . . . . . . . . . . . 16 1.2 Catégorisation des modèles de RI (Baeza-Yates et Ribeiro-Neto, 1999) 20 1.3 Exploitation de l’information sociale dans la RI . . . . . . . . . . . . 28 1.4 Résultats à partir du cercle social dans Google . . . . . . . . . . . . . 31 1.5 Recommandation de profils expert sur le sujet recherché sur Bing . . 31 2.1 L’interface graphique utilisateur de Twitter . . . . . . . . . . . . . . . 38 2.2 Informations des comptes utilisateurs sur Twitter . . . . . . . . . . . 39 2.3 Exemple d’utilisation de Twitter (avec tweets, retweets, abonnements et hashtags) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.4 Notification sur l’apparition de nouveaux résultats dans Twitter . . . 40 2.5 Tweet posté par @florencesantrot contenant une image et des hashtags (#Apple #iphone6cost1k). Il a été retweeté sept fois et favori une fois. 42 2.6 Suggestion de différents type de résultats dans le moteur de recherche de Twitter : des mots-clés, des hashtags, des comptes utilisateurs sont présentés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.7 Les réseaux constituables à partir des données de Twitter . . . . . . . 52 2.8 Exemple de topic pour la tâche Microblog . . . . . . . . . . . . . . . 57 3.1 Répartition des tweets pertinents restitués avec le modèle vectoriel par rapport à tous les tweets pertinents connus pour chaque requête de 2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.2 Répartition des tweets pertinents restitués avec le modèle vectoriel par rapport à tous les tweets pertinents connus pour chaque requête de 2012. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.1 Distribution des scores des tweets pertinents et des tweets non pertinents (requêtes de 2011 à gauche et celles de 2012 à droite). . . . . . 97 17TABLE DES FIGURES 6.1 Distribution temporelle des tweets pertinents et non pertinents pour les requêtes de TREC Microblog 2012. Les rectangles représentent les tweets pertinents tandis que les losanges représentent les tweets non pertinents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 18Liste des tableaux 2.1 Nombre de requêtes par jours (en milliard). Chiffres obtenus du site http://statisticbrain.com . . . . . . . . . . . . . . . . . . . . . . 37 2.2 Critères de pertinence . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.1 Récapitulatif des différents facteurs limitant l’efficacité du modèle de recherche sur les microblogs . . . . . . . . . . . . . . . . . . . . . . . 68 4.1 Emploi des articles de type actualité pour l’expansion de requêtes (avec et sans pondération des termes d’expansion, 1500 résultats par requête). Un astérisque indique une amélioration significative par rapport à la baseline. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.2 Récapitulatif des différents runs testés sans pondération des termes ajoutés aux requêtes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.3 Test de l’amélioration des performance via la correction orthographique des requêtes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.4 Expansion de la requête initiale avec Rocchio. Les poids des termes d’expansion sont calculés avec TF.IDF. Un astérisque indique une amélioration significative par rapport à la baseline. . . . . . . . . . . 77 4.5 Expansion de la requête initiale avec Rocchio. Les poids des termes d’expansion sont calculés avec BM25. Un astérisque indique une amé- lioration significative par rapport à la baseline. . . . . . . . . . . . . . 77 4.6 Différentes configurations du modèle BM25. * montre une amélioration significative par rapport à configuration de base (run BM25). . . 78 4.7 Résultats après l’expansion de hashtags, avec le modèle vectoriel et le modèle BM25 (sans et avec paramétrage). . . . . . . . . . . . . . . 81 4.8 Apport de l’emploi des URLs avec le modèle vectoriel et le modèle BM25. * montre une amélioration significative par rapport au run précédent. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.9 Emploi des tweets et des URLs et expansion de requêtes uniquement à partir des tweets.* montre une amélioration significative par rapport au run précédent. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 19LISTE DES TABLEAUX 4.10 Emploi des tweets et des URLs pour l’expansion et pour la restitution. * montre une amélioration significative par rapport au run précédent. 84 4.11 Résultats des meilleurs runs avec les tweets hautement pertinents. . . 86 4.12 Comparaison avec les résultats officiels de TREC 2012 . . . . . . . . 86 4.13 Emploi des tweets pour l’expansion et des tweets et des URLs pour la restitution sur les topics de TREC 2011. . . . . . . . . . . . . . . . 86 4.14 Comparaison avec les résultats officiels de TREC 2011 . . . . . . . . 87 5.1 Apport de chaque facteur de pertinence par rapport au modèle vectoriel (baseline VSM). . . . . . . . . . . . . . . . . . . . . . . . . . . 99 5.2 Apport de chaque groupe de facteurs de pertinence et de leurs combinaisons par rapport modèle vectoriel (baseline VSM). . . . . . . . . 100 5.3 Comparaison avec les résultats officiels de TREC 2011 . . . . . . . . 101 5.4 Apport des facteurs de pertinence pour le cas général. . . . . . . . . . 102 5.5 Apport des groupes de facteur de pertinence et de leurs combinaisons pour le cas général. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.6 Critères sélectionnés avec les techniques de sélection d’attributs . . . 106 5.7 Résultats (P@30), les scores en gras indiquent des améliorations significatives par rapport à la baseline . . . . . . . . . . . . . . . . . . 107 6.1 Amplification des scores de pertinence de contenu en fonction de leur fraîcheur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 6.2 Amplification des scores des termes en fonction de leur fréquence d’apparition dans le temps . . . . . . . . . . . . . . . . . . . . . . . . 114 6.3 Prise en compte de la fréquence temporelle. . . . . . . . . . . . . . . 118 6.4 Requêtes améliorées sur la mesure MAP pour les 3 méthodes . . . . . 119 20Introduction 1 Introduction Le web, créé au début des années 1990 et initialement composé de pages statiques reliées entre elles par des hyperliens, s’est rapidement orienté vers un cadre beaucoup plus collaboratif, dans lequel tous les internautes consultent, créent, partagent et diffusent de l’information. Ce changement est dû à la mise à disposition des internautes de plusieurs outils collaboratifs : les blogs, les wiki (Wikipedia en 2001) et les plate-formes sociales (Facebook en 2004 et Twitter en 2006), où les internautes ne se limitent plus à la consommation, mais contribuent également à la production des contenus. Ces outils prennent souvent la forme de réseaux sociaux qui se caractérisent par un ensemble d’entités, telles que des individus ou des organisations, qui sont reliées par des liens, d’amitié ou d’abonnement, permettant l’interaction sociale entre elles. Des quantités de contenus, toujours plus volumineuses, sont de ce fait créées tous les jours. Ce nouveau contexte de diffusion de l’information peut constituer un moyen efficace pour cerner les besoins en information des utilisateurs du Web, et permettre à la Recherche d’Information (RI) de mieux répondre à ces besoins. Les Systèmes de Recherche d’Information (SRI) doivent ainsi s’adapter aux nouvelles exigences et nécessités des utilisateurs, et aux spécificités de ces nouvelles sources d’informations. La prise en compte de ces informations sociales dans la restitution d’informations a engendré un nouveau paradigme de recherche : la RI sociale. Elle consiste à adapter les modèles et les algorithmes de la RI classique en exploitant les informations sociales développées avec l’arrivée du web 2.0. 2 Contexte Notre travail se situe dans le contexte de la recherche d’information sociale et s’intéresse plus particulièrement à la recherche de microblogs. Les microblogs sont des messages de faible longueur à travers lesquels les utilisateurs publient des informations sur différents sujets : des opinions, des événements, des statuts. . . Les micro- 1INTRODUCTION bloggeurs (les internautes qui publient des microblogs) utilisent des plate-formes de microblogging pour cette pratique. Parmi les plate-formes de microblogging, Twitter 1 est sans conteste la plate-forme la plus utilisée. Ces plate-formes sont de plus en plus exploitées (Kwak et al., 2010), aussi bien par des individus à titre personnel que dans des organisations, qui génèrent à travers les messages qu’ils écrivent et les liens qu’ils mettent en place des quantités importantes d’information. Nous pouvons nous référer, pour montrer l’importance de la quantité d’information publiée sur ces plate-formes, au 3 août 2013 lors d’une diffusion du dessin animé Castle in the Sky de Miyazaki 2 : 143 199 tweets ont été envoyés la même seconde. Cet événement avait cependant été préparé auparavant par les fans de Miyazaki. Ce jour-la, un record de 500 millions de tweets par jour est noté sur Twitter 3 . Les approches de RI classiques, élaborées pour traiter les documents traditionnels ou des documents de type page Web et qui se basent principalement sur le contenu textuel des documents et sur des statistiques des fréquences de termes, ne sont plus adaptées aux spécificités de cette nouvelle forme de contenu. Pour valoriser au mieux l’ensemble des informations de cette nouvelle source, les méthodes existantes de recherche d’information doivent être adaptées ou de nouvelles méthodes doivent être proposées. Ces nouvelles approches doivent tenir compte aussi bien des spécificités de ces informations que des motivations des internautes pour chercher dans ce type de ressources. Considérons les spécificités des microblogs. Tout d’abord, leur taille est réduite par rapport aux blogs et aux articles publiés sur le web. Les tweets par exemple sont limités à 140 caractères ; ils sont souvent composés d’une seule phrase, écrite en mode SMS. Cette spécificité participe à la concrétisation du facteur temps-réel des microblogs. En fait, elle encourage les microbloggeurs non seulement à partager plus fréquemment, mais à signaler tout ce qui se déroule dans leur vie en temps-réel. En outre, les plate-formes de microblogging sont aujourd’hui accessibles à travers plusieurs types de dispositifs (tablettes, smartphones. . . ). Un microbloggeur peut publier ainsi plusieurs microblogs chaque jour, contrairement à un bloggeur dont la fréquence de publication des articles est de plusieurs jours. De plus, afin de faciliter le suivi des sujets discutés, les plateformes de microblogging utilisent une syntaxe spécifique telle que les #hashtags et les @citation. Elles permettent également aux utilisateurs d’insérer des URLs et des images dans les microblogs. L’engouement pour les plate-formes de microblogging tient certainement aussi à l’aspect réseau social induit par les liens possibles. Cependant, les plate-formes de microblogging représentent un type de réseau social différent des autres réseaux 1. https://twitter.com 2. http://www.imdb.com/name/nm0594503/ 3. https://blog.twitter.com/2013/new-tweets-per-second-record-and-how 2INTRODUCTION sociaux. Les relations entre les utilisateurs ne sont pas forcément réciproques et les abonnements sont sans restriction entre microbloggeurs. D’autre part, les motivations pour exploiter ces sources sont particulières. Les microbloggeurs, outre la publication de tweets, réalisent des recherches sur les plateformes de microblogging. Dans Twitter, 1,6 milliards de requêtes sont émises chaque jour 4 . La recherche sur les plateformes de microblogging est spécifique, et ce pour deux raisons. Selon Teevan et al. (2011) la plate-forme de Twitter est utilisée non seulement comme une source d’information parmi d’autres du web, mais également comme une source d’information temps-réel qui permet d’obtenir des actualités, de les commenter et de les partager à l’instant de leur déroulement (par exemple, guerre à Gaza, bouchon sur l’autoroute A7). Pierre Guillou, dirigeant de la société IDEOSE, spécialisée dans l’accessibilité et les nouveaux usages du Web définit le web temps-réel comme : « l’ensemble des informations envoyées sur le Web par des personnes de façon instantanée et publique. Ces informations sont envoyées dans un même temps à un groupe de destinataires, publiées sur le Web et analysables par des logiciels de traitement de l’information. » Plusieurs outils sont ainsi apparus pour extraire tout type d’information en temps réel à partir des microblogs. Par exemple, en analysant près de 50 millions de tweets chaque jour, l’hédonomètre 5 créé par des chercheurs américains permet de connaître en temps-réel l’état d’esprit et l’humeur d’une grande partie de la population dans le monde entier. Diakopoulos et Shamma (2010) ont proposé un analyseur temps-réel permettant de visionner dynamiquement les sentiments des téléspectateurs au cours d’un débat politique. De plus, Teevan et al. (2011) ont montré que les utilisateurs cherchent des informations sociales dans ces plate-formes (26 % des utilisateurs). Ils l’utilisent pour plusieurs raisons telles que la recherche de personnes qui ont des intérêts similaires, ou de ce qu’un utilisateur est en train de dire. . . Les utilisateurs emploient ces plate-formes également pour suivre ce que les autres disent à propos du contenu d’un microblog ou un sujet en particulier. Ils utilisent ainsi les #hashtags et les @citation pour faire ces recherches verticales. Pour conclure, le microblogging a été conçu de manière à faciliter l’accès et la publication des informations. Par conséquent, cette source gagne de plus en plus d’intérêt, que ce soit pour partager ou pour acquérir de l’information. Les informations partagées dans ces plate-formes sont ainsi utilisées pour obtenir des opinions des consommateurs (Jansen et al., 2009a ; O’Connor et al., 2010), des convictions politiques (Tumasjan et al., 2010) et des actualités (Okazaki et Matsuo, 2010 ; Sa- 4. http://engineering.twitter.com/2011/05/engineering-behind-twitters-new -search.html 5. http://hedonometer.org/ 3INTRODUCTION kaki et al., 2010 ; Sankaranarayanan et al., 2009 ; Phelan et al., 2009). Jansen et al. (2009a) qualifient ces moyens de communication aujourd’hui comme la « bouche du monde ». Il est primordial pour les modèles de RI dans les microblogs de considérer les facteurs simplifiant l’accès et la publication des informations employés par les plateformes de microblogging. Ce sont en particulier, la fraîcheur, l’aspect social, et les spécificités syntaxiques des microblogs. C’est dans le contexte de recherche d’information dans les microblogs que se situent plus particulièrement nos travaux. Nous nous plaçons plus précisément dans le cadre de la recherche adhoc. L’objectif est de retrouver les microblogs répondant à un besoin d’information spécifié par un utilisateur. 3 Problématiques de la RI dans les microblogs Comme nous l’avons vu précédemment, un moteur de recherche de microblogs doit prendre en compte leurs spécificités ainsi que de nouvelles exigences des utilisateurs en termes de fraîcheur, de nouveauté d’information, et d’importance dans le réseau social, par exemple. D’un point de vue recherche d’information, si on projette les différentes spécificités des microblogs dans une tâche de recherche d’information, on pourra facilement identifier de nouvelles problématiques par rapport aux problématiques classiques de la RI, que ce soit au niveau de l’indexation ou bien au niveau de la restitution des informations, ou encore de l’évaluation des performances. Au niveau de l’indexation dans un cadre temps-réel, les microblogs arrivent avec une fréquence très importante, souvent par rafales correspondant à des événements, et doivent être indexés dès leur arrivée. Ce même index doit permettre également une lecture avec un accès rapide, afin de rendre disponible un microblog à l’instant de sa création et de satisfaire les besoins en informations des utilisateurs. Ceci s’oppose à la majorité des index ordinaires du web, qui sont souvent des index avec des architectures statiques avec des taux de mise à jour réduits. En outre, les moteurs de recherche usuels utilisent des robots qui se basent sur les liens hypertextes pour détecter les nouvelles pages, ce qui rend l’organisation des documents dans l’index dépendante des liens entre les pages. Cependant, pour une recherche temps-réel, les microblogs doivent être ordonnés en fonction de leur date de publication dans l’index afin de favoriser la fraîcheur des résultats au moment de la restitution. Ensuite, comme nous l’avons déjà motionné, les microbloggeurs tendent à écrire en mode SMS. Les messages peuvent contenir des termes mal-orthographiés, du jargon du net, beaucoup d’émoticônes (Bamman et al., 2012). . . S’ajoute à ceci l’emploi de syntaxes spécifiques à certaines plate-formes, tels que les hashtags et les mentions. Tous ces 4INTRODUCTION facteurs introduisent de nouvelles difficultés et demandent de faire des choix sur l’intérêt de les traiter au moment de l’indexation. À quel niveau le traitement est-il possible, sans ralentir l’indexation, et en respectant les conditions du temps-réel ? Ces mêmes caractéristiques des microblogs posent également des problèmes au niveau de la recherche et de la restitution des données : – Quelle est l’unité d’information la plus appropriée pour répondre aux besoins en informations ? Si un utilisateur recherche des informations concernant un sujet dans les plate-formes de microblogging, est-ce utile de restituer des microblogs, des hashtags, des synthèses de microblogs, des conversations, des profils, etc. ? – Quel est le modèle le plus approprié pour gérer les spécificités des microblogs et les exigences des utilisateurs ? Les modèles de RI, qui de manière générale se basent sur des facteurs tels que la fréquence des termes dans les documents et la longueur des documents, demeurent limités par la faible longueur des microblogs où les termes n’apparaissent pas plus d’une fois. Ces facteurs ont un sens quand la taille du document est importante. Quelles sont alors les solutions pour compenser ce manque de contenu ? De plus, les modèles usuels se basent sur le vocabulaire du document pour mesurer sa pertinence vis-à-vis d’une requête, alors que la pertinence dans les microblogs demeure théoriquement couplée avec d’autres facteurs tels que la fraîcheur de l’information, la popularité de l’auteur de l’information, la qualité du langage utilisé, etc., en complément de la pertinence sur le contenu. – Quels sont les facteurs qui reflètent vraiment la pertinence dans une tâche de recherche de microblogs ? Quels sont les moyens permettant d’évaluer les facteurs ? La plupart des approches de recherche de microblogs proposées dans l’état de l’art s’appuient sur différentes intuitions et définissent ainsi la pertinence comme la composition de plusieurs facteurs, en plus du facteur lié au contenu. Cependant, aucune évaluation individuelle de ces facteurs n’a été réalisée à ce jour. – Comment ces facteurs peuvent-ils être employés et combinés avec la pertinence du contenu ? Efron (2011a) déclare que les critères de pertinence reflètent certainement la pertinence. Cependant, il n’est pas toujours simple de déterminer comment les employer. La popularité des auteurs, par exemple, peut être considérée de différentes manières : l’activité de l’auteur, le nombre de ses amis, sa centralité dans le réseau social, etc. – La fraîcheur, est-elle vraiment un facteur crucial de pertinence ? Teevan et al. (2011) ont montré que l’une des motivations pour chercher les microblogs est la fraîcheur de l’information. Cependant, elle n’est pas l’unique motivation. Plusieurs recherches sur les microblogs visent des informations sociales ou des informations d’ordre général (des opinions de consommateurs par 5INTRODUCTION exemple). Ainsi, est-il utile d’intégrer la fraîcheur comme facteur de pertinence quel que soit le besoin d’information ? En recherche d’information, la troisième étape fondamentale, après l’indexation et la recherche, est l’évaluation. Cette phase permet de mesurer l’efficacité des approches et des choix faits durant les deux étapes précédentes. Depuis des décennies, le paradigme de Cranfield, qui établit l’évaluation des SRI à travers des corpus statiques, a dominé sur les expérimentations de la RI moderne. Cette méthode ne pose-t-elle pas un problème lorsqu’elle est appliquée dans une tâche pour laquelle le facteur temps-réel est primordial ? 4 Présentation des contributions Nos travaux visent à améliorer la qualité des résultats de recherche d’information adhoc dans les microblogs et nous nous focalisons donc sur les problématiques liées à la recherche. La tâche adhoc consiste en la restitution de microblogs pertinents vis-à-vis d’un besoin en information exprimé sous forme de mots-clés formant la requête. Nos contributions se situent à plusieurs niveaux : 1. Afin de déterminer exactement les facteurs limitant les performances des modèles classiques de recherche dans un corpus de microblogs, nous avons conduit une analyse de défaillance d’un modèle de recherche usuel. Nous avons sélectionné les microblogs pertinents mais non retrouvés par le modèle de recherche. Ensuite, nous avons identifié les facteurs empêchant leur restitution. À l’issue de cette analyse, nous avons proposé et testé plusieurs solutions permettant d’améliorer la qualité des moteurs de recherche. 2. Afin de compenser l’impact de la concision des microblogs, nous avons introduit et testé plusieurs propositions. La première consiste à exploiter des ressources de type actualités pour étendre les requêtes. Ensuite, nous nous sommes basés sur la base lexicale WordNet souvent utilisée en RI comme un moyen de désambiguïsation et d’extension de requêtes. Nous avons également analysé l’impact des approches connues en RI sur ce type de ressources. Nous avons appliqué des techniques de réinjection de pertinence de l’état de l’art, telles que Rocchio (1971), pour identifier les termes susceptibles de favoriser la restitution de microblogs pertinents, ainsi que la pondération des termes de la nouvelle requête et le mécanisme naturel d’extension de requête du modèle BM25. Nous avons testé différentes méthodes pour calculer les poids des termes. D’autre part, nous avons exploité les liens publiés dans les microblogs pour étendre les microblogs. Ces hyperliens représentent de l’information additionnelle qui complète les contenus des microblogs. Ainsi, nous les avons considérés pour enrichir la représentation du contenu textuel 6INTRODUCTION des microblogs. 3. Un troisième volet de notre travail concerne l’étude des facteurs de pertinence utilisés pour identifier les microblogs pertinents. Nous avons repris les facteurs de pertinence souvent utilisés dans l’état de l’art (de contenu, sur l’importance des auteurs, sur les URLs. . . ) et nous les avons évalués. Cette analyse est conduite selon trois axes. Dans le premier axe, nous avons étudié le comportement des facteurs de pertinence dans les microblogs pertinents et les avons comparés avec leur comportement dans les documents non pertinents. Dans le deuxième axe, nous avons analysé l’impact de la combinaison des scores des facteurs de pertinence avec le score de pertinence du contenu, calculé avec un modèle classique de RI. Dans le troisième axe, nous avons utilisé des techniques d’apprentissage ainsi que des algorithmes de sélection d’attributs pour identifier les facteurs de pertinence utiles, en entrée des techniques d’apprentissage. 4. Afin de prendre en compte l’aspect temporel dans la restitution des microblogs pertinents vis-à-vis d’un besoin en information, nous avons proposé trois mé- thodes qui intègrent le facteur temporel des microblogs dans le calcul de la pertinence. Chaque méthode prend en compte le temps à sa manière. – La première favorise les documents récents en appliquant la technique Kernel (Lv et Zhai, 2009) pour mesurer la distribution temporelle des documents. – La deuxième privilégie les termes présents fréquemment au moment de la soumission de la requête. – La troisième favorise les termes qui apparaissent fréquemment au moment de la publication du microblog. Afin d’évaluer l’apport de nos différentes contributions, nous nous sommes basés sur le corpus fourni par la campagne d’évaluation TREC (Text Retrieval Conference) pour la tâche Microblog en 2011 et 2012. 5 Organisation du mémoire Ce mémoire est constitué de deux parties : la première présente le contexte général dans lequel se situe notre travail, à savoir la recherche d’information sociale et plus précisément la recherche d’information dans les microblogs. La seconde partie détaille notre contribution. L’objectif de la première partie « De la recherche d’informations classique à la recherche d’information sociale » est de présenter les principes de la recherche d’information dans des contenus textuels, puis son application à l’environnement social. Cette partie comprend deux chapitres. 7INTRODUCTION Le chapitre 1 présente les nouveaux contenus sociaux, développés avec l’apparition des technologies du Web 2.0. Ensuite, nous exposons les fondamentaux de la RI classique pour arriver aux spécificités de la RI sociale. Les différents types d’information sociale dans le web sont ainsi décrits, à savoir les contenus générés par les utilisateurs et les contenus générés par les pratiques sociales. Nous abordons ensuite les notions et les concepts de base de la RI classique. L’architecture géné- rale d’un SRI y est présentée ainsi que les principaux modèles de recherche. Nous décrivons par la suite l’impact de l’emploi de l’information sociale sur la recherche d’information, en particulier dans la contextualisation des recherches ou bien dans l’enrichissement des ressources documentaires. Nous nous concentrons dans le chapitre 2 sur une source d’information particulière : les microblogs. Nous présentons dans ce chapitre la recherche d’information dans les microblogs. Nous commençons ainsi par la description des spécificités de ce type de contenu et nous nous basons sur la plate-forme Twitter pour montrer les différences avec les documents traditionnels du web . Nous détaillons les spécificités du contenu des microblogs ainsi que les motivations des utilisateurs à chercher dans cette source d’information. Nous listons ensuite les approches d’accès à l’information à partir des microblogs proposées dans la littérature, en en particulier la recherche d’information adhoc dans les microblogs (notre domaine de recherche). La seconde partie du mémoire intitulé « étude des facteurs de pertinence pour la RI dans les microblogs » expose nos contributions. Le chapitre 3 décrit notre contribution à l’identification des facteurs limitant l’ef- ficacité des modèles de RI classique dans un corpus de microblogs. Nous présentons une analyse de défaillance réalisée sur les résultats d’un modèle de recherche classique, dans une tâche de recherche de microblogs. Ce chapitre donne ainsi des pistes sur les considérations à prendre en compte pour améliorer la qualité des résultats. Le chapitre 4 présente des solutions pour certains problèmes soulevés dans le chapitre 3. Plusieurs méthodes d’expansion de requêtes sont proposées et employées. Ces méthodes exploitent des ressources de différents type pour étendre les requêtes : les articles de type actualité, la base lexicale WordNet et un outil de suggestion d’orthographe. Le feedback est également utilisé à travers l’emploi des méthodes connues d’expansion de requêtes : Rocchio et le modèle de recherche BM25. D’autre part, des méthodes d’expansion de microblogs sont employées, à savoir l’expansion de hashtags et l’emploi des contenus pointés par les URLs pour améliorer la représentation des microblogs. 8INTRODUCTION Le chapitre 5 présente une étude approfondie sur l’apport des facteurs de pertinence souvent utilisés dans les approches de l’état de l’art. Cette étude est réalisée en trois étapes : (i) la première étape consiste en la comparaison des distributions des scores des facteurs de pertinence entre les résultats pertinents et les résultats non pertinents. Les facteurs de pertinence ayant des comportements différents reflètent ainsi la pertinence. La deuxième étape est réalisée par la combinaison linéaire des scores des facteurs de pertinence. Les facteurs de pertinence améliorant la qualité des résultats reflètent ainsi la pertinence. Finalement, la troisième étape emploie les techniques de sélection d’attributs. Ces techniques permettent d’identifier automatiquement les meilleures combinaisons de facteurs de pertinence pour obtenir les meilleurs résultats. Le chapitre 5 présente une étude approfondie sur un critère de pertinence particulier : la fraîcheur du microblog. Trois approches qui emploient le temps dans la restitution de microblogs sont proposées. L’ensemble des évaluations se basent sur le corpus de tweets fourni par la campagne d’évaluation TREC (Text Retrieval Conference) dans la tâche microblogs des années 2011 et 2012. En conclusion, nous dressons le bilan de nos travaux reliés à la recherche d’informations dans les microblogs. Nous introduisons ensuite les limites et les perspectives de ces travaux à court et à long terme. 9État de l'artChapitre 1 RI Sociale Satisfaire un besoin d’information a été souvent couplé avec des pratiques sociales. Ce couplage peut être perçu à plusieurs niveaux. D’une part, avant la naissance des SRI, le chercheur d’information se basait sur ses liens sociaux pour satisfaire son besoin. Le premier réflexe consistait à interroger les personnes qu’il connaissait et qui avaient des intérêts similaires. Ceci pouvait être réalisé également en interrogeant les amis, les proches ou simplement des bibliothécaires. D’autre part, l’information est souvent produite dans des situations sociales, à travers des discussions et des collaborations entre les différents membres de groupes de personnes, partageant les mêmes objectifs et les mêmes centres d’intérêts. L’arrivée de l’internet et en particulier les technologies du web 2.0 a complètement révolutionné ces pratiques. L’internaute aujourd’hui consulte les plus grandes bibliothèques et ressources scientifiques (Wikipédia 1 ), utilise les moteurs de recherche pour trouver instantanément les informations (Google, Bing), discute avec d’autres utilisateurs ayant les mêmes centres d’intérêts (forum et blog), développe ses connaissances et relations sociales (réseaux sociaux), commente et consulte les avis des autres internautes (social bookmarking),. . . Les utilisateurs, en utilisant les technologies du web 2.0, génèrent directement ainsi de nouveaux contenus appelés contenus générés par les utilisateurs (UGC). D’autres types d’information sont générés indirectement, comme par exemple, les liens sociaux, les profils ainsi que leurs traces de navigations. Ces données sont appelées contenus générés par la pratique. L’exploitation et plus particulièrement l’accès à ces contenus, récemment générés, très spécifiques en terme de nature, de format, de structure et de volume, demande la définition de modèles de RI qui vont au-delà des modèles classiques définis dans le domaine de la RI depuis quelques années. En effet, les documents visés par les modèles de la RI classique se composent uniquement par leurs contenus textuels. Cependant, avec le web 2.0, plusieurs éléments, en plus du contenu textuel, doivent 1. http://www.wikipedia.org/ 11CHAPITRE 1. RI SOCIALE être considérés, tels que les informations sociales, les commentaires et les notes des internautes. . . Ces documents peuvent avoir un format spécifique (les microblogs par exemple font au maximum 140 caractères) et une syntaxe particulière. Par consé- quent, pour chercher dans ces contenus, le modèle de recherche doit gérer toutes ces spécificités. Dans ce chapitre, nous allons commencer par présenter les nouveaux contenus sociaux, développés avec l’apparition des technologies du web 2.0. Nous exposerons ensuite les principales bases de la RI classique pour arriver aux spécificités de la RI sociale. 1 Information sociale dans le web L’information sociale dans le web est basée sur l’internet de plus en plus influencé par des services intelligents (présentés dans la suite), qui permettent à l’utilisateur de contribuer au développement, d’annoter et de collaborer à la production du contenu. Les utilisateurs sont passés de simples consommateurs à producteurs d’information. Leurs contributions peuvent être de différentes natures : les contenus publiés dans les plate-formes sociales telles que les blogs et les wikis, les réactions, les informations publiées par les autres utilisateurs telles que les annotations et les commentaires, etc. L’ensemble de ces informations est appelé contenus générés par des utilisateurs (UGC : User Generated Content). 1.1 Contenus générés par les utilisateurs (UGC) Le terme « contenu généré par les utilisateurs » est devenu populaire en 2005 grâce au développement des moyens de production collaboratifs tels que les Wiki, les blogs, les forums, le social bookmarking, les plateformes de microblogging. . . Nous définissons en détail ci-après ces moyens de production : – Wiki : un wiki est une application web permettant à ses utilisateurs de créer, modifier et supprimer des contenus de manière collaborative. L’information par conséquent est construite avec la participation de plusieurs personnes. Les wikis peuvent avoir plusieurs objectifs : outil de gestion de connaissances, outil de prise de notes, site communautaire, Intranet. . . Le premier wiki s’appelait Wikiwikiweb. Il a été développé par Ward Cunningham à Portland, Oregon, en 1994. L’application a été mise en ligne en 1995. Aujourd’hui, l’exemple le plus connu de wiki est Wikipedia 2 , qui contient plus de 22 millions d’articles dans 278 langues différentes 3 . Un wiki se caractérise par l’encouragement à la 2. http://www.wikipedia.org/ 3. http://en.wikipedia.org/wiki/WIKIPEDIA 12CHAPITRE 1. RI SOCIALE création des liens hypertextes de sorte que chaque page soit reliée à plusieurs autres pages et chaque terme clé ou concept avec sa définition. – Blog : Le blog est un type de site web sur lequel un internaute tient une chronique personnelle ou consacrée à un sujet particulier. Il s’agit d’un espace individuel d’expression, créé pour donner la parole à tous les internautes (particuliers, entreprises, artistes, hommes politiques, associations. . . ), d’une part, et pour permettre à tous les visiteurs de réagir sur le sujet évoqué, en postant leurs commentaires sur les articles, créant ainsi une relation privilégiée entre l’auteur et ses lecteurs. Les plate-formes de blogs les plus connues sont Overblog 4 , Blogger 5 , SkyrockBlog 6 et CanalBlog 7 . – Forum : Un forum est un lieu d’échange d’informations où les internautes posent ou répondent à une question donnée. Les différentes contributions forment un fil de discussion (thread en anglais). Chaque forum de discussion se consacre à un thème précis. Par exemple, CFPOI World 8 se spécialise sur les animaux, alloforum 9 sur les voitures. . . Les messages publiés dans les forums sont archivés. Ceci permet aux internautes d’y participer d’une manière asynchrone. Contrairement aux blogs, les messages sont organisés chronologiquement, du plus ancien au plus récent. – Social bookmarking : Le social bookmarking est un moyen pour stocker, classer, chercher et partager les liens favoris. Ces favoris seront ainsi accessibles à partir de n’importe quel point d’accès à l’internet, et non pas forcément à partir d’une machine personnelle. Ce principe simplifie ainsi leurs partages avec les autres internautes et permet de les récupérer même à partir de différentes machines. Un internaute a la possibilité de partager ses bookmarks, et également de regarder ce que les autres ont trouvé intéressant pour annoter. Selon Ebizmba 10, Delicious 11 est le site plus populaire de social bookmarking. – Plate-forme de microblogging : Le microblogging dérive directement du concept des blogs. La différence réside principalement dans la longueur des publications. Les microbloggeurs sont souvent limités à un nombre de caractères qui est de l’ordre de 140 caractères (cas de Twitter). Toutefois, les microbloggeurs peuvent partager des images ou des liens externes dans leurs messages. Ce facteur encourage par conséquent les internautes à partager des microblogs plus fréquemment. Certaines plate-formes de microblogging se focalisent sur 4. http://www.over-blog.com/ 5. http://www.blogger.com/ 6. http://www.skyrock.com/blog/ 7. http://www.canalblog.com/ 8. http://www.animalforum.com/ 9. http://ma850.alloforum.com/ 10. http://www.ebizmba.com 11. http://delicious.com/ 13CHAPITRE 1. RI SOCIALE des thèmes spécifiques tels que Blipper 12 (livres, musiques, jeux, etc.) et Flixter 13 (films). Cependant, les sujet discutés dans Twitter, la plate-forme de micrblogging la plus populaire, ne sont pas contraints. 1.2 Contenus générés par la pratique Ce deuxième type d’information sociale est produit au travers des différentes pratiques que les internautes réalisent tout au long de leurs sessions de navigations. On peut citer : – Les traces des utilisateurs : elles comportent les différentes pages web visitées par les utilisateurs, les clics, les durées de visites. . . Ces données peuvent être utilisées afin de déterminer les préférences des utilisateurs et leurs thématiques de recherche. – Les données personnelles : elles se composent des informations que l’utilisateur fournit au moment de son inscription sur les réseaux sociaux. – Les liens sociaux : la plupart des plate-formes sociales définissent des règles de liaison entre leurs différents utilisateurs. Ces règles diffèrent d’une plate-forme à une autre. Prenons par exemple le cas de Twitter, il n’y a pas de restriction dans les liens sociaux. N’importe quel utilisateur peut s’abonner à un autre utilisateur, sans avoir forcément son accord (à moins que le compte soit privé, ce qui est rarement utilisé). Par opposition, dans le cas de Facebook, les deux utilisateurs doivent être d’accord pour partager leurs informations. L’explosion des ressources sociales avec de nouvelles spécificités a permis l’émergence d’une nouvelle branche de la Recherche d’Information : la RI sociale. Il s’agit d’adapter les modèles et les algorithmes de la RI classique afin d’exploiter les informations sociales. Dans ce qui suit, avant de présenter les impacts de la prise en compte de l’information sociale dans la RI, nous présentons brièvement les concepts de base de la RI classique. 2 RI : historique La recherche d’information (RI) traite de la représentation, du stockage, de l’organisation et de l’accès à l’information (Manning et al., 2008). L’objectif de la RI est de faciliter, pour un utilisateur, l’accès à l’information qui correspond à son besoin. Selon Baeza-Yates et Ribeiro-Neto (1999), un système de recherche d’information (SRI) doit fournir à l’utilisateur, d’une manière simple, l’information à laquelle il s’intéresse. Un SRI doit ainsi comprendre exactement la nature du besoin en information de l’utilisateur, sélectionner l’ensemble des documents qui traitent 12. http://blipper.com 13. http://flixter.com 14CHAPITRE 1. RI SOCIALE de son besoin et finalement ordonner les éléments sélectionnés selon leur degré de pertinence décroissant. 2.1 Processus de RI Satisfaire un besoin en information se traduit concrètement par la mise en correspondance d’un besoin d’information exprimé souvent sous forme de mots-clés, d’une part, et des informations disponibles dans les documents textuels d’une collection. Ce processus se déroule au sein d’un système de recherche d’informations (SRI). Un SRI est un ensemble logiciel assurant l’ensemble des fonctions nécessaires à la recherche d’information. Ces fonctions sont traduites via ce que l’on appelle le « processus en U » de la recherche d’information. La figure 1.1 (Belkin et Croft, 1992) en montre ces trois phases principales : – l’indexation : crée un index à partir d’un corpus de documents. L’objectif de l’indexation est l’homogénéisation des représentations, tout en rendant l’accès rapide et efficace à l’ensemble des documents. Elle permet d’extraire les mots importants et caractéristiques d’un document. – le requêtage : c’est l’étape durant laquelle l’utilisateur exprime son besoin d’information. Cette étape peut engendrer une reformulation de la requête initiale. La requête soumise par l’utilisateur subit les mêmes traitements que ceux réalisés sur les documents au cours de leur indexation. – l’appariement : consiste à mesurer la similarité entre le besoin d’information et les descripteurs des documents dans l’index. 2.1.1 Indexation Les documents à leur état brut sont difficiles à exploiter tels quels lors de la phase de recherche. Ainsi, l’objectif principal de cette étape est de fournir des représentations des documents et des requêtes facilement exploitables par la machine dans la phase de recherche. Cette représentation est souvent une liste pondérée de mots-clés significatifs que l’on nomme descripteurs du document (ou de la requête). L’indexation peut être manuelle, semi-automatique ou automatique. – Indexation manuelle : c’est un spécialiste ou un documentaliste qui analyse le document et sélectionne par la suite les termes qu’il trouve représentatifs. L’indexation manuelle fournit une terminologie spécifique pour indexer et rechercher les documents, garantissant ainsi une meilleure représentation des documents et une meilleure qualité des résultats. Cependant, ce type d’indexation demande plus de temps et d’efforts que les autres. En outre, un degré de subjectivité lié au facteur humain fait que le même document peut être indexé de différentes façons par des personnes différentes, et même par la même personne mais à des moments différents (Furnas et al., 1987). 15CHAPITRE 1. RI SOCIALE Collection de documents Indexation Représentation des documents Producteur de documents Comparaison – Appariement requête - document Personne avec des buts, des intentions, etc. Besoin d’information ou état anormal de connaissance Requête Indexation Représentation des requêtes Documents sélectionnés Utilisation et/ou évaluation Modification Reformulation de la requête Figure 1.1 – Processus en U de la recherche d’information – Indexation automatique : dans ce cas, c’est un ensemble de processus appelés robots d’indexation, qui réalisent de manière automatisée la tâche. C’est l’approche suivie par la majorité des SRI, en raison de sa rapidité et son coût réduit par rapport à l’indexation manuelle. – Indexation semi-automatique : elle se base sur l’indexation automatique. Toutefois, une intervention humaine peut être réalisée afin d’effectuer des choix sur les termes significatifs, et pour valider la représentation finale des descripteurs. Ces choix sont souvent réalisés en utilisant un thésaurus ou une base terminologique qui est une liste organisée de descripteurs (mots-clés) liés à des règles terminologiques propres et reliés entre eux par des relations sémantiques. D’une manière générale, l’indexation automatique comprend une chaîne de traitements automatisés. Ils sont appliqués sur les documents et également sur les requêtes. On distingue : l’extraction des mots, l’élimination des mots vides de sens, la normalisation et la pondération. – Extraction des mots : cette étape consiste, dans un premier temps, à traiter chaque document afin de pouvoir extraire le texte comme une suite de caractères. Autrement dit, elle vise à résoudre les problèmes résultants des différents formats et encodages des documents, pour avoir en finalité uniquement le texte sous forme d’une séquence linéaire de caractères et de rejeter les éléments de forme. Ensuite, la séquence de caractères est découpée en une liste de termes 16CHAPITRE 1. RI SOCIALE susceptibles d’être indexés par une analyse lexicale. Une analyse lexicale permet d’identifier les termes en reconnaissant les espaces de séparation des mots, des caractères spéciaux, des chiffres, les ponctuations, etc. – Élimination des mots vides : les textes contiennent souvent des termes non significatifs appelés mots vides (pronoms personnels, prépositions. . . ). Cette étape est réalisée par l’utilisation d’une liste de mots vides ou par le rejet de mots dépassant un certain nombre d’occurrences dans le document. L’élimination des termes vides a ses avantages et ses inconvénients. D’une part, pour certaines requêtes, la présence des termes vides joue un rôle très important. C’est le cas par exemple des requêtes contenant des entités nommées ou des expressions avec des prépositions (« Le Monde » qui est un journal). Cependant, leurs élimination réduit considérablement la taille des index et limite leurs effets négatifs sur les calculs statistiques. – Lemmatisation : Cette étape vise à réduire un terme à une forme canonique. La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit : le nom, le pluriel, le verbe à l’infinitif, etc. Par exemple, le mot « jouer », verbe à l’infinitif ni accordé, ni conjugué est un lemme. Il possède différentes flexions qui correspondent à ses formes conjuguées à diverses personnes et temps : « il jouera », « nous jouons », « ils ont joué ». . . Grâce à la lemmatisation, les documents contenant différentes formes d’un même terme auront les mêmes chances d’être restitués. D’autre part, ceci va éviter à l’utilisateur de saisir les différentes formes des termes lors de la recherche. Par conséquent, cette étape réduit la taille de l’index et améliore le rappel (la part des documents pertinents retrouvés par le SRI par rapport à tous les documents pertinents). Cependant, elle peut réduire la précision (la part des documents pertinents par rapport à tous les documents restitués). Par exemple, l’ensemble des termes « operate operating operates operation operative operatives operational » va devenir « oper », ce qui implique une perte de précision pour des requêtes telles que : « operational and research ; operating and system ; operative and dentistry ». On distingue quatre types principaux de lemmatisation : en consultant un dictionnaire (ex. Tree-tagger (Schmid, 1994)), en utilisant les règles de transformation (ex. Porter Stemmer (Porter, 1980)), par troncature après X caractères et la méthode de n-grammes (Mayfield et McNamee, 2003). – Pondération : Cette étape vient après l’identification des termes des documents et leur normalisation. Les termes qui représentent un document n’ont pas la même importance. De ce fait, un poids est associé à chaque terme. Estimer l’importance d’un terme n’est pas une tâche simple. Prenons le cas d’une collection d’un million de documents. Un terme qui existe dans tous les documents n’est pas utile dans l’index parce qu’il ne peut fournir aucune information sur le document qui pourrait intéresser un utilisateur. Cependant, 17CHAPITRE 1. RI SOCIALE un terme qui apparaît dans 5 documents uniquement peut être de grande valeur puisqu’il permet de pointer les documents pertinents. Pour ces raisons, des mesures qualitatives sont calculées au moment de l’indexation pour chaque terme. D’une part, ces mesures permettent d’estimer le degré d’importance des termes dans les documents. D’autre part, elles permettent d’éviter un temps de calcul supplémentaire durant la phase de l’appariement. La plupart de ces mesures sont basées sur les facteurs TF et IDF, qui permettent de combiner les pondérations locales (dans le document) et globales (dans la collection) d’un terme. TF (Term Frequency) : cette mesure est proportionnelle au nombre d’occurrences d’un terme dans un document (pondération locale). Toutefois, il existe différentes variantes de cette mesure qui dépendent de la façon dont la pertinence est mesurée. L’inconvénient du TF se situe au niveau de la pertinence globale. Certains termes sont plus significatifs que d’autres, bien qu’apparaissant avec la même fréquence dans un document. Par exemple, dans une collection de documents traitant de la compétition Roland Garros, le terme Nadal est plus important que le terme tennis, même si ces deux termes apparaissent équitablement dans un document. Pour cette raison le TF est souvent couplé avec la mesure IDF. IDF (Inverse Document Frequency) : se calcule selon la formule suivante : IDFt = log N dft + 1! (1.1) N est le nombre de documents dans la collection et dft est le nombre de documents dans lesquels le terme t apparaît. Cette mesure calcule la fréquence d’un terme dans la collection (pondération globale). Comme le montre la formule 5.1, cette mesure met en valeur les termes rares et limite l’importance des termes fréquents dans la collection. La combinaison de TF et IDF fournit une autre mesure importante : T F IDFt,d = T Ft,d ∗ IDFt (1.2) Cette mesure donne pour un terme t un score important s’il apparaît fréquemment dans peu de documents et un score faible si le terme apparaît rarement dans un même document ou dans beaucoup de documents. 2.1.2 Requêtage Les mêmes étapes que celles réalisées sur les documents sont répétées sur les requêtes. Cependant, aucun index n’est créé. Une fois la normalisation des termes effectuée, une représentation des termes est préparée. Cette représentation dépend de la méthode de recherche (ou modèle de 18CHAPITRE 1. RI SOCIALE recherche) utilisée au niveau de l’appariement. Par exemple, si le modèle utilisé est le modèle vectoriel (discuté dans un prochain paragraphe), la requête va prendre la forme d’un vecteur dans un espace où chaque terme distinct du corpus représente une dimension. Si le modèle est le modèle booléen, alors le système doit créer des formules logiques avec les termes de la requête en utilisant les opérateurs AND, OR et NOT. . . Les SRI modernes pratiquent également des traitements complémentaires comme l’extension de requête (Vechtomova et Wang, 2006). 2.1.3 Appariement Une fois les documents indexés et la requête analysée, le SRI procède à l’appariement entre la requête et les documents. De cette mise en correspondance résulte un score de pertinence reflétant le degré de similarité entre la requête et le document. En d’autres termes, le système prédit si l’utilisateur trouvera des informations pertinentes ou non dans le document. Ce score est calculé à partir d’une valeur appelée RSV (q, d) (Retrieval Status Value), où q est une requête et d un document. Cette mesure tient compte des poids des termes calculés au moment de l’indexation. Les SRI actuels calculent des scores sous forme décimale. Ceci permet d’ordonner les documents restitués. La qualité de cet ordonnancement est primordiale. En effet, l’utilisateur se contente généralement d’examiner les premiers documents renvoyés (les 10 ou 20 premiers). Si la qualité des informations présentes dans cette tranche n’est pas satisfaisante, l’utilisateur considérera le SRI comme mauvais vis-à-vis de sa requête. Différents modèles de RI ont été proposés dans la littérature afin de formaliser la pertinence, des modèles les plus naïfs basés sur l’appariement exact jusqu’aux modèles plus élaborés basés sur l’appariement flou. Dans la suite, nous présentons les principaux modèles de la littérature. 2.2 Modèles de RI Les modèles de RI visent à fournir un cadre théorique pour interpréter la notion de pertinence et permettent ainsi de classer les documents vis-à-vis un besoin d’information. Un modèle de recherche d’information est représenté par le quadruplet [D,Q,F, R(q,d)] : – D est l’ensemble des représentations des documents dans la collection. – Q est l’ensemble des représentations du besoin d’information de l’utilisateur. – F représente le cadre de modélisation des documents et des requêtes, ainsi que les relations entre eux. Les relations peuvent être des relations booléennes, des vecteurs ou des distributions de probabilités des termes. 19CHAPITRE 1. RI SOCIALE – R(q,d) est la fonction d’ordonnancement qui attribue un score de pertinence pour le couple composé par une représentation de la requête q ∈ Q et d’une représentation d’un document d ∈ D. La fonction d’ordonnancement reflète l’intuition du modèle utilisé. Par exemple, pour le modèle booléen, F correspond à la théorie des ensembles. Pour le modèle vectoriel, F repose sur un espace vectoriel de N-dimensions, des représentations de requêtes et de documents sous formes de vecteurs. . . Il existe une multitude de modèles de RI. La figure 1.2 présente la classification des modèles de RI selon (Baeza-Yates et Ribeiro-Neto, 1999). Comme illustré dans cette figure, les modèles de RI peuvent être regroupés selon le type du modèle mathématique utilisé, en trois grandes classes, à savoir : Figure 1.2 – Catégorisation des modèles de RI (Baeza-Yates et Ribeiro-Neto, 1999) – Les modèles ensemblistes : ces modèles trouvent leurs fondements théoriques dans la théorie des ensembles. On distingue le modèle booléen pur (boolean model), le modèle boolen étendu (extended boolean model) et le modèle basé sur les ensembles flous (fuzzy set model). – Les modèles vectoriels, basés sur l’algèbre, plus précisément le calcul vectoriel. Ils englobent le modèle vectoriel (vector model), le modèle vectoriel généralisé (generalized vector model), Latent Semantic Indexing (LSI) et le modèle connexionniste. – Les modèles probabilistes, qui se basent sur les probabilités. Ils comprennent le modèle probabiliste général, le modèle de réseau de document ou d’inférence (Document Network) et les modèles de langue. Dans le modèle booléen, les documents et les requêtes sont représentés sous la forme d’un ensemble de termes. Ainsi, comme suggéré dans (Gudivada et al., 1997), 20CHAPITRE 1. RI SOCIALE il s’agit d’un modèle ensembliste. Dans le modèle vectoriel, les documents et les requêtes sont représentés sous formes de vecteurs dans un espace de N-dimensions. Pour le modèle probabiliste, le cadre de modélisation des documents et des requêtes est basé sur la théorie des probabilités. Nous présentons dans la suite les principaux modèles issus de chacune de ces trois classes. Nous renvoyons le lecteur aux nombreux manuels introductifs à la RI (Baeza-Yates et Ribeiro-Neto, 1999 ; Manning et al., 2008) pour des présentations exhaustives des modèles de RI. 2.2.1 Modèle Booléen Le modèle Booléen (Salton, 1968) est un modèle qui se base sur la théorie des ensembles et l’algèbre de Boole. Le modèle Booléen prend en compte uniquement la présence et l’absence d’un terme dans les documents : considérons le poids d’un terme i dans un document j wi,j ∈ {0, 1}. Les poids des termes dans la matrice terme-document sont binaires. La requête q est, elle aussi, composée de termes reliés par des opérateurs logiques (ET, OU et NON). Ainsi le modèle vérifie si le document satisfait les conditions représentées par les termes de la requête. Le modèle booléen évalue si un document est pertinent ou non pertinent. Le score de chaque document sera ainsi représenté respectivement par 0 ou 1. La décision binaire de pertinence sans aucune notion de graduation (exact match) réduit la qualité des résultats (notion de silence). En outre, les expressions booléennes ont une sémantique précise, ce qui rend la traduction du besoin d’information en une expression booléenne une tâche difficile. Ainsi, la majorité des expressions booléennes formulées par les utilisateurs sont simples (1 seul opérateur). Même si la définition du besoin d’information sous forme d’une expression booléenne n’est pas toujours évidente pour les utilisateurs, le modèle booléen se caractérise par un formalisme simple et clair (représentation binaire des termes dans l’index). L’inconvénient principal est l’absence d’ordonnancement des résultats (car tous les RSV = 1), ce qui résulte parfois en la restitution d’un nombre très important ou très faible de documents. 2.2.2 Modèles vectoriels Le modèle vectoriel (Salton et al., 1975) propose un cadre dans lequel la pertinence partielle est possible. Le poids des termes des documents et des requêtes n’est plus binaires. Le poids est utilisé pour mesurer la similarité entre les documents et le besoin d’information. Les documents sont ainsi ordonnés selon leur degré de similarité décroissant : du plus similaire au moins similaire ayant le score le plus faible. Le modèle vectoriel prend en compte les documents répondant partiellement 21CHAPITRE 1. RI SOCIALE au besoin d’information. En outre, le modèle fournit une réponse plus raffinée que le modèle booléen dans le sens où il permet de sélectionner et de trier les documents. Dans le modèle vectoriel, le document et la requête sont représentés par des vecteurs. Le degré de similarité entre un document dj et une requête q est mesuré comme la corrélation entre les vecteurs ~dj et ~q. Cette corrélation peut être calculée par le cosinus entre les deux vecteurs. sim( ~dj , ~q) = d~ j .~q | ~dj |×|~q| = Pt i=1 q wi,j×wi,q Pt i=1 w2 i,j× qPt i=1 w2 i,q (1.3) D’autres fonctions de similarité ont été proposées dans la littérature, parmi lesquelles on peut citer les mesures de Jaccard et Dice (Manning et al., 2008). Les poids des termes des requêtes et des documents dans les vecteurs sont géné- ralement des scores basés sur T F.IDF. Ainsi, wi,q = (1 + log(tfi,q)) × log( N ni ) qP k ((1 + log(tfk,q)) × log( N nk ) 2 ) (1.4) wi,dj = (1 + log(tfi,dj )) × log( N ni ) qP k ((1 + log(tfk,dj )) × log( N nk ) 2 ) (1.5) avec T F représenté par 1 +log(tfi,dj ) et IDF représenté par log( N ni ). Le reste de la fonction est utilisé pour la normalisation des scores. Les avantages principaux du modèle vectoriel sont les suivants : tout d’abord, la pondération non binaire des termes favorise une meilleure qualité des résultats. Ensuite, le modèle permet une correspondance partielle ou approximative entre les documents et les requêtes (best match). Les documents sont triés selon leur degré de similarité vis-à-vis de la requête. La longueur des documents est traitée naturellement dans l’appariement, car elle est considérée dans le calcul des poids des termes. Théoriquement, le modèle vectoriel a l’inconvénient de considérer que les termes de l’index sont tous indépendants. Cependant, en pratique, la prise en compte globale de la dépendance des termes peut faire baisser la qualité des réponses d’un système (Baeza-Yates et Ribeiro-Neto, 1999) car les dépendances sont généralement locales. C’est pour toutes ces raisons que le modèle vectoriel est encore populaire de nos jours en recherche d’information, et reste souvent utilisé comme une baseline (modèle de référence) lors de l’évaluation d’autres méthodes. 2.2.3 Modèle probabiliste Le modèle probabiliste a été proposé par Robertson et Sparck Jones (1988). Il propose une solution à la problématique de la RI dans un cadre probabiliste : la 22CHAPITRE 1. RI SOCIALE fonction de pertinence du modèle probabiliste se base sur le calcul de probabilités de pertinence des documents pour les requêtes données. Le principe de base consiste à retrouver des documents qui ont, dans le même temps, une forte probabilité d’être pertinents, et une faible probabilité d’être non pertinents. Ainsi, on distingue deux classes de documents pour une requête qi : les pertinents (R) et les non pertinents (R). Par conséquent, deux mesures de probabilité sont calculées : P(R|dj ) la probabilité que le document dj soit dans R et P(R|dj ) la probabilité que ce document soit dans R. Ainsi, la pertinence entre le document dj et la requête q est calculée par : RSV (q, dj ) = P(R|dj ) P(R|dj ) (1.6) En appliquant la règle de Bayes et après quelques transformations, la formule précédente donne : RSV (q, dj ) = P(dj |R) P(dj |R) (1.7) Dans le modèle probabiliste de base, la représentation des documents est composée par des poids binaires indiquant la présence ou l’absence des termes, si on suppose que les termes sont indépendants, la formule 1.7 devient : RSV (q, dj ) = X ti∈T xi · log pi(1 − qi) qi(1 − pi) (1.8) avec T est l’ensemble de tous les termes, xi = 0 si le terme i n’apparaît pas dans le document j ou bien xi = 1 si le terme i apparaît dans le document j. pi = P(ti ∈ D|R), qi = P(ti ∈ D|R), 1 − pi = P(ti ∈/ D|R) et 1 − qi = P(ti ∈/ D|R). Lorsque des données d’apprentissage pour l’évaluation ne sont pas disponibles, on retrouve le facteur idf probabiliste intégré dans le modèle vectoriel : RSV (q, dj ) = X ti∈T xi · log N − Ri Ri (1.9) avec N le nombre de tous les documents et Ri est le nombre de documents contenant ti . Nous rappelons que, dans le modèle de base, les termes ont des poids binaires dans les documents, indiquant leur présence ou absence. La prise en compte des fréquences des termes dans les document a fait l’objet de plusieurs modèles variant du modèle de base. Par exemple, dans le modèle BM25 (Robertson et al., 1996) le calcul du poids d’un terme dans un document intègre différents aspects relatifs à la 23CHAPITRE 1. RI SOCIALE fréquence locale des termes (tfi), leur rareté et la longueur des documents : xi = (k1 + 1) · tfi k1 × ((1 − b) + b × dl avgdl + tfi (1.10) avec dl est la taille du document dj , avgdl est la moyenne des tailles des documents dans la collection et k1 ,b sont des paramètres qui dépendent de la collection ainsi que du type des requêtes. 2.3 Évaluation L’évaluation des approches de RI est nécessaire afin d’estimer leur performance. C’est un moyen qui permet également de comparer différents systèmes et d’étudier l’impact des facteurs employés dans les approches. Un bon SRI doit satisfaire le besoin d’information de l’utilisateur. La qualité des résultats par rapport à ce besoin, la rapidité du système et la facilité d’utilisation du système représentent les principaux facteurs à évaluer pour un SRI (Mandl, 2007). Nous nous intéressons ici à celui qui nous semble le plus important : la capacité d’un système à sélectionner des documents pertinents. Le mode d’évaluation généralement utilisé aujourd’hui est basé sur celui développé dans le projet Cranfield (Cleverdon et al., 1966) communément appelé le paradigme de Cranfield. Ce paradigme définit la méthodologie d’évaluation des SRI en se basant sur 3 éléments : un corpus de documents sur lequel les recherches sont effectuées, un ensemble de requêtes de test (besoins des utilisateurs) et la liste des documents pertinents pour chacune des requêtes (la vérité terrain). L’idée générale de ce paradigme est de créer un environnement unique afin de pouvoir comparer les systèmes équitablement. Cet environnement est appelé la collection de test. 2.3.1 Collection de test Les collections de test permettent de comparer directement des résultats obtenus par des systèmes en utilisant des modèles différents. Nous détaillons ci-dessous les différentes parties de ces collections. – Les requêtes sont un ensemble de besoins d’information utilisés pour le test. Cet ensemble est appelé également topics dans le jargon des campagnes d’évaluations telles que TREC, INEX. . . Le nombre de requêtes doit être important afin d’être le plus représentatif possible de la réalité et pour avoir une évaluation objective. Il faut au moins 25 requêtes pour garantir la qualité de l’évaluation au regard de la statistique (Buckley et Voorhees, 2000). Les requêtes sont souvent créées par les assesseurs des organismes qui organisent l’évaluation. Toutefois, elles peuvent être de vraies requêtes extraites à partir des logs des moteurs de recherche (Baeza-Yates et Ribeiro-Neto, 1999). 24CHAPITRE 1. RI SOCIALE – Le corpus de documents est l’ensemble de documents présélectionnés. Il existe plusieurs corpus disponibles. Ces corpus diffèrent selon plusieurs critères en fonction de la tâche de recherche que l’on veut évaluer, des documents plus ou moins vulgarisés, plus ou moins spécialisés dans un domaine, dans une langue ou une autre. . . – Les jugements de pertinence identifient les documents pertinents pour une requête et représentent la vérité terrain. Un score de pertinence graduel peut éventuellement être associé pour chaque couple document/requête. La réalisation de ces jugements est loin d’être une tâche facile. Il s’agit d’un processus long et coûteux impliquant des humains. Pour de petites collections comme celle de Cranfield, il existe des jugements de pertinence exhaustifs pour chaque paire requête-documents. Cependant, pour les grandes collections modernes, les jugements ne se font généralement que pour un sous-ensemble des documents pour chaque requête. L’approche la plus standard est celle du pooling (Jones et Rijsbergen, 1976), où la pertinence est évaluée sur un sous-ensemble de la collection formé à partir des premiers documents retournés par un certain nombre de systèmes différents (généralement ceux à évaluer), et parfois complété par d’autres sources telles que les résultats de recherches booléennes par mots clés ou des documents trouvés par les chercheurs experts dans un processus interactif. De nombreux projets basés sur des corpus d’évaluation se multiplient depuis les années 1970. On peut par exemple citer la collection Cranfield ou encore la campagne CLEF (Cross Language Evaluation Forum) 14. La campagne la plus connue est sans conteste TREC (Text REtrieval Conference) organisée annuellement depuis 1992 par le NIST 15 et la DARPA 16. Elle a pour but d’encourager la recherche documentaire basée sur de grandes collections de test, tout en fournissant l’infrastructure nécessaire pour l’évaluation des méthodologies de recherche et de filtrage d’information. Dans ce qui suit, nous présentons les corpus les plus populaires issus de différents projets d’évaluation : – Conférence Text Retrieval (TREC). Le US National Institute of Standards and Technology (NIST) a organisé une grande série d’évaluations depuis 1992. Dans ce cadre, plusieurs tâches qui se basaient sur différentes collections d’essais ont été définies. On peut par exemple citer les collections utilisées pour la tâche adhoc entre 1992 et 1999. Au total, ces collections comprennent 6 CD contenant 1,89 millions de documents et les jugements de pertinence pour 450 besoins d’information. Les premières collections étaient composées chacune de 50 besoins d’information, évalués sur différentes ensembles de do- 14. http://www.clef-initiative.eu/ 15. National Institue of Standards and Technology (www.nist.gov) 16. Defense Advanced Research Project Agency 25CHAPITRE 1. RI SOCIALE cuments. TREC 6-8 fournit 150 besoins d’information sur environ 528 000 articles. Étant donné les collections de documents si grandes, il n’y a pas de jugements de pertinence exhaustifs. Au contraire, les jugements de pertinence sont disponibles uniquement pour les documents qui sont restitués parmi les premiers documents retournés pour les systèmes qui ont participé à l’évaluation (pooling). – Le projet NTCIR a développé diverses collections d’essais de tailles similaires aux collections de TREC, en se concentrant sur les langues d’Asie de l’Est et la recherche d’information multilingue. Les requêtes sont faites dans une langue, toutefois, les collections de documents contiennent des documents dans une ou plusieurs autres langues. – CLEF (La campange Cross Language Evaluation Forum) a également proposé plusieurs collections. Elle s’est concentrée sur les langues européennes et la recherche d’information multilingue. On trouvera plus de détails sur l’évaluation à base de collections de test dans (Sanderson, 2010). 2.3.2 Mesures d’évaluation En RI, la mise au point des modèles passe par une phase expérimentale qui suppose l’utilisation de métriques qui visent à comparer des modèles entre eux ou à mettre au point leurs paramètres. Les deux métriques de base les plus utilisées pour évaluer l’efficacité de la RI sont la précision et le rappel. Celles-ci sont définies pour le cas simple où un système renvoie un ensemble de documents vis-à-vis d’une requête (Voorhees, 2006). La mesure de précision calcule la capacité du système à rejeter tous les documents non pertinents pour une requête. Elle est donnée par le rapport entre les documents sélectionnés pertinents et l’ensemble des documents sélectionnés : Précision = |Documents pertinents restitués| |Documents restitués| ∈ [0, 1] (1.11) Le rappel calcule la capacité du système à restituer le maximum de documents pertinents pour une requête. Il mesure la proportion de documents pertinents restitués par le système relativement à l’ensemble des documents pertinents contenus dans la base documentaire. Il est exprimé par : Rappel = |Documents pertinents restitués| |Documents pertinents| ∈ [0, 1] (1.12) Le rappel et la précision sont calculés indépendamment de l’ordre dans lequel les résultats sont représentés (ce sont des mesures ensemblistes). Des mesures tenant compte de l’ordre des documents sont également nécessaires. Elles permettent 26CHAPITRE 1. RI SOCIALE par exemple d’évaluer des systèmes tels que les moteurs de recherche du web où l’ordre d’apparition des documents est crucial. À cet égard, les mesures principales proposées sont la précision@X et la précision moyenne. La précision@X est la précision à différents niveaux de coupe de la liste. Cette précision mesure la proportion des documents pertinents retrouvés parmi les X premiers documents restitués par le système. La précision moyenne est la moyenne des valeurs de précisions après chaque document pertinent. Elle se focalise en particulier sur les document pertinents classés dans les premiers rangs. APq = 1 R X N i=1 p(i) × R(i) (1.13) Où R(i) = 1 si le ième document restitué est pertinent, R(i) = 0 si le ième document restitué est non pertinent, p(i) la précision à i documents restitués. R le nombre de documents pertinents pour la requête q et N le nombre de documents restitué par le système. La moyenne des précisions moyennes (Mean Average Precision-MAP) est obtenue sur l’ensemble des requêtes : MAP = P q∈Q APq |Q| (1.14) avec APq est la précision moyenne d’une requête q, Q est l’ensemble des requêtes et |Q| est le nombre de requêtes. Cette mesure peut être qualifiée de globale puisqu’elle combine différents points de mesure. Il existe plusieurs autres mesures qui peuvent servir à évaluer les SRI. Nous pouvons citer par exemple la F-mesure, la R-précision, la BPREF (Binary PREFerence-based measure), la MRR (Mean Reciprocal Rank) détaillées dans (Sanderson, 2010). Nous avons vu dans cette section que les approches classiques de RI se basent généralement sur la fréquence des termes, que ce soit dans les documents ou dans le corpus, pour mesurer la pertinence. En outre, un document est considéré uniquement par son contenu présenté comme un sac de mots. Cependant, avec l’évolution des techniques du web 2.0, un document peut être représenté, non seulement par son contenu, mais aussi par d’autres informations sociales telles que ses liens avec les autres documents, des annotations, les commentaires des utilisateurs. . . Nous présentons dans la section suivante les différentes approches de RI utilisant ces informations sociales. 27CHAPITRE 1. RI SOCIALE 3 Utilisation des informations sociales en RI : RI sociale La RI sociale consiste à adapter les modèles et les algorithmes de la RI classique en exploitant les informations sociales. Il s’agit de satisfaire les besoins d’information des utilisateurs en exploitant par exemple les connaissances des utilisateurs experts ou bien les expériences de recherche des autres utilisateurs. Cet objectif se réalise concrètement en considérant les annotations sociales (Peters et al., 2011), l’analyse des réseaux sociaux (Kazai et Milic-Frayling, 2008), les jugements de pertinence subjectifs (Xu et al., 2007) et la recherche collaborative(Karamuftuoglu, 1998) dans le processus de la RI. Comme le montre la figure 1.3, les informations sociales peuvent être exploitées au sein même du modèle de RI (modèle de document et de requête, fonction de pondération / de correspondance), ou en aval de ce modèle (reclassement de la liste des résultats) et même comme une source parmi d’autres dans le web. Document Indexation Représentation interne des documents annotations blogs et microblogs bookmarks clics Utilisateurs Interactions Information sociale Requête Interprétation Représentation interne de la requête Fonction de correspondance Côté utilisateur Côté documents Exploitation Reformulation de requêtes Profil utilisateur Facteurs de pertinence Enrichissement des documents Figure 1.3 – Exploitation de l’information sociale dans la RI Dans cette section, nous nous focalisons sur l’impact de l’information sociale sur le processus de RI. L’objectif étant d’améliorer la qualité des résultats, les informa- 28CHAPITRE 1. RI SOCIALE tions sociales sont employées à plusieurs niveaux. Nous pouvons classer les approches exploitant l’information sociale en fonction du niveau de leur utilisation (côté utilisateur ou côté documents ; figure 1.3). D’une part, ces informations ont été ainsi employées du côté de l’utilisateur pour reformuler les requêtes ou bien pour définir un profil et contextualiser les résultats. D’autre part, du côté des documents, les informations sociales ont été utilisées pour enrichir la représentation des ressources documentaires. 3.1 Côté utilisateur L’idée est d’améliorer l’efficacité des SRI en exploitant le contexte de l’utilisateur. Ceci se réalise en tenant compte des informations sur l’utilisateur (telles que son profil ou ses informations personnelles) dans le processus de recherche ou bien en améliorant la représentation de son besoin d’information, dans le but de retrouver des résultats plus spécifiques et plus raffinés. Ainsi, plusieurs travaux ont exploité l’information sociale comme moyen de reformulation de requêtes ou de création de profil pour une recherche personnalisée. 3.1.1 Information sociale pour la reformulation de requêtes La reformulation de requêtes est vue comme un traitement pour élargir le champ de recherche pour une requête. Une requête étendue va contenir plus de termes reliés permettant d’une part de désambiguïser les mots initiaux et connaître exactement leurs sens, et d’autre part d’augmenter les chances de restituer le maximum de documents pertinents. L’information sociale peut ainsi être utilisée pour étendre les requêtes. Koolen et al. (2009) proposent une approche d’expansion de requêtes utilisant Wikipédia comme collection externe. Ils appliquent ensuite cette approche dans la recherche de livres. D’autres pistes concernant le « Pseudo-Relevance Feedback » à partir de Wikipédia ont été explorées, notamment par l’approche de Y. Li et al. (2007) qui traite les requêtes dites « faibles ». Ces requêtes ne permettent pas de récupérer suffisamment de documents pertinents lors de la première recherche. Cette approche a montré une amélioration de qualité, en particulier sur les premiers documents renvoyés. Bai et al. (2007) ont utilisé ODP (Open Directory Project) 17 afin de contextualiser les besoins d’information. L’idée est d’étendre les requêtes avec des ensembles de mots extraits de documents du feedback. L’ensemble du feedback est composé de documents qui sont pertinents ou pseudo-pertinents par rapport à la requête initiale, et qui sont à même de contenir des informations importantes sur le contexte 17. http://www.dmoz.org/ 29CHAPITRE 1. RI SOCIALE de la recherche. Les mots exprimant le plus d’information par rapport à la requête sont traités comme des concepts implicites. Ils sont alors utilisés pour reformuler la requête. 3.1.2 Information sociale pour la création de profil et la recherche personnalisée Un profil d’utilisateur est constituée des préférences de restitution de l’utilisateur, ainsi que des contraintes sur les résultats présentés. Les informations sociales ont également été utilisées pour créer les profils des utilisateurs. Les profils sont par la suite utilisés pour définir un contexte de restitution permettant de sélectionner des résultats personnalisés. Les éléments souvent utilisés pour créer le profil d’un utilisateur sont ses relations sociales, ses annotations et ses activités dans les plate-formes sociales. Les profils à base d’informations sociales ont été utilisés, par exemple, pour faciliter la personnalisation des recherches à partir d’un environnement de marquage collaboratif. Cai et Li (2010) se sont concentrés sur l’exploration de recherches personnalisées à travers la proposition d’une approche qui permet de créer des profils d’utilisateurs basés sur les tags, ainsi que la création de profils des ressources à rechercher. L’information sociale peut être utilisée pour personnaliser la recherche. Carmel et al. (2009), de leur côté, exploitent les relations sociales de l’utilisateur. Les ré- sultats d’une recherche sont de nouveau classés en fonction des relations avec des personnes dans le réseau social de l’utilisateur. Les auteurs ont étudié l’impact de plusieurs types de réseaux sociaux pour la personnalisation : (1) réseau basé sur les connaissances liées à l’utilisateur via une connexion de familiarité ; (2) réseau de personnes « similaires » à l’utilisateur et qui ont des activités sociales semblables, (3) le réseau global représenté par les deux types de relations. Les informations sociales sont également utilisées dans les moteurs de recherches du web. Google, par exemple, propose un outil pour chercher dans les information du réseau social. En choisissant « résultats personnels » (figure 1.4), un internaute est susceptible de retrouver les profils et les documents partagés par son cercle social, que ce soit celui de Google+ 18, de Twitter, de flickr 19. . . Google propose également des utilisateurs qui semblent avoir les mêmes centres d’intérêts. Bing propose également son outil de recherches social Bing social search (figure 1.5). Cette fonctionnalité permet non seulement d’exploiter le réseau social pour valoriser les résultats du cercle, mais également de retrouver des personnes expertes et susceptibles de disposer des meilleures informations sur le sujet cherché. Bing exploite la majorité des plate- 18. https://plus.google.com/ 19. https://www.flickr.com/ 30CHAPITRE 1. RI SOCIALE formes sociales tels que Facebook 20, Twitter, Klout 21 et même Google+. Figure 1.4 – Résultats à partir du cercle social dans Google Figure 1.5 – Recommandation de profils expert sur le sujet recherché sur Bing 3.2 Côté documents L’idée sous-jacente à l’utilisation des informations sociales du côté des documents est de ramener des informations supplémentaires pour enrichir la représentation des contenus recherchés ou bien pour les utiliser comme des facteurs de pertinence. 3.2.1 Information sociale pour l’enrichissement des ressources documentaires Les commentaires et les tags réalisés par un utilisateur du web sur les contenus publiés par les autres utilisateurs dépendent fortement de ses connaissances et ses centres d’intérêts. Ainsi, ces données représentent une valeur ajoutée (des métadonnées), que ce soit pour la création de profil de l’utilisateur ou bien pour enrichir le contenu et la représentation des documents. Cai et Li (2010) ont utilisé les tags pour générer des profils des ressources d’informations et des profils des utilisateurs. 20. https://www.facebook.com/ 21. https://www.klout.com/ 31CHAPITRE 1. RI SOCIALE La correspondance des deux types de profils a permis d’améliorer la qualité des résultats. Les informations sociales ont été utilisées également pour enrichir la représentation des ressources au moment de l’indexation. Attardi et Simi (2006) ont utilisé les opinions obtenues de la base lexicale « SentiWordNet » pour enrichir l’index des documents avec des étiquettes d’opinion. L’intuition est que l’utilisation des étiquettes marquant l’opinion permet de surpondérer les scores pour les documents qui ne seraient pas sélectionnées avec un simple calcul statistique sur les fréquences d’occurrence. Cet enrichissement de l’index permet d’améliorer le rappel. 3.2.2 Information sociale comme facteur de pertinence Le contenu social a démontré son avantage pour l’amélioration et l’enrichissement des contenus. De même, ces contenus sont utilisés au niveau de la mesure de la pertinence d’un document, comme un facteur parmi d’autres. Bao et al. (2007) ont trouvé que le social bookmarking peut améliorer les recherches sur le web selon deux aspects : 1) les annotations représentent généralement de bons résumés pour les pages web correspondant ; 2) le nombre d’annotations indique la popularité des pages web. Ainsi, deux nouveaux algorithmes sont proposés pour intégrer les facteurs ci-dessus dans le classement de la page : 1) SocialSimRank (SSR) calcule la similarité entre les annotations sociales et les requêtes ; 2) SocialPageRank (SPR) capte la popularité des pages web en fonction des annotations qui y sont réalisées (Bao et al., 2007). D’autres travaux ont relié la pertinence avec l’importance de leurs auteurs. En fait, plus l’auteur est populaire, plus l’information est fiable. La popularité d’un auteur est ainsi mesurée à travers ses informations sociales. C’est l’exemple de l’approche de Macdonald et Ounis (2006), qui ont proposé un modèle de recherche d’information mesurant la pertinence en fonction de l’expertise de son auteur par rapport au besoin d’information. Ils supposent que chaque document représente un vote pour chaque personne qui le cite. C’est le cas également de l’approche de Korfiatis et al. (2006) qui ont évalué les documents de Wikipédia à travers la popularité de leurs auteurs. Pour ce faire, ils ont construit un modèle du réseau social de Wikipédia et ont défini des mesures de qualité telles que la centralité des auteurs. Les auteurs ont trouvé que cette méthode d’évaluation est prometteuse, particuliè- rement avec les articles traitant de sujets susceptibles d’exposer différents points de vus, tels que les sujet politiques. Kazai et Milic-Frayling (2008) ont défini la notion de confiance accordée à un auteur. Cette confiance reflète la pertinence du document publié par l’auteur. Elle se calcule à travers la centralité du nœud du sous-graphe d’un auteur. Ce sous-graphe est obtenu à partir du graphe composé par plusieurs acteurs (auteurs, éditeurs et consommateurs), ainsi que des liens de données (publi- 32CHAPITRE 1. RI SOCIALE cations) et des différentes relations sociales (tels que les collaborations, les citations et les annotations entre les différents acteurs). Outre l’expertise, la popularité et la confiance, les informations sociales sont utilisées comme facteur de pertinence relié à la fraîcheur de l’information. Dong, Zhang, et al. (2010) ; Dong, Chang, et al. (2010) ont proposé d’utiliser les informations publiées sur les plate-formes de microblogging pour détecter les nouvelles URLs qui sont susceptibles de ne pas être encore indexées par les moteurs de recherche. Les auteurs ont également utilisé les informations sociales obtenues à partir des plate-formes de microblogging comme des mesures de pertinence et de qualité des documents pointés par les URLs. 4 Conclusion Nous avons présenté dans ce chapitre l’information sociale dans le Web, développée avec l’évolution des technologies du Web 2.0. Nous avons ensuite décrit les concepts de base de la RI classique et, en particulier, ceux que nous utilisons dans nos travaux. Enfin, nous avons discuté l’impact de l’évolution de ces informations sociales sur le processus de RI, ainsi que leur emploi dans le but d’améliorer l’efficacité des SRI. Outre l’amélioration des résultats de la RI, l’information sociale s’est imposée comme une source d’information parmi d’autres dans le Web 22. La forte demande en égard à cette source d’information réclame l’adaptation des approches de RI dans les différentes tâches (par exemple, la détection d’opinion, la recherche d’expert, la recherche adhoc. . . ) sur les informations sociales. Dans le chapitre suivant, nous présentons un aperçu des différentes tâches de RI sur l’information sociale, ainsi qu’un aperçu des approches de l’état de l’art. Nous nous focalisons uniquement sur les informations publiées sur la plate-formes de microblogging Twitter, celle-ci constituant le cadre applicatif de notre travail. 22. Par exemple, il y a en moyenne 2 milliards requêtes soumises sur Twitter par jour (contre 5 milliards sur Google) : http://www.statisticbrain.com/ 33CHAPITRE 1. RI SOCIALE 34Chapitre 2 RI dans les microblogs Nous présentons dans ce chapitre la recherche d’information dans les microblogs, et en particulier, la recherche adhoc de microblogs. Les microblogs sont une forme réduite des blogs. Ils représentent une source d’information récente. Les utilisateurs emploient des plate-formes de microblogging pour partager et accéder à des microblogs. Ces plate-formes prennent la forme de réseaux sociaux qui se distinguent par des interactions sociales intenses et une diversité dans les sujet discutés, par rapport aux autres sources d’information. Il existe plusieurs plate-formes de microblogging. Les 5 plate-formes les plus utilisées 1 sont Twitter, FriendFeed 2 , Tumblr 3 , Posterous 4 et Identi.ca 5 . Parmi elles, Twitter est sans conteste la plus utilisée. Cette plate-forme compte plus de 650 millions d’utilisateurs, publiant en moyenne 58 millions de tweets par jour. Twitter est utilisé également comme source d’information. En moyenne, 2,1 milliards de requêtes sont soumises chaque jour sur son moteur de recherche. La RI dans les microblogs est différente de la recherche dans le Web. Ceci est dû aux différences de forme des microblogs par rapport aux documents du web, à la spécificité de leur contenu et également aux motivations des recherches (information fraîches. . . ). Les travaux de la littérature qui portent sur la RI dans les microblogs peuvent être regroupés en deux catégories. La première porte sur l’étude des caractéristiques et l’analyse statistique des microblogs. Kwak et al. (2010), par exemple, ont étudié les spécificités linguistiques, démographiques, topographiques et spatio-temporelles des microblogs. La seconde porte sur les tâches de recherche d’information au sens large (accès à l’information) dans les microblogs. Notre travail s’inscrivant dans la seconde catégorie, nous détaillerons plus particulièrement dans ce chapitre les tâches de RI dans les microblogs. Auparavant, nous commençons 1. http://www.gurugrounds.com/uncategorized/top-10-microblogging-sites/ 2. http://friendfeed.com/ 3. https://www.tumblr.com/ 4. http://www.posterous.com/ 5. https://identi.ca/ 35CHAPITRE 2. RI DANS LES MICROBLOGS par présenter les spécificités des plate-formes de microblogging et des microblogs, en s’attachant au cas de Twitter. Nous considérons cette plate-forme étant donné qu’elle représente le cadre applicatif de tous les travaux de la RI dans les microblogs de l’état de l’art, d’une part, et, d’autre part, parce qu’elle est la plus utilisée dans le monde réel. Les autres plate-formes de microblogging ont pratiquement les mêmes spécificités et le même principe de fonctionnement. 1 Présentation et spécificités des plate-formes de microblogging : cas de Twitter 1.1 Présentation générale de Twitter Twitter est l’exemple le plus populaire des plate-formes de microblogging. Ces plate-formes sont les réseaux sociaux les plus récents du Web 2.0. Elles sont considé- rées comme une nouvelle forme de blogs, où les informations diffusées sont courtes et publiées plus rapidement. Ces informations concernent différents sujets. Les utilisateurs parlent de leur quotidien, des événements, des tendances. . . parfois à la mode SMS et en partageant des messages de faible longueur (par exemple 140 caractère au plus dans le cas de Twitter). Twitter a connu une croissance exponentielle durant ces dernières années. Nous présentons ci-dessous les principales spécificités de cette plate-forme, ainsi que l’information qui y est produite. 1.1.1 Lancement et évolution L’idée de base de Twitter est de permettre aux amis, aux familles et aux collaborateurs de communiquer et de rester connectés en partageant des réponses rapides et fréquentes (tweets) à la question : Quoi de neuf ? Plusieurs études (Java et al., 2007 ; Mischaud, 2007) ont cependant montré que les utilisateurs de Twitter dépassent ce premier objectif, en documentant dans leurs messages leur vie quotidienne, en partageant des hyperliens et en commentant des événements. Ces pratiques ont transformé le microblogging. C’est désormais un moyen de partager son état d’esprit personnels, mais aussi de publier des histoires et des nouvelles, pour exprimer ses opinions, pour discuter sur différents sujets dans des contextes sociaux, économiques et même politiques. . . Lancée en octobre 2006, la plate-forme comptait 94,000 utilisateurs en avril 2007 6 pour atteindre 200 millions en 2012 7 . Au début de 2014, Twitter compte plus de 6. http://usatoday.com/tech/webguide/2007-05-28-social-sites_N.htm 7. http://www.bbc.co.uk/news/business-12889048 36CHAPITRE 2. RI DANS LES MICROBLOGS 645 millions d’utilisateurs actifs 8 . Concernant le trafic, le nombre de tweets publiés croît tous les jours. En mars 2007, en moyenne, les microbloggeurs publient 20 000 tweets par jour 9 . Ce nombre a évolué pour atteindre 50 millions en janvier 2010. Aujourd’hui, le nombre de tweets par jour peut atteindre 500 millions 10 . Outre la publication de tweets, les microbloggeurs exploitent cette plate-forme pour chercher des informations récentes sur des sujets particuliers. En 2011, le nombre de requêtes soumises au moteur de recherche de Twitter était de l’ordre de 1,6 millions de requête par jour 11. Ce nombre a évolué pour atteindre 2,1 milliards de requêtes 12 par jour en 2013. Avec cette évolution, Twitter s’est rapidement positionné parmi les premières sources d’information utilisées sur le Web. Le tableau 2.1 liste le nombre de requêtes soumises à Google, Twitter et Facebook chaque jour. Le nombre de requêtes soumise à Twitter correspond à 42 % des requêtes soumises à google. Ce chiffre montre l’importance de Twitter en tant que source d’informations et la dépendance des utilisateurs à cette source d’information. Source Année Nb de requêtes Google 2013 5,1 Twitter 2013 2,1 Facebook 2012 1,0 Tableau 2.1 – Nombre de requêtes par jours (en milliard). Chiffres obtenus du site http://statisticbrain.com 1.1.2 Concepts et fonctionnement des plate-formes de microblogging La figure 2.1 montre l’interface de Twitter. L’interface est composée de plusieurs sections. Dans la section Tweets appelée également Timeline, un utilisateur peut voir le flux de ses tweets ainsi que ceux de ses amis, triés par ordre chronologique inverse. On peut remarquer également une section de tendances qui contient les 10 sujets les plus populaires dans Twitter à un moment donné. L’utilisateur peut consulter les tendances du monde entier, comme il peut se focaliser sur un endroit 8. http://www.statisticbrain.com/twitter-statistics/ 9. http://www.begeek.fr/twitter-90-millions-de-tweets-par-jours-21210 10. http://www.blogdumoderateur.com/statistiques-twitter-entree-en-bourse/ 11. http://engineering.twitter.com/2011/05/engineering-behind-twitters-new -search.html 12. http://www.statisticbrain.com/twitter-statistics/ 37CHAPITRE 2. RI DANS LES MICROBLOGS plus spécifique. La plate-forme suggère également des utilisateurs qui ont des centres d’intérêts similaire à l’utilisateur courant dans la section suggestions. Figure 2.1 – L’interface graphique utilisateur de Twitter En s’inscrivant sur une plate-forme de microblogging, un utilisateur fournit plusieurs informations telles que sa photo, sa localisation, son site Web et une courte bibliographie (figure 2.2). Dans la bibliographie, les utilisateurs décrivent généralement leurs activités et leurs centres d’intérêt. Ces informations sont ensuite probablement utilisées par les plate-formes dans la recommandation des utilisateurs. La figure 2.3 donne un exemple d’utilisation d’une plate-forme de microblogging. Un utilisateur A peut suivre le flux de microblogs envoyés par un utilisateur C sans lui demander la permission (sauf pour les comptes privés que nous ne détaillons pas ici). Les relations entre utilisateurs des réseaux sociaux sont appelées des abonnements. Si A est abonné à C, alors A est appelé abonné (follower) de C (followee) et reçoit automatiquement toutes les publications de C dans sa timeline. Les relations d’abonnement peuvent être unilatérales (dans un seul sens), mais également bilatérales (dans les deux sens) si C s’abonne à son tour à A. On parle dans ce cas d’une relation d’amitié. Si un microbloggeur diffuse un message, tous ses abonnés 38CHAPITRE 2. RI DANS LES MICROBLOGS Figure 2.2 – Informations des comptes utilisateurs sur Twitter le reçoivent. Un microbloggeur peut également envoyer un message direct et privé à l’un de ses amis (direct message). Si le microbloggeur partage un message pour la première fois, le message sera un tweet, sinon, s’il le rediffuse, le message sera un retweet et il va contenir dans ce cas la mention RT. En rediffusant un microblog, un microbloggeur peut y ajouter de l’information complémentaire. Finalement, et comme indiqué plus tôt, un utilisateur peut en mentionner un autre dans un message (@mention). Les individus ne sont pas les seuls propriétaires de comptes. Les entreprises ou encore les sites d’information sont aujourd’hui très présents sur les plate-formes de microblogging. 1.1.3 Système temps-réel L’une des spécificités fondamentale des plate-formes de microblogging est leur nature temps-réel : la présentation des publications (timeline), la présentation des résultats de recherches, le traitement du contenu publié. . . 39CHAPITRE 2. RI DANS LES MICROBLOGS Figure 2.3 – Exemple d’utilisation de Twitter (avec tweets, retweets, abonnements et hashtags) 1.1.3.1 Timeline Twitter, comme les autres plate-formes de microblogging, est un système temps-réel par excellence dont la fraîcheur est la spécificité la plus importance. Cette spécificité peut être aperçue à plusieurs niveaux : – Un utilisateur, en accédant à sa page, reçoit en temps-réel les microblogs de ses abonnés. Ces microblogs défilent sur sa page et le plus récent s’affiche au début de la file. – Pour répondre à un besoin d’information, le moteur de recherche de Twitter affiche les tweets-résultats par ordre chronologique inverse (des plus récents aux plus anciens). Si à un moment donné un nouveau microblog pertinent est publié, l’utilisateur reçoit une notification pour l’afficher (figure 2.4). Figure 2.4 – Notification sur l’apparition de nouveaux résultats dans Twitter – En dépit de la quantité de microblogs publiée chaque seconde, un système de microblogging indexe ces contenus et les rend disponibles à tous les utilisa- 40CHAPITRE 2. RI DANS LES MICROBLOGS teurs à l’instant même de leur publication. Ceci représente une révolution par rapport aux autres sources d’information du Web. Google, par exemple, met jusqu’à une semaine pour indexer une page Web 13. Wikipédia met jusqu’à une année pour inclure des modifications sur ses pages (Frank et al., 2013, 2012). 1.1.3.2 Usage temps-réel Alors que les blogueurs mettent à jour leurs blogs une fois tous les quelques jours, les microbloggeurs postent généralement plusieurs microblogs chaque jour (Java et al., 2007), en particulier pour décrire des événements qui se déroulent au moment de l’écriture du microblog. Ainsi, les microblogueurs peuvent savoir à tout moment ce que les autres microblogueurs sont en train de faire ou à quoi ils sont en train de penser. Un grand nombre de tweets publiés sur Twitter ont rapport à des événements. Il peut s’agir d’événements sociaux tels que des fêtes, des compétitions sportives et des campagnes présidentielles. Il peut également s’agir de catastrophes telles que des tempêtes, des incendies, des émeutes, des fortes pluies et des tremblements de terre, ou bien tout simplement d’informations sur des embouteillages (Endarnoto et al., 2011). Twitter est un outil de notification temps-réel de tous se qui se passe dans le monde. C’est un moyen rapide et fiable pour transmettre les informations dans des situations critiques nécessitant des interventions d’urgence (incendies par exemple). Twitter a été ainsi utilisé par les victimes des incendies en Californie 14 et en Australie en 2009, pour décrire exactement la situation et aider les autres victimes en transmettant les informations utiles aux secours. Twitter peut également être utilisé pour faire du reportage temps-réel, comme cela a été le cas lors des conflits produits à la suite des élections présidentielles en Iran en 2009, malgré le contrôle imposé aux médias traditionnels par les autorités iraniennes 15 . Outre sa fonction de moyen de diffusion de l’information, la quantité gigantesque d’information publiée dans Twitter est utilisée aussi comme ressource statistique pour détecter, de manière continue, les tendances, l’humeur des gens, les opinions des consommateurs (Jansen et al., 2009a ; O’Connor et al., 2010) et même leurs convictions politiques (Tumasjan et al., 2010). 1.2 Spécificités des microblogs Jansen et al. (2009b) ont réalisé une étude linguistique sur Twitter. Ils ont trouvé qu’un tweet contient en moyenne 15 mots. Ce chiffre est extrêmement faible comparé aux autres sources d’information du Web. Les articles de Wikipédia, par exemple, 13. http://referencement-alsace.fr/ 14. A. Bloxham, “Facebook more effective than emergency services in a disaster,” The Daily Telegraph, December 20, 2008. 15. M. Musgrove, “Twitter is a player in Iran’s drama” The Washington Post, July 09, 2009. 41CHAPITRE 2. RI DANS LES MICROBLOGS possèdent en moyenne 320 termes par article 16. Cette particularité représente un défi pour les techniques de recherche d’information classiques qui se basent principalement sur les fréquences des termes dans les documents. Figure 2.5 – Tweet posté par @florencesantrot contenant une image et des hashtags (#Apple #iphone6cost1k). Il a été retweeté sept fois et favori une fois. Un microbloggeur peut inclure différents types de signes dans un tweet, en plus du contenu textuel. Ces pratiques ont peu à peu évoluées pour devenir des « normes de balisage » : – @ suivi du nom d’utilisateur permet d’indiquer qu’on mentionne ou s’adresse à une personne particulière (représenté par son compte), – # suivi par un mot est un hashtag. Un hashtag indique un mot important que le système peut utiliser pour permettre une recherche par navigation (figure 2.5). Les hashtags permettent de catégoriser les microblogs selon un contexte (événement, lieu, etc.) : par exemple, certaines émissions télévisées définissent des hashtags spécifiques à utiliser par les microbloggeurs souhaitant exprimer leurs avis sur le sujet de l’émission. Les conférences scientifiques définissent également des hashtags permettant, d’une part, aux participants de partager leurs remarques et, d’autres part, aux gens de l’extérieur de suivre ce qui se passe dans la conférence en temps-réel. – Les microblogs peuvent également contenir des URL. Ces hyperliens prennent 16. http://en.wikipedia.org/wiki/Wikipedia:Words_per_article 42CHAPITRE 2. RI DANS LES MICROBLOGS une forme courte en raison du nombre limité de caractères autorisés par microblog. Il existe deux services très connus pour créer la forme réduite des URL : bit.ly et tinyurl.com. Dans le cas où l’URL correspond à une image, Twitter af- fiche un aperçu de cette image dans l’interface de l’utilisateur comme le montre la figure 2.1. – Les internautes peuvent mettre des photos dans leurs microblogs (figure 2.5). En cliquant dessus, l’utilisateur pourra voir la photo en taille normale. Outre les données postées explicitement par les microbloggeurs, les microblogs contiennent également des méta-données de différentes natures : – de géolocalisation : les microblogs publiés à travers les terminaux mobiles équipés de GPS fournissent des informations de géolocalisation. Ces informations permettent de localiser l’endroit duquel lequel le microblog a été publié. – d’horodatage : chaque microblog est caractérisé par sa date de publication. Cette information est utilisée pour mesurer sa fraîcheur s’il fait partie d’une liste de résultats d’une recherche. – d’auteur : Les plate-formes de microblogging stockent le compte depuis lequel est publié chaque microblog. Ceci permet aux utilisateurs de trouver les microblogs d’un auteur en particulier. – de favoris : on peut savoir, pour chaque microblog, combien de fois il a été choisi dans les listes de favoris des autres utilisateurs (figure 2.5) ainsi que l’ensemble des utilisateurs qui l’ont sélectionné. – de rediffusion : RT indique que le message est rediffusé. Le mécanisme de rediffusion permet aux utilisateurs de partager de nouveau des microblogs qu’ils trouvent intéressants parmi les microblogs publiés par leurs amis (par exemple, RT @mashable Top 10 Twitter Trends This Week http ://on.mash.to/eA2jY5). Dans Twitter, on peut connaître le nombre de fois qu’un tweet a été retweeté (figure 2.5). On peut également accéder à la liste des utilisateurs qui ont retweeté un tweet donné. 1.3 Spécificités des recherches dans les microblogs Le moteur de recherche de microblogs est spécifique au niveau des données en entrée ou des résultats. D’une part, outre des mots-clés, un utilisateur peut mélanger des comptes utilisateurs, des hashtags et même des URLs, dans sa recherche. La figure 2.6 montre les suggestions de différents types de données de recherche de Twitter. D’autre part, les résultats affichés diffèrent en fonction du type de données utilisées : si l’utilisateur sélectionne un compte utilisateur parmi la liste des suggestions, l’interface affichera le profil de ce compte (ses informations et ses tweets). Dans les autres cas, l’interface affichera une liste de microblogs contenant les termes, le hash- 43CHAPITRE 2. RI DANS LES MICROBLOGS Figure 2.6 – Suggestion de différents type de résultats dans le moteur de recherche de Twitter : des mots-clés, des hashtags, des comptes utilisateurs sont présentés. tag ou l’URL recherchée. Les résultats sont présentés par défaut dans l’ordre chronologique inverse. Cependant, l’utilisateur peut choisir d’afficher tous les résultats, comme le montre la figure 2.4. Les microblogs sont alors triés selon toute probabilité de pertinence telle que leur popularité (fréquence de favoris et de retweets). Teevan et al. (2011) ont étudié les motivations des utilisateurs pour chercher les informations sur Twitter. Ils ont également identifié les pratiques de recherche des microblogueurs. En observant les pratiques de 54 utilisateurs actifs de Twitter, ils ont constaté que les internautes cherchent dans Twitter pour avoir : – Des informations récentes : 49 % des participants ont cherché des informations sur les actualités, les sujets « tendance », les événement récents, le trafic routier, les accidents du quartier. . . . – Des information sociales : 26 % des participants ont cherché des informations sur d’autres utilisateurs, tels que ceux qui ont des intérêts similaires, ou même ce que dit un utilisateur en particulier. – Des information sur des sujets, qui s’apparentent aux recherches souvent effectuées sur les moteurs de recherche du Web. 36 % des participants ont cherché des sujets spécifiques. Les auteurs ont également analysé les logs de moteurs de recherche pour identifier 44CHAPITRE 2. RI DANS LES MICROBLOGS les différences entre les recherches effectuées sur Twitter et celles effectuées sur les moteurs de recherche du Web. Les différences se manifestent à plusieurs niveaux : – au niveau des requêtes (Twitter/Web) : sur la longueur des requêtes (1,6/3 mots), sur la présence de noms de célébrités (15 %/3 %), ou de « # » (21 %/0,1 %). – au niveau de l’importance des requêtes : en moyenne, chaque requête est soumise 2 fois sur le web, et 3 fois dans Twitter. Ceci peut être dû aux tendances présentées par la plate-forme sous forme de liens permettant d’obtenir les tweets récents sur les sujet tendances. – au niveau des sessions de recherches de Twitter qui sont plus courtes que celles réalisées sur le Web, que ce soit sur le temps ou sur le nombre de requêtes. Dans Twitter, une session consiste souvent en la surveillance des tweets sur une requête particulière, en actualisant les résultats sur une période de temps. En d’autre termes, les utilisateurs ont tendance à actualiser les résultats pour avoir l’information récente, sans attendre les notifications de la plate-forme. Pour conclure, les plate-formes de microblogging (Twitter en particulier), repré- sentent un nouveau type de source d’information en pleine évolution grâce à un ensemble de caractéristiques spécifiques : – de fonctionnalité, telles que le partage d’information temps-réel, les abonnements sans restriction, etc. Ces nouvelles fonctionnalités ont popularisé de nouvelles pratiques comme le suivi de l’actualité de célébrités, la réalisation de campagnes électorales, l’analyse de l’humeur et des avis des gens en temps-réel, la participation à distance à des conférences, etc. – de forme, telles que la faible longueur des messages, l’utilisation du jargon du net, une syntaxe spécifique, etc. La quantité et la nature des tweets ont suscité de nouveaux usages tant de la part des individus que des organisations. La section suivante synthétise les travaux de littérature traitant de l’accès à l’information dans les microblogs. 2 Accès à l’information dans les microblogs Dans ce paragraphe, nous listons les travaux de l’état de l’art sur la problématique de l’accès à l’information via Twitter. Nous classons ces travaux en fonction du type d’information recherché. 2.1 Recherche temps-réel de microblogs Pour cette tâche, l’utilisateur souhaite obtenir de l’information pertinente la plus fraîche possible vis-à-vis d’un besoin en information (Ounis et al., 2011). Générale- 45CHAPITRE 2. RI DANS LES MICROBLOGS ment, un certain temps s’écoule avant que cette information soit disponible sur le web et qu’elle soit indexée par les moteurs de recherche (Dong, Zhang, et al., 2010). Dans la RI temps-réel, la date de publication d’un document est considérée comme un facteur de pertinence très important, si ce n’est pas le plus pertinent. Une interprétation possible de cette tâche consiste à trier anti-chronologiquement tous les documents publiés avant la date de soumission de la requête, et ensuite, à écarter les documents non pertinents (Ounis et al., 2011). La tâche se réduit donc à l’identi- fication des caractéristiques des documents pertinents à restituer. Plusieurs travaux ont proposé des critères utilisés comme facteurs de pertinence supplémentaires à la pertinence textuelle : la fraîcheur (Magnani et al., 2012 ; Vosecky et al., 2012), la popularité de l’auteur (Zhao et al., 2011 ; Massoudi et al., 2011), la présence d’URLs (Vosecky et al., 2012). . . Des études empiriques ont montré que ces critères reflètent la pertinence lorsqu’ils sont employés en plus de la pertinence textuelle (Damak et al., 2013). Nous présenterons dans la section suivante un état de l’art des différentes approches de recherche de microblogs et des approches qui ont utilisé les critères de pertinence supplémentaires. Nous détaillerons également les différentes manières avec lesquelles ces critères de pertinences ont été employés. 2.2 Recherche de microbloggeurs La recherche de microbloggeurs s’apparente à la tâche de recherche d’experts de la RI classique. Les objectifs sont l’identification des utilisateurs les plus populaires, ceux qui ont les mêmes centres d’intérêts que l’utilisateur courant, ou bien les experts dans des domaines spécifiques. Plusieurs travaux se sont focalisés sur l’identification des utilisateurs les plus populaires dans les plate-formes de microblogging. Ils se basent sur des méthodes telles que la centralité calculée au travers du graphe social. À titre d’exemple, TwitterRank (Weng et al., 2010) est une approche inspirée de l’algorithme PageRank (Brin et Page, 1998) qui mesure l’influence des utilisateurs sur Twitter. Le score de chaque utilisateur est mesuré en fonction des scores de ses abonnés. Cette approche prend en compte les similarités des sujets discutés entre les utilisateurs, ainsi que la structure des liens d’abonnements. Ben Jabeur, Tamine, et Boughanem (2012) ont mesuré la popularité d’un auteur en proposant un algorithme semblable à PageRank. Cet algorithme mesure la popularité d’un auteur dans un réseau formé par les retweets, les mentions et les réponses. Tunkelang 17 a proposé un modèle qui se base également sur l’algorithme PageRank. Cependant, il a introduit le facteur de renvoi des 17. http://thenoisychannel.com/2009/01/13/a-twitter-analog-to-pagerank/ 46CHAPITRE 2. RI DANS LES MICROBLOGS messages par les abonnés d’un utilisateur : P opularité(u) = X v ∈ abonnés(u) 1 + p ∗ popularité(v) ||Abonnements(v)|| (2.1) avec abonnés(u) est l’ensemble des utilisateurs abonnés à u, Abonnements(v) est l’ensemble des utilisateurs auxquels v est abonné et p est la probabilité que l’utilisateur v va retweeter les tweets de u. D’autres approches mesurent l’importance des utilisateurs autrement. En analysant les habitudes de diffusion d’information dans Twitter, Lee et al. (2010) ont découvert que la diffusion d’information atteint son maximum à son apparition. Le pic dans le taux de publication est observé au moment de l’apparition de l’information. Ensuite, ce taux diminue en avançant dans le temps. Par conséquent, ils ont proposé une approche considérant l’ordre temporel de diffusion de l’information pour détecter le meilleur diffuseur d’information. L’utilisateur le plus important est celui qui diffuse souvent les informations en premier. La majorité des approches proposées prend en compte un ordonnancement statique de l’importance des utilisateurs. Cependant, Cappelletti et Sastry (2012) considèrent que, dans un environnement temps-réel, l’importance d’un utilisateur doit être évolutive. Ainsi, ils ont proposé un modèle qui se base sur le potentiel d’un utilisateur à amplifier la diffusion d’une information. Cette importance varie avec l’évolution du réseau social de l’utilisateur. Un utilisateur est d’autant plus important que l’information qu’il partage est susceptible d’atteindre un grand nombre d’utilisateurs. Concrètement, ceci est calculé en fonction de deux facteurs : le premier calcule à quel degré un utilisateur peut être retweeté ou cité par ses abonnés et le deuxième mesure la taille de l’audience des retweets et des citations de l’utilisateur. 2.3 Détection d’opinions La détection d’opinion a été souvent étudiée en recherche d’information, particulièrement dans la recherche de blogs (Pang et Lee, 2008 ; Missen et al., 2009). L’objectif est de retrouver les documents exprimant des opinions sur le sujet de la requête. La majorité des approches proposées se basent sur des ressources lexicales comportant les termes d’opinions telles qu’opinionFinder (Wilson et al., 2005), General Inquirer lexicon (Hatzivassiloglou et McKeown, 1997) ou SentiWordnet (Baccianella et Sebastiani, 2010). La plupart des approches spécifient des critères (présence de termes et leurs fréquences, Parts of speech, de syntaxe, de négation. . . ) et exploitent des techniques d’apprentissage automatique. Les mêmes principes ont été ainsi utilisées sur les microblogs. Comme les blogs, les microblogs expriment des opinions (Jansen et al., 2009a). Shamma et al. (2009) ont montré que la plupart des tweets ont un ton négatif, et 47CHAPITRE 2. RI DANS LES MICROBLOGS que les microblogs permettent d’obtenir des opinions immédiates et des réactions sur des produits. Ils ont trouvé également que les tweets peuvent être utilisés pour annoter les débats politiques avec les opinions des téléspectateurs. Plus précisément, ils ont constaté que le taux de messages contenant des opinions dans Twitter peut servir comme un prédicateur de l’évolution des sujets dans l’événement médiatisé. Bollen et al. (2009) ont modélisé les phénomènes socio-économiques à travers l’analyse des opinions dans les tweets. Leur liste de phénomènes est composée de vingt événements de la vie quotidienne, en intégrant le comportement des marchés boursiers correspondant à l’indice Dow Jones Industrial Average et les indices des prix du pétrole de West Texas Intermediate. Ils ont trouvé que l’humeur globale des gens est corrélée avec ces événements. Par exemple, à Thanksgiving, il y avait plutôt une humeur de joie et rarement des sentiments de fatigue. Durant les élections présidentielles aux États Unis, il y avait au début beaucoup de doute avant les élections (sentiments de confusion et de dépression), suivi de sentiments de joie et de bonheur après la publication des résultats. Un dernier exemple est celui de la baisse de l’indice de Dow Jones qui coïncide avec les sentiments de dépression. 2.4 Classification thématique des microblogs L’objectif de la classification thématique de microblogs est de créer des filtres thé- matiques sur les flux d’information. Ceci est réalisé en identifiant les sujets discutés dans les microblogs. La classification thématique des microblogs nous permettra, par extension, de classer les utilisateurs en fonction de leurs centres d’intérêts. Une première solution pour ce type de problème est de regrouper les microblogs en fonction des hashtags qu’ils contiennent (Efron, 2010). Ramage et al. (2010) ont utilisé une implémentation étiquetée et évolutive de Latent Dirichlet Allocation (Blei et al., 2003) afin d’extraire les tags et de les utiliser pour caractériser les utilisateurs et les microblogs. Song et al. (2010) se sont basés sur des informations spatio-temporelles afin d’identifier des tags corrélés. Ces tags sont utilisés par la suite pour regrouper les tweets et les classifier. Enfin, Bernstein et al. (2010) ont proposé un algorithme pour détecter précisément les sujets des microblogs. Ce dernier consiste à détecter les entités nommées dans un microblog et les soumettre à un moteur de recherche. Le sujet du microblog correspondra alors au terme le plus important dans les résultats, calculé à travers un algorithme de pondération (T F IDF (Robertson, 2004)). 2.5 Détection de tendances La détection de tendances vise à identifier automatiquement les thèmes émergeant qui apparaissent dans le flux de microblogs en temps-réel (R. Li et al., 2012). 48CHAPITRE 2. RI DANS LES MICROBLOGS Les tendances sont généralement des événements émergents, les dernières nouvelles et les sujets qui attirent l’attention des utilisateurs. La détection des tendances revêt donc une grande utilité pour les journalistes et les analystes, car elle leur permet d’être rapidement actifs sur les sujets « tendances ». Par exemple, lors de l’annonce de la mort de Michael Jackson le 25 juin 2009, Twitter a été immédiatement inondé par un énorme volume de commentaires. La détection de tendances est également importante pour les professionnels du marketing en ligne et les sociétés de suivi d’opinion, puisque les tendances indiquent des sujets qui captent l’attention du public. Plusieurs applications ont été développées pour détecter les tendances à partir de Twitter : Trendsmap 18, What The Trend 19, Twinitor 20 et Twendr 21. D’autres travaux ont même utilisé Twitter comme un système préventif aux catastrophes. Par exemple, Sakaki et al. (2010) se sont basés sur Twitter pour créer un système d’avertissement des tremblements de terre et Lampos et Cristianini (2010) ont utilisé les tweets pour suivre la propagation des épidémies. 3 Recherche adhoc de microblogs Le principe de la recherche adhoc de microblogs est similaire à la RI adhoc classique. Il s’agit de répondre à une requête via un index de microblogs et sélectionner ceux qui sont pertinents (Efron, 2011a). La différence entre la RI adhoc dans les tweets et la RI adhoc dans les documents du Web réside dans la nature de l’information traitée et des sessions de recherches. Ces différences sont principalement dues aux spécificités des microblogs par rapport aux autres sources d’information et les motivations des utilisateurs pour chercher dans cette source d’information. Efron (2011a) a posé la question : quels sont les facteurs reflétant la pertinence dans la recherche de microblogs ? Les facteurs tels que la popularité de l’auteur et l’horodatage ont probablement leur importance pour juger l’utilité d’un microblog par rapport à un autre. Cependant, la manière de considérer ces qualités n’est pas évidente. Ainsi, il existe plusieurs facteurs de pertinence à prendre en compte dans la conception des approches de recherche de microblogs, en plus de la pertinence textuelle : facteurs sociaux, facteurs de popularité des auteurs, facteurs de fraîcheur, facteurs liées aux URLs. . . Nous présentons dans cette section les principaux facteurs de pertinence employés dans la recherche de microblogs ainsi que leurs différents objectifs. 18. http://trendsmap.com/ 19. http://whatthetrend.com/ 20. http://twinitor.com/ 21. http://twendr.com/ 49CHAPITRE 2. RI DANS LES MICROBLOGS 3.1 Facteur de pertinence textuelle Le problème principal de la pertinence textuelle dans la recherche de microblogs réside dans leur faible longueur. Les modèles de RI classiques qui, de manière géné- rale, se basent sur des facteurs tels que la fréquence des termes dans les documents et la longueur des documents, sont limités par la faible longueur des microblogs, où les termes n’apparaissent pas plus d’une fois. La majorité des approches de RI dans les microblogs ne tiennent ainsi pas compte des facteurs de normalisation et de fréquence utilisés dans les modèles de RI classique : par exemple Che Alhadi et al. (2011) emploient le modèle vectoriel en éliminant le facteur de la normalisation de la longueur. Massoudi et al. (2011) de leur coté utilisent uniquement la présence ou l’absence du terme dans le modèle de langue (LM) à la place de sa fréquence dans le document. Ferguson et al. (2012) ont étudié l’impact des fréquences et leur normalisation dans la mesure de la pertinence avec le modèle BM25. Ils ont trouvé que ces facteurs sont non seulement inefficaces, mais dégradent aussi les résultats d’une tâche de recherche de microblogs. Certains travaux ont proposé des méthodes plus sophistiquées pour résoudre le problème de fréquences et de normalisation. Lin et al. (2012) emploient une méthode qui se base sur la co-occurrence des termes. Ils construisent un graphe pondéré dont les nœuds représentent les termes et les liens représentent leurs co-occurrences dans les tweets de la collection. Ainsi, le score de chaque terme de la requête dans un microblog est calculé en fonction des poids des liens de ce terme avec les termes du tweet. Au lieu d’ignorer les facteurs de fréquences, certaines approches ont essayé d’amé- liorer la représentation des termes, que ce soit des requêtes ou des microblogs afin de réduire l’effet de leur faible taille. Plusieurs techniques d’expansion de requêtes ont été proposées. Kumar et Carterette (2013) ont étendu les requêtes avec les termes les plus fréquents dans les résultats de la requête initiale. D’autres approches ont exploitées des critères temporels dans le choix des termes d’extension (Efron, 2011b ; Miyanishi et al., 2013). Du côté des microblogs, Efron et al. (2012) ont proposé deux approches pour améliorer leur représentation. La première consiste à enrichir chaque microblog dans l’index avec les microblogs ayant des contenus similaires. La deuxième approche exploite les microblogs similaires à chaque microblog pour lui créer un profil temporel. Ce profil sera utilisé au moment de la restitution des résultats. McCreadie et Macdonald (2013) et Ben Jabeur et al. (2013), quant à eux, ont fusionné le contenu du microblog avec le contenu de l’URL, s’il existe. 50CHAPITRE 2. RI DANS LES MICROBLOGS 3.2 Facteur de pertinence social Étant donné que le microblogging est une forme de réseau social, il est ainsi possible de traiter le problème de tri des microblogs en exploitant un critère particulier qui n’est pas (aussi facilement) disponible dans la recherche sur le Web traditionnel, à savoir le réseau social sous-jacent aux plate-formes. Cette catégorie d’approches considère que la pertinence est liée à la crédibilité de la source d’information. La plupart des approches exploitant le réseau social ont défini des critères de pertinence reflétant l’importance des utilisateurs. Ces critères sont : le nombre de tweets d’un auteur, le nombre de fois qu’un utilisateur a été retweeté, le nombre de citations, le nombre d’abonnements, le nombre d’abonnés. . . Si certains travaux ont combiné ces critères linéairement (Nagmoti et al., 2010 ; Zhao et al., 2011 ; Damak et al., 2011), d’autres ont utilisé des techniques d’apprentissage : SVM (Joachims, 2005) et Linear Regression dans l’approche de Duan et al. (2010) et RankSVM dans l’approche de Cheng et al. (2013). Dans une deuxième catégorie d’approches, des graphes représentant les liens sociaux ont été générés à partir des plate-formes. Ces graphes représentent différents types de liens comme le montre la figure 2.7 : utilisateur × utilisateur et dans ce cas les liens sont les relations d’amitiés (abonnements ou abonnés ou citation), utilisateur × tweet et dans ce cas les liens représentent les statuts des utilisateurs, tweet × tweet et dans ce cas les liens représentent les retweets. . . L’approche présentée dans (Yamaguchi et al., 2010) utilise, par exemple, l’algorithme PageRank (Brin et Page, 1998) pour mesurer l’importance d’un microbloggeur dans un graphe composé par les utilisateurs et les tweets. Jabeur et al. (2012) utilisent un modèle bayésien pour mesurer la pertinence d’un tweet représenté dans un graphe composé par les termes, les tweets, les utilisateurs et même des périodes temporelles. Ravikumar et al. (2012), quant à eux, représentent les URLs publiées dans les tweets et les liens d’hypertextualité entre elles en plus des tweets et des utilisateurs. Les approches de la deuxième catégorie ont exploité des liens sociaux, de tout genre, mais en relation avec le tweet lui même. Une troisième catégorie d’approches exploite les informations sociales de celui qui cherche l’information en plus des informations sociales reliées aux tweets. L’idée ainsi est de comparer les informations sociales des deux côtés afin de restituer des résultats personnalisés. Uysal et Croft (2011) ont mesuré la distance entre l’auteur du tweet et le chercheur d’information à travers plusieurs critères tels que : l’existence d’une relation directe entre eux, l’existence d’un retweet ou d’une citation de l’un à l’autre, l’emploi de mêmes hashtags, la publication de mêmes URLs dans leurs tweets. . . C’est le principe aussi de l’approche proposée dans (Feng et Wang, 2013). Les auteurs ont utilisé des critères comme la similarité entre les abonnés de l’auteur du tweet et celui qui le cherche, puis la similarité entre la date de la dernière interaction entre eux. 51CHAPITRE 2. RI DANS LES MICROBLOGS Disciple Retweet Hypertexte Microbloggeurs Tweets Web Termes Périodes Co-occurences Tweeté par URL Cite Figure 2.7 – Les réseaux constituables à partir des données de Twitter Les intuitions diffèrent d’une méthode à une autre. Cependant, peu de travaux ont essayé de comparer les différentes approches. Kwak et al. (2010) ont comparé deux approches pour mesurer l’importance des utilisateurs. Dans la première approche, ils ont appliqué l’algorithme PageRank sur le réseau composé par les liens d’amitié. La deuxième approche estime l’importance d’un utilisateur en fonction de la fréquence des messages d’un utilisateur retweetés par ces abonnés. L’analyse a montré un désaccord total entre les résultats de ces deux approches, ce qui montre que la définition de l’importance d’un utilisateur, dans le cas des microblogs, nécessite encore beaucoup de recherche. 3.3 Facteur de pertinence temporelle Pour les requêtes qui concernent les événements et les « buzz », il est crucial de prendre en compte la fraîcheur des résultats dans la mesure pertinence. Le microblogging, système temps-réel par excellence, incite les utilisateurs à exprimer leurs opinions et discuter en temps-réel. Ainsi, la prise en compte du temps est primordiale dans la recherche de microblogs. La caractéristique temporelle des microblogs a été employée de différentes manières et avec différentes intuitions. Les premiers travaux ont tout simplement essayé de favoriser les microblogs récents. Plus un microblog est proche de la requête, plus il est susceptible d’être pertinent. Cette intuition est concrétisée en calculant un score de fraîcheur du document, en termes de différence temporelle entre la date de la soumission de la requête et la date de publication du document. Ce score est ensuite intégré dans le modèle de recherche (Massoudi et al., 2011) ou bien utilisé 52CHAPITRE 2. RI DANS LES MICROBLOGS comme un attribut parmi d’autres dans un modèle d’apprentissage (Cheng et al., 2013). Le facteur temporel a été employé également dans les modèles de RI classiques. Par exemple, Efron et Golovchinsky (2011) se sont basés sur les microblogs récents pour lisser les scores dans le modèle de langue : le degré de lissage des résultats les plus éloignés temporellement était plus élevé, afin de favoriser les résultats récents. Enfin, les résultats récents ont été utilisés pour sélectionner les microblogs représentant le modèle de pertinence (Efron et Golovchinsky, 2011 ; Kumar et Carterette, 2013). Outre pour le calcul de pertinence, le temps a été employé dans l’extension des requêtes. Plus précisément, il est utilisé pour sélectionner le fragment de temps contenant les documents susceptibles d’avoir des termes utiles pour l’extension. La meilleure période contenant les documents les plus prometteurs pour l’extension a été choisie en fonction du taux de tweets publiés sur le sujet de la requête (Efron, 2011b), du taux des tweets retweetés sur le sujet de la requête (Choi et Croft, 2012), ou bien des tweets qui sont proches temporellement de la requête (Massoudi et al., 2011). D’autres travaux sont allés plus loin en analysant les variations temporelles dans la liste des résultats initiaux (Miyanishi et al., 2013). Ainsi, le nombre de résultats utilisés pour étendre les requêtes de chaque période est proportionnel au taux de tweets publiés dans cette période sur le sujet de la requête. Finalement, le temps a été utilisé pour enrichir la représentation et extraire de l’information supplémentaire des microblogs et des requêtes. En considérant les dates de publication des microblogs similaires à un microblog, Efron et al. (2012) génèrent le profil temporel d’un microblog. Ce profil permet de mesurer l’implication du microblog à des événements qui ont été discutés à différents moments dans le temps. Ensuite, cette mesure va être comparée avec la distribution temporelle de la requête en tant que mesure de similarité. 3.4 Facteur de pertinence d’hypertextualité Les microbloggeurs peuvent partager plusieurs URLs dans leurs microblogs. En fait, les microbloggeurs partagent également des URLs dans leurs statuts pour attirer l’attention de leurs amis sur une nouvelle information contenue dans une page web, souvent pas encore indexée par les moteurs de recherche classiques. Ces pages représentent ainsi de l’information enrichissante par rapport au seul contenu du tweet. Les URLs ont souvent été utilisées dans la restitution des microblogs en réponse à une requête. La finalité est d’améliorer la qualité des résultats, certes, mais les manières d’intégrer ces URLs diffèrent d’une approche à une autre. Les URLs ont été employées dans un premier temps comme facteur de pertinence. En réalité, c’est 53CHAPITRE 2. RI DANS LES MICROBLOGS leur présence qui reflète la pertinence du tweet pour (Cheng et al., 2013). D’autres approches ont raffiné le critère en calculant la fréquence plutôt que la présence d’une URL (Zhao et al., 2011 ; Duan et al., 2010). Ces deux critères ont été employés avec d’autres, que ce soit dans des combinaisons linéaires ou dans des algorithmes d’apprentissage. Malgré leur simplicité, ces critères ont montré un fort impact dans l’amélioration de la qualité des résultats (Damak et al., 2013). D’autre part, les URLs ont été utilisées comme des éléments parmi d’autres pour caractériser l’écosystème des plate-formes de microblogging. Le réseau formé par ces éléments est utilisé pour mesurer la centralité des tweets, ainsi que leur fiabilité (Ravikumar et al., 2012). Enfin, le contenu des URLs est utilisé pour enrichir le vocabulaire des tweets, limités en longueur. Certaines approches ont utilisé le contenu dans la définition du modèle du document avec le modèle de langue (Zhongyuan et al., 2012). D’autres, comme McCreadie et Macdonald (2013), ont représenté chaque microblog comme une composition multidimensionnelle dont les dimensions sont le contenu du microblog et le contenu des URLs si elles existent. . . . Généralement, quelle que soit la manière avec laquelle les URLs sont exploitées, elles améliorent remarquablement la qualité des résultats. 3.5 Autres facteurs de pertinence D’autres facteurs peuvent être utilisés pour la recherche de microblogs. Les facteurs de qualité des microblogs sont indépendants de la requête. Avec les particularité des microblogs (qualité du langage, longueur faible . . . ), ces critères sont essentiels pour estimer la qualité d’un microblog. Voici les critères les plus populaires dans la littérature : – Longueur du microblog : nombre de termes dans le microblog. La longueur d’une phrase reflète la quantité d’information qu’elle véhicule (Zhao et al., 2011 ; Magnani et al., 2012 ; Metzler et Cai, 2011 ; Duan et al., 2010). – Fréquence de Retweets : nombre de fois qu’un tweet a été retweeté. Si un utilisateur repartage un tweet, alors ceci suggère qu’il a trouvé son contenu intéressant (Zhao et al., 2011 ; Magnani et al., 2012 ; Vosecky et al., 2012 ; Duan et al., 2010). – Fréquence de hashtags : nombre de hashtags dans un tweet. Les hashtags sont utilisés pour définir un topic pour le tweet, ou bien pour s’intégrer à une conversation (Duan et al., 2010). – Réponse : indique que le microblog est une réponse à un autre. Ceci montre qu’il ne s’agit pas d’un message isolé et sans interaction (Vosecky et al., 2012 ; Metzler et Cai, 2011 ; Duan et al., 2010). – Qualité du langage : les microbloggeurs ne font pas en général très attention 54CHAPITRE 2. RI DANS LES MICROBLOGS en écrivant les tweets. Il peuvent également abréger certains mots à cause de la contrainte liée à la longueur restreinte des tweets. Ce critère calcule le ratio des termes correctement orthographiés par rapport à tous les termes du microblogs (Metzler et Cai, 2011). Han et Baldwin (2011) ont proposé d’améliorer la qualité des microblogs en corrigeant les termes mal-orthographiés. Ils tiennent compte du contexte du tweet pour proposer les corrections convenables pour les termes erronés. – Sentiment : les microblogs reflétant des sentiments sont pertinents lorsqu’un utilisateur cherche des avis sur des produits ou des événements. Ce critère est mesuré en calculant le ratio des termes exprimant des sentiments par rapport à la longueur du tweet (Cheng et al., 2013). 3.6 Bilan Le tableau 2.2 résume la majorité des critères de pertinence que nous venons de décrire, souvent utilisés en complément de la pertinence textuelle. Certaines approches qui les emploient les combinent linéairement (Zhao et al., 2011 ; Massoudi et al., 2011). D’autres approches ont employé des techniques d’apprentissage pour les considérer dans la restitution (Duan et al., 2010 ; Cheng et al., 2013 ; Uysal et Croft, 2011). 4 Évaluation de la RI dans les microblogs Comme nous l’avons vu au chapitre 1, l’évaluation en RI se fait principalement à travers les collections de tests, souvent construites dans le cadre de campagnes d’évaluation. La RI dans les microblogs ne déroge pas à cette règle, avec la mise en place de la tâche Microblog dans la campagne d’évaluation TREC. 4.1 La tâche TREC Microblog Il s’agit, pour un moteur de recherche, de fournir les tweets dont le contenu satisfait un besoin en information exprimé sous forme de mots clés (tâche adhoc). Les systèmes proposés doivent retrouver les résultats pertinents, mais aussi les plus récents, par rapport à la date de soumission de la requête (real-time retrieval). Les résultats doivent être publiés avant la date de la soumission de la requête. Depuis 2011, trois versions de cette tâche ont été mises en œuvre (2011, 2012 et 2013). La collection de test Tweets2011 comprend : – 16 millions de tweets (0,5 Go) exprimés dans diverses langues et publiés sur Twitter entre le 23 janvier 2011 et le 8 février 2011, 55CHAPITRE 2. RI DANS LES MICROBLOGS Tableau 2.2 – Critères de pertinence Critère Références Popularité du tweet dans la liste de résultats (Duan et al., 2010 ; Ben Jabeur, Damak, et al., 2012) Nombre de termes en commun entre le tweet et la requête (Damak et al., 2011) Nombre de fois que le tweet à été retweeté (Zhao et al., 2011 ; Magnani et al., 2012 ; Vosecky et al., 2012 ; Duan et al., 2010) Nombre de hashtags dans le tweet (Duan et al., 2010) Présence de hashtags dans le tweet (Vosecky et al., 2012 ; Metzler et Cai, 2011) Popularité des hashtags dans la collection (Vosecky et al., 2012) Longueur du tweet (Zhao et al., 2011 ; Magnani et al., 2012 ; Metzler et Cai, 2011 ; Duan et al., 2010) Présence d’URLs dans le tweet (Vosecky et al., 2012 ; Massoudi et al., 2011 ; Metzler et Cai, 2011 ; Duan et al., 2010) Nombre D’URLs dans le tweet (Zhao et al., 2011) Popularité de l’URL dans la collection (Vosecky et al., 2012) Le tweet est-il une réponse ? (Vosecky et al., 2012 ; Metzler et Cai, 2011 ; Duan et al., 2010) Nombre de tweets de l’auteur (Zhao et al., 2011) Nombre d’abonnés de l’auteur (Magnani et al., 2012 ; Massoudi et al., 2011 ; Duan et al., 2010 ; Zhao et al., 2011) Nombre de mentions de l’auteur (Vosecky et al., 2012 ; Duan et al., 2010) Différence temporelle entre le tweet et la requête (Magnani et al., 2012 ; Vosecky et al., 2012 ; Metzler et Cai, 2011) Qualité du language du tweet (Metzler et Cai, 2011) Sentiment positif/négatif dans le tweet (Cheng et al., 2013) – 49 topics dont on trouvera un exemple en figure 2.8. La balise title décrit le besoin exprimé à un moment donné (querytime). Ce moment correspond concrètement à la date de publication du tweet le plus récent de la requête, 56CHAPITRE 2. RI DANS LES MICROBLOGS – les jugements de pertinence (qrels) associées aux 49 topics. La pertinence de chaque tweet est ternaire : non pertinent, moyennement pertinent et hautement pertinent. Tout tweet exprimé dans une langue autre que l’anglais est non pertinent. Il en est de même pour les retweets et les tweets identifiés comme spam par les assesseurs. < top > < num > Number: MB007 < title > Pakistan diplomat arrest murder < querytime > Tue Feb 08 22 :56:33 +0000 2011 < querytweettime > 35109758973255680 Figure 2.8 – Exemple de topic pour la tâche Microblog La collection de test Tweets2012 comprend : – le même corpus de tweets que celui de 2011, – 60 nouvelles requêtes avec leurs jugements de pertinence. Seuls les tweets hautement pertinents ont été considérés dans l’évaluation des systèmes. La collection de test Tweets2013 comprend : – une nouvelle collection de 240 millions de tweets (70 Go), publiés dans la période du 1er février 2013 au 31 mars 2013. Cette collection est accessible uniquement à travers une API (contrairement à l’ancienne collection). – 60 nouvelles requêtes avec les jugements de pertinence associés. En 2012, une deuxième évaluation a été introduite, real-time filtering. L’objectif est d’évaluer la capacité des systèmes à indexer le flux des tweets en temps reél et d’en extraire les tweets pertinents pour un besoin en information. Cette tâche n’entrant pas dans notre problématique de recherche, nous ne la détaillons pas davantage. 4.2 Discussion sur les mesures d’évaluation De façon usuelle, les moteurs de recherche trient les résultats en fonction du score de pertinence des documents. Ce n’est pas le cas dans la tâche Microblog de TREC, qui promeut la recherche temps réel (real-time search). Cela se traduit par une préférence pour les tweets les plus proches temporellement de la requête. Au niveau de la procédure d’évaluation en 2011, cette contrainte est mise en œuvre en réordonnant les résultats (runs) d’un moteur de recherche en fonction de l’attribut querytweettime des tweets (le champ sim – score de similarité – du run est recalculé en fonction). Cette prise en compte a suscité une ambiguïté dans l’interprétation des scores des participants : il n’y a pas de moyen pour identifier les systèmes qui ont considéré la fraîcheur dans la mesure de pertinence. Nous notons, à titre indicatif, que les meilleurs systèmes de cette édition sont les systèmes qui se basent sur la 57CHAPITRE 2. RI DANS LES MICROBLOGS pertinence textuelle en réalisant une coupure (cut-off ) agressive (càd. X tweets). Cette prise en compte temporelle a été écarté à partir de l’édition de 2012. Deux mesures officielles ont été considérées dans les trois versions de la tâche : la précision à 30 documents (P@30) et la précision moyenne (AP). Notons que ces mesures ont été calculées en considérant tous les tweets pertinents (all-rel) en 2011 et 2013 ou uniquement les tweets hautement pertinents (high-rel) en 2012. Les valeurs de ces mesures, pour chaque requête, sont moyennées pour obtenir le score global d’un système (P@30 moyennée et MAP). Le classement des systèmes a été réalisé sur la P@30 moyennée, la MAP étant uniquement donnée à titre indicatif. En 2012, les courbes ROC ont été également données à titre indicatif. Notons également que les systèmes ont des caractéristiques différentes : intervention manuelle ou pas (run automatique), utilisation de sources externes ou pas, utilisation de sources futures (dont la publication est postérieure à la date de la requête) ou pas. Bien évidemment, les résultats sont à apprécier en groupant au préalable les systèmes possédant des caractéristiques similaires. 5 Bilan et limites de l’état de l’art Le microblogging est une nouvelle source d’information en pleine croissance, fortement exploitée par les utilisateurs pour partager et trouver de l’information. Plusieurs chercheurs se sont focalisés sur l’accès à l’information à partir de cette source. Les travaux réalisés extraient différents types d’informations (personnes, tendance, opinion. . . ). Dans cette thèse, nous nous concentrons uniquement sur la recherche adhoc de microblogs. Pour ce type d’information, plusieurs approches avec différentes intuitions ont été proposées. La grande majorité des travaux ont défini des facteurs de pertinence supplémentaires par rapport à celui de la seule pertinence textuelle. Cependant, les chercheurs n’ont pas examiné de près les problèmes des approches de la RI classique. C’est pourquoi, dans nos travaux, nous avons commencé dans un premier temps par (i) la réalisation d’une analyse de défaillance des modèles de RI classiques afin d’identifier les facteurs principaux limitant leur efficacité sur ce type de contenu (chapitre 3). Nous avons trouvé que la majorité des problèmes sont dus au vocabulaire limité induit par la faible longueur des tweets. C’est pourquoi (ii) nous avons compensé ce problème en appliquant des techniques d’expansion de requêtes et de microblogs (chapitre 4). Nous avons montré dans l’état de l’art que la majorité des approches emploient une multitude de facteurs de pertinence en plus de la pertinence textuelle. Cependant, peu de travaux ont essayé d’évaluer leurs impact réel dans la restitution. Nous avons ainsi (iii) réalisé une étude des critères souvent utilisés dans les travaux afin 58CHAPITRE 2. RI DANS LES MICROBLOGS de déterminer ceux qui reflètent vraiment la pertinence (chapitre 5). Par définition, la recherche d’information dans les microblogs implique automatiquement la prise en compte de la fraîcheur dans la mesure de la pertinence. Le dernier chapitre de notre contribution (chapitre 6) (iv) traite particulièrement ce facteur et l’impact de son emploi sur la qualité des résultats. 59ContributionChapitre 3 Analyse de défaillance des modèles de RI classique sur les microblogs 1 Introduction La majorité des approches présentées dans la littérature pour la recherche de microblogs emploient différents facteurs de pertinence en plus de la pertinence textuelle comme, par exemple, la popularité de l’auteur du microblog, la qualité du langage utilisé, la fraîcheur, etc. Toutefois, la pertinence textuelle est toujours considérée comme le facteur principal de pertinence. Cette pertinence textuelle est généralement calculée avec des modèles de RI classiques (Ounis et al., 2011, 2012). Ces modèles se basent principalement sur les fréquences des termes et les longueurs des documents (modèles sac de mots). Cependant, dans le cas des microblogs, le nombre de termes par microblog est en moyenne égal à 15 et chaque terme n’apparaît qu’une seule fois. Dans ce chapitre, nous présentons une analyse de défaillance réalisée pour dé- terminer le comportement des modèles de RI classiques sur les microblogs. Les observations tirées de cette analyse nous permettront d’identifier les pistes à exploiter pour gérer cette forme de contenu de façon plus pertinente. 2 Méthodologie Notre analyse a pour but de déterminer les facteurs pénalisant les modèles de RI classiques dans la restitution de microblogs. Pour ce faire, nous avons analysé les microblogs pertinents mais non restitués avec un modèle de RI classique. Nous nous sommes basés, dans notre analyse, sur la collection TREC Microblog et sur les requêtes des tâches de 2011 et 2012. Nous avons employé le modèle vectoriel comme modèle de RI classique, et ce pour deux raisons : d’une part, ce modèle est souvent utilisé en RI et a toujours prouvé son efficacité (Baeza-Yates et Ribeiro-Neto, 1999). 61CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE SUR LES MICROBLOGS En outre, ce modèle est considéré comme baseline dans les éditions 2011 et 2012 de la tâche Microblog de TREC. La question de recherche liée à cette analyse est la suivante : les facteurs limitant les modèles de recherche classiques sont-ils dus : – à la taille réduite des microblogs ? – au vocabulaire limité des microblogs ? – à la syntaxe (@mention et #hashtag) fréquemment utilisée dans les microblogs ? – à la qualité du langage utilisé par les utilisateurs ? Dans un deuxième temps, nous avons examiné le contenu pointé par les URLs accompagnant les tweets. L’objectif est d’avoir une idée de l’impact de leur prise en compte dans la restitution et de leur potentiel d’enrichissement du contenu des tweets. 3 Expérimentations 3.1 Cadre expérimental Nos expérimentations ont reposé sur le moteur de recherche open source Lucene 1 , qui implémente une version modifiée du modèle vectoriel présentée dans (Cohen et al., 2007). La version de Lucene que nous utilisons intègre le lemmatiseur Porter (1980) et utilise une liste de mots vides. Nous avons modifié cette version de sorte que la recherche ne tienne compte que des tweets publiés avant le querytime de chaque topic, que ce soit dans la mesure de la pertinence ou bien au niveau de la restitution des résultats. En effet, dans la recherche de microblogs et afin de respecter la contrainte de recherche en temps-réel, nous devons nous positionner à l’instant où la requête est soumise. Dans un contexte réaliste d’emploi du moteur de recherche de microblogs, les tweets publiés après le querytime de la requête ne sont évidemment pas connus ! Pour nos analyses, nous avons conservé les 1500 premiers tweets restitués par Lucene pour chaque requête. 3.2 Observations Lucene, dans sa configuration décrite ci-dessus, obtient un rappel moyen de 0,7188 avec les requêtes de 2011 et de 0,6340 avec les requêtes de 2012. Même si le modèle vectoriel arrive à restituer une bonne proportion des documents pertinents, le nombre des documents pertinents non restitués varie d’une requête à une autre. 1. http://lucene.apache.org 62CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE SUR LES MICROBLOGS Les deux figures 3.1 et 3.2 montrent les proportions des tweets pertinents restitués par le modèle vectoriel par rapport à tous les tweets pertinents pour les requêtes des éditions de 2011 et de 2012. Feuille1_2 Page 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 0 20 40 60 80 100 120 140 160 180 200 Pertinents non retrouvés Pertinents retrouvés Nombre de tweets Figure 3.1 – Répartition des tweets pertinents restitués avec le modèle vectoriel par rapport à tous les tweets pertinents connus pour chaque requête de 2011 Feuille1 Page 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 0 100 200 300 400 500 600 700 Pertinents non retrouvés Pertinents retrouvés Nombre de tweets Figure 3.2 – Répartition des tweets pertinents restitués avec le modèle vectoriel par rapport à tous les tweets pertinents connus pour chaque requête de 2012. Dans la suite, on note chaque requête par « son numéro »/« édition de TREC ». Sur l’ensemble des 109 requêtes de 2011 et 2012, le modèle vectoriel restitue tous les tweets pertinents de 22 requêtes. Pour 30 requêtes, moins de 5 documents pertinents 63CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE SUR LES MICROBLOGS sont manquants. C’est le cas par exemple des requêtes BBC World Service staff cuts (1/2011), MSNBC Rachel Maddow (34/2011), release of "Known and Unknown" (14/2011), Starbucks Trenta cup (12/2012) et Tea Party caucus (53/2012). Pour les autres requêtes, le nombre de documents pertinents non retrouvés varie d’une requête à une autre. Par exemple, sept documents pour Giffords’ recovery (37/2011), 23 pour Holland Iran envoy recall (42/2011), 68 pour Mexico drug war (4/2011), 78 pour release of "The Rite" (14/2011) , 179 pour smartphone success (31/2012) et 345 pour fishing guidebooks (10/2012) qui représentent le nombre le plus grand de tweets non restitués pour une requête. Nous notons également que le nombre de tweets non restitués n’est pas proportionnel avec le nombre de tweets pertinents de la requête. Par exemple, le modèle vectoriel n’a pas restitué uniquement 5 tweets pertinents pour la requête Moscow airport bombing (36/2011) ayant pourtant 151 documents pertinents et 44 documents pour la requête reduce energy consumption (27/2011) ayant pourtant 74 documents pertinents en totalité. Ou encore, pour la requête farmers markets opinion (21/2012), le modèle vectoriel identifie 68 tweets pertinents sur 76, soit 90 % de rappel. Cependant, pour le topic The daily (4/2012) 66 tweets pertinents parmi les 266 ont été restitués, soit un rappel de 25 %. Nous avons analysé les résultats requête par requête pour identifier les problèmes auxquels les modèles de RI sont confrontés et qui pénalisent notamment le rappel. Le problème le plus remarquable observé à l’issue de notre analyse est la différence de vocabulaire (vocabulary mismatch) entre la requête et les tweets pertinents. Ce problème est bien connu en recherche d’information (Furnas et al., 1988). Dans notre cas, on le rencontre sous plusieurs formes. 1. Absence totale des termes de la requête dans les documents pertinents. Nous avons observé qu’un nombre important de tweets traite du sujet de la requête sans avoir, pour autant, aucun terme en commun avec cette dernière. C’est le cas par exemple de la requête Amtrak train service (23/2011). Ce phénomène concerne 29 documents pertinents parmi 35 non retrouvés. Ces documents traitent des fonds réservés pour construire une nouvelles ligne de train ou relatent les difficultés des voyageurs. C’est le cas également de la requête Obama birth certificate (41/2011). Certains documents évoquent des confusions sur la nationalité du président. Nous pouvons également citer le topic British Government Cuts (1/2012), pour lequel ont été jugés pertinents des tweets qui traitent des licenciements dans le secteur public, de la baisse des salaires des employés dans certains secteurs, des coupes de budgets consacrés aux Jeux Olympiques, etc. Ce phénomène est présent pour 58 requêtes sur 109 (53 %), à hauteur de 40 % 64CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE SUR LES MICROBLOGS des tweets pertinents non restitués. Plus précisément, ce problème apparaît pour au moins 1 800 tweets pertinents non restitués parmi les 4 448 tweets pertinents non restitués que nous avons au total sur toutes les requêtes. 2. Problèmes des noms propres et des entités nommées. Une première remarque concerne les noms propres orthographiés de différentes manières. Par exemple, pour le topic Glen Beck (9/2012), dans certains tweets pertinents les utilisateurs emploient Glenn plutôt que Glen. Également, pour le topic Bieber and Stewart trading places (13/2012), les utilisateurs emploient les prénoms justin et jon. Les entités nommées peuvent également être écrites de différentes manières : dans le topic anti-bullying (40/2012) les tweets non restitués contiennent cyberbulling plutôt que bullying. C’est le cas également du topic Superbowl commercials (49/2012), pour lequel les auteurs utilisaient généralement super bowl en deux termes, ou encore Bed bug au lieu de bedbug (2/2012). D’autre part, nous avons remarqué que certaines requêtes contiennent des entités nommées contenant des prépositions. Cependant, Lucene prend en compte les prépositions comme des termes vides et les élimine, ce qui modifie le sens de la requête. C’est le cas par exemple de la requête release of "the Rite" (14/2011). C’est la cas également de la requête the daily, le moteur de recherche a extrait des tweets contenant le terme daily plutôt que des tweets traitant du journal the daily (266 tweets pertinents non retrouvés parmi les 332 pertinents du topic). Ceci résulte de notre utilisation d’une liste de mots vides. Cette requête aurait probablement conduit à de meilleurs résultats si elle avait été traitée sous forme d’expression. Les problèmes liés aux entités nommées sont présents dans 7 topics sur 119 (5 %), à hauteur de 50 % des tweets pertinents non restitués. Plus précisé- ment, au moins 546 tweets pertinents non restitués sur les 4 448 présentent ce phénomène. 3. Problèmes de lemmatisation. Une première remarque est que des termes différents ne sont pas appariés, alors qu’ils relèvent d’une même racine. Par exemple, pour la requête somalian piracy (57/2012) étaient présents dans les tweets jugés pertinents les termes pirates ou pirate. La requête global warming and weather (29/2011) contient le terme « warmism » et non pas « warming ». Nous avons constaté également ce problème avec les requêtes contenant des termes qui reflètent la nationalité ou des noms de pays. Les documents pour ces requêtes contiennent les noms des pays et non pas les nationalités telles qu’elles apparaissent dans les requêtes ou l’inverse. C’est le cas par exemple de la requête Mexico drug wars (4/2011). Les documents non restitués de cette 65CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE SUR LES MICROBLOGS requête contiennent souvent le terme « Mexican ». C’est le cas également de la requête Pakistan diplomat arrest (7/2011) où les documents contiennent le terme « pakistani ». D’autre part, nous avons remarqué l’apparition des termes de la requête concaténés sous forme de #hashtags ou de @citation. Par exemple, dans le topic texting and driving (54/2012) tous les tweets pertinents non restitués contiennent les termes de la requête mais concaténés en un hashtag (#donttextanddrive). C’est le cas de la requête BBC World Service staff cuts (1/2011) le document non restitué contient le hashtag #BBCWorldService. Pour la requête Taco Bell filling lawsuit (20/2011) certains documents non restitués contiennent le hashtag #TacoBell ou la citation @TacoBell. . . Les lemmatiseurs utilisés par les moteurs de recherche — Porter (1980) dans notre cas — sont incapables de résoudre ce type de problème, ce qui explique l’impossibilité de Lucene à restituer ces tweets. Ce phénomène est clairement présent dans 13 topics sur 109. Plus précisément, cela représente au moins 210 tweets pertinents non retrouvés sur les 4 448. 4. Acronymes écrits de différentes manières. C’est le cas du topic FDA approval of drugs (8/2012), pour lequel les tweets pertinents contenaient également l’acronyme USFDA. Nous avons également constaté que pour le topic NCIS (27/2012) plusieurs tweets pertinents contenaient la signification de l’acronyme : Naval Criminal Investigative Service. Ce phénomène est présent clairement dans deux topics sur 109, à hauteur de 50 % des tweets pertinents non restitués. Cela représente au moins 50 tweets pertinents non restitués sur les 4 448. Outre la différence de vocabulaire, nous avons remarqué que tous les termes des requêtes n’apparaissent pas avec la même importance dans les requêtes. Certains termes des requêtes n’aident ainsi pas à sélectionner les tweets pertinents. Ce phénomène apparaît de trois manières : (i) des requêtes contenant des termes qui n’apparaissent pas dans la majorité des documents pertinents non restitués, (ii) des requêtes contenant des termes qui apparaissent toujours, même dans les document non pertinents retrouvés et (iii) des requêtes composées uniquement de termes concernés par (i) ou (ii). Par exemple du premier cas (i), les documents non retrouvés de la requête 2022 FIFA soccer (2/2011) ne contiennent jamais le terme “soccer”. Les documents non retrouvés de la requête phone hacking British politicians (7/2011) ne contiennent jamais le terme “politicians”. Dans la requête fishing guidebooks (10/2012), 345 tweets pertinents non retrouvés parmi les 524 pertinents du topic 66CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE SUR LES MICROBLOGS ne contiennent pas le terme guidebooks, ni un dérivé de ce terme. Comme exemple du deuxième cas, les documents non retrouvés de la requête Super Bowl, seats (24/2011) où Super bowl apparaît dans tous les documents restitués et les documents pertinents non restitués. Toutefois, ce phénomène n’a été observé que pour cette requête. Pour le troisième cas, les documents non restitués de la requête Emanuel residency court rulings (21/2011) ne contiennent jamais les termes Emanuel, residency et ruling, mais contiennent tous le terme court. C’est également le cas de la requête reduce energy consumption (27/2011) pour lequel les documents non restitués ne contiennent jamais les termes reduce et consumption mais contiennent toujours le terme energy. Ce phénomène a été observé dans 17 requêtes sur les 50 et a empêché la restitution d’au moins 200 documents pertinents. De façon identique, nous avons constaté que, dans le cas des requêtes contenant des entités nommées, les tweets pertinents non retrouvés contiennent ces entités nommées, mais sans les autres termes des requêtes. Par exemple, pour le topic McDonalds food (28/2012), tous les tweets non restitués contiennent seulement le terme McDonalds parmi tous les termes de la requête (350 tweets pertinents non restitués parmi 572 tweets pertinents de cette requête). Suite à ces observations, nous avons voulu savoir pour combien de tweets la prise en compte des contenus des URL qu’ils contiennent permettrait de régler ce problème de vocabulaire. En d’autres termes, nous avons voulu savoir si les termes des requêtes non présents dans des tweets pertinents étaient présents dans les documents pointés par les URL. Nous avons donc analysé le contenu des URL des tweets pertinents non restitués et nous avons constaté que leur prise en compte aiderait à retrouver des tweets pertinents dans 41 topics sur 109 (37 %). Cela représente au moins 800 tweets pertinents non restitués. 4 Synthèse Le tableau 3.1 résume les différentes observations de notre analyse, qui sont des problèmes classiques de la RI. Leurs effets sont cependant amplifiés avec les microblogs à cause de leur faible longueur, ce qui implique un vocabulaire limité. Quel que soit le modèle de RI utilisé, mesurer la similarité entre une requête qui ne dépasse souvent pas quatre termes et un microblog composé en moyenne de 15 termes revient à une présence ou absence des termes de la requête dans un microblog, dans la majorité des cas. Au niveau des analyses des facteurs limitant l’efficacité du modèle de recherche sur les microblogs, nous avons montré que le problème principal, comme attendu, 67CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE SUR LES MICROBLOGS Cause de la défaillance Pourcentage de tweets non restitués sur 4 448 pertinents au total Pourcentage de requêtes concernées sur 109 requêtes Absence totale des termes des topics dans les tweets pertinents ' 40,46 % 51,21 % Termes des requêtes avec des importances différentes ' 20,12 % 16,51 % Termes des requêtes à traiter sous forme d’expression et/ou sans liste de mots vides ' 7,77 % 2,75 % Noms propres et entités nommées orthographiés de différentes manières ' 4,49 % 4,58 % Termes non appariés mais dérivant d’une même racine ' 4,04 % 8,25 % Termes de la requête concaténés sous forme de hashtag ou de citation ' 1,79 % 6,42 % Acronymes écrits de différentes manières ' 1,12 % 1,83 % Tableau 3.1 – Récapitulatif des différents facteurs limitant l’efficacité du modèle de recherche sur les microblogs provient de la concision des microblogs. Cette concision engendre une correspondance limitée entre les termes des microblogs et les termes des requêtes, même s’ils sont sémantiquement similaires. Ce fait est apparu de différentes manières : absence totale des termes de certaines requêtes dans les tweets pertinents, noms propres et entités nommés orthographiés de différentes manières. . . Nous avons fréquemment identifié des problèmes de lemmatisation : termes non appariés même si dérivant d’une même racine ou des termes concaténés pour former des hashtags ou des citations. Outre les problèmes de vocabulaire, nous avons remarqué que, pour certaines requêtes, les termes n’ont pas un caractère discriminant. Ces termes sont fréquemment présents dans les documents pertinents et les documents non pertinents ou bien ils n’apparaissent jamais. De manière générale, les problèmes soulevés avec les requêtes de 2011 sont les mêmes pour les requêtes de 2012. Cependant, les requêtes de 2012 contiennent un nombre plus important de tweets pertinents, ce qui les rend plus difficiles (2 864 68CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE SUR LES MICROBLOGS tweets pertinents pour les 49 requêtes de 2011 / 6 286 tweets pertinents pour les 60 requêtes de 2012). Nous avons montré que la plupart des problèmes de la recherche d’informations dans les microblogs ne dépend pas du modèle de recherche. Ces problèmes ne concernent pas les fréquences des termes dans les microblogs, ou bien la distribution des termes dans les microblogs. Ce sont plutôt des problèmes de vocabulaire et des problème de lemmatisation. Le problème de vocabulaire, avec ses différentes formes observées, ou bien les problèmes de lemmatisation, peuvent affecter l’efficacité de n’importe quel modèle qui se base uniquement sur le contenu textuel brut des microblogs et avec les requêtes avec leurs descriptions initiales. Cependant, un problème, tel que les termes de requêtes qui ont des importances différentes, regarde exactement le fonctionnement des modèles de recherche, et sa gravité dépend fortement de la manière avec laquelle un modèle calcule les scores de pertinence. La prise en compte de la fréquence du terme dans la collection (IDF) joue ainsi un rôle très important ici. Le problème de vocabulaire semble surmontable avec l’expansion de requêtes et de documents. Les termes à caractère non discriminant peuvent être pondérés en exploitant le feedback. C’est pourquoi, dans le chapitre suivant, nous présenterons les différentes méthodes d’expansion de requêtes et de documents que nous avons appliquées pour surmonter le problème du vocabulaire souvent rencontré dans la recherche d’information dans les microblogs. 69CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE SUR LES MICROBLOGS 70Chapitre 4 Expansion de requêtes et de documents pour la recherche de microblogs 1 Introduction À travers l’analyse de défaillance conduite et présentée dans le chapitre précé- dent, nous avons montré que le vocabulaire limité lié à la taille réduite des microblogs est le facteur empêchant le plus les SRI de restituer des microblogs pertinents. Notre objectif, dans ce chapitre, est de proposer des éléments de solutions pour surpasser ces limites : absence de termes en commun entre les requêtes et les microblogs, termes des requêtes n’ayant aucun caractère discriminant, entités-nommées orthographiées de différentes manières, problèmes de lemmatisation, termes concaténés. . . Une solution au problème du vocabulaire est l’expansion de requêtes ou de documents (technique connue en RI). Nous proposons ici d’améliorer la représentation des requêtes. Dans un premier temps, nous exploitons des ressources externes pour étendre les requêtes. Ces ressources comprennent des articles d’actualité ainsi que la base lexicale WordNet. Nous testons également l’impact de méthodes de ré-injection de pertinence (telles que Rocchio et BM25). Nous proposons également d’améliorer la représentation des microblogs. Nous testons quelques méthodes pour améliorer la représentation des microblogs, telles que l’expansion des hashtags et l’exploitation des contenus des URLs publiées dans les microblogs. 2 Expansion de requêtes Pour améliorer la représentation des requêtes, nous avons considéré différentes ressources. Certaines sont externes par rapport à la collection de tweets. L’infor- 71CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS mation dans les tweets étant très dépendante du temps, nous avons employé des ressources sensibles au temps pour étendre les requêtes, telles que les articles des actualités publiés dans les journaux les plus populaires dans le monde. D’autre part, nous avons exploité la base lexicale WordNet pour trouver les différents aspects des requêtes et l’API de correction orthographique du moteur de recherche Bing pour trouver les différentes formes des entités nommées. En outre, nous avons étendu les requêtes à partir des tweets en appliquant des techniques de ré-injection de pertinence (relevance feedback). Pour réaliser les expérimentations qui suivent , nous nous sommes basés sur les 60 requêtes de TREC Microblog 2012. Pour chaque requête, nous avons considéré les 1500 premiers tweets restitués avec le modèle vectoriel. La validation des améliorations ou des dégradations est réalisée selon le test t de Student pairé et bilatéral avec p < 0,05. Nous nous sommes basés sur le run obtenu avec le modèle vectoriel implémenté dans Lucene comme baseline. 2.1 Exploitation des articles d’actualités La première source que nous avons considérée est constituée des actualités publiées de façon concomitante aux requêtes. Nous avons en effet remarqué que la majorité des topics des requêtes portent sur des actualités (50 % des topics). Pour cette raison, nous proposons d’étendre les requêtes avec des mots-clés extraits à partir des articles de presse publiés sur le sujet du topic. Les API du NYTimes 1 et du Guardian 2 permettent d’obtenir des articles de ces journaux en fonction d’une requête. Étant donné que les articles restitués sont classés selon leur pertinence dé- croissante, nous avons considéré les cinq premiers articles restitués par chaque source et publiés avant la date du topic pour produire un méga-document (Klas et Fuhr, 2000). Ensuite, nous avons utilisé l’API Alchemy 3 pour extraire les mots-clés représentatifs de ce méga-document. L’API Alchemy réalise une analyse linguistique, un traitement du langage naturel et un apprentissage automatique pour analyser le contenu et en extraire des mots-clés. Nous avons évalué l’extension de la requête avec trois (3Act) ou sept(7Act) termes renvoyés par Alchemy. Les nouvelles requêtes sont formées par les termes initiaux des requêtes et les termes d’expansion. Dans un premier temps, nous ne pondérons pas les termes ajoutés dans la requête (tous les termes de la requête étendue ont un poids égal à 1). Dans un second temps, nous pondérons uniquement les termes ajoutés aux requêtes (3Act(pond) et 7Act(pond)) avec un poids de 0,8 (choix arbitraire pour ces premières expérimentations). Les ré- sultats sont présentés dans le tableau 4.1. La colonne Run contient le nom des runs. 1. http://developer.nytimes.com/ 2. http://www.guardian.co.uk/open-platform/ 3. http://www.alchemyapi.com/ 72CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS Ils sont présenté sous la forme Modèle-Requête-Champ utilisé. Le champ utilisé spé- cifie le contenu employé pour la restitution. À ce niveau, nous utilisons uniquement le contenu textuel des tweets (Tweets) dans la restitution. Notons dès à présent que dans les sections suivantes, nous exploiterons d’autres contenus pour la restitution des résultats, hormis le contenu textuel des tweets. Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP Baseline VSM — Tweets 0,2842 0,6340 0,1871 VSM-3Act-Tweets VSM 3Act Tweets 0,2689 0,5691 0,1699 VSM-7Act-Tweets VSM 7Act Tweets 0,3040* 0,5985 0,1923* VSM-3Act(pond)-Tweets VSM 3Act(pond) Tweets 0,2785 0,5923 0,1806 VSM-7Act(pond)-Tweets VSM 7Act(pond) Tweets 0,3079* 0,6156 0,1962* Tableau 4.1 – Emploi des articles de type actualité pour l’expansion de requêtes (avec et sans pondération des termes d’expansion, 1500 résultats par requête). Un astérisque indique une amélioration significative par rapport à la baseline. Concernant le rappel, nous constatons que la pondération améliore les résultats par rapport à la non pondération (runs Modèle-X(pond)-Champ par rapport aux runs Modèle-X-Champ). Par exemple le run « VSM-3Act(pond)-Tweets » améliore le run « VSM-3Act-Tweets » de 3,91 %. Cependant, aucune amélioration significative n’est à remarquer par rapport au run Baseline utilisant la requête originale. Concernant la P@30 et la MAP, le fait d’étendre les requêtes avec trois termes uniquement dégrade les résultats, que ce soit avec ou sans pondération. Cependant, en étendant les requêtes avec sept termes, nous observons des améliorations significatives par rapport à la « baseline ». Cette amélioration est légèrement plus importante en pondérant les termes d’expansion. Le run « VSM-7Act(pond)-Tweets » est celui qui a obtenu la meilleure amélioration par rapport à la baseline : 8,33 % en p@30 et 4,86 % en MAP. De manière générale, l’emploi des articles d’actualités comme source pour étendre les requêtes a amélioré la précision et a dégradé le rappel. En d’autre termes, cette approche a amélioré les rangs des premiers microblogs pertinents (P@30 améliorée de 8,33 %), sans pouvoir retrouver autant de nouveaux tweets pertinents. Nous avons comparé les tweets pertinent des runs « VSM-7Act(pond)-Tweets » et « Baseline » : sont également présent 91 % des tweets pertinents du run « Req7ActPondTweet » dans le run « Baseline ». Nous avons également remarqué que cette méthode d’expansion a renforcé la pertinence d’une partie des documents pertinents. Cette partie se compose des microblogs contenant totalement ou partiellement les termes initiaux des requêtes. Cependant, elle n’a pas aidé à restituer de nouveaux tweets pertinents, en particulier ceux qui ne contiennent pas les termes des requêtes. La dernière observation peut être expliquée par le fait que nous nous sommes basés sur les premiers articles d’actualités résultant d’une recherche avec les termes 73CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS des requêtes sur les deux API (NYTimes et Guardian). Ces APIs utilisent leurs moteurs de recherche pour trouver des articles en fonction des termes de nos requêtes. Ceci implique que les termes les plus importants retrouvés à partir de ces articles correspondent en premier lieu aux termes initiaux des requêtes, ou bien aux termes fortement dépendant des termes des requêtes (les termes présentant l’aspect sémantique général des requêtes). Ainsi, cette méthode permet de mieux représenter les requêtes initiales, sans donner d’autres aspects sémantiques des requêtes, permettant ainsi de restituer les microblogs pertinents et portant sur les sujets des requêtes, tout en n’ayant aucun terme en commun avec elles. Ceci explique ainsi la dégradation du rappel et l’amélioration de la précision. Afin de retrouver des termes d’expansion représentant d’autres aspects des requêtes, nous avons testé l’expansion avec la base lexicale WordNet. 2.2 Exploitation de la base lexicale WordNet La base de données lexicale WordNet a été souvent utilisée en RI comme un moyen de désambiguïsation et d’extension de requêtes. Nous avons testé cette stratégie en étendant chaque terme de la requête avec le premier synset retrouvé. Chaque requête étendue va ainsi être composée des termes de la requête initiale et des termes d’expansion. De la même manière que dans le paragraphe précédent, dans un premier temps, nous ne pondérons pas les termes ajoutés dans la requête. Tous les termes ont un poids égal à 1. Dans un second temps, nous avons pondéré (WN(pond)) uniquement les termes ajoutés aux termes initiaux des requêtes avec un poids de 0,8 (choix arbitraire pour observer l’impact de la pondération). Les résultats sont présentés dans le tableau 4.2. Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP Baseline VSM — Tweets 0,2842 0,6340 0,1871 VSM-WN-Tweets VSM WN Tweets 0,2797 0,6305 0,1854 VSM-WN(Pond)-Tweets VSM WN(pond) Tweets 0,2881 0,6362 0,1878 Tableau 4.2 – Récapitulatif des différents runs testés sans pondération des termes ajoutés aux requêtes. L’expansion avec WordNet n’améliore non plus pas les résultats par rapport à la baseline (0,37 % d’amélioration sur la MAP, 1,37 % sur la P@30 et 0,34 % sur le rappel entre le run « Baseline » et « VSM-WN(pond)-Tweets »). En outre, les améliorations sur les trois mesures ne sont pas significatives. En fait, au niveau des tweets pertinents restitués, 59/60 des requêtes ont renvoyé exactement les mêmes tweets pertinents. La différence est uniquement présente au niveau de la requête somalian piracy. Avec l’expansion, cette requête s’est transformée en somalian somali piracy. En réalité, WordNet a compensé une faiblesse de Porter. Dans l’analyse de 74CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS défaillance, nous avons signalé ce problème : plusieurs tweets pertinents de cette requête contiennent le terme somalia ou somalis. Porter n’arrive pas à traiter et correspondre ces variances. Ainsi, l’ajout du terme somali dans la requête a permis la restitution de 42 nouveaux tweets pertinents. D’où la faible amélioration globale. Concernant la pondération, nous avons observé le même impact que celui observé dans le paragraphe précédent. Elle améliore les résultats par rapport à la non pondération. Nous avons comparé les runs « VSM-WN-Tweets » et « VSM-WN(pond)- Tweets » et nous avons trouvé que 100 % des tweets pertinents du premier run apparaissent dans le deuxième run. En contre partie, le deuxième run a restitué uniquement 14 nouveaux tweets pertinents par rapport au premier run. De manière générale, l’emploi de WordNet n’a servi à améliorer ni le rappel ni la précision. Pour 59 requêtes parmi 60, aucun nouveau tweet pertinents n’a été observé. Nous avons également testé l’emploi de plusieurs termes d’expansion mais ceci n’a fait que dégrader les résultats. 2.3 Suggestions orthographiques Nous avons remarqué, dans certaines requêtes, des entités nommées orthographiées de manières différentes à celles dans les tweets pertinents. C’est pourquoi nous avons testé l’outil « Bing spelling suggestions 4 ». Cette API permet de corriger les termes mal orthographiés et de retrouver les autres écritures des entités nommées. Pour chaque terme d’une requête, nous avons ajouté ses autres formes d’écriture dans la requête initiale (sans pondération). Cependant, seules deux requêtes parmi les 60 ont été modifiées. Ce sont la requête « Bedbug epidemic » qui est devenue « Bedbug epidemic bed bug » et la requête « Glen Beck » qui est devenue « Glen Beck Glenn ». Les résultats de ces deux requêtes ont un rappel plus élevé que celui de la baseline (19,91 % et 2,08 % respectivement). En considérant toutes les requêtes, nous avons obtenu une amélioration du rappel de 0,28 % (tableau 4.3). Cependant, ni cette amélioration, ni les améliorations des autres mesures ne sont significatives. Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP Baseline VSM — Tweets 0,2842 0,6340 0,1871 VSM-ReqBing-Tweet VSM ReqBing Tweets 0,2893 0,6358 0,1884 Tableau 4.3 – Test de l’amélioration des performance via la correction orthographique des requêtes. 4. http://www.bing.com/developers/ 75CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS 2.4 Réinjection de pertinence Une source typique pour étendre les requêtes est constituée de l’ensemble des termes présents dans les premiers documents restitués en réponse aux requêtes initiales. Cette technique s’appelle la réinjection de pertinence (Relevance Feedback). Nous avons testé et analysé l’impact de deux approches classiques de la RI afin de voir leur efficacité sur ce genre de documents : Rocchio et le modèle BM25. 2.4.1 Expansion de requêtes avec Rocchio Nous avons utilisé la version améliorée (Salton et Buckley, 1997) de la formule originale de Rocchio (1971). Cette version prend en compte uniquement les documents qui ont obtenu les meilleures scores dans la reformulation. La formule est la suivante : Qnouv = α.Qorig + β |R| . X ~r∈R ~r (4.1) Qnouv est le vecteur des termes pondérés de la requête étendue. Qorig est le vecteur de termes pondérés de la requête initiale. R est l’ensemble des documents pertinents. ~r est le vecteur des termes obtenus de R pour l’expansion. Nous avons gardé les valeurs par défaut des paramètres : α = 1 and β = 0, 75. La taille de R est fixée à 10. Ce choix est consistant à la vu des expérimentations réalisées sur les collections de TREC (Carpineto et al., 2001). Le nombre de termes ajoutés est également limité à 10. Ce choix correspond au résultat d’une étude sur l’expansion de requête à partir du feedback, pour la recherche de microblogs. Cette étude est réalisée par Aboulnaga et Clarke (2012). L’objectif de l’emploi de Rocchio est double : d’une part, il permet de résoudre le problème de vocabulaire en améliorant la représentation des requêtes avec un vocabulaire plus riche. D’autre part, il permet, au travers des meilleurs résultats de la première restitution, de pondérer les termes des requêtes. Ceci pourrait résoudre le problème noté dans l’analyse de défaillance : les termes de la requête n’ont pas tous la même importance. Dans un premier temps, le poids des termes d’expansion dans le vecteur ~r ont été calculés avec TF-IDF (Rocch(TF.IDF)). Les résultats sont présentés dans le tableau 4.4. Nous remarquons que la technique de Rocchio améliore significativement les ré- sultats par rapport à la baseline, que ce soit au niveau du Rappel, de la P@30 ou la MAP : respectivement 8,00 %, 13,72 % et 18,17 %. Nous avons comparé les tweets pertinents du run « VSM-Rocch(TF.IDF)-Tweets » avec les tweets pertinents du run « Baseline ». Nous avons trouvé que 14 % des tweets pertinents du run « VSMRocch(TF.IDF)-Tweets » n’existaient pas dans le run « Baseline ». Ceci correspond 76CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS Run Modèle Requête étendue champ utilisé P@30 Rappel MAP Baseline VSM — Tweets 0,2842 0,6340 0,1871 VSM-Rocch(TF.IDF)-Tweets VSM Rocch(TF.IDF) Tweets 0,3232* 0,6822* 0,2211* Tableau 4.4 – Expansion de la requête initiale avec Rocchio. Les poids des termes d’expansion sont calculés avec TF.IDF. Un astérisque indique une amélioration significative par rapport à la baseline. à 589 nouveaux tweets pertinents. Ces nouveaux tweets pertinents sont répartis sur 42 requêtes parmi les 60. Ce sont souvent des tweets contenant un seul terme de la requête initiale et certains termes d’expansion. Cependant, l’expansion a ignoré 77 tweets pertinents qui existaient déjà dans le run « Baseline ». Ces tweets sont répartis sur toutes les requêtes avec un ou deux tweets non retrouvés pour chacune. Dans un deuxième temps, les poids des termes d’expansion sont calculés avec le modèle BM25. Run Modèle Requête étendue champ utilisé P@30 Rappel MAP Baseline VSM — Tweets 0,2842 0,6340 0,1871 VSM-Rocch(TF.IDF)-Tweets VSM Rocch(TF.IDF) Tweets 0,3232* 0,6822* 0,2211* VSM-Rocch(BM25)-Tweets VSM Rocch(BM25) Tweets 0,3311* 0,6764* 0,2304* Tableau 4.5 – Expansion de la requête initiale avec Rocchio. Les poids des termes d’expansion sont calculés avec BM25. Un astérisque indique une amélioration signi- ficative par rapport à la baseline. Le tableau 4.5 présente les nouveaux résultats. Par rapport à la « baseline », nous avons obtenu des améliorations significatives sur les trois mesures : 6,70 %, 16,50 % et 23,14 % respectivement sur le rappel, la P@30 et la MAP. Par rapport au run qui emploie TF.IDF pour pondérer les termes d’expansion (« VSM-Rocch(TF.IDF)- Tweets »), nous remarquons des améliorations significatives uniquement sur la P@30 et la MAP : 2,44 % et 4,20 % respectivement. Les tweets pertinents du run « VSMRocch(BM25)-Tweets » sont à 99 % ceux du run « VSM-Rocch(TF.IDF)-Tweets ». Ce sont également les mêmes termes d’expansion qui ont été sélectionnés et ajoutés dans les requêtes initiales en calculant les poids avec BM25, que ceux sélectionnés avec TF.IDF. Toutefois, la pondération des termes d’expansion avec les scores de BM25 à permis de mieux classer les tweets pertinents, ce qui a amélioré la précision et la MAP. 2.4.2 Expansion de requêtes via le modèle BM25 Une des méthodes classiques de réinjection de pertinence est le mécanisme « naturel » du modèle BM25. Naturellement, le facteur approximatif de IDF dans le 77CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS modèle BM25 est : IDF∗∗ = log r + 0.5/n − r + 0.5 R − r + 0.5/N − R − n + r + 0.5 ! (4.2) avec r est le nombre de documents pertinents contenant le terme t, R est le nombre de tous les documents contenant le terme t, n est le nombre de documents pertinents et N est la taille de la collection. En absence d’information de pertinence au préalable, ce facteur devient : IDF∗ = log N − R R (4.3) L’emploi de IDF∗∗ nécessite une connaissance préalable des documents pertinents. Ainsi, l’idée est de considérer les premiers résultats de la première restitution réalisée en considérant IDF∗ . Cet ensemble est supposé être l’ensemble de pertinence (feedback). Ensuite, on réalise une deuxième restitution, mais toujours avec la requête initiale, en considérant IDF∗∗ et le feedback pour le calcul des scores. En se basant sur des expérimentations réalisées sur les collections de TREC (Carpineto et al., 2001), le feedback est constitué des 10 premiers tweets restitués avec la requête initiale. Pour étudier l’impact de l’expansion de requêtes avec le modèle BM25, il est évident de comparer les différentes propositions (emploi du feedback et expansion) avec les résultats du modèle BM25 de base (équation 5.12). Ceci nous a permis également de comparer les résultats des modèles BM25 et vectoriel. Le tableau 4.6 montre les résultats. BMX25fb indique que le modèle emploie le feedback dans le calcul du score de pertinence. La première remarque est que le modèle BM25 (run « BM25- — -Tweets ») a obtenu des résultats plus faibles que le modèle vectoriel. Run Modèle Requête étendue champ utilisé P@30 Rappel MAP Baseline VSM — Tweets 0,2842 0,6340 0,1871 BM25- — -Tweets BM25 — Tweets 0,2836 0,6043 0,1654 BM25fb- — -Tweets BM25fb — Tweets 0,2655 0,5940 0,1604 BMX25- — -Tweets BMX25 — Tweets 0,3186* 0,6643* 0,2170* BMX25fb- — -Tweets BMX25fb — Tweets 0,3135 0,6364 0,2163 BMX25fb-Reqexp-Tweets BMX25fb Reqexp Tweets 0,3571* 0,6369 0,2300* Tableau 4.6 – Différentes configurations du modèle BM25. * montre une amélioration significative par rapport à configuration de base (run BM25). Motivés par le travail de Ferguson et al. (2012), nous avons modifié les paramètres initiaux du modèle BM25 afin de limiter au maximum la prise en compte des facteurs de normalisation et la fréquence des termes dans le calcul du score. En fait, 78CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS comme nous l’avons déjà mentionné, dans la recherche de microblogs, la fréquence des termes n’améliore vraiment pas les résultats. De plus, la normalisation de la longueur des documents dégrade les résultats 5 . Nous avons ainsi paramétré k1 = 0,1 et b = 0. BMX25 indique la prise en compte de ces paramètres dans le modèle BM25. « BMX25- — -Tweets » et « BMX25fb- — -Tweets » représentent respectivement les runs sans et avec l’emploi du feedback, mais avec les nouveaux paramètres. On peut remarquer, dans un premier temps, que le nouveau paramétrage améliore considérablement les résultats : 10,0 %, 12,3 % et 31,2 % d’amélioration respectivement pour le rappel, la p@30 et la MAP, entre le run « BM25- — -Tweets » et le run « BMX25- — -Tweets ». Le run « BMX25- — -Tweets » est également meilleur que le run « Baseline ». Les améliorations sont respectivement de 4,8 %, 12,1 % et de 16,0 % dans le rappel, la p@30 et la MAP. Le run « BMX25- — -Tweets » contient 707 nouveaux tweets pertinents par rapport au run « Baseline » et contient 92,0 % des tweets pertinents du run « Baseline ». Ceci correspond à 390 tweets pertinents non retrouvés. Ces tweets se caractérisent de manière générale par leur longueur très réduite (un ou deux termes et une URL). La différence au niveau du nombre de tweets restitués entre les run « BMX25- — -Tweets » et « Baseline » correspond approximativement au nombre de tweets non restitués à la cause des différences dans les importance des termes des requêtes (695 sur les requêtes de 2012), observé dans le chapitre précédent. Le fait de se baser principalement sur le facteur IDF dans la restitution de microblog a résolu ce problème. Le run « BM25fb- — -Tweets » est celui qui emploie le feedback avec le modèle BM25 de base. À ce niveau, aucune amélioration n’a été constatée. Concernant le run « BMX25fb- — -Tweets », les résultats montrent que, encore une fois, le feedback n’améliore pas les résultats. Nous avons comparé les tweets pertinents des runs « BMX25- — -Tweets » et « BMX25fb- — -Tweets ». 99% des tweets pertinents du run « BMX25fb- — -Tweets » existaient dans le run « BMX25- — -Tweets » (13 nouveaux tweets). Cependant, l’emploi du feedback a négligé 161 tweets pertinents. En réalité, 110 de ces tweets non restitués avaient un rang supérieur à 1500. Pour cette raison, ils n’ont pas été considérés dans le rappel. Nous pouvons ainsi constater que l’emploi du feedback ne permet pas de restituer de nouveaux tweets pertinents et ne résout pas le problème de vocabulaire. Au lieu de fournir simplement une méthode de pondération des termes de la requête d’un utilisateur, la réinjection de pertinence peut également impliquer l’expansion de la requête avec certains termes (dans ce cas dix termes pour les raisons expliquées dans le paragraphe précédent) à partir du feedback (dix premiers tweets de la première restitution). Ces termes sont choisis par le facteur de pertinence de 5. Ceci coïncide avec les résultats du chapitre suivant où nous allons montrer que la longueur des microblogs est un facteur de pertinence dans la recherche de microblogs. 79CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS l’équation 4.2. Le run réalisant l’expansion et le feedback est « BMX25fb-ReqexpTweets ». Au niveau du rappel, aucune amélioration n’a été observée par rapport au run « BMX25- — -Tweets ». Cependant, la p@30 a progressé de 12,0 % et la MAP de 6,3 %. Nous avons comparé les tweets pertients des deux runs « BMX25fb-ReqexpTweets » et « BMX25- — -Tweets ». Même si le rappel s’est dégradé de manière significative, le run « BMX25fb-Reqexp-Tweets » contient 467 nouveaux tweets pertinents (13 %). En contrepartie, il a négligé 813 tweets pertinents qui existaient dans le run « BMX25- — -Tweets ». Nous avons comparé également les runs « BMX25fb-Reqexp-Tweets » et « BMX25fb- — -Tweets ». Même si ces deux runs ont pratiquement le même nombre de tweets pertinents, ils diffèrent d’un ensemble considérable de tweets pertinents (de l’ordre de 470 tweets pertinents). L’expansion améliore considérablement le rang des tweets pertinents. Ainsi, pour le modèle BM25 employé dans le cas de recherche de microblogs, nous pouvons conclure que le feedback dégrade le rappel. En outre, il n’améliore ni la MAP ni la précision, tant qu’il n’est pas accompagné d’une expansion de requêtes. L’expansion de requêtes améliore les rangs des tweets pertinents et réduit partiellement l’effet négatif du feedback au niveau du rappel. 3 Expansion de microblogs Outre l’expansion des requêtes, nous avons évalué l’impact de l’expansion de microblogs, et ce de plusieurs façons : expansion de hashtags et emploi des URLs. 3.1 Expansion de hashtags dans les tweets Dans l’analyse de défaillances du chapitre 2, nous avons constaté qu’un nombre important de tweets pertinents non restitués contient les termes de la requête collés ensemble sous forme de hashtags (par exemple, #TextAndDrive). Nous avons mis l’index à jour en étendant chaque hashtag composé avec les termes qui le composent. Nous avons remarqué que les auteurs mettaient parfois le premier caractère de chaque terme composant en majuscule. Ainsi, nous nous sommes basés sur cette observation pour étendre les hashtags composés. Pour chaque tweet contenant un hashtag composé, nous avons ajouté les termes composants au tweet (champ utilisée : TweetsHashExp). Une légère amélioration mais non significative dans le rappel (tableau 4.7) est constatée. 80CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS Run Modèle Requête étendu champ utilisée P@30 Rappel MAP BMX25- — -Tweets BMX25 — Tweets 0,3186 0,6643 0,2170 BMX25- — -TweetsHashExp BMX25 — TweetsHashExp 0,3198 0,6681 0,2166 Baseline VSM — Tweets 0,2825 0,6340 0,1871 VSM- — -TweetsHashExp VSM — TweetsHashExp 0,2785 0,6361 0,1859 Tableau 4.7 – Résultats après l’expansion de hashtags, avec le modèle vectoriel et le modèle BM25 (sans et avec paramétrage). 3.2 Emploi des URLs À l’issue de notre analyse de défaillances et plus particulièrement de l’analyse des URLs publiées dans les tweets pertinents, nous avons remarqué que la prise en compte des pages web pointées par les URLs en complément des contenus des tweets pourrait améliorer la restitution des tweets pertinents. Le contenu des URLs présente souvent les termes des requêtes, même si le tweet ne les contient pas. Une première proposition consiste alors à la prise en compte d’un tweet selon 1) son contenu (champ utilisée : Tweets) ainsi que 2) le contenu des documents pointés par les URLs (champ utilisée : Tweets+URL) présentes dans le tweet (2 646 611 tweets contiennent une URL dans la collection). Nous avons commencé par considérer les deux champs (Tweets+URL) dans la recherche avec les requêtes originales. Le tableau 4.8 montre que l’emploi les URLs dans la restitution améliore significativement les résultats, que ce soit avec le modèle vectoriel ou bien BM25. Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP Baseline VSM — Tweets 0,2825 0,6340 0,1869 VSM- — - Tweets+URL VSM — Tweets+URL 0,3814* 0,7171* 0,2593* BM25- — -Tweets BM25 — Tweets 0,2836 0,6043 0,1654 BM25- — -Tweets+URL BM25 — Tweets+URL 0,3816* 0,6686* 0,2267* BMXx25- — -Tweets+URL BMXx25 — Tweets+URL 0,3944* 0,6879* 0,2360* Tableau 4.8 – Apport de l’emploi des URLs avec le modèle vectoriel et le modèle BM25. * montre une amélioration significative par rapport au run précédent. Dans le cas du modèle vectoriel, le run « VSM- — - Tweets+URL » a eu des améliorations de 13,1 %, 35,0 % et 38,7 % sur le rappel, la P@30 et la MAP. En comparant les tweets pertinents des runs « VSM- — - Tweets+URL » et « baseline », nous avons remarqué que l’effet des URLs n’était pas totalement positif, en particulier au niveau de la sélection des tweets pertinents. Le run « VSM- — - Tweets+URL » contient 1013 (22,85 %) nouveaux tweets pertinents par rapport au run « Baseline ». Cependant, 275 tweets pertinents du run « Baseline » n’ont pas été de nouveau restitués. 81CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS Les mêmes améliorations sont constatées avec le modèle BM25 : 10,6 %, 34,6 % et 37,0 % respectivement sur le rappel, la p@30 et la MAP. Encore une fois, nous pouvons affirmer que l’effet des URLs n’est pas totalement positif sur la sélection des tweets pertinents. Cette observation est plus claire avec le modèle BM25. Le run « BM25- — -Tweets+URL » contient 1039 nouveaux tweets pertinents par rapport au run « BM25- — -Tweets ». Cependant, 670 tweets pertinents du run « BM25- — -Tweets » n’ont pas été de nouveau restitués. Le double effet de l’emploi des URLs revient au fait qu’une quantité importante de tweets non pertinents contient les termes des requêtes dans les contenus des URLs. Nous avons remarqué cette observation même au niveau des contenus des tweets : plusieurs tweets non pertinents contiennent les termes des requêtes et traitent les sujet des requêtes. . . Finalement, nous avons testé une configuration qui définit les paramètres du modèle BM25 en fonction du champ recherché. Les paramètres k1 et b sont initialisés respectivement à 1,2 et 0,75 lorsque la recherche des termes d’une requête est effectuée sur le champ UrlText (BMXx25 ). Ils ont été initialisés à 0,1 et 0 lorsque la recherche est effectuée sur le champ Tweets. Le run avec cette configuration est « BMXx25- — -Tweets+URL ». Nous pouvons observer des améliorations de 2,9 %, 3,3 % et de 4,1 % respectivement sur le rappel, la P@30 et la MAP, par rapport au run « BM25- — -Tweets+URL ». Le parametrage a permis de restituer 215 nouveaux tweets pertinent. Cependant, 166 tweets pertinents du run « BM25- — -Tweets+URL » n’ont pas été de nouveau restitués. De manière générale, nous pouvons remarquer que le modèle BM25 est plus performant au niveau de la précision. En d’autre termes, les rangs des tweets pertinents avec le modèle BM25 sont meilleurs (plus proche de la tête de liste) que les rangs des tweets pertinents avec le modèle vectoriel. En contrepartie, le modèle vectoriel restitue une quantité plus importante de tweets pertinents : il est meilleur au niveau du rappel. Concernant l’emploi des URLs, les résultats montrent qu’elles ont un rôle très important et améliorent les résultats de manière remarquable, même si elles sont la cause de la perte d’une quantité non négligeable de tweets pertinents. Nous avons montré dans la section 2 que l’expansion des requêtes améliore les performances, et dans cette section, que l’emploi des URLs améliore les résultats. Dans la section suivante, nous présenterons les résultats de la combinaison de ces deux facteurs. 4 Expansion de requêtes et de documents À ce niveau, nous avions le choix entre l’expansion des requêtes avec le feedback composé uniquement par le contenu des premiers tweets restitués ou bien avec le 82CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS feedback composé par le contenu des tweets et des URLs ensemble. Le tableau 4.9 montre les résultats de l’emploi du contenu des tweets uniquement dans l’expansion et du contenu des tweets et des URLs dans la restitution (première de nos possibilités). Nous avons testé trois configurations : les deux premières se basent sur le modèle vectoriel comme modèle de restitution. La diffé- rence réside au niveau de l’expansion. (i) Dans un premier temps nous calculons les poids des termes avec TF.IDF (« VSM-Rocch(TF.IDF)-Tweets+URL ») et (ii) dans un deuxième temps avec BM25 (« VSM-Rocch(BM25)-Tweets+URL »). (iii) La troisième configuration emploie le modèle BM25 dans la restitution (« BMXx25fbReqexp-Tweets+URL »). Pour le run « BMXx25fb-Reqexp-Tweets+URL », nous avons initialisé les paramètres en fonction du champ de restitution comme expliqué dans le paragraphe précédent. Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP VSM-Rocch(TF.IDF)-Tweets VSM Rocch(TF.IDF) Tweets 0,3232 0,6822 0,2211 VSM-Rocch(TF.IDF)-Tweets+URL VSM Rocch(TF.IDF) Tweets+URL 0,3894* 0,7506* 0,2777* VSM-Rocch(BM25)-Tweets VSM Rocch(BM25) Tweets 0,3311 0,6764 0,2304 VSM-Rocch(BM25)-Tweets+URL VSM Rocchio(BM25) Tweets+URL 0,3960* 0,7524* 0,2869* BMX25fb-Reqexp-Tweets BMX25fb Reqexp Tweets 0,3571 0,6369 0,2300 BMXx25fb-Reqexp-Tweets+URL BMXx25fb Reqexp Tweets+URL 0.3712* 0,6294 0.2333 Tableau 4.9 – Emploi des tweets et des URLs et expansion de requêtes uniquement à partir des tweets.* montre une amélioration significative par rapport au run précédent. La première observation que nous pouvons tirer est que les runs considérant les URLs et les tweets en plus de l’expansion de requêtes sont meilleurs que les runs considérant les tweets. Toutefois, l’intensité de cette amélioration dépend du modèle de restitution. Nous pouvons remarquer des améliorations importantes avec le modèle vectoriel sur les trois mesures. Cependant, les améliorations avec le modèle BM25 sont moins importantes (notons même une dégradation du rappel). Lorsqu’on utilise le modèle vectoriel pour la restitution, nous remarquons encore une fois que la pondération des termes d’expansion avec BM25 donne de meilleurs résultats qu’avec TF.IDF. Nous avons comparé les tweets pertinents des deux runs « VSM-Rocch(BM25)-Tweets+URL » et « VSM-Rocch(BM25)-Tweets ». L’emploi des URLs a résulté des améliorations de 11,2 %, 19,6 % et de 24,5 % respectivement sur le rappel, la P@30 et la MAP. Le run « VSM-Rocch(BM25)-Tweets+URL » contient 809 nouveaux tweets pertinents (17 %) et a échoué à restituer 259 (6 %) tweets qui existaient dans « VSM-Rocch(BM25)-Tweets ». Nous remarquons ainsi de nouveau le double effet de l’emploi des URLs pour les mêmes raisons précédemment expliquées. Toutefois, la quantité de nouveaux tweets pertinents dépasse la quantité 83CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS des tweets non restitués. Concernant le modèle BM25, l’emploi des URLs a amélioré de manière significative uniquement la P@30 (4,0 %). Les deux runs « BMXx25fb-Reqexp-Tweets+URL » et « BMX25fb-Reqexp-Tweets » contiennent pratiquement le même nombre de tweets pertinents. Cependant, ces deux runs diffèrent d’un certain nombre de tweets pertinents (de l’ordre de 650 tweets). Nous pouvons ainsi conclure que, avec le modèle BM25, le double effet de l’emploi des URLs est plus important. Il n’y a pas ainsi d’effet positif sur le rappel. Cependant, ce facteur améliore considérablement le rang des documents pertinents (effet positif sur la précision). Finalement, nous avons voulu tester l’impact de l’emploi des URLs même dans l’expansion de requêtes (deuxième de nos propositions citées au début de la section 4). En d’autres termes, les termes d’expansion seront sélectionnés à partir du contenu des tweets et des URLs des résultats formant le feedback. Le tableau 4.10 montre les résultats de l’emploi du contenu des tweets et des URLs dans l’expansion de requêtes avec le modèle vectoriel (Rocchio(BM25)(T+U)) et avec le modèle BM25 (Reqexp(T+U)). (T+U) indique l’emploi de Tweets et des URLs dans l’expansion. Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP VSM-Rocchio(BM25)-Tweets+URL VSM Rocchio(BM25) Tweets+URL 0,3960 0,7524 0,2869 VSM-Rocchio(BM25)(T+U)-Tweets+URL VSM Rocchio(BM25)(T+U) Tweets+URL 0,2633 0,5892 0,1841 BMXx25fb-Reqexp-Tweets+URL BMXx25fb Reqexp Tweets+URL 0,3712 0,6294 0,2333 BMXx25fb-Reqexp(T+U)-Tweets+URL BMXx25fb Reqexp(T+U) Tweets+URL 0,3966* 0,5208 0,2143 Tableau 4.10 – Emploi des tweets et des URLs pour l’expansion et pour la restitution. * montre une amélioration significative par rapport au run précédent. Pour le modèle vectoriel, nous avons remarqué une dégradation remarquable en employant les URLs dans l’expansion. Cependant, avec le modèle BM25, l’emploi des URLs conduit à des effets différents. D’une part, le rappel et la MAP se sont dégradés considérablement. D’autre part, la P@30 s’est améliorée pour atteindre le meilleur score parmi toutes nos configurations précédentes. Ces observations sont expliquées ainsi : le fait de considérer les URLs dans l’expansion a dévié le sens des requêtes et généré des dégradations. Cependant, cette dégradation s’est transformée en amélioration, en particulier avec le modèle BM25, étant donné que ce modèle exploite le feedback (composé par les tweets et les contenus des URLs) dans la nouvelle restitution. Ceci a conduit, d’une part, à une perte importante dans le nombre de tweets pertinents restitués, mais, d’autre part, à une mise en valeur maximale des tweets pertinents restitués (reclassement vers la tête de la liste). 84CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS 5 Discussion La conclusion principale des expérimentations de ce chapitre est que l’expansion de requêtes et la prise en compte des contenus des URL dans la restitution paraissent indispensables pour la recherche des microblogs, que ce soit au niveau du rappel ou la précision. Les URLs permettent non seulement de fournir des informations supplémentaires pour les internautes, mais présentent également un vocabulaire très utile pour les moteurs de recherche, qui sera utilisé pour mesurer la pertinence du microblog vis-à-vis d’un besoin en information. L’expansion de requêtes permet de mieux représenter les besoins d’information (améliore le rappel), et de mettre en valeur les tweets pertinents (améliore la précision). La pondération des termes de la requête, elle aussi, joue un rôle très important dans l’amélioration des résultats. Elle permet de mettre en valeur les tweets pertinents en relation avec les termes importants des requêtes (améliore la précision). Ceci est aperçu, d’une part, en regardant les runs utilisant l’expansion de requêtes avec les articles des actualités (tableau 4.1), avec et sans pondération, ou en comparant les runs se basant sur TF.IDF avec les runs se basant sur BM25 pour pondérer les termes d’expansion (tableau 4.5). Concernant le modèle de restitution, la supériorité d’un modèle par rapport à un autre dépend des facteurs supplémentaires utilisés et aussi des résultats à analyser (rappel ou précision). De manière générale, BM25 obtient de meilleures précisions et VSM obtient les meilleurs rappels. Le paramétrage est crucial pour le modèle BM25. Le fait d’initialiser k1 à 0,1 et b à 0 (on ne prend pas en compte la normalisation par la longueur) lui permet de prendre un avantage par rapport au VSM. Cependant, l’emploi du feedback dégrade ses résultats, que ce soit avec ou sans paramétrage, à moins que ce feedback soit accompagné d’une expansion de requêtes (tableau 4.6). Dans ce cas, nous arrivons à obtenir les meilleures P@30. Cette dernière observation reste valide que ce soit avec ou sans l’emploi des URLs. Les améliorations avec le modèle vectoriel sont plus équilibrées. En employant des facteurs supplémentaires (Rocchio ou URLs), nous apercevons des améliorations sur le rappel ou bien sur la précision. Concernant l’expansion, la pondération des termes avec BM25 ou avec TF.IDF fait ressortir, dans la plupart des cas, les mêmes termes d’expansion. Cependant, la pondération de ces termes avec BM25 permet de restituer plus de tweets pertinents et de les ranger de façon plus pertinente qu’avec TF.IDF. Concernant l’emploi des URLs dans l’appariement, l’impact de ce facteur dépend du modèle de restitution. De manière générale ce facteur améliore toutes les mesures avec le modèle vectoriel. Cependant, il améliore uniquement la P@30 avec le modèle probabiliste (tableau 4.9). L’emploi des URLs, en plus des 85CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS tweets, dans l’expansion de requêtes n’a pas montré un effet positif avec le modèle vectoriel. Cependant, il a permis d’avoir la meilleure P@30 parmi toutes nos expérimentations, même s’il a dégradé considérablement le rappel (tableau 4.10). Nous avons comparé les deux meilleurs runs au niveau de la P@30 « VSMRocch(BM25)-Tweets+URL » et « BMXx25fb-Reqexp(T+U)-Tweets+URL », avec les résultats officiels de la tâche Microblog de TREC 2012 (Ounis et al., 2012). L’évaluation des résultats officiels des participants de la tâche microblogs 2012 est réalisée en considérant uniquement les tweets hautement pertinents. Le tableau 4.11 montre les résultats de ces deux runs considérant les tweets hautement pertinents. D’ailleurs, ces deux runs ont conservé leur avantage par rapport aux autres runs, même avec cette considération. Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP VSM-Rocch(BM25)-Tweets+URL VSM Rocchio(BM25) Tweets+URL 0,2531 0,7722 0,2264 BMXx25fb-Reqexp(T+U)-Tweets+URL BMXx25fb Reqexp(T+U) Tweets+URL 0,2531 0,6087 0,2113 Tableau 4.11 – Résultats des meilleurs runs avec les tweets hautement pertinents. Le tableau 4.12 montre les résultats des deux meilleurs runs officiels des participants de 2012. Chacun de nos deux runs nous aurait permis de nous placer à la 2ème position des participants selon la P@30. Nous n’avons bien évidemment considéré que les runs automatiques dans cette comparaison. Groupe Run P@30 MAP HIT MTLAB hitURLrun3 0.2701 0.2642 IRIT VSM-Rocch(BM25)-Tweets+URL 0.2531 0.2264 IRIT BMXx25fb-Reqexp(T+U)-Tweets+URL 0.2531 0.2113 HIT MTLAB hitLRrun1 0.2446 0.2411 Tableau 4.12 – Comparaison avec les résultats officiels de TREC 2012 Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP VSM-Rocch(BM25)-Tweets+URL VSM Rocchio(BM25) Tweets+URL 0.4701 0.8752 0.4700 Tableau 4.13 – Emploi des tweets pour l’expansion et des tweets et des URLs pour la restitution sur les topics de TREC 2011. Le tableau 4.13 montre les résultats du run « VSM-Rocch(BM25)-Tweets+URL » sur les requêtes de 2011. Les jugements des runs officiels de la tâche de 2011 sont réalisés en considérant tous les tweets pertinents. Ce run nous aurait permis de nous 86CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS placer à la 1ère position des participants selon la P@30 (tableau 4.14). Notons la présence de notre run officiel (Damak et al., 2011). Groupe Run P@30 MAP IRIT VSM-Rocch(BM25)-Tweets+URL coupé à 30 0,4701 0,2966 isi isiFDL 0,4551 0,1923 FUB DFReeKLIM30 0,4401 0,2348 CLARITY_DCU clarity1 0,4211 0,2139 Purdue_IR myrun2 0,3993 0,2003 IRIT Run officiel (Damak et al., 2011) 0,2565 0,1940 Tableau 4.14 – Comparaison avec les résultats officiels de TREC 2011 6 Bilan Dans ce chapitre nous avons proposé quelques méthodes pour améliorer la qualité des résultats d’une tâche de recherche de micrblogs. Nous avons exploité les articles des actualités et la base lexicale WordNet pour étendre les requêtes. En outre, nous avons analysé l’impact des techniques de RI classique sur ce nouveau type de document. Nous avons particulièrement testé le modèle vectoriel et le modèle probabiliste. Avec le modèle vectoriel, nous avons étendu les requêtes avec la technique de Rocchio. Avec le modèle BM25, nous avons utilisé son mécanisme naturel de feedback et d’expansion. Ensuite, nous avons testé l’effet de l’emploi du contenu des URLs en complément du contenu des tweets. L’emploi des URLs était avantageux uniquement pour la restitution (et non pour l’expansion). De manière générale, le modèle BM25 fournit de meilleures précisions. Le modèle vectoriel arrive à restituer plus de tweets pertinents. L’expansion de requêtes améliore le rappel et la précision avec le modèle vectoriel. Cependant, avec le modèle BM25, son effet positif est clair surtout sur la P@30. L’emploi des URLs pour la restitution est primordial. En contrepartie, elles n’ont pas montré d’intérêt pour l’expansion des requêtes. 87CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS 88Chapitre 5 Analyse des facteurs de pertinence de l’état de l’art 1 Introduction Nous avons montré dans l’état de l’art que les approches de RI dans les microblogs emploient une multitude de critères de pertinence : critères de fraîcheur, critères sur les auteurs, critères du réseau social, des différentes données présentes dans microblogs (hashtags, URLs). . . , en plus de la pertinence textuelle. Ces différents critères sont concrètement pris en compte dans les modèles de recherche proposés en combinant des facteurs de pertinence pour mesurer la pertinence des microblogs vis-à-vis d’un besoin en information. Par exemple, en considérant le critère importance de l’auteur, les facteurs de pertinence associés pourraient être le nombre de microblogs de l’auteur et le nombre de ses abonnés (Nagmoti et al., 2010). Nous pouvons également considérer le nombre de fois qu’un utilisateur a été mentionné ou bien le score de l’auteur selon un algorithme semblable à PageRank basé sur des relations de rediffusion des messages (Ben Jabeur et al., 2011). Même si les intuitions justifiant l’emploi de ces facteurs de pertinence encouragent leur exploitation, la valeur réelle de ces facteurs de pertinence n’a jamais été démontrée. En outre, nous avons montré dans le chapitre 3 (analyse de défaillances) que, dans la recherche de microblogs, la plupart des problèmes remontés par les modèles de recherche sont des problèmes de vocabulaire (Damak, 2013), problèmes pour lesquels nous avons proposé des solutions dans le chapitre 4. La question qui se pose maintenant est : si le modèle arrive à restituer tous les microblogs pertinents, est-ce que l’emploi de facteurs de pertinence supplémentaires permet de promouvoir les microblogs pertinents parmi l’ensemble des résultats ? Dans ce chapitre, nous évaluons l’impact réel des facteurs de pertinence souvent utilisés dans les approches de l’état de l’art sur la qualité des microblogs restitués vis-à-vis d’un besoin en information. 89CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE 2 Description des facteurs de pertinence Nous décrivons dans cette section les 14 facteurs de pertinence que nous considé- rons, classés par groupe. Nous considérons cinq groupes de facteurs de pertinence : celui lié au contenu des microblogs, celui lié à leur hypertextualité, celui qui se base sur les hashtags, celui lié aux auteurs des microblogs et enfin un groupe de facteurs relatifs à la qualité des microblogs. Nous cherchons à évaluer l’impact de ces facteurs de pertinence comme précédemment, c’est-à-dire sur l’évaluation de la pertinence d’un tweet par rapport à une requête. Nous utiliserons les notations suivantes dans la suite : – q est la requête (composée de mots-clés ‘topic’ et caractérisée par une date), – Cq est le corpus des tweets publiés avant la date de la requête, – Tq est l’ensemble des tweets restitués par un moteur de recherche donné calculant la pertinence par rapport à q uniquement sur le contenu des tweets (Tq ⊆ Cq), – t est un tweet ∈ Tq sur lequel on applique le facteur de pertinence. 2.1 Facteurs de pertinence basés sur le contenu des tweets Nous avons considéré quatre facteurs de pertinence relatifs à certaines spécificités de contenu des microblogs : la popularité d’un tweet (5.1), la longueur faible des tweets (5.2), la correspondance des termes entre les tweets et la requête (5.3) et la qualité du langage d’écriture du tweet (5.4). – Popularité du tweet (Duan et al., 2010) : ce facteur de pertinence estime la popularité d’un tweet dans Tq. On suppose qu’un tweet est populaire si on trouve plusieurs autres tweets ayant un contenu similaire. La similarité sim(ti , tj ) entre chaque paire de tweets est calculée avec un modele vectoriel qui prend également en compte la fréquence des termes de la requête dans le tweet (Cohen et al., 2007). On note le vecteur contenant les termes du tweet courant par ti . Ce facteur de pertinence est calculé de la manière suivante : f1(ti , q) = P tj∈Tq,i6=j sim(ti , tj ) |Tq| − 1 (5.1) – Longueur du tweet (Duan et al., 2010) : intuitivement, plus une phrase est longue, plus elle contient de l’information. Nous avons calculé ce facteur de pertinence en comptant le nombre de termes dans un tweet. On note l(ti) le nombre de termes dans un tweet ti dans Tq. Ce facteur de pertinence est calculé de la manière suivante : f2(ti) = l(ti) maxtj∈Tq l(tj ) (5.2) 90CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE – Correspondance exacte des termes : ce facteur favorise les tweets qui contiennent les termes de la requête q. La valeur nb(ti , q) correspond au nombre de termes en commun entre ti et q : f3(ti , q) = nb(ti , q) maxtj∈Tqnb(tj , q) (5.3) – Qualité du langage (Duan et al., 2010) : ce facteur de pertinence représente la proportion des termes qui existent dans un dictionnaire 1 par rapport à tous les termes du tweet ti . La valeur dic(term) est binaire : 1 si le terme existe dans le dictionnaire, 0 sinon : f14(ti) = P term∈ti dic(term) l(ti) (5.4) 2.2 Facteurs de pertinence basés sur l’hypertextualité Nous considérons trois facteurs de pertinence additionnels qui peuvent indiquer la qualité de l’information publiée dans les tweets : – Présence d’une URL dans le tweet (Nagmoti et al., 2010 ; Zhao et al., 2011) : partager des URLs est une manière de confirmer l’information publiée dans un tweet. Ceci permet également d’attirer l’attention sur un contenu présent sur le web. Ainsi, on fait l’hypothèse que la présence d’une URL indique que le tweet a un caractère informatif renforcé. Ce facteur de pertinence est binaire : f4(ti) =    1 si ti contient une URL 0 sinon (5.5) – Fréquence des URLs (Zhao et al., 2011) : compte le nombre d’URLs publiées dans un tweet ti : f5(ti , q) = |{w ∈ ti/isURL(w)}| maxtj∈Tq |{w ∈ tj/isURL(w)}| (5.6) – Fréquence de l’URL dans le corpus : ce facteur de pertinence permet de calculer la popularité des URLs publiées dans un tweet ti dans le corpus Cq. On note par freq(url) le nombre de fois ou une URL apparaît dans le corpus Cq : f6(ti , q) = P url∈ti freq(url) maxtj∈Tq P url∈tj freq(url) (5.7) 2.3 Facteurs de pertinence basés sur les hashtags – Présence de hashtag (Metzler et Cai, 2011). f7(ti) =    1 si ti contient un hashtag 0 sinon (5.8) 1. http://code.google.com/p/language-detection/ 91CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE – Fréquence de hashtags du tweet (Duan et al., 2010). On note la fréquence d’un hashtag dans le corpus Cq par freq(h) : f8(ti) = X h∈ti freq(h) (5.9) – Hashtags de la requête dans le tweet : calcule le nombre de termes d’une requête q qui apparaissent sous forme d’un hashtag dans un tweet ti . f9(ti , q) = |{w ∈ q/#w ∈ ti}| maxtj∈Tq |{w ∈ q/#w0 ∈ tj}| (5.10) 2.4 Facteurs de pertinence basés sur la popularité des auteurs Afin de tenir compte de la popularité des auteurs, nous avons considéré deux facteurs de pertinence spécifiques aux auteurs de microblogs. – Nombre de tweets de l’auteur (Nagmoti et al., 2010) : l’objectif de ce facteur de pertinence est de valoriser les tweets publiés par des auteurs actifs par rapport aux tweets publiés par des auteurs moins actifs. On note par a(ti) l’auteur du tweet ti et N(a(ti)) le nombre de tweets publiés par l’auteur du tweet ti dans le corpus Cq. f10(ti) = N(a(ti)) (5.11) – Nombre de citations de l’auteur (Zhao et al., 2011) : plus un auteur est mentionné, plus il est populaire. M(a(ti)) indique combien de fois un auteur du tweet ti a été mentionné dans le corpus Cq : f11(ti) = M(a(ti)) (5.12) 2.5 Facteurs de pertinence relatifs à la qualité des tweets Nous avons également analysé deux autres critères particularisant les tweets : – Retweet (Metzler et Cai, 2011). Si un utilisateur aime un tweet publié par un de ses amis, il va probablement le commenter et le partager de nouveau. Dans ce cas, le nouveau message va être précédé par RT (ou marqué en tant que retweet). f12(ti) =    1 si ti contient RT 0 sinon (5.13) – Fraîcheur (Magnani et al., 2012). C’est la différence entre la date de la publication du tweet ti et la date de la soumission de la requête q, mesurée en secondes. tmp(ti) est le timestamp en seconde d’un tweet ti (c’est-à-dire sa date de publication). f13(ti , q) = tmp(q) − tmp(ti) maxtj∈Tq tmp(q) − tmp(tj ) (5.14) 92CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE 3 Méthodologie Notre analyse est réalisée en trois phases : tout d’abord, nous avons évalué les facteurs de pertinence en nous basant sur les distributions de leurs scores, ensuite, en combinant linéairement leurs scores avec le score du modèle de restitution, et finalement en utilisant les techniques de sélection d’attributs pour des algorithmes d’apprentissage. 3.1 Étude de la distribution des scores L’intuition derrière cette étude est que les facteurs de pertinence reflétant la pertinence distinguent les tweets pertinents des non pertinents. Ces facteurs de pertinence n’aurons pas le même comportement avec les tweets pertinents et les tweets non pertinents. Pour évaluer un facteur, nous avons observé la distribution de ses scores dans les tweets. Si la distribution des scores d’un facteur de pertinence est la même pour les tweets pertinents et non pertinents, ce facteur ne permettra pas ainsi de différencier les deux classes de tweets, et ne sera pas considéré comme facteur utile à cette tâche. Dans le cas contraire, lorsque la distribution des scores d’un facteur de pertinence est différente entre les tweets pertinents et non pertinents, ce facteur permettra dans ce cas de différencier les deux classes de tweets, et il sera par conséquent considéré comme facteur utile. 3.2 Étude par la combinaison linéaire des scores Dans un deuxième temps, nous avons évalué l’impact direct de chacun des facteurs de pertinence sur la qualité des résultats. Nous avons ainsi combiné linéairement le score de chaque facteur de pertinence avec le score du modèle de restitution textuel employé. L’intuition derrière cette étude est que les facteurs de pertinence utiles vont promouvoir les tweets pertinents dans l’ensemble des résultats et ceci, de manière générale, va améliorer la qualité des résultats. Ensuite, nous avons testé la complémentarité des facteurs de pertinence : peuventils se compléter afin d’améliorer les résultats ? L’idée est de voir si les facteurs de pertinence ont des comportements différents lorsqu’ils sont combinés avec d’autres facteurs de pertinence, par rapport à leur comportement lorsqu’ils sont employés seuls. Afin d’étudier ce dernier point, il faudrait effectuer toutes les combinaisons possibles des facteurs de pertinence entre eux, ceci impliquant un nombre très important de runs (C 2 14 +C 3 14 +C 4 14 +C 5 14 +C 6 14 +C 7 14 +C 8 14 +C 9 14 +C 10 14 +C 11 14 +C 12 14 +C 13 14 = 16 368 runs). Afin de réduire le nombre de cas à prendre en compte, nous avons décidé d’observer le comportement des différents groupes qu’ils forment : 93CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE – Groupe G1 lié au contenu des tweets, composé des facteurs de pertinence f1, f2 et f14, – Groupe G2 lié à l’hypertextualité, composé des facteurs de pertinence f4, f5 et f6, – Groupe G3 lié aux hashtags publiés dans tweets, composé des facteurs de pertinence f7, f8, et f9. – Groupe G4 lié aux auteurs des tweets, composé des facteurs de pertinence f10, et f11, – Groupe G5 lié aux critères qualitatifs des tweets, composé des facteurs de pertinence f12 et f13. 3.3 Étude avec les techniques de sélection d’attributs Le problème de l’étude précédente réside dans la sélection des groupes des facteurs de pertinence. Tant que nous n’avons pas essayé toutes les combinaisons des facteurs de pertinence possible, il est impossible de juger convenablement la complémentarité des facteurs de pertinence, et d’identifier les meilleures combinaisons. En outre, l’étude précédente se base simplement sur des combinaisons de scores. Dans cette troisième étude plus approfondie, nous nous sommes ainsi appuyés sur des techniques de sélection d’attributs pour déterminer les meilleurs facteurs de pertinence à considérer dans une tâche de recherche de microblogs. Les techniques de sélection d’attributs visent à identifier et enlever le maximum d’information redondante et non pertinente en amont d’un processus à base d’apprentissage (Hall et Holmes, 2003). Elles permettent également de sélectionner de manière automatique les sous-ensembles de facteurs de pertinence permettant d’avoir les meilleurs résultats. Cette phase a fait ressortir plusieurs ensembles de facteurs. Ensuite, nous avons évalué l’efficacité de ces ensembles en les appliquant sur des techniques d’apprentissage dans un contexte de recherche de microblogs. 4 Expérimentations 4.1 Étude par la distribution des scores 4.1.1 Cadre expérimental Nous nous sommes basés sur le modèle vectoriel comme modèle de restitution. Les scores des facteurs de pertinence sont ensuite calculés pour chaque tweet résultat. Nous avons utilisé les requêtes des deux éditions 2011 et 2012 de la tâche microblog de TREC. Dans les expérimentations de cette étude, nous considérons les tweets moyennement pertinents et hautement pertinents (qrels all-rel) L’ensemble 94CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE des tweets à analyser est construit de la manière suivante : d’abord, nous avons sélectionné uniquement les requêtes ayant au moins 100 tweets pertinents (ce qui représente 14 requêtes de 2011 et 13 requêtes de 2012). Nous avons fait ce choix pour avoir un nombre suffisant de tweets à étudier. Pour chacune d’entre elles, nous avons gardé tous les tweets pertinents en nous référant aux jugements de pertinence. Pour chaque requête, nous avons ajouté le même nombre de tweets non pertinents que de tweets pertinents. Les tweets non pertinents sont sélectionnés en fonction de leurs scores du modèle vectoriel. Nous avons gardé ceux ayant les scores les plus importants. Les tweets de toutes les requêtes ont été fusionnés pour tracer la distribution globale dans les figures qui suivent. 4.1.2 Résultats 95CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE 96CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE Figure 5.1 – Distribution des scores des tweets pertinents et des tweets non pertinents (requêtes de 2011 à gauche et celles de 2012 à droite). La figure 5.1 montre la distribution des scores de tweets pertinents et des tweets non pertinents pour cette première étude. Les intervalles ont été calculés avec la loi de Sturges (1926). À part le facteur fraîcheur (f13), aucune différence dans les distributions entre les requêtes de 2011 et de 2012 n’est constatée. Nous pouvons observer que les facteurs de pertinence popularité du tweet (f1), longueur du tweet (f2), correspondance exacte des termes (f3), présence d’URL (f2), fréquence d’URLs (f5), importance d’URLs (f6) et fraîcheur (f13) ne présentent pas la même distribution des scores entre les tweets pertinents et les tweets non per- 97CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE tinents. Ces critères obtiennent leurs meilleurs scores avec les tweets pertinents et reflètent probablement ainsi la pertinence. La différence entre les deux populations de scores (des tweets pertinents et des tweets non pertinents) est statiquement significative selon le test t pairé et bilatéral avec p < 0, 05. 4.2 Étude par la combinaison linéaire des scores Dans cette section, nous comparons tout d’abord l’apport des différentes facteurs de pertinence pour raffiner le processus de RI sur les microblogs. Puis, nous positionnons nos résultats par rapport aux résultats officiels de la tâche Microblog à TREC 2011 et 2012. Enfin, nous généralisons nos conclusions en faisant abstraction du moteur de recherche Lucene utilisé jusqu’alors (Damak et al., 2012). 4.2.1 Cadre expérimental Le score final d’un tweet (équation 5.16) est calculé en combinant le score du modèle vectoriel et les scores des facteurs de pertinence (équation 5.15). Le score facteurs de pertinence est calculé par une combinaison linéaire. On réalise différentes normalisations de sorte que fn(ti , q) ∈ [0, 1] et fsources(ti , q) ∈ [0, 1]. Nous avons exclu le facteur de pertinence f3 (correspondance exacte de termes) des sources à évaluer afin de l’utiliser par la suite pour la généralisation des résultats. Cette source est nommée dans les expérimentations « Base ». Nous avons utilisé les requêtes des deux éditions 2011 et 2012 de la tâche Microblog. fsources(ti , q) = f(f1(ti , q), f2(ti , q), f4(ti , q), f5(ti), ..., f12(ti), f13(ti), f14(ti)) (5.15) score(ti , q) = α ∗ V SM(ti , q) + (1 − α) ∗ fsources(ti , q) α ∈ [0, 1] (5.16) Dans nos expérimentations, nous considérons les tweets moyennement pertinents et hautement pertinents (qrels all-rel). Les résultats présentés par la suite sont évalués en fonction d’un classement sur le score de pertinence, contrairement à la tâche Microblog de l’édition de 2011 qui évalue en réordonnant les résultats sur la date des tweets au préalable, ce qui ne rend pas compte de la qualité des facteurs de pertinence. Pour nos analyses, nous utilisons les 5000 premiers résultats renvoyés par Lucene. 4.2.2 Résultats 4.2.2.1 Combinaison source par source. Le tableau 5.1 montre les résultats obtenus en considérant les facteurs de pertinence décrits dans la section 2 un par un. Un astérisque indique que la différence est statistiquement significative selon le test t de Student (1908) pairé et bilatéral avec p < 0, 05. 98CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE Système édition 2011 édition 2012 P@30 MAP P@30 MAP VSM 0,3544 0,3141 0,2842 0,1871 VSM + f1 0,3027* 0,2280* 0,1966* 0,1371* VSM + f2 0,2701* 0,2241* 0,2729* 0,1616* VSM + f4 0,3986* 0,3348* 0,3463* 0,2202* VSM + f5 0,3517 0,3062* 0,3260* 0,2062* VSM + f6 0,3238 0,2570* 0,2469* 0,1645* VSM + f7 0,1619* 0,1067* 0,1542* 0,0905* VSM + f8 0,2823* 0,2078* 0,2379* 0,1517* VSM + f9 0,2275* 0,1903* 0,2246* 0,1478* VSM + f10 0,1850* 0,1724* 0,2040* 0,1311* VSM + f11 0,3245* 0,2475* 0,2627* 0,1625* VSM + f12 0,0299* 0,0867* 0,0362* 0,0845* VSM + f13 0,3456* 0,3134* 0,2808 0,1860* VSM + f14 0,3517* 0,3067* 0,2842 0,1813* Tableau 5.1 – Apport de chaque facteur de pertinence par rapport au modèle vectoriel (baseline VSM). Comme nous pouvons le constater, et de façon assez surprenante, l’utilisation de tous les critères, sauf f4 (2011) et f4, f5 (pour 2012), conduit à une dégradation des résultats. Concernant f4 (présence d’une URL dans le tweet), on observe une hausse sensible des résultats (+12,4 % sur la P@30 sur les requêtes de 2011 et +21,85 % sur les requêtes de 2012). 4.2.2.2 Combinaison de plusieurs facteurs de pertinence. Les résultats précédents ne nous permettent pas de voir les interactions entre les facteurs de pertinence. Nous évaluons maintenant les groupes des facteurs de pertinence. Les résultats sont décrits dans les tableau 5.2. Les combinaisons qui améliorent la P@30 sont les combinaisons qui mobilisent G2, qui contient le facteur de pertinence f4. Ceci tend à confirmer que seul le facteur de pertinence f4 a un intérêt dans notre système. Nous pouvons remarquer également que le groupe G1 n’améliore pas les résultats lorsqu’il est utilisé seul, mais améliore les résultats lorsqu’il est combiné avec l’un des autres groupes, en particulier G2. Le contraire de cette observation se manifeste pour le groupe G3. Ce groupe dégrade les résultats en le combinant avec n’importe quel autre groupe. 99CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE Système édition 2011 édition 2012 P@30 MAP P@30 MAP VSM 0,3544 0,3141 0,2842 0,1871 VSM + G1 0,3449* 0,2996* 0,2938* 0,1816* VSM + G2 0,3694 0,3233 0,3249 0,2091 VSM + G3 0,1833* 0,1332* 0,1643* 0,0973* VSM + G4 0,2197* 0,1832* 0,1876* 0,1254* VSM + G5 0,1578* 0,1797* 0,1390* 0,1134* VSM + G1 + G2 0,4014* 0,3431* 0,3441* 0,2235* VSM + G1 + G3 0,2920* 0,2374* 0,2298* 0,1421* VSM + G1 + G4 0,3374* 0,2965* 0,2864* 0,1770* VSM + G1 + G5 0,2769* 0,2520* 0,2288* 0,1551* VSM + G2 + G3 0,2848* 0,2382* 0,2678* 0,1659* VSM + G2 + G4 0,3306* 0,2947* 0,3085* 0,1968* VSM + G2 + G5 0,2973* 0,2763* 0,2740* 0,1841* VSM + G3 + G4 0,1906* 0,1395* 0,1608* 0,0976* VSM + G3 + G5 0,2159* 0,1793* 0,1596* 0,1111* VSM + G4 + G5 0,2170* 0,2064* 0,1644* 0,1182* VSM + G1 + G2 + G3 0,3623* 0,3005* 0,3029* 0,1909* VSM + G1 + G2 + G4 0,3946* 0,3354* 0,3390* 0,2178* VSM + G1 + G2 + G5 0,3544* 0,3113* 0,2853* 0,1994* VSM + G1 + G3 + G4 0,2906* 0,2388* 0,2205* 0,1409* VSM + G1 + G3 + G5 0,2804* 0,2398* 0,2094* 0,1416* VSM + G1 + G4 + G5 0,2864* 0,2538* 0,2282* 0,1552* VSM + G2 + G3 + G4 0,3043* 0,2545* 0,2573* 0,1623* VSM + G2 + G3 + G5 0,3087* 0,2608* 0,2520* 0,1669* VSM + G2 + G4 + G5 0,3252* 0,2839* 0,2644* 0,1819* VSM + G3 + G4 + G5 0,2159* 0,1802* 0,1684* 0,1116* VSM + G1 + G2 + G3 + G4 0,3638 0,2991 0,2959 0,1859 VSM + G1 + G2 + G3 + G5 0,3478 0,2929 0,2731 0,1822 VSM + G1 + G2 + G4 + G5 0,3517 0,3108 0,2853 0,1977 VSM + G1 + G3 + G4 + G5 0,2906 0,2409 0,2041 0,1403 VSM + G2 + G3 + G4 + G5 0,3109 0,2602 0,2491 0,1629 VSM + G1 + G2 + G3 + G4 + G5 0,3464 0,2909 0,2690 0,1790 Tableau 5.2 – Apport de chaque groupe de facteurs de pertinence et de leurs combinaisons par rapport modèle vectoriel (baseline VSM). 100CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE 4.2.3 Comparaison avec les résultats officiels de TREC Nous avons comparé notre meilleur run résultat (VSM + G1 + G2) avec les résultats officiels de la tâche Microblog de TREC 2011. Les résultats sont présentés dans le tableau 4.1. Afin que la comparaison soit équitable, seuls sont présents dans le tableau les runs officiels automatiques n’utilisant pas de source externe et fonctionnant en temps réel, c’est à dire n’utilisant pas d’information future. Nous rappelons que lors de l’évaluation officielle, les tweets doivent être ordonnés par ordre chronologique inverse. Notre run est coupé à 30 résultats afin d’éviter le biais introduit par le tri chronologique, assimilable à l’introduction d’un critère indépendant de la pertinence qui introduit un paramètre aléatoire non souhaitable. Par conséquent, les résultats du tableau 5.3 diffèrent sur la MAP par rapport au tableau 5.1. À titre informatif, les résultats sans coupe de notre run sont également présentés dans le tableau. On note l’effet négatif sur les résultats du tri chronologique des tweets, et ce sur les deux mesures. Groupe Run P@30 MAP isi isiFDL 0,4551 0,1923 FUB DFReeKLIM30 0,4401 0,2348 CLARITY_DCU clarity1 0,4211 0,2139 IRIT VSM + G1 + G2 coupé à 30 0,4014 0,1857 Purdue_IR myrun2 0,3993 0,2003 IRIT VSM + f4 coupé à 1000 0,1272 0,1549 IRIT Run officiel (Damak et al., 2011) 0,2565 0,1940 Tableau 5.3 – Comparaison avec les résultats officiels de TREC 2011 Le run « VSM + G1 +G2 coupé à 30 » nous aurait permis de nous placer à la 4e position des participants selon la P@30. Ces résultats améliorent notre participation officielle dont les détails sont donnés dans (Damak et al., 2011). Sur les requêtes de 2012, le run (VSM + f4) nous aurait permis de nous placer à la 36e position des participants selon la P@30. Ceci s’explique par le fait que les participants de la tâche de 2012 ont employé d’autres moyens, en particulier l’exploitation des contenus des URLs et l’expansion de requêtes dans leurs systèmes, dont nous avons montré leurs intérêts dans le chapitre précédent, ce qui a mis la barre de la pertinence très haute. 101CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE 4.2.4 Généralisation des résultats Les résultats que nous avons obtenus et présentés dans les sections précédentes sont liés à la performance du modèle vectoriel : ce sont sur les tweets renvoyés par ce modèle que nous appliquons les facteurs de pertinence. On pourrait donc penser que le score final d’un tweet dépend fortement du score du modèle vectoriel. Nous avons donc cherché à généraliser nos résultats précédents, en mettant en place une méthodologie d’évaluation indépendante du modèle vectoriel. Pour ce faire, nous avons sélectionné 5000 tweets avec Lucene, desquels nous avons enlevé le score associé. Ensuite, nous avons ajouté à cet ensemble les tweets pertinents manquants obtenus à partir des jugements de pertinence officiels (qrels). Comme il semble obligatoire d’avoir au moins un facteur de pertinence basé sur le contenu de la requête, la contribution du modèle vectoriel a été remplacée par un score très simple : le pourcentage de termes de la requête présents dans le tweet (Base). Ce score correspond au critère f3. Le score final de chaque tweet est ensuite calculé selon la formule 5.16 dans laquelle le score du modèle vectoriel est remplacé par Base. Les résultats généralisés sur l’apport des facteurs de pertinence un à un sont présentés dans le tableau 5.4. Système édition 2011 édition 2012 P@30 MAP P@30 MAP Base 0,2184 0,1785 0,1793 0,1001 Base + f1 0,2034 0,1629* 0,1339 0,0762* Base + f2 0,1531* 0,1155* 0,1741* 0,0909* Base + f4 0,2449* 0,2019* 0,2316* 0,1298* Base + f5 0,2565* 0,1876* 0,2126 0,1216* Base + f6 0,2095 0,1610* 0,1816 0,1065* Base + f7 0,1150* 0,0687* 0,1103 0,0638* Base + f8 0,1755* 0,1214* 0,1586* 0,0871* Base + f9 0,1884* 0,1424* 0,1591 0,0957* Base + f10 0,1190* 0,0980* 0,1339* 0,0819* Base + f11 0,2054 0,1481* 0,1638 0,0866* Base + f12 0,0245* 0,0634* 0,0241 0,0537* Base + f13 0,2068* 0,1536* 0,1839 0,1030* Base + f14 0,2367* 0,1790* 0,1764 0,0945* Tableau 5.4 – Apport des facteurs de pertinence pour le cas général. Nous constatons une nouvelle fois que seuls les facteurs de pertinence f4 et f5 semblent avoir un intérêt car les autres dégradent les résultats. 102CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE Système édition 2011 édition 2012 P@30 MAP P@30 MAP Base 0,2184 0,1785 0,1793 0,1001 Base + G1 0,2150* 0,1578* 0,1776* 0,0965* Base + G2 0,2646* 0,2002* 0,2213* 0,1209* Base + G3 0,1370* 0,0886* 0,1386* 0,0679* Base + G4 0,1544* 0,1081* 0,1322* 0,0787* Base + G5 0,0558* 0,0736* 0,0667* 0,0609* Base + G1 + G2 0,2558* 0,1930 0,2195* 0,1286 Base + G1 + G3 0,2007* 0,1229* 0,1643* 0,0870* Base + G1 + G4 0,2170* 0,1549* 0,1684* 0,0952* Base + G1 + G5 0,1646* 0,1245* 0,1402* 0,0822* Base + G2 + G3 0,2413* 0,1635* 0,1936* 0,1099* Base + G2 + G4 0,2395* 0,1791* 0,1966* 0,1162* Base + G2 + G5 0,2027* 0,1537* 0,1741* 0,1076* Base + G3 + G4 0,1471* 0,0912* 0,1421* 0,0693* Base + G3 + G5 0,1210* 0,0925* 0,1088* 0,0665* Base + G4 + G5 0,1136* 0,0978* 0,0908* 0,0639* Base + G1 + G2 + G3 0,2565* 0,1746* 0,2012* 0,1187* Base + G1 + G2 + G4 0,2544* 0,1888* 0,2063* 0,1249* Base + G1 + G2 + G5 0,2306* 0,1741* 0,1885* 0,1157* Base + G1 + G3 + G4 0,1971* 0,1270* 0,1643* 0,0872* Base + G1 + G3 + G5 0,1732* 0,1194* 0,1427* 0,0823* Base + G1 + G4 + G5 0,1782* 0,1294* 0,1414* 0,0829* Base + G2 + G3 + G4 0,2283* 0,1599* 0,1871* 0,1081* Base + G2 + G3 + G5 0,2355* 0,1487* 0,1649* 0,1032* Base + G2 + G4 + G5 0,2061* 0,1603* 0,1816* 0,1076* Base + G3 + G4 + G5 0,1355* 0,0959* 0,1140* 0,0684* Base + G1 + G2 + G3 + G4 0,2486 0,1737 0,1994 0,1161 Base + G1 + G2 + G3 + G5 0,2449 0,1637 0,1842 0,1094 Base + G1 + G2 + G4 + G5 0,2374 0,1725 0,1845 0,1140 Base + G1 + G3 + G4 + G5 0,1717 0,1200 0,1392 0,0828 Base + G2 + G3 + G4 + G5 0,2167 0,1483 0,1690 0,1026 Base + G1 + G2 + G3 + G4 + G5 0,2391 0,1629 0,1842 0,1085 Tableau 5.5 – Apport des groupes de facteur de pertinence et de leurs combinaisons pour le cas général. Si l’on prend maintenant en compte les différents groupes de facteurs de perti- 103CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE nence (tableau 5.5), le meilleur groupe est G2, contenant le facteur f4. Ces résultats correspondent aux résultats obtenus dans le paragraphe précédent. 4.2.5 Discussion La conclusion principale de ces expérimentations est que la présence de liens hypertextes dans les tweets semble être un indicateur de pertinence, en complément à la pertinence textuelle. Ceci est cohérent avec les résultats du chapitre 4, dans lequel nous avons montré l’apport important de la prise en compte des URLs dans la restitution. De manière générale, les mêmes observations ont été remarquées avec les requêtes de 2011 et de 2012. En outre, ces observations persistent, que ce soit avec le modèle vectoriel ou avec Base, ce qui montre qu’elles ne dépendent pas forcément du modèle vectoriel et qu’elles sont généralisables. Concernant maintenant le protocole expérimental utilisé, les résultats que nous avons présentés dans cet article sont basés sur un ensemble de N = 5000 tweets renvoyés par Lucene. Nous avons fait ce choix dans le but de maximiser le rappel des tweets pertinents (environ 80 %). Nous avons également mené d’autres expérimentations avec une valeur plus petite pour N (1500), sans que nos conclusions ne changent. D’autre part, nous avons constaté qu’il n’y a pas au moins 30 tweets pertinents par topic. Par exemple, le système idéal pour les requêtes de 2011, atteindrait une P@30 de 0,7619. Par ailleurs, la P@30 étant une mesure ensembliste, elle ne tient pas compte du classement des résultats. Pour ces deux raisons, la MAP, qui est une mesure sensible au rang, nous semblerait plus appropriée afin de classer les participations officielles. Dans la section suivante, nous présentons une étude plus approfondie sur l’apport des facteurs de pertinence. Nous allons en effet nous baser sur les techniques de sé- lection d’attributs afin de détecter les groupes de facteurs de pertinence qui reflètent la pertinence et qui sont susceptibles d’être utiles dans la recherche de microblogs avec les techniques d’apprentissage. 4.3 Étude avec les techniques de sélection d’attributs 4.3.1 Cadre expérimental Nous avons utilisé Weka 2 pour ces expérimentations. Weka est un outil opensource écrit entièrement en Java et qui rassemble la plupart des techniques d’apprentissage et des techniques de sélection d’attributs. 2. http://www.cs.waikato.ac.nz/ml 104CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE Nous avons procédé ainsi : les premiers 1500 tweets pour chaque topic ont été restitués avec le modèle vectoriel. Ensuite, les scores de tous les facteurs de pertinence ont été calculés pour chaque tweet. Nous avons identifié les tweets pertinents et les tweets non pertinents. L’ensemble obtenu contient 72 614 tweets, répartis en 2 129 tweets pertinents et 70 485 tweets non pertinents. On peut remarquer que les classes de cet ensemble sont déséquilibrées. Or lorsque le nombre d’éléments d’une classe dans une collection d’apprentissage dépasse considérablement les autres échantillons des autres classes, un classifieur tend à prédire les échantillons de la classe majoritaire et peut ignorer complètement les classes minoritaires (Yen et Lee, 2006). Pour cette raison, nous avons appliqué une approche de sous-échantillonnage pour générer une collection équilibrée composé de 2 129 tweets pertinents et 2,129 tweets non pertinents. Les tweets non pertinents pour cette étude ont été sélectionnés de manière aléatoire. Finalement, nous avons appliqué les techniques de sélection d’attributs sur l’ensemble obtenu. Cette phase a fait ressortir plusieurs ensembles de critères. Ensuite, nous avons évalué l’efficacité de ces ensembles en les appliquant sur des techniques d’apprentissage dans un contexte de recherche de microblogs. Nous avons utilisé dans cette deuxième phase les requêtes de 2011 pour l’apprentissage et les requêtes de 2012 pour l’évaluation. 4.3.2 Résultats de l’étude Le tableau 5.6 montre les facteurs de pertinence sélectionnés par les techniques de sélection d’attributs. Les facteurs de pertinence mis en avant par l’étude de la distribution des scores (section 3.3) correspondent à ceux ressortissant de cette étude (f1, f2, f3, f4, f5, f6, f13). Ceci confirme l’importance de cet ensemble par rapport au reste des facteurs. Nous avons également effectué cette étude sans échantillonnage du corpus. Nous n’avons remarqué aucune différence sur les résultats de l’étude avec les techniques de sélection d’attributs. Nous avons trouvé que les mêmes facteurs de pertinence sont mis en avant par l’étude de la distribution des scores et l’étude avec les techniques de sélection d’attributs. Ces facteurs de pertinence sont : facteurs de pertinence de contenu (popularité du tweet, longueur du tweet, correspondance exacte des termes), facteurs de pertinence d’hypertextualité (présence d’URL, importance d’URLs, fréquence d’URLs) et facteur de pertinence temporelle (fraîcheur). D’autres facteurs de pertinence ont été sélectionnés pas les techniques de sélection d’attributs, quoique moins fréquemment : facteurs de pertinence de l’auteur (nombre de tweets, nombre de citations) et la qualité du langage. Finalement, les facteurs de pertinence des hashtags (popularité du hashtag, présence de hashtags) n’ont jamais été sélectionnés et semblent complètement non pertinents. 105CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE Algorithme VSM f1 f2 f3 f4 f5 f6 f7 f8 f9 f10 f11 f12 f13 f14 Cfssubseteval + + + + + + + + + ChisquaredAtt.Eval + + + + + + + + + + + + + FilteredAtt.Eval + + + + + + + + + + + + + FilteredSubsetEval + + + + + + + + Gain ration att eval + + + + + + + + + + + + + Info gain att eval + + + + + + + + + + + + + One att eval + + + + + + + + + + + + + ReliefFAttribute Eval + + + + + + + + + + + + + SVM Attribute Eval + + + + + + + + + + + + SymetricalUncertEval + + + + + + + + + + + + + Consistency subset Eval + + + + + + + + + + + + + Wrapper subset Eval + + + + + LatentSymanticAnalysis + + + + Total 13 12 12 13 12 12 12 0 0 9 8 9 10 11 9 Tableau 5.6 – Critères sélectionnés avec les techniques de sélection d’attributs 4.3.3 Application des résultats de l’étude dans la recherche Dans cette section, nous évaluons certaines techniques d’apprentissage avec l’ensemble de facteurs identifiés lors des études précédentes. L’objectif est double : d’une part, nous cherchons à valider si la sélection d’attributs améliore effectivement les résultats d’une tâche de recherche de microblogs. D’autre part, nous cherchons à mesurer la performance de certaines techniques d’apprentissage dans ce type de classification. Pour évaluer les techniques d’apprentissage, nous utilisons les résultats des requêtes de l’édition de 2011 comme collection d’apprentissage et les résultats de l’édition de 2012 pour les tests. Les modèles appris prédisent la classe de pertinence pour chaque tweet (pertinent ou non pertinent). Les tweets classés comme non pertinents sont ainsi supprimés. Les tweets classés comme pertinents sont triés selon les scores d’efficacité de la classification produit pas la technique d’apprentissage. Pour évaluer nos runs obtenus, nous nous basons sur la P@30 (la mesure officielle des tâches de 2011 et 2012). Nous avons choisi de tester trois techniques d’apprentissage. Ce choix s’explique par le fait qu’elles sont les plus utilisées pour classer des documents de faible longueur. Par ailleurs, elles ont souvent montré leur efficacité dans la recherche de microblogs : SVM (Duan et al., 2010 ; Vosecky et al., 2012), J48 (Yuan et al., 2012) et Naive Bayes (Yuan et al., 2012). Hall et Holmes (2003) ont étudié l’efficacité de certaines techniques de sélection d’attributs en les confrontant avec les techniques d’apprentissage. Étant donné que la performance des facteurs diffère d’une technique d’apprentissage à une autre, ils ont 106CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE identifié les meilleures techniques de sélection d’attributs permettant de retrouver les facteurs les plus performants en fonction des techniques d’apprentissage à utiliser. En se basant sur leur étude, nous avons utilisé les mêmes couples des techniques d’apprentissage et des techniques de sélection d’attributs : – Naive Bayes et Wrapper Subset Evaluation (WRP) qui utilise l’algorithme d’apprentissage ciblé afin d’estimer les meilleurs attributs. Ainsi, les facteurs sélectionnés dans ce cas sont le score de Lucene, f3, f4, f5 et f6. – Naive Bayes et Correlation-based feature Selection (CFS) (Lucene, f1, f2, f3, f4, f5, f6, f12, f13). – J48 et ReliefFAttribute Eval (RLF) (Lucene, f1, f2, f3, f5, f6, f9, f10, f11, f12, f13, f14). – SVM et SVM Attribute Eval qui évaluent les attributs en utilisant le classifieur SVM (Lucene, f1, f2, f3, f4, f5, f6, f9, f11, f12, f13, f14). Lucene 0,2842 Distribution de scores Techniques de sélection Tous les critères J48 0,1627 0,0983 (RLF) 0,1000 Naive Bayes 0,3305 0,3311 (WRP) 0,2372 0,3356 (CFS) SVM 0,1689 0,1746 (SVM) 0,1729 Tableau 5.7 – Résultats (P@30), les scores en gras indiquent des améliorations significatives par rapport à la baseline Le tableau 5.7 montre les résultats des trois techniques d’apprentissage appris avec les facteurs issus de l’étude de la distribution des scores, les facteurs ressortis de l’étude avec les techniques de sélection d’attributs et avec tous les facteurs. Les résultats ont été comparés avec le run nommé Lucene dans lequel seulement les scores de Lucene ont été utilisés pour trier les tweets et qui représente notre baseline. 4.3.4 Discussion et limites L’objectif principal de cette étude était d’identifier la meilleure combinaison de facteurs de pertinence. Les facteurs de pertinence mis en évidence sont les mêmes que celles de l’étude par la distribution des scores. Cette étude nous a permis également de vérifier si la sélection des attributs améliore l’efficacité des techniques d’apprentissage. Les critères identifiés par SVM attribute Eval, WRP, CFS, et par l’étude de la distribution des scores confirment l’hypothèse. À part J48 appris avec les critères sélectionnés avec RLF, tous les résultats ont été améliorés par rapport aux runs créés avec tous les critères. Nous notons 107CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE également que les techniques d’apprentissage, à part J48, ont été plus efficaces avec les techniques de sélection d’attributs qu’avec les critères ressortis de la distribution des scores. Nous avons pu identifier également la meilleure technique d’apprentissage pour une tâche de recherche de microblogs. Nous pouvons remarquer que seul Naive Bayes dépasse Lucene (+18 % avec les critères sélectionnés en utilisant CFS et +16 % avec les critères ressortis de la distribution des scores). Les autres techniques d’apprentissage n’ont pas réussi à améliorer les résultats. Nous avons comparé le run obtenu en utilisant Naive Bayes appris avec les critères obtenus de CFS avec les autres participants de la tâche Microblog de 2011. Nous avons fait apprendre Naive Bayes avec les critères de CFS et nous avons réalisé une validation croisée avec les requêtes de 2011. Nous avons obtenu une P@30 moyenne de 0,3707, ce qui nous aurait classé à la 5e place parmi tous les participants qui n’ont pas utilisé des informations futures et qui ont soumis des runs automatiques. Cette précision est réduite de 10 % en utilisant le même modèle sur les requêtes de l’édition de 2012. En outre, les techniques d’apprentissage telles que J48 et SVM ont obtenu un gain de 80 % d’efficacité lorsqu’elles sont testées et croisées sur les requêtes de l’édition de 2011. Cependant, elles n’ont pas fonctionné comme prévu sur les requêtes de 2012. Toutes ces observations soulèvent la question suivante : les requêtes et les jugements de pertinence des tâches des deux années ont-ils été construits de la même manière ? Dans le but de contrôler ce biais potentiel de la collection, nous avons fusionné les requêtes de 2011 et 2012 et nous avons répété les mêmes étapes. Nous avons obtenus une P@30 moyenne de 0,3435. Ce bon résultat confirme que Naive Bayes appris avec les critères obtenus avec CFS est le plus adapté à la recherche de microblogs. 5 Conclusion Nous avons évalué dans ce chapitre les facteurs de pertinence souvent utilisés pour évaluer la pertinence des microblogs vis-à-vis d’un besoin en information. Nous avons montré expérimentalement ceux qui reflètent la pertinence. Nous avons calculé les scores des facteurs de pertinence. Ces scores ont été employés dans des combinaisons linéaires ou avec des techniques d’apprentissages, ou bien pour étudier leurs distributions dans les tweets pertinents et dans les tweets non pertinents. Les trois analyses ont montré l’importance des facteurs de pertinence liés aux URLs des tweets, ce qui complète encore une fois nos conclusions du chapitre précédent. Les facteurs liés aux hashtags ou à l’importance des auteurs n’ont cependant pas montré leur intérêt. L’emploi de certains facteurs de pertinence permet d’améliorer les résultats d’une 108CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE tâche de recherche de microblogs lorsqu’ils sont utilisés afin de réordonner les résultats fournis par un modèle de RI classique. Cependant ces améliorations demeurent dépendantes du modèle de RI : les facteurs interviennent pour le classement des tweets candidats (identifiés au préalable). Nous notons que le meilleur résultat de toutes les expérimentations de ce chapitre est obtenu par la combinaison linéaire du score du modèle vectoriel avec les scores des facteurs de pertinence des groupes G1 et G2, et non pas avec l’apprentissage. Notre travail présente cependant quelques limites. D’abord, nous n’avons pas calculé des poids quantifiant les importances des critères de pertinence (même avec les techniques de sélection d’attributs). Intuitivement, il semblerait que certains soient plus pertinents que d’autre pour la restitution de microblogs. De même, nous n’avons aucune idée de la manière dont les critères sont combinés dans les techniques d’apprentissage (boite noire). Ensuite, nous n’avons pas pu évaluer d’autres facteurs utilisés dans certaines approches de recherche de microblogs, tels que la fréquence de retweet, le nombre d’abonnés d’un auteur. Ces facteurs nécessitent des informations supplémentaires que nous ne possédons pas dans le corpus utilisé pour nos expérimentations. Un accès ouvert à Twitter semble nécessaire pour obtenir ces informations et les évaluer, ce qui n’est pas possible. La recherche d’information dans les microblogs implique la prise en compte automatique de la fraîcheur dans la pertinence. Ce facteur à été sélectionné 11 fois par les 13 techniques de sélection d’attributs que nous avons employé dans la section 4.3 (tableau 5.6). Nous traitons plus finement ce facteur dans le chapitre suivant. 109CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE 110Chapitre 6 Prise en compte du temps dans la recherche de microblogs 1 Introduction Ounis et al. (2011) ont défini la recherche de microblogs de la façon suivante : en cherchant dans les microblogs, l’utilisateur cherche à avoir l’information la plus récente, et pertinente, par rapport à un besoin d’information. Teevan et al. (2011), quand à eux, ont également montré que l’une des principales motivations des utilisateurs qui utilisent un moteur de recherche de microblogs concerne l’information récente. Nous avons, de notre part, montré dans le chapitre précédent que le facteur temps est souvent sélectionné comme facteur pertinent pour la recherche de microblogs. Ces trois constats suggèrent que la fraîcheur est un facteur de pertinence crucial pour la restitution de microblogs. Dans un premier temps, nous avons intégré la fraîcheur de deux manières différentes dans le calcul de la pertinence des tweets. Nous avons (i) renforcé les scores de pertinence des tweets récents par rapport à la date de soumission de la requête. Ensuite, nous avons (ii) favorisé les termes qui apparaissent fréquemment au moment de soumission de la requête. Dans un deuxième temps (iii) nous avons exploité les distributions temporelles des termes des tweets potentiellement pertinents dans le calcul de la pertinence. L’idée ainsi est de promouvoir un tweet restitué contenant des termes fréquemment utilisés le jour de sa publication. 111CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE MICROBLOGS 2 Emploi de la fraîcheur dans la restitution des microblogs Nous prenons en compte à ce niveau le facteur fraîcheur par rapport à la date de soumission de la requête dans la mesure de la pertinence. Ce facteur peut être pris en compte de différentes manières. Dans un premier temps, nous proposons d’amplifier les scores de pertinence du contenu d’un tweet en fonction de sa proximité temporelle avec la date de la requête. Dans un deuxième temps, nous proposons de favoriser les termes fréquemment utilisés au moment de la soumission de la requête. Nous avons choisi d’utiliser la méthode de Kernel Laplace utilisée dans (Lv et Zhai, 2009) pour amplifier les scores du modèle de restitution 1 en fonction de la fraîcheur du tweet. La formule de Kernel est : k(i, j) = 1 2b exp −|i − j| b ! avec σ2 = 2b 2 (6.1) Dans notre cas, i et j représentent respectivement les dates en jour de la soumission de la requête et la date de publication du tweet. le facteur σ est le facteur qui permet de modifier le degré d’amplification des scores. 2.1 Favoriser des tweets récents Une façon simple de prendre en compte la fraîcheur d’un tweet est d’amplifier son score de pertinence de contenu en fonction de sa date de proximité temporelle avec la requête. L’intuition ici est que certains tweets, même ayant un score de pertinence de contenu faible, sont pertinents du fait de leur fraîcheur par rapport à la date de soumission de la requête. En contrepartie, d’autres tweets, même ayant des scores de pertinence de contenu élevés, ne sont pas pertinents du fait de leur distance temporelle importante par rapport à la date de la soumission de la requête. Le score de chaque tweet devient ainsi : RSV T1(q, d, σ) = RSV (q, d) ∗ kσ(tq, td) (6.2) avec kσ(tq, td) est le score du facteur de Kernel. Nous avons fait varier la valeur de σ pour observer l’impact de l’amplification sur les résultats. Le tableau 6.1 montre l’ensemble des résultats. 1. Les méthodes que nous proposons sont basées sur le modèle BM25 avec K1 = 0, 1 et b = 0. Nous avons choisi cette configuration car elle a obtenu de meilleurs résultats que le modèle vectoriel et que le modèle BM25 de base (chapitre 4). Nous n’avons pas employé d’autres facteurs comme l’expansion de requêtes ou de documents (l’objectif ici est d’étudier uniquement le facteur temporel). Nous nous sommes basés sur les 60 requêtes de l’édition 2012 de la tâche Microblog de TREC. 112CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE MICROBLOGS σ Rappel P@30 MAP RSV (q, d) 0,6643 0,3186 0,2170 RSV T1(q, d, 2) 0,2388 0,0432 0,1175 RSV T1(q, d, 14) 0,4849 0,2305 0,1178 RSV T1(q, d, 18) 0,5427 0,2379 0,1362 RSV T1(q, d, 28) 0,5950 0,2729 0,1695 RSV T1(q, d, 32) 0,6082 0,2797 0,1782 RSV T1(q, d, 50) 0,6295 0,2910 0,1938 RSV T1(q, d, 90) 0,6520 0,2960 0,2024 RSV T1(q, d, 230) 0,6597 0,3119 0,2111 RSV T1(q, d, 350) 0,6633 0,3153 0,2155 Tableau 6.1 – Amplification des scores de pertinence de contenu en fonction de leur fraîcheur Comme les résultats le montrent, l’amplification des scores du modèle de restitution n’a pas amélioré les résultats. En faisant augmenter σ, l’effet de l’amplification diminue, et les résultats se rapprochent des résultats du modèle de recherche de base. 2.2 Favoriser les termes récents L’intuition ici est de considérer que les termes les plus représentatifs pour exprimer un besoin en information dans les microblogs sont des termes fréquemment utilisés au moment de la soumission de la requête : un document, même ancien par rapport à la date de soumission de la requête, contenant des termes fréquemment utilisés au moment de la requête est plus pertinent qu’un document récent, contenant des termes fréquemment utilisés dans des périodes lointaines par rapport à la requête. Pour prendre en compte cette intuition, nous avons modifié le facteur IDF du modèle de restitution (RSV T2(q, d, σ)) : IDF = log N − (Ri)temps (Ri)temps ! (6.3) (Ri)temps = X t (|Ri |t ∗ kσ(tq, t)) (6.4) avec t correspond à une fenêtre temporelle exprimée en jours et |Ri |t correspond au nombre de documents dans cette fenêtre temporelle. Le tableau 6.2 présente les résultats. Nous avons fait varier σ : 113CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE MICROBLOGS σ Rappel P@30 MAP RSV (q, d) 0,6643 0,3186 0,2170 RSV T2(q, d, 2) 0,6640 0,3130 0,2156 RSV T2(q, d, 10) 0,6647 0,3130 0,2159 RSV T2(q, d, 20) 0,6657 0,3136 0,2160 RSV T2(q, d, 30) 0,6657 0,3136 0,2160 RSV T2(q, d, 40) 0,6659 0,3119 0,2157 RSV T2(q, d, 50) 0,6659 0,3085 0,2128 Tableau 6.2 – Amplification des scores des termes en fonction de leur fréquence d’apparition dans le temps Encore une fois, la prise en compte de la fraîcheur n’a pas montré une amélioration significative (à part une légère amélioration de 0,28 % au niveau du rappel). 2.3 Observations De manière générale, l’emploi de la fraîcheur dans les deux méthodes proposées n’apporte pas d’amélioration. Afin de vérifier si la fraîcheur a un impact sur les résultats, nous avons regardé la distribution temporelle des tweets pertinents et des tweets non pertinents pour l’ensemble des requêtes. La figure 6.1 montre les ratios des distributions temporelles des tweets pertinents et non pertinents de chaque requête, ainsi que la distribution générale des tweets sur l’ensemble des requêtes (nommée somme). Nous nous sommes basés sur les jugements de pertinence (qrels) pour sélectionner ces tweets. Les courbes présentent le ratio des quantités de tweets pertinents (bleu/carrés inclinés) et des non pertinents (rouge) par jour. Nous pouvons remarquer que les distributions diffèrent d’une requête à une autre. Les tweets pertinents ne sont pas toujours récents par rapport à la date de la soumission des requêtes. En analysant chaque requête séparément, nous pouvons affirmer que la prise en compte de la fraîcheur pénalise les résultats de plusieurs requêtes dont les dates de la plupart des tweets pertinents sont relativement éloignés de sept jours de la date de soumission des requêtes (ex. MB088, MB089, MB095. . . ). Par ailleurs, nous remarquons que les tweets pertinents arrivent par rafales. Les positions de ces rafales sont différentes d’une requête à une autre. Nous avons ainsi testé une troisième méthode qui, pour le calcul du score d’un tweet, tient compte de la fréquence des tweets publiés le jour de sa publication. L’objectif est de promouvoir un tweet s’il est publié dans une période qui correspond à une rafale de tweets. Par exemple, pour la requête MB065, la plupart des tweets pertinents sont apparus dix jours avant la date de soumission de la requête. Ainsi, l’idée est de favoriser les 114CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE MICROBLOGS tweets publiés dans cette fenêtre temporelle. 115CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE MICROBLOGS 116CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE MICROBLOGS Figure 6.1 – Distribution temporelle des tweets pertinents et non pertinents pour les requêtes de TREC Microblog 2012. Les rectangles représentent les tweets pertinents tandis que les losanges représentent les tweets non pertinents. 3 Prise en compte de la fréquence temporelle Nous prenons en compte à ce niveau les distributions temporelles des résultats. Nous essayons ainsi de favoriser les résultats qui apparaissent dans les périodes de rafales. Cette troisième méthode amplifie le score d’un terme dans un tweet publié à un instant t en fonction de la fréquence d’emploi de ce terme dans cette période t. Un même terme aura des scores différents en fonction de la date de soumission du document auquel il appartient. Ce score sera plus important si le terme appartient à un document publié dans une période de rafale de ce terme, que dans le cas où il appartient à un document publié dans une période où le terme n’est pas fréquemment utilisé. De cette manière, nous favorisons les résultats publiés dans des périodes de rafales. Pour mettre en application cette intuition, nous avons employé un nouveau facteur : IDFnew. IDFnew = IDF ∗ 1/IDFlocal (6.5) et IDFlocal = log N − (Ri)t (Ri)t ! (6.6) avec (Ri)t est le nombre de tweets contenant le terme i le jour de la publication du tweet. IDFlocal est le IDF d’un terme, mais sur une fenêtre temporelle d’un jour (est non pas sur toute la collection). Ainsi, un terme va avoir un IDFlocal différent 117CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE MICROBLOGS pour chaque jour. Ce facteur est plus important dans un jour où le terme n’est pas fréquemment utilisé, que dans un jour où il est fréquemment utilisé (supposé correspondant à un jour de rafale). Pour cette raison, nous employons l’inverse de ce facteur : 1/IDFlocal. Le modèle qui prend en compte IDFnew dans le modèle de restitution est nommé RSV T3(q, d). Rappel P@30 MAP RSV (q, d) 0,6643 0,3186 0,2170 RSV T3(q, d) 0.6469 0.3198 0.2087 Tableau 6.3 – Prise en compte de la fréquence temporelle. Le tableau 6.3 montre que cette méthode n’a pas donné d’amélioration significative sur l’ensemble des requêtes. Afin de mieux comprendre l’impact de nos méthodes, nous avons analysé les résultats requête par requête afin de voir si l’effet négatif de nos méthodes apparaît sur toutes les requêtes ou uniquement sur certaines. L’objectif est de voir si la prise en compte de la fraîcheur ou du temps dans la restitution permet d’améliorer certaines requêtes en particulier, et d’identifier des spécificités de ces requêtes. 4 Analyse requête par requête Dans cette section, nous analysons l’impact de nos trois méthodes, requête par requête. Nous considérons la mesure MAP, car elle tient compte à la fois du rappel et de la précision. Le tableau 6.4 montre les requêtes pour lesquelles nous avons eu des améliorations avec chacune des trois méthodes. De manière générale, la modification de σ dans Kernel ne change pas les différentes observations. La première remarque est que la deuxième approche améliore 51 requêtes parmi les 60. Cependant, nous n’avons identifié aucune particularité commune, que ce soit au niveau des distributions temporelles des résultats ou bien de la sémantique des requêtes, pour les requêtes n’ayant pas obtenu d’amélioration. Nous n’avons également pas trouvé de spécificités communes pour les requêtes améliorées avec la première et la dernière méthode. Par exemple, la première méthode a amélioré les requêtes MB059 « Glen Beck » et MB085 « Best Buy improve sales ». Ces deux requêtes n’ont aucune sensibilité temporelle. De même, pour la troisième approche, nous notons des améliorations pour les requêtes MB060 « fishing guidebook », MB064 « red light cameras », MB102 « school lunches ». . . Ces requêtes n’ont également aucune sensibilité temporelle. 118CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE MICROBLOGS RSV T1(q, d, σ) MB058, MB059, MB063, MB066, MB067, MB071, MB075, MB079, MB080, MB085, MB091, MB093, MB107 RSV T2(q, d, σ) MB051, MB052, MB053, MB054, MB056, MB057, MB059, MB060, MB062, MB063, MB064, MB065, MB067, MB069, MB070, MB071, MB072, MB073, MB074, MB075, MB076, MB077, MB078, MB079, MB080, MB081, MB083, MB084, MB085, MB086, MB087, MB088, MB089, MB090, MB091, MB092, MB093, MB094, MB095, MB098, MB099, MB100, MB101, MB102, MB103, MB105, MB106, MB107, MB108, MB109, MB110 RSV T3(q, d) MB051, MB054, MB057, MB059, MB066, MB069, MB070, MB075, MB077, MB079, MB080, MB081, MB085, MB086, MB088, MB089, MB092, MB093, MB094, MB095, MB096, MB098, MB100, MB101, MB102, MB107, MB108, MB109 Tableau 6.4 – Requêtes améliorées sur la mesure MAP pour les 3 méthodes Ensuite, nous avons identifié manuellement les requêtes sensibles au temps. L’objectif est de voir si, pour ces requêtes et avec la prise en compte du temps, les ré- sultats ont été améliorés. Dans le cas contraire, nous essayons de comprendre les raisons. Ces requêtes correspondent principalement à des événements (par exemple : « Hu Jintao visit to the United States », « Autralian Open Djokovic vs. Murray », « fashion week in NYC ». . . ). Nous avons sélectionné 13 requêtes qui parlent explicitement d’événements et qui sont clairement sensibles au temps (MB051, MB057, MB061, MB065, MB067, MB071, MB075, MB079, MB086, MB093, MB096, MB098, MB106). L’impact de la prise en compte du temps pour ces requêtes diffère d’une approche à une autre : – 8/13 (MB051, MB057, MB061, MB065, MB086, MB096, MB098, MB106) n’ont pas été améliorées avec la première approche. – 11/13 (MB051, MB057, MB065, MB067, MB071, MB075, MB079, MB086, MB093, MB098, MB106) n’ont pas été améliorées avec la deuxième approche. – 5/13(MB061, MB065, MB067, MB071, MB106) n’ont pas été améliorées avec la troisième approche. La première remarque est que la troisième approche est celle qui arrive à amélio- 119CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE MICROBLOGS rer le nombre le plus important de requêtes sensibles au temps (8/13). Concernant les deux premières approches (se basant sur la fraîcheur par rapport à la date de la soumission de la requête), la cause principale pour laquelle il n’y avait pas d’amé- lioration consiste en la concentration des tweets pertinents dans des dates lointaines par rapport à la date de la requête. C’est la cas des requêtes MB057, MB061, MB065, MB067, MB079, MB086, MB093, MB098 et MB106. Ainsi, la prise en compte de la fraîcheur n’a pas montré d’intérêt. Concernant les requêtes MB071, MB075 et MB096, nous pouvons remarquer à partir des courbes de distributions temporelles que les tweets pertinents sont proches de la date de la soumission de la requête. Cependant, nous notons que, pour ces requêtes, les courbes des tweets pertinents sont très similaires aux courbes des tweets non pertinents. Ainsi, le fait de favoriser les tweets récents va impliquer les tweets pertinents et les tweets non pertinents, ce qui explique la dégradation des résultats pour elles. Finalement, la requête MB051 se caractérise par l’apparition de la grande partie des tweets pertinents à une date récente par rapport à la date de la requête, et les distributions des tweets pertinents et des tweets non pertinents ne sont pas similaires. Nous avons ainsi regardé les résultats restitués pour cette requête et nous avons remarqué que le modèle de RI employé n’a pas restitué une grande partie des tweets pertinents apparus récemment par rapport à la date de la requête. Ceci est du aux problèmes de vocabulaires étudiés dans le chapitre 3. Par conséquent, la prise en compte de la fraîcheur n’a pas montré son effet. Concernant la troisième approche (qui prend en compte des distributions temporelles des résultats), nous avons étudié les résultats des requêtes pour lesquelles il n’y avait pas eu d’amélioration. Nous avons trouvé que le modèle de restitution de base (sans l’intégration de la fraîcheur) a restitué tous les tweets pertinents apparus dans les périodes de rafales. Par conséquent, la prise en compte du temps a favorisé uniquement la restitution des tweets non pertinents, pour ces périodes, ce qui a engendré une dégradation des résultats. 5 Conclusion Nous avons étudié l’impact de la prise en compte du temps dans la recherche de microblogs. Nous avons proposé trois méthodes qui prennent en compte le temps de façons différentes. De manière générale, nous avons trouvé que la fraîcheur n’est pas un facteur de pertinence. Ce constat vient à l’encontre la définition de la tâche de recherche de microblogs dans TREC et aussi de l’état de l’art. Dans la collection utilisée pour nos expérimentations, la date de la soumission des requêtes correspond à la date de publication du tweet pertinent le plus récent. Cependant, nous avons trouvé, que pour plusieurs requêtes, la majorité des tweets pertinents sont publiés sept jours 120CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE MICROBLOGS avant la date de soumission de la requête. Nous avons également proposé une mé- thode qui se focalise sur les fenêtres de concentration temporelle des termes des requêtes dans la restitution. Cette approche n’a également pas montré d’amélioration significative. Toutefois, c’est la seule approche qui a obtenu une P@30 meilleure que celle du modèle BM25. Des études plus approfondies sur ce point doivent être réalisées. De plus, nous avons regardé les résultats de chaque requête avec chacune des trois approches. Nous avons trouvé que chaque approche améliore les résultats de certaines requêtes et dégrade les résultats d’autres. Cependant, nous n’avons pas trouvé de spécificités communes pour les requêtes ayant obtenu des améliorations, ni pour celles qui ont subi des dégradations. Finalement, nous avons identifié manuellement les requêtes sensibles au temps. Nous avons trouvé que c’est la troisième approche qui a amélioré la plus grande partie de ces requêtes. Ces résultats nous encouragent à prendre en compte le temps dans la restitution, en particulier avec les requêtes sensibles au temps. Il reste maintenant à savoir comment les identifier. 121CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE MICROBLOGS 122Chapitre 7 Conclusion générale Synthèse Nous nous sommes intéressés dans ces travaux à la RI adhoc dans les microblogs. L’objectif est de retrouver les microblogs répondant à un besoin d’information spécifié par un utilisateur. Pour réaliser nos expérimentations, nous nous sommes basés sur le corpus fourni par la campagne d’évaluation internationale TREC (Text Retrieval Conference) dans la tâche Microblog des éditions de 2011 et 2012. Nos différentes contributions ont également fait l’objet de participations aux trois tâches de Microblogs de TREC (2011, 2012 et 2013). Nos contributions se situent à plusieurs niveaux : – Afin de déterminer exactement les facteurs limitant les performances des modèles classiques de RI dans un corpus de microblogs, nous avons mené une analyse de défaillance d’un modèle de recherche usuel. Nous avons sélectionné les microblogs pertinents mais non retrouvés par le modèle de recherche. Ensuite, nous avons identifié les facteurs empêchant leur restitution. Nous avons trouvé que le problème principal vient de la concision des microblogs. Cette concision engendre une correspondance limitée entre les termes des microblogs et les termes des requêtes, même s’ils sont sémantiquement semblables. Toutefois, ce facteur est apparu sous différentes formes : absence totale des termes de certaines requêtes dans les documents pertinents, caractère non discriminant des termes de requêtes. . . Nous avons également identifié des problèmes de lemmatisation : termes non appariés quoique dérivant d’une même racine, ou des termes concaténés sous formes de hashtags ou de citations. Outre le problème de vocabulaire, nous avons remarqué que, pour plusieurs requêtes, certains termes n’ont pas un caractère discriminant. Par conséquent, ces termes n’aident pas à sélectionner les résultats pertinents. – Afin de compenser l’impact de la concision des microblogs, nous avons pro- 123CHAPITRE 7. CONCLUSION GÉNÉRALE posé et testé plusieurs solutions. Nous avons proposé d’étendre les requêtes (i) en exploitant des ressources de type actualités, (ii) en utilisant la base lexicale WordNet, (iii) en appliquant des techniques de réinjection de pertinence de l’état de l’art. Ces techniques ont souvent prouvé leur efficacité : Rocchio pour identifier les termes susceptibles de ramener la pertinence ainsi que pour la pondération des termes de la nouvelle requête, et le mécanisme naturel d’extension de requêtes du modèle BM25. Dans Rocchio, nous avons testé différentes méthodes de calcul de poids de termes d’expansion. Nous avons enfin étendu les microblogs grâce aux liens (URLs) qu’ils contiennent. Nos expérimentations ont montré que l’emploi des URLs et l’expansion de requêtes a partir du feedback sont primordiales pour la RI dans les microblogs. L’expansion de requêtes avec les articles d’actualité améliore uniquement la précision. La plupart de ces expérimentations (expansion de requêtes et de microblogs) ont été réalisées en se basant sur le modèle vectoriel et sur le modèle probabiliste comme modèle de restitution. Ceci nous a permis de comparer les comportements des deux modèles sur les microblogs et avec les deux types d’expansion. De manière générale, nous avons trouvé que le modèle vectoriel est plus performant que modèle probabiliste au niveau de la sélection des microblogs pertinents (meilleur rappel). Cependant, le modèle probabiliste met davantage en valeur les microblogs pertinents restitués par rapport à tous les microblogs restitués (meilleure précision). – Un deuxième volet de notre travail concerne l’étude des facteurs de pertinence utilisés pour identifier les microblogs pertinents. Nous avons repris les facteurs souvent utilisés dans l’état de l’art (facteurs liés au contenu, facteurs liés aux auteurs, facteurs liés aux URLs, facteurs liés aux hashtags et facteurs liés à la qualité des tweets) et nous les avons évalués. Nous avons réalisé cette analyse selon trois axes. Dans le premier axe, nous avons étudié le comportement des facteurs de pertinence dans les documents pertinents et les avons comparés à leur comportement dans les documents non pertinents. Dans le deuxième axe, nous avons analysé l’impact de la combinaison des scores des facteurs avec le score de pertinence du contenu, calculé avec un modèle de RI usuel. Dans le troisième axe, nous avons utilisé des techniques d’apprentissage ainsi que des algorithmes de sélection d’attributs qui peuvent être utiles en entrée de ces techniques d’apprentissages. De manière générale, nous avons montré que les facteurs liés aux URLs publiées dans les tweets sont les plus discriminants. Les facteurs liés aux auteurs ou aux hashtags ne reflètent pas la pertinence. Nous avons également comparé différentes techniques d’apprentissage souvent utilisées dans l’état de l’art pour la recherche de microblogs. Nous avons trouvé que Naive Bayes est le plus adapté pour ce 124CHAPITRE 7. CONCLUSION GÉNÉRALE type de recherche et ceci en considérant les meilleurs critères de pertinence identifiés. – Afin de prendre en compte l’aspect temporel dans la restitution des microblogs pertinents vis-à-vis d’un besoin en information, nous avons proposé trois méthodes qui intègrent le temps dans le calcul de la pertinence. Cette inté- gration du temps n’a cependant pas montré son intérêt dans nos méthodes. Une analyse plus poussée, requête par requête, nous a permis de voir que la fraîcheur ne représente en effet pas un facteur de pertinence pour la restitution de microblogs. Limites et perspectives Nous commençons par présenter nos perspectives à court terme pour arriver à celles à long terme : – Dans un premier temps, nous aimerions compléter le traitement des différentes formes du problème de vocabulaire soulignées dans le chapitre 3. Nous avons trouvé que, dans plusieurs cas, les tweets pertinents contiennent les termes des requêtes concaténés sous forme de hashtags. Nous avons testé une mé- thode pour décomposer ces hashtags. Cette méthode se basait sur les lettres majuscules pour identifier le début de chaque terme composant. Cependant, elle ne nous a pas permis d’améliorer les résultats. Une solution à ce problème consiste à employer l’algorithme de segmentation proposé dans le livre « Beautiful Data » (Segaran et Hammerbacher, 2009), permettant de décomposer les termes concaténés. La même approche peut être employée également pour ré- soudre les problèmes reliés aux lemmatiseurs : termes non appariés dérivant d’une même racine. – Dans le chapitre 5, nous n’avons pas pu évaluer certains facteurs de pertinence tels que le nombre de fois un tweet a été retweeté ou le nombre de fois il a été favori. Nous n’avons pas ces informations dans la collection d’évaluation utilisée. La solution ainsi consiste à créer une nouvelle collection contenant toutes les informations requises. – Considérer la fraîcheur dans la restitution des microblogs n’a pas montré un intérêt. Toutefois, nous avons trouvé que, dans la plupart des cas, les tweets arrivent par rafales. L’idée ainsi est de trouver un moyen pour identifier les fenêtres temporelles correspondant aux rafales de tweets au préalable et les utiliser comme feedback ou comme source d’expansion de requêtes. – La grande majorité des travaux réalisés sur les microblogs, et en particulier nos travaux, emploient Twitter comme cadre applicatif. Notre objectif est d’étudier ainsi si nos résultats et nos observations sont valables également sur les autres 125CHAPITRE 7. CONCLUSION GÉNÉRALE plate-formes de microblogging telles que Blipper et Tumblr. – La tâche de recherche de microblogs consiste à restituer des microblogs pertinents vis-à-vis d’un besoin en information. Nous avons trouvé, regardant les résultats des qrels de la tâche Microblog de TREC, que plusieurs tweets pertinents ont exactement le même contenu et ramènent les mêmes informations. Dans le cas idéal, un utilisateur devra ainsi consulter tous les tweets pertinents (parfois des centaines) pour s’assurer d’avoir vu tous les aspects d’une requêtes. Pour simplifier la tâche, créer un synthétiseur de résultats permettant d’une part d’éliminer les informations qui se répètent, et d’autre part de représenter les résultats d’une manière plus lisible. – Une des principales caractéristiques des plate-formes de microblogging est leur aspect social. Les utilisateurs ne produisent pas uniquement du contenu informatif, mais ils peuvent s’impliquer dans des conversations avec d’autres utilisateurs, en commentant, aimant et partageant leurs publications. Ainsi, il est important dans ce cas de pouvoir restituer tout le contexte d’un tweet. Une méthode de présenter le contexte est d’extraire la conversation à laquelle un tweet appartient. L’identification des critères permettant d’extraire des conversations à partir des microblogs représente un vrai défi. Les microbloggeurs discutent entre eux sans utiliser forcément les moyens explicites de conversations donnés par les plate-formes (retweet, hashtag, citation, réponse. . . ). – Finalement, agréger des informations de différentes sources (Web, images, wiki, actualités. . . ) pour répondre aux besoins en information, a montré son intérêt (Kopliku et al., 2011). Cette technique permet de présenter à l’utilisateur des résultats variés et complémentaires. Considérer les microblogs (information fraîche) en plus des sources employées dans (Kopliku et al., 2011) semble très utiles, étant donné l’importance des microblogs aujourd’hui, en particulier, en tant que source d’information. L’objectif ainsi est d’étudier l’apport de la prise en compte des microblogs en complément des autres sources d’information du Web, pour répondre aux besoins en informations. Références Aboulnaga, Y., et Clarke, C. L. (2012). Frequent Itemset Mining for Query Expansion in Microblog Ad-hoc Search. In TREC’12 : 21th Text Retrieval Conference. National Institute of Standards and Technology (NIST). Attardi, G., et Simi, M. (2006). Blog mining through opinionated words. In E. M. Voorhees et L. P. Buckland (Eds.), Trec (Vol. Special Publication 500- 272). National Institute of Standards and Technology (NIST). Baccianella, A. E. S., et Sebastiani, F. (2010). Sentiwordnet 3.0 : An enhanced lexical 126CHAPITRE 7. CONCLUSION GÉNÉRALE resource for sentiment analysis and opinion mining. In Proceedings of the seventh conference on international language resources and evaluation (lrec’10). Valletta, Malta : European Language Resources Association (ELRA). Baeza-Yates, R. A., et Ribeiro-Neto, B. (1999). Modern information retrieval. Boston, MA, USA : Addison-Wesley Longman Publishing Co., Inc. Bai, J., Nie, J.-Y., Cao, G., et Bouchard, H. (2007). Using query contexts in information retrieval. In Proceedings of the 30th annual international acm sigir conference on research and development in information retrieval (pp. 15–22). New York, NY, USA : ACM. Bamman, D., Eisenstein, J., et Schnoebelen, T. (2012). Gender in twitter : Styles, stances, and social networks. CoRR, abs/1210.4567 . Bao, S., Xue, G., Wu, X., Yu, Y., Fei, B., et Su, Z. (2007). Optimizing web search using social annotations. In Proceedings of the 16th international conference on world wide web (pp. 501–510). New York, NY, USA : ACM. Belkin, N. J., et Croft, W. B. (1992). Information filtering and information retrieval : Two sides of the same coin ? Commun. ACM, 35 (12), 29–38. Ben Jabeur, L., Damak, F., Tamine, L., Cabanac, G., Pinel-Sauvagnat, K., et Boughanem, M. (2013). IRIT at TREC Microblog Track 2013. In E. M. Voorhees et (Eds.), Text REtrieval Conference (TREC), Gaithersburg, USA,. National Institute of Standards and Technology (NIST). Ben Jabeur, L., Damak, F., Tamine, L., Pinel-Sauvagnat, K., Cabanac, G., et Boughanem, M. (2012). IRIT at TREC Microblog 2012 : Adhoc Task. In E. M. Voorhees et L. P. Buckland (Eds.), Text REtrieval Conference (TREC), Gaithersburg, USA,. National Institute of Standards and Technology (NIST). Ben Jabeur, L., Tamine, L., et Boughanem, M. (2011). Un modèle de recherche d’information sociale dans les microblogs : cas de twitter. In Conférence sur les modèles et l’analyse des réseaux : Approches mathématiques et informatique. Ben Jabeur, L., Tamine, L., et Boughanem, M. (2012). Active microbloggers : Identifying influencers, leaders and discussers in microblogging networks. In L. Calderón-Benavides, C. González-Caro, E. Chávez, et N. Ziviani (Eds.), String processing and information retrieval (Vol. 7608, p. 111-117). Springer Berlin Heidelberg. Bernstein, M., Suh, B., Hong, L., Chen, J., Kairam, S., et Chi, E. (2010). Eddi : interactive topic-based browsing of social status streams. In Acm symposium on user interface software and technology (p. 303-312). New York, NY : ACM. Blei, D. M., Ng, A. Y., et Jordan, M. I. (2003). Latent dirichlet allocation. J. Mach. Learn. Res., 3 , 993–1022. Bollen, J., Pepe, A., et Mao, H. (2009). Modeling public mood and emotion : Twitter sentiment and socio-economic phenomena. CoRR, abs/0911.1583 . Brin, S., et Page, L. (1998). The anatomy of a large-scale hypertextual web search 127CHAPITRE 7. CONCLUSION GÉNÉRALE engine. Comput. Netw. ISDN Syst., 30 , 107–117. Buckley, C., et Voorhees, E. M. (2000). Evaluating evaluation measure stability. In Proceedings of the 23rd annual international conference on research and development in information retrieval (pp. 33–40). New York, NY, USA : ACM SIGIR. Cai, Y., et Li, Q. (2010). Personalized search by tag-based user profile and resource profile in collaborative tagging systems. In Proceedings of the 19th acm international conference on information and knowledge management (pp. 969–978). New York, NY, USA : ACM. Cappelletti, R., et Sastry, N. (2012). Iarank : Ranking users on twitter in near realtime, based on their information amplification potential. In Proceedings of the 2012 international conference on social informatics (pp. 70–77). Washington, DC, USA : IEEE Computer Society. Carmel, D., Zwerdling, N., Guy, I., Ofek-Koifman, S., Har’el, N., Ronen, I., et al. (2009). Personalized social search based on the user’s social network. In Proceedings of the 18th acm conference on information and knowledge management (pp. 1227–1236). New York, NY, USA : ACM. Carpineto, C., Mori, R. de, Romano, G., et Bigi, B. (2001). An information-theoretic approach to automatic query expansion. ACM Trans. Inf. Syst., 19 (1), 1–27. Che Alhadi, A., Gottron, T., Kunegis, J., et Naveed, N. (2011). Livetweet : Microblog retrieval based on interestingness and an adaptation of the vector space model. In Proc. text retrieval conference (TREC). Cheng, F., Zhang, X., He, B., Luo, T., et Wang, W. (2013). A survey of learning to rank for real-time twitter search. In Proceedings of the 2012 international conference on pervasive computing and the networked world (pp. 150–164). Berlin, Heidelberg : Springer-Verlag. Choi, J., et Croft, W. B. (2012). Temporal models for microblogs. In Proceedings of the 21st acm international conference on information and knowledge management (pp. 2491–2494). New York, NY, USA : ACM. Cleverdon, C. W., Mills, J., et Keen, M. (1966). Factors determining the performance of indexing systems. Cohen, D., Amitay, E., et Carmel, D. (2007). Lucene and juru at trec 2007 : 1-million queries track. In TREC’07 : 7th Text Retrieval Conference (pp. -1–1). Damak, F. (2013). Recherche d’information dans les microblogs : que manque-til aux approches classiques ? In Rencontres Jeunes Chercheurs en Recherche d’Information (RJCRI), Neuchâtel, 03/04/2013-05/04/2013 (pp. 475–480). Association Francophone de Recherche d’Information et Applications (ARIA). Damak, F., Jabeur, L. B., Cabanac, G., Pinel-Sauvagnat, K., Lechani, L., et Boughanem, M. (2011). IRIT at TREC Microblog 2011. In E. M. Voorhees et (Eds.), Text REtrieval Conference (TREC), Gaithersburg, USA,. National 128CHAPITRE 7. CONCLUSION GÉNÉRALE Institute of Standards and Technology (NIST). Damak, F., Pinel-Sauvagnat, K., et Cabanac, G. (2012). Recherche de microblogs : quels critères pour raffiner les résultats des moteurs usuels de RI ? In Confé- rence francophone en Recherche d’Information et Applications (CORIA), Bordeaux, France, 21/03/2012-23/03/2012 (pp. 317–328). LABRI. Damak, F., Pinel-Sauvagnat, K., Cabanac, G., et Boughanem, M. (2013). Effectiveness of State-of-the-art Features for Microblog Search. In SAC’13 : ACM Symposium on Applied Computing. ACM. Diakopoulos, N. A., et Shamma, D. A. (2010). Characterizing debate performance via aggregated twitter sentiment. In Proceedings of the sigchi conference on human factors in computing systems (pp. 1195–1198). New York, NY, USA : ACM. Dong, A., Chang, Y., Zheng, Z., Mishne, G., Bai, J., Zhang, R., et al. (2010). Towards recency ranking in web search. In Proceedings of the third acm international conference on web search and data mining (pp. 11–20). New York, NY, USA : ACM. Dong, A., Zhang, R., Kolari, P., Bai, J., Diaz, F., Chang, Y., et al. (2010). Time is of the essence : improving recency ranking using twitter data. In In www. Duan, Y., Jiang, L., Qin, T., Zhou, M., et Shum, H.-Y. (2010). An empirical study on learning to rank of tweets. In Proceedings of the 23rd international conference on computational linguistics (pp. 295–303). Efron, M. (2010). Hashtag retrieval in a microblogging environment. In Proceedings of the 33rd international acm sigir conference on research and development in information retrieval (pp. 787–788). New York, NY, USA : ACM. Efron, M. (2011a). Information search and retrieval in microblogs. In (Vol. 62, pp. 996–1008). New York, NY, USA : John Wiley & Sons, Inc. Efron, M. (2011b). The university of illinois graduate school of library and information science at TREC 2011. In TREC’11 : 20th Text Retrieval Conference. National Institute of Standards and Technology (NIST). Efron, M., et Golovchinsky, G. (2011). Estimation methods for ranking recent information. In Proceedings of the 34th international acm sigir conference on research and development in information retrieval (pp. 495–504). New York, NY, USA : ACM. Efron, M., Organisciak, P., et Fenlon, K. (2012). Improving retrieval of short texts through document expansion. In Proceedings of the 35th international acm sigir conference on research and development in information retrieval (pp. 911–920). New York, NY, USA : ACM. Endarnoto, S., Pradipta, S., Nugroho, A., et Purnama, J. (2011). Traffic condition information extraction amp ; visualization from social media twitter for android mobile application. In Electrical engineering and informatics (iceei), 129CHAPITRE 7. CONCLUSION GÉNÉRALE 2011 international conference on (p. 1-4). Feng, W., et Wang, J. (2013). Retweet or not ? : Personalized tweet re-ranking. In Proceedings of the sixth acm international conference on web search and data mining (pp. 577–586). New York, NY, USA : ACM. Ferguson, P., O’Hare, N., Lanagan, J., Phelan, O., et McCarthy, K. (2012). An investigation of term weighting approaches for microblog retrieval. In Proceedings of the 34th european conference on advances in information retrieval (pp. 552–555). Berlin, Heidelberg : Springer-Verlag. Frank, J. R., Bauer, S. J., Kleiman-Weiner, M., Roberts, D. A., Tripuraneni, N., Zhang, C., et al. (2013). Evaluating stream filtering for entity profile updates for trec 2013. In TREC’13 : 22th Text Retrieval Conference. Frank, J. R., Kleiman-Weiner, M., Roberts, D. A., Niu, F., Zhang, C., Re, C., et al. (2012). Building an Entity-Centric stream filtering test collection for TREC 2012. In Proc. of trec. National Institute of Standards and Technology (NIST). Furnas, G. W., Deerwester, S., Dumais, S. T., Landauer, T. K., Harshman, R. A., Streeter, L. A., et al. (1988). Information retrieval using a singular value decomposition model of latent semantic structure. In Proceedings of the 11th annual international acm sigir conference on research and development in information retrieval (pp. 465–480). New York, NY, USA : ACM. Furnas, G. W., Landauer, T. K., Gomez, L. M., et Dumais, S. T. (1987). The vocabulary problem in human-system communication. Commun. ACM, 30 (11), 964–971. Gudivada, V., Raghavan, V., Grosky, W. I., et Kasanagottu, R. (1997). Information retrieval on the world wide web. Internet Computing, IEEE, 1 (5), 58-68. Hall, M. A., et Holmes, G. (2003). Benchmarking attribute selection techniques for discrete class data mining. IEEE Trans. on Knowl. and Data Eng., 15 (6), 1437–1447. Han, B., et Baldwin, T. (2011). Lexical normalisation of short text messages : Makn sens a #twitter. In Proceedings of the 49th annual meeting of the association for computational linguistics : Human language technologies - volume 1 (pp. 368–378). Stroudsburg, PA, USA : Association for Computational Linguistics. Hatzivassiloglou, V., et McKeown, K. R. (1997). Predicting the semantic orientation of adjectives. In Proceedings of the 35th annual meeting of the association for computational linguistics and eighth conference of the european chapter of the association for computational linguistics (pp. 174–181). Stroudsburg, PA, USA : Association for Computational Linguistics. Jabeur, L., Tamine, L., et Boughanem, M. (2012). Featured tweet search : Modeling time and social influence for microblog retrieval. In IEEE/WIC/ACM International Conference on Web Intelligence, Macau, China (pp. 166–173). IEEE Computer Society - Conference Publishing Services. 130CHAPITRE 7. CONCLUSION GÉNÉRALE Jansen, B. J., Zhang, M., Sobel, K., et Chowdury, A. (2009a). Micro-blogging as online word of mouth branding. In Chi ’09 extended abstracts on human factors in computing systems (pp. 3859–3864). New York, NY, USA : ACM. Jansen, B. J., Zhang, M., Sobel, K., et Chowdury, A. (2009b). Twitter power : Tweets as electronic word of mouth. J. Am. Soc. Inf. Sci. Technol., 60 (11), 2169–2188. Java, A., Song, X., Finin, T., et Tseng, B. (2007). Why we twitter : understanding microblogging usage and communities. In WebKDD’07 : Proceedings of the 9th webkdd and 1st sna-kdd 2007 workshop on web mining and social network analysis (pp. 56–65). Joachims, T. (2005). A support vector method for multivariate performance measures. In Proceedings of the 22nd international conference on machine learning (pp. 377–384). New York, NY, USA : ACM. Jones, K. S., et Rijsbergen, C. van. (1976). Information retrieval test collections (Rapport technique). Karamuftuoglu, M. (1998). Collaborative information retrieval : toward a social informatics view of ir interaction. J. Am. Soc. Inf. Sci., 49 (12), 1070–1080. Kazai, G., et Milic-Frayling, N. (2008). Trust, authority and popularity in social information retrieval. In Proceedings of the 17th ACM conference on information and knowledge management (pp. 1503–1504). New York, NY, USA : ACM. Klas, C.-P., et Fuhr, N. (2000). A new effective approach for categorizing Web documents. In Proceedings of the 22th bcs-irsg colloquium on ir research. Koolen, M., Kazai, G., et Craswell, N. (2009). Wikipedia pages as entry points for book search. In In proceedings of the second acm international conference on web search and data mining (wsdm 2009). ACM Press. Kopliku, A., Damak, F., Pinel-Sauvagnat, K., et Boughanem, M. (2011). Interest and Evaluation of Aggregated Search. In IEEE/WIC/ACM International Conference on Web Intelligence, Lyon. ACM. Korfiatis, N., Poulos, M., et Bokos, G. (2006). Evaluating authoritative sources using social networks : an insight from wikipedia. Online Information Review, 30 (3), 252-262. Kumar, N., et Carterette, B. (2013). Time based feedback and query expansion for twitter search. In Proceedings of the 35th european conference on advances in information retrieval (pp. 734–737). Berlin, Heidelberg : Springer-Verlag. Kwak, H., Lee, C., Park, H., et Moon, S. (2010). What is twitter, a social network or a news media ? In Proceedings of the 19th international conference on world wide web (pp. 591–600). New York, NY, USA : ACM. Lampos, V., et Cristianini, N. (2010). Tracking the flu pandemic by monitoring the social web. In Cognitive information processing (cip), 2010 2nd international 131CHAPITRE 7. CONCLUSION GÉNÉRALE workshop on (p. 411-416). Lee, C., Kwak, H., Park, H., et Moon, S. (2010). Finding influentials based on the temporal order of information adoption in twitter. In Www’10 : Proceedings of the 19th international conference on world wide web (pp. 1137–1138). New York, NY, USA : ACM. Li, R., Lei, K. H., Khadiwala, R., et Chang, K.-C. (2012). Tedas : A twitter-based event detection and analysis system. In Data engineering (icde), 2012 ieee 28th international conference on (p. 1273-1276). Li, Y., Luk, W. P. R., Ho, K. S. E., et Chung, F. L. K. (2007). Improving weak ad-hoc queries using wikipedia asexternal corpus. In Proceedings of the 30th annual international acm sigir conference on research and development in information retrieval (pp. 797–798). New York, NY, USA : ACM. Lin, Y., Li, Y., Xu, W., et Guo, J. (2012). Microblog retrieval based on term similarity graph. In Computer science and network technology (iccsnt), 2012 2nd international conference on (p. 1322-1325). Lv, Y., et Zhai, C. (2009). Positional language models for information retrieval. In Proceedings of the 32nd international acm sigir conference on research and development in information retrieval (pp. 299–306). New York, NY, USA : ACM. Macdonald, C., et Ounis, I. (2006). Voting for candidates : Adapting data fusion techniques for an expert search task. In Proceedings of the 15th acm international conference on information and knowledge management (pp. 387–396). New York, NY, USA : ACM. Magnani, M., Montesi, D., et Rossi, L. (2012). Conversation retrieval for microblogging sites. Inf. Retr., 15 (3-4), 354-372. Mandl, T. (2007). Recent developments in the evaluation of information retrieval systems : Moving towards diversity and practical relevance. Manning, C. D., Raghavan, P., et Schütze, H. (2008). Introduction to information retrieval. New York, NY, USA : Cambridge University Press. Massoudi, K., Tsagkias, E., Rijke, M. de, et Weerkamp, W. (2011). Incorporating query expansion and quality indicators in searching microblog posts. In Ecir 2011 : 33rd european conference on information retrieval (pp. 362–367). Dublin : Springer. Mayfield, J., et McNamee, P. (2003). Single n-gram stemming. In Proceedings of the 26th annual international ACM SIGIR conference on research and development in informaion retrieval (pp. 415–416). New York, NY, USA : ACM. McCreadie, R., et Macdonald, C. (2013). Relevance in microblogs : Enhancing tweet retrieval using hyperlinked documents. In Proceedings of the 10th conference on open research areas in information retrieval (pp. 189–196). Paris, France, France : Le centre de hautes études internationales d’informatique documen- 132CHAPITRE 7. CONCLUSION GÉNÉRALE taire. Metzler, D., et Cai, C. (2011). USC/ISI at TREC 2011 : Microblog Track (Notebook Version). In TREC’11 : 20th Text Retrieval Conference. National Institute of Standards and Technology (NIST). Missen, M. M. S., Boughanem, M., et Cabanac, G. (2009, juin). Challenges for Sentence Level Opinion Detection in Blogs (regular paper). In International Conference on Computer and Information Science (ICIS), Shanghai, China, 01/06/2009-03/06/2009 (pp. 347–351). IEEE Computer Society. Miyanishi, T., Seki, K., et Uehara, K. (2013). Combining recency and topicdependent temporal variation for microblog search. In Ecir (p. 331-343). Nagmoti, R., Teredesai, A., et De Cock, M. (2010). Ranking approaches for microblog search. In Proceedings of the 2010 ieee/wic/acm international conference on web intelligence and intelligent agent technology (pp. 153–157). Washington, USA : IEEE Computer Society. O’Connor, B., Balasubramanyan, R., Routledge, B. R., et Smith, N. A. (2010). From tweets to polls : Linking text sentiment to public opinion time series. In Icwsm. Okazaki, M., et Matsuo, Y. (2010). Semantic twitter : analyzing tweets for real-time event notification. In Proceedings of the 2008/2009 international conference on social software : recent trends and developments in social software (pp. 63–74). Berlin, Heidelberg : Springer-Verlag. Ounis, I., Lin, J., et Soboroff, I. (2011). Overview of the TREC-2011 Microblog Track. In TREC’11 : 20th Text Retrieval Conference. Ounis, I., Lin, J., et Soboroff, I. (2012). Overview of the TREC-2012 Microblog Track. In TREC’12 : 21th Text Retrieval Conference. Pang, B., et Lee, L. (2008). Opinion mining and sentiment analysis. Found. Trends Inf. Retr., 2 (1-2), 1–135. Peters, I., Kipp, M. E. I., Heck, T., Gwizdka, J., Lu, K., Neal, D. R., et al. (2011). Social tagging & folksonomies : Indexing, retrievingâĂę and beyond ? Proceedings of the American Society for Information Science and Technology, 48 (1), 1–4. Phelan, O., McCarthy, K., et Smyth, B. (2009). Using twitter to recommend realtime topical news. In Recsys’09 : Proceedings of the third acm conference on recommender systems (pp. 385–388). New York, NY, USA : ACM. Porter, M. (1980). An algorithm for suffix stripping. Program, 14 (3), 130-137. Ramage, D., Dumais, S. T., et Liebling, D. J. (2010). Characterizing microblogs with topic models. In ICWSM’10 (pp. -1–1). Ravikumar, S., Balakrishnan, R., et Kambhampati, S. (2012). Ranking tweets considering trust and relevance. In Proceedings of the ninth international workshop on information integration on the web (pp. 4 :1–4 :4). New York, NY, USA : 133CHAPITRE 7. CONCLUSION GÉNÉRALE ACM. Robertson, S. (2004). Understanding inverse document frequency : On theoretical arguments for idf. Journal of Documentation, 60 , 2004. Robertson, S., et Sparck Jones, K. (1988). Document retrieval systems. In P. Willett (Ed.), (pp. 143–160). London, UK, UK : Taylor Graham Publishing. Robertson, S., Walker, S., Jones, S., Hancock-Beaulieu, M., et Gatford, M. (1996). Okapi at trec-3. In (pp. 109–126). Rocchio, J. J. (1971). Relevance feedback in information retrieval. Sakaki, T., Okazaki, M., et Matsuo, Y. (2010). Earthquake shakes twitter users : real-time event detection by social sensors. In Proceedings of the 19th international conference on world wide web (pp. 851–860). New York, NY, USA : ACM. Salton, G. (1968). A comparison between manual and automatic indexing methods (Rapport technique). Ithaca, NY, USA. Salton, G., et Buckley, C. (1997). Readings in information retrieval. In K. Sparck Jones et P. Willett (Eds.), (pp. 355–364). San Francisco, CA, USA : Morgan Kaufmann Publishers Inc. Salton, G., Wong, A., et Yang, C. S. (1975). A vector space model for automatic indexing. Commun. ACM, 18 (11), 613–620. Sanderson, M. (2010). Test collection based evaluation of information retrieval systems. Foundations and Trends in Information Retrieval, 4 (4), 247-375. Sankaranarayanan, J., Samet, H., Teitler, B. E., Lieberman, M. D., et Sperling, J. (2009). Twitterstand : news in tweets. In Proceedings of the 17th acm sigspatial international conference on advances in geographic information systems (pp. 42–51). New York, NY, USA : ACM. Schmid, H. (1994). Probabilistic part-of-speech tagging using decision trees. In International conference on new methods in language processing (p. 44-49). Manchester, UK. Segaran, T., et Hammerbacher, J. (2009). Beautiful Data : The Stories Behind Elegant Data Solutions (Original éd.). O’Reilly Media. Paperback. Shamma, D. A., Kennedy, L., et Churchill, E. F. (2009). Tweet the debates : Understanding community annotation of uncollected sources. In Proceedings of the first sigmm workshop on social media (pp. 3–10). New York, NY, USA : ACM. Song, S., Li, Q., et Zheng, N. (2010). A spatio-temporal framework for related topic search in micro-blogging. In Proceedings of the 6th international conference on active media technology (pp. 63–73). Berlin, Heidelberg : Springer-Verlag. Student. (1908). The probable error of a mean. Biometrika, 6 (1), 1–25. Sturges, H. A. (1926). The Choice of a Class Interval. Journal of the American Statistical Association, 21 (153), 65–66. 134CHAPITRE 7. CONCLUSION GÉNÉRALE Teevan, J., Ramage, D., et Morris, M. R. (2011). #twittersearch : a comparison of microblog search and web search. In Wsdm’11 : Proceedings of the fourth acm international conference on web search and data mining (pp. 35–44). New York, NY, USA : ACM. Tumasjan, A., Sprenger, T. O., Sandner, P. G., et Welpe, I. M. (2010). Predicting elections with twitter : What 140 characters reveal about political sentiment. In Icwsm. Uysal, I., et Croft, W. B. (2011). User oriented tweet ranking : a filtering approach to microblogs. In C. Macdonald, I. Ounis, et I. Ruthven (Eds.), Cikm (p. 2261- 2264). ACM. Vechtomova, O., et Wang, Y. (2006). A study of the effect of term proximity on query expansion. J. Information Science, 32 (4), 324-333. Voorhees, E. M. (2006). Overview of the trec 2006. In TREC’06 : 6th Text Retrieval Conference. Vosecky, J., Leung, K. W.-T., et Ng, W. (2012). Searching for quality microblog posts : Filtering and ranking based on content analysis and implicit links. , 397-413. Weng, J., Lim, E.-P., Jiang, J., et He, Q. (2010). Twitterrank : finding topic-sensitive influential twitterers. In Wsdm’10 : Proceedings of the third acm international conference on web search and data mining (pp. 261–270). New York, NY, USA : ACM. Wilson, T., Wiebe, J., et Hoffmann, P. (2005). Recognizing contextual polarity in phrase-level sentiment analysis. In Proceedings of the conference on human language technology and empirical methods in natural language processing (pp. 347–354). Stroudsburg, PA, USA : Association for Computational Linguistics. Xu, S., Bao, S., Cao, Y., et Yu, Y. (2007). Using social annotations to improve language model for information retrieval. In Proceedings of the sixteenth acm conference on conference on information and knowledge management (pp. 1003–1006). New York, NY, USA : ACM. Yamaguchi, Y., Takahashi, T., Amagasa, T., et Kitagawa, H. (2010). Turank : Twitter user ranking based on user-tweet graph analysis. In Wise’10 (p. 240- 253). Yen, S.-J., et Lee, Y.-S. (2006). Under-sampling approaches for improving prediction of the minority class in an imbalanced dataset. In Intelligent control and automation (Vol. 344, p. 731-740). Springer Berlin / Heidelberg. Yuan, Q., Cong, G., et Thalmann, N. M. (2012). Enhancing naive bayes with various smoothing methods for short text classification. In Proceedings of the 21st international conference companion on world wide web (pp. 645–646). New York, NY, USA : ACM. Zhao, L., Zeng, Y., et Zhong, N. (2011). A weighted multi-factor algorithm for 135CHAPITRE 7. CONCLUSION GÉNÉRALE microblog search. In Proceedings of the 7th international conference on active media technology (pp. 153–161). Berlin, Heidelberg : Springer-Verlag. Zhongyuan, H., Xuwei, L., Muyun, Y., Hoaliang, Q., Sheng, L., et Tiejun, Z. (2012). HIT at Trec 2012 Microblog Track. In TREC’12 : 21th Text Retrieval Conference. National Institute of Standards and Technology (NIST). 136Résumé Notre travail se situe dans le contexte de recherche d’information (RI) sociale et s’inté- resse plus particulièrement à la recherche de microblogs. Les microblogs sont des messages de faible longueur à travers lesquels les utilisateurs publient des informations sur différents sujets : des opinions, des événements, des statuts... Les microblogs occupent aujourd’hui une part considérable de l’information générée sur le web. Dans Twitter, la plate-forme de microblogging la plus populaire, le nombre de microblogs par jour peut atteindre 500 millions. Les microblogs ont une forme différente des traditionnels documents. Leur taille est réduite par rapport aux blogs et aux articles publiés sur le web (140 caractères pour Twitter). De plus, les microblogs peuvent contenir une syntaxe spécifique telle que les #hashtags, les @citations ou bien encore des URLs. Les plateformes de microblogging représentent également un modèle de réseau social différent des autres réseaux sociaux. Les relations entre les utilisateurs ne sont pas forcément réciproques et les abonnements sont sans restrictions entre microbloggeurs. Les utilisateurs de plateformes de microblogging, outre la publication de microblogs, effectuent également des recherches. Les motivations de ces recherches sont diverses. Certaines sont similaires à la recherche sur le web (comme par exemple la recherche d’actualités), et d’autres sont spécifiques à la recherche de microblogs (comme par exemple la recherche temps réel ou d’informations sociales). Dans Twitter, 1,6 milliards de requêtes sont ainsi émises chaque jour. Les modèles de RI doivent s’adapter aux spécificités des microblogs : fraîcheur, aspect social et spécificités syntaxiques doivent ainsi être pris en compte. C’est dans ce contexte de recherche d’information dans les microblogs que se situent plus particulièrement nos travaux. Nous nous plaçons plus précisément dans le cadre de la recherche adhoc. L’objectif est de retrouver les microblogs répondant à un besoin d’information spécifié par un utilisateur. Nos travaux visent à améliorer la qualité des résultats de recherche d’information adhoc dans les microblogs. Nos contributions se situent à plusieurs niveaux : -Afin de déterminer exactement les facteurs limitant les performances des modèles de recherche classiques dans un corpus de microblogs, nous avons mené à une analyse de dé- faillance d’un modèle de recherche usuel. Nous avons sélectionné les microblogs pertinents mais non retrouvés par le modèle de recherche. Ensuite, nous avons identifié les facteurs empêchant leur restitution. Nous avons trouvé que le problème principal vient de la concision des microblogs. Cette concision engendre une correspondance limitée entre les termes des microblogs et les termes des requêtes, même s’ils sont sémantiquement similaires. -Afin de compenser l’impact de la concision des microblogs, nous avons proposé et testé plusieurs solutions. Nous avons proposé d’étendre les requêtes (i) en exploitant des ressources de type actualités, (ii) en utilisant la base lexicale Wordnet, (iii) en applicant des techniques de réinjection de pertinence de l’état de l’art qui ont souvent prouvé leur efficacité : Rocchio pour identifier les termes susceptibles de ramener la pertinence ainsi que pour la pondération des termes de la nouvelle requête, et le mécanisme naturel d’extensionCHAPITRE 7. CONCLUSION GÉNÉRALE de requêtes du modèle BM25. Dans Rocchio, nous avons testé différentes méthodes de calcul de poids de termes d’expansion. Nous avons enfin étendu les microblogs grâce aux liens (URLs) qu’ils contiennent. Nos expérimentations ont montré que l’emploi des URLs et l’expansion de requêtes sont primordiales pour la RI dans les microblogs. La plupart de ces expérimentations (expansion de requêtes et de microblogs) ont été réalisées en se basant sur le modèle vectoriel et sur le modèle probabiliste comme modèle de restitution. Ceci nous a permis de comparer les comportements des deux modèles sur les microblogs et avec les deux types d’expansion. De manière générale, nous avons trouvé que le modèle vectoriel est plus performant que modèle probabiliste au niveau de la sélection des microblogs pertinents (meilleur rappel). Cependant, le modèle probabiliste met plus en valeur les microblogs pertinents restitués par rapport à tous les microblogs restitués (meilleure précision). -Un deuxième volet de notre travail concerne l’étude des critères utilisés pour identifier les microblogs pertinents. Nous avons repris les critères souvent utilisés dans l’état de l’art (critères de contenu, critères sur l’importance des auteurs, critères sur les URLs) et nous les avons évalués. Nous avons réalisé cette analyse selon 3 axes. Dans le premier axe, nous avons analysé l’impact de la combinaison des scores des critères avec le score de pertinence du contenu, calculé avec un modèle de RI usuel. Dans le deuxième axe, nous avons étudié le comportement des critères dans les documents pertinents et les avons comparés avec leurs comportements dans les documents non pertinents. Dans le troisième axe, nous avons utilisé des techniques d’apprentissage ainsi que des algorithmes de sélection de critères qui peuvent être utiles en entrée de ces techniques d’apprentissages. De manière générale, nous avons montré que les critères en relation avec les URLs publiées dans les tweets sont les plus discriminants. Les critères liés aux auteurs ne reflètent pas la pertinence. -Afin de prendre en compte l’aspect temporel dans la restitution des microblogs pertinents vis-à-vis d’un besoin d’information, nous avons proposé trois méthodes qui intègrent le temps dans le calcul de la pertinence. Cette intégration du temps n’a cependant pas montré son intérêt dans nos méthodes. Pour réaliser nos expérimentations, nous nous sommes basés sur le corpus fourni par la campagne d’évaluation internationale TREC (Text Retrieval Conference) dans la tâche Microblogs des années 2011 et 2012. Nos différentes contributions ont également fait l’objet de participations aux trois tâches de Microblogs de TREC (2011, 2012 et 2013). Title Étude des facteurs de pertinence dans la recherche de microblogs. Abstract This work deals with the context of social information retrieval (IR), more particularly the retrieval of microblogs. Microblogs are messages of short length. They contain information on various topics :opinions, events, articles... Microblogs represent a significant part of the information generated on the Web. In the case of Twitter, the most popular platform, the number of microblogs can reach 500 million per day. Microblogs have a different form from traditional documents. Their length is reduced compared to traditional blogs and 3CHAPITRE 7. CONCLUSION GÉNÉRALE articles on the web (only 140 characters in the case of Twitter). Moreover, microblogs can have specific syntax such as #hashtags, @mentions or shortened URLs... Microblogging platforms are a social network model different from other social networks. Relationships between users are not necessarily reciprocal and subscriptions are unrestricted between microbloggers. Users of microblogging platforms do not only produce but they also search for information. The motivations of this research are diverse. Some are inspired from Web search (e.g. the search for news) and others are specific to the search for microblogs (e.g. real-time search or social information). In Twitter, 1.6 billion queries are issued every day. Though, the IR models must adapt to the specificities of microblogs : freshness, social aspect and syntactic characteristics must therefore be taken into account. The aim of our work is to improve the quality of the results of adhoc information retrieval in microblogs. Our contributions are at several levels : - In order to accurately determine the factors limiting the performance of conventional models of search in a corpus of microblogs, we conducted an analysis of failure of a conventional model search. We selected relevant microblogs. However, they are not found by the search pattern. Then, we identified the factors preventing their return. We found that the main problem is the shortness of microblogs. - To offset the impact of the shortness of microblogs, we proposed and tested several solutions : to extend the queries by (i) exploiting news articles, (ii) using the WordNet lexical database, (iii) applying techniques of relevance feedback of the state of art which often proved effective : Rocchio to identify terms likely to bring relevance and for weighting the terms of the new query, and the natural extension mechanism queries of the BM25 model. Using Rocchio, we tested different methods of calculating the weight of expansion terms. We finally extended microblogs thanks to the links (URLs) they contain. Our experiments have shown that the use of URLs and the expansion of the query are crucial for IR in microblogs. Most of these experiments (expansion of queries and microblogs) were performed on the basis of the vector model and the probabilistic model, as a model of restitution. This allowed us to compare the behavior of the two models on microblogs and with the two types of expansion. In general, we found that the Vector Space Model is more efficient than the probabilistic one in the selection of relevant microblogs (better recall). However, the probabilistic model puts more value on relevant microblogs returned over all returned microblogs (better precision). - A second part of our work is concerned with the study of the features used to identify relevant microblogs. We selected the features often used in the state of art (content features, features on the importance of authors, URLs features and quality features).Then, we evaluated them. We conducted this analysis in 3 axes. In the first axis, (i) we studied the behavior of the features in the relevant documents and compared them with their behavior in non-relevant documents. In the second axis, (ii) we analyzed the impact of the combination of the features scores with the content’s score, calculated with a model of conventional IR. In the third axis, (iii) we used learning techniques as well as algorithms of feature selection that may be useful as input to the learning techniques. In general, we have shown that the features related to URLs posted in tweets are the most discriminating. 4CHAPITRE 7. CONCLUSION GÉNÉRALE The features related to the authors do not reflect the relevance. - To take into account the temporal aspect when selecting relevant microblogs, we have proposed three methods that incorporate time in the calculation of relevance. However, this integration of time did not show any positive impact in our methods. To perform our experiments, we used the corpus provided by TREC (Text Retrieval Conference) international survey in the task Microblogs for the years 2011 and 2012. Our various contributions have also been the subject of participations for the three tasks of Microblogs TREC (2011, 2012 and 2013). ISBN : t t t t t t t t t t t t t 5 Evaluation de la sˆuret´e de syst`emes dynamiques hybrides complexes. Application aux syst`emes hydrauliques Perrine Broy To cite this version: Perrine Broy. Evaluation de la sˆuret´e de syst`emes dynamiques hybrides complexes. Application aux syst`emes hydrauliques. Modeling and Simulation. Universit´e de Technologie de Troyes, 2014. French. . HAL Id: tel-01006308 https://tel.archives-ouvertes.fr/tel-01006308 Submitted on 15 Jun 2014 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destin´ee au d´epˆot et `a la diffusion de documents scientifiques de niveau recherche, publi´es ou non, ´emanant des ´etablissements d’enseignement et de recherche fran¸cais ou ´etrangers, des laboratoires publics ou priv´es.THESE pour l’obtention du grade de DOCTEUR de l’UNIVERSITE DE TECHNOLOGIE DE TROYES Spécialité : OPTIMISATION ET SURETE DES SYSTEMES présentée et soutenue par Perrine BROY le 12 mars 2014 Evaluation de la sûreté de systèmes dynamiques hybrides complexes. Application aux systèmes hydrauliques JURY M. F. PÉRÈS PROFESSEUR DES UNIVERSITES Président M. C. BERENGUER PROFESSEUR DES UNIVERSITES Directeur de thèse M. N. BRINZEI MAITRE DE CONFERENCES Examinateur M. M. CEPIN PROFESSOR Rapporteur M. H. CHRAIBI INGENIEUR CHERCHEUR Directeur de thèse M. Y. DIJOUX MAITRE DE CONFERENCES Examinateur M. J.-M. THIRIET PROFESSEUR DES UNIVERSITES Rapporteur Personnalité invitée M. R. DONAT INGENIEUR CHERCHEUR 2Remerciements Faire une thèse CIFRE, c’est bénéficier d’un double encadrement, académique et industriel. Mais lorsque chacun de ces encadrements est assuré par deux personnes, toutes compétentes et sympathiques, cela fait beaucoup de remerciements à rédiger, et personne ne m’a dit si j’avais le droit de quadrupler le nombre de pages de remerciements ou d’occurrences du mot « merci »... Mes premiers remerciements vont donc à mon « comité encadrant » constitué de Christophe Bérenguer, Yann Dijoux, Hassane Chraïbi et Roland Donat. Christophe, merci d’avoir accepté la direction de cette thèse, merci pour ta disponibilité sans faille et pour ton suivi malgré l’éloignement. Yann, merci de m’avoir aidée lors des calculs analytiques douloureux, mais aussi pour la découverte d’un bon nombre de restaurants troyens ! Hassane, merci pour ta patience et ta gentillesse ; l’initiation au fonctionnement des évacuateurs de crues ou à la structure de PyCATSHOO n’était pas une affaire gagnée d’avance. Roland, merci de m’avoir guidée et motivée si souvent ! Merci à vous quatre, j’ai beaucoup appris à vos côtés et cela a été un réel plaisir de travailler avec vous ! Je remercie l’ensemble des membres du jury pour leur participation à ma soutenance et pour l’intérêt porté à mes travaux de recherche. Je remercie tout particulièrement François Pérès d’avoir endossé le rôle de président du jury. Je tiens à exprimer ma reconnaissance à Marko Cepin et Jean-Marc Thiriet pour m’avoir fait l’honneur d’être rapporteurs de ces travaux et pour leurs questions constructives. Je tiens également à remercier Nicolae Brinzei pour sa minutieuse relecture. Alors que j’étais encore élève-ingénieur, j’ai longtemps muri ce projet de thèse avant de m’y lancer. Je voudrai remercier Frédéric et Anick de m’avoir encouragée à partir dans cette voie qu’est la recherche, et Hermann, Marine, Fabiano, Fatiha, Paul, Geoffrey, Lise et William de m’avoir fait part de leurs expériences de doctorants lors de discussions enrichissantes. Grâce à vous, j’ai construit ce projet de thèse en connaissance de cause. Une fois ma décision prise, c’est une autre équipe qui m’a permis de concrétiser ce projet. Je tiens à remercier l’équipe hiérarchique du département MRI d’avoir initié et prolongé cette thèse mais aussi de m’avoir permis de faire de belles conférences. Quitte à être au sein du département MRI, je vais continuer en remerciant les chercheurs qui le constituent pour leur accueil, leurs conseils et leur sympathie. Je ne me risquerai pas à 34 vous nommer pour n’oublier personne, mais j’ai été heureuse de vous côtoyer le temps d’un café, à la cantine ou dans les vestiaires de la gym. La bonne humeur ambiante a égayé mes travaux et je vous remercie pour vos encouragements tout au long de ces trois années. Mes remerciement vont devenir encore plus locaux avec une pensée à tous ceux qui ont eu la « chance » de partager mon bureau : Linh, Carine, Pierre-Yves, Antonello, Stéphanie, Nicolas, Martin, Tazio : merci d’avoir supporté mes bavardages et mes bougonnements ! Je tiens à remercier les membres du LM2S pour leur acceuil chaleureux à chacune de mes venues troyennes. En parallèle de ces trois ans de recherche, j’ai eu l’occasion de progresser en course à pieds, danse et autres renforcements musculaires. Mention spéciale à tous les coachs qui m’ont permis de me défouler et de décompresser ! Merci à Jane-Marie, bonne fée viroflaysienne, de m’avoir menée à bon port chaque matin ! Bon courage à mes compatriotes de thèse, vous verrez, on finit toujours par y arriver, la preuve ! Mes derniers remerciements vont à ma famille, ma belle-famille et à mes proches. Il est temps de vous remercier d’avoir accepté soit de me voir si rarement, soit de me voir squatter la table ronde pour de longues séances de débuggage et rédaction. Même le chat Peluche en avait pris son parti et m’encourageait par quelques ronronnements... Je ne serai pas là où j’en suis sans mes parents : merci pour votre amour, votre confiance sans faille, votre relecture de ce manuscrit. Merci aussi à toi Maxime ! Tout ceci ne serait rien sans Gaël. Tu m’as suivie au bout du monde lors des conférences, tu m’as épousée avant même de savoir à quoi ressemblait une troisième année de thèse, tu as toujours répondu placidement « oui... » à chaque fois que je te demandais « Est-ce que tu crois que je vais y arriver ? » dans mes périodes de doute, tu m’as littéralement entretenue pendant le mois de décembre, tu as scrupuleusement relu ce manuscrit et tu as géré mes pots de thèse comme un roi... Pour tout ça, le nom « Hesters » aurait bien mérité de figurer sur la première page de ce manuscrit. A défaut, je tenais à ce que les derniers mots de cette page soit pour toi... Mille mercis donc.Table des matières Introduction générale 19 I De la problématique industrielle aux enjeux méthodologiques 23 1 Position du problème et motivation industrielle 25 1.1 Problématique industrielle : les évacuateurs de crues et l’estimation de leur sûreté de fonctionnement . . . . . . . . . . . . . . . . . . . . . . . 25 1.1.1 L’hydroélectricité en France . . . . . . . . . . . . . . . . . . . . 26 1.1.2 Rôle des évacuateurs de crues . . . . . . . . . . . . . . . . . . . 26 1.1.3 Composition d’un évacuateur de crues . . . . . . . . . . . . . . 27 1.1.4 La sûreté de fonctionnement dans l’hydraulique . . . . . . . . . 29 1.1.5 Quelques notions d’hydrologie et d’hydraulique . . . . . . . . . 30 1.1.5.1 Origine des hydrogrammes des crues . . . . . . . . . . 30 1.1.5.2 Cotes de la retenue d’un barrage . . . . . . . . . . . . 31 1.2 Enjeux industriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.2.1 La méthode GASPART et l’outil associé . . . . . . . . . . . . . 32 1.2.2 Réalisations et limites de l’outil GASPART . . . . . . . . . . . . 32 1.2.3 Objectifs de ces travaux . . . . . . . . . . . . . . . . . . . . . . 33 1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2 Enjeux méthodologiques 37 2.1 Principales notions de sûreté de fonctionnement et introduction à la fiabilité dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.1.1 Principales notions de sûreté de fonctionnement . . . . . . . . . 37 5TABLE DES MATIÈRES 6 2.1.1.1 Grandeurs caractéristiques de la sûreté de fonctionnement 37 2.1.1.2 Durées fondamentales en sûreté de fonctionnement . . 39 2.1.1.3 Taux de défaillance et de réparation . . . . . . . . . . 40 2.1.1.4 Relations fondamentales . . . . . . . . . . . . . . . . . 40 2.1.1.5 Méthodes classiques utilisées en sûreté de fonctionnement 40 2.1.1.6 Mesures d’importance . . . . . . . . . . . . . . . . . . 42 2.1.2 Introduction à la fiabilité dynamique . . . . . . . . . . . . . . . 43 2.1.2.1 Définition d’un système dynamique hybride . . . . . . 43 2.1.2.2 Définition de la fiabilité dynamique . . . . . . . . . . . 44 2.2 État de l’art en fiabilité dynamique . . . . . . . . . . . . . . . . . . . . 45 2.2.1 Méthodes de description . . . . . . . . . . . . . . . . . . . . . . 46 2.2.1.1 Les méthodes analytiques et semi-analytiques . . . . . 47 2.2.1.2 Les méthodes reposant sur les arbres d’événements dynamiques . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2.1.3 Les méthodes basées sur un formalisme graphique . . . 52 2.2.1.4 Autres méthodes de description . . . . . . . . . . . . . 57 2.2.1.5 Discussion et conclusion . . . . . . . . . . . . . . . . . 58 2.2.2 Méthodes de quantification . . . . . . . . . . . . . . . . . . . . . 58 2.2.2.1 Les méthodes de discrétisation . . . . . . . . . . . . . 58 2.2.2.2 Les méthodes de simulation de Monte Carlo . . . . . . 60 2.2.2.3 Discussion et conclusion . . . . . . . . . . . . . . . . . 62 2.2.3 Place de l’information temporelle dans les résultats de fiabilité dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2.3 Conclusion : choix d’une méthodologie et contributions de la thèse . . . 63 3 Outils de modélisation pour la sûreté de fonctionnement des évacuateurs de crues 65 3.1 Les Processus Markoviens Déterministes par Morceaux (PDMP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.1.1 Quelques processus utilisés en fiabilité . . . . . . . . . . . . . . 66 3.1.1.1 Chaînes de Markov . . . . . . . . . . . . . . . . . . . . 66 3.1.1.2 Processus markoviens de sauts . . . . . . . . . . . . . 677 TABLE DES MATIÈRES 3.1.1.3 Processus de renouvellement . . . . . . . . . . . . . . . 67 3.1.1.4 Processus de renouvellement markovien . . . . . . . . 67 3.1.1.5 Processus semi-markovien . . . . . . . . . . . . . . . . 68 3.1.2 Les Processus Markoviens Déterministes par Morceaux (PDMP) 69 3.1.2.1 Définition de Cocozza et al. . . . . . . . . . . . . . . . 69 3.1.2.2 Définition de Davis . . . . . . . . . . . . . . . . . . . . 70 3.1.3 Les PDMP communicants (CPDMP) . . . . . . . . . . . . . . . 71 3.2 Automates Stochastiques Hybrides (ASH) . . . . . . . . . . . . . . . . 72 3.2.1 De la théorie des automates aux ASH . . . . . . . . . . . . . . . 72 3.2.2 Composition et synchronisation des ASH . . . . . . . . . . . . . 75 3.3 L’outil PyCATSHOO . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.3.1 Le logiciel PyCATSHOO . . . . . . . . . . . . . . . . . . . . . . 76 3.3.2 Construction d’une base de connaissances . . . . . . . . . . . . 76 3.3.2.1 Les différents types de transitions . . . . . . . . . . . . 78 3.3.2.2 Contrôle de la variable continue . . . . . . . . . . . . . 79 3.3.3 Élaboration du modèle . . . . . . . . . . . . . . . . . . . . . . . 80 3.4 Machines à vecteurs support (SVM) . . . . . . . . . . . . . . . . . . . . 81 3.4.1 Problématique et notations . . . . . . . . . . . . . . . . . . . . 81 3.4.1.1 Cas linéairement séparable . . . . . . . . . . . . . . . . 82 3.4.1.2 Cas non séparable . . . . . . . . . . . . . . . . . . . . 83 3.4.2 La librairie libsvm . . . . . . . . . . . . . . . . . . . . . . . . . 84 II Prise en compte de l’information temporelle de la modé- lisation à la synthèse d’indicateurs fiabilistes 85 4 Description et modélisation des évacuateurs de crues 87 4.1 Fonctionnement des évacuateurs de crues . . . . . . . . . . . . . . . . . 88 4.1.1 Prise en compte du temps dans le déroulement d’une crue . . . 88 4.1.2 Caractérisation d’une crue . . . . . . . . . . . . . . . . . . . . . 89 4.1.2.1 Fréquence d’une crue . . . . . . . . . . . . . . . . . . . 89 4.1.2.2 Forme et débit d’une crue . . . . . . . . . . . . . . . . 89TABLE DES MATIÈRES 8 4.1.2.3 Durée de la crue et délais de détection et d’établissement 89 4.1.3 Fonctionnement de deux évacuateurs de crues . . . . . . . . . . 90 4.1.4 Rôle de l’opérateur . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.1.5 Données de fiabilité . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.1.6 Hypothèses de modélisation de la méthode GASPART et des travaux de thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 4.2 Modélisation des évacuateurs de crues . . . . . . . . . . . . . . . . . . . 93 4.2.1 Modélisation d’un cas-test simple . . . . . . . . . . . . . . . . . 94 4.2.1.1 Évolution du niveau dans le réservoir . . . . . . . . . . 94 4.2.1.2 Modélisation par les Automates Stochastiques Hybrides 100 4.2.1.3 Modèle global du système simple . . . . . . . . . . . . 105 4.2.1.4 Chronologie d’une histoire . . . . . . . . . . . . . . . . 106 4.2.2 Modélisation du problème industriel . . . . . . . . . . . . . . . . 107 4.2.2.1 Modélisation d’un objet manoeuvré . . . . . . . . . . . 107 4.2.2.2 Modélisation d’un objet alimenté . . . . . . . . . . . . 108 4.2.2.3 Modélisation d’un objet réparable . . . . . . . . . . . . 110 4.2.2.4 Modélisation d’un opérateur . . . . . . . . . . . . . . . 112 4.2.2.5 Modélisation d’une vanne . . . . . . . . . . . . . . . . 112 4.2.2.6 Représentation des deux évacuateurs de crues . . . . . 114 4.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5 Analyse des histoires et quantification probabiliste de la fiabilité 117 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 5.1.1 Objectifs de la quantification . . . . . . . . . . . . . . . . . . . . 117 5.1.2 Démarche : de KB3 à PyCATSHOO . . . . . . . . . . . . . . . 118 5.1.3 Formalisation des résultats : séquences, histoires et vecteurs de durées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 5.1.3.1 Définition d’une séquence . . . . . . . . . . . . . . . . 120 5.1.3.2 Définition d’une histoire . . . . . . . . . . . . . . . . . 121 5.1.3.3 Définition d’un vecteur de durées de fonctionnement sans défaillance . . . . . . . . . . . . . . . . . . . . . . 122 5.1.4 Description des systèmes étudiés . . . . . . . . . . . . . . . . . . 1249 TABLE DES MATIÈRES 5.2 Probabilité d’occurrence de l’événement redouté . . . . . . . . . . . . . 126 5.2.1 Calcul analytique . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5.2.1.1 Évolution du niveau dans la retenue . . . . . . . . . . 127 5.2.1.2 Instant d’atteinte du seuil de sûreté en fonction du temps de défaillance . . . . . . . . . . . . . . . . . . . . . . . 129 5.2.1.3 Temps de défaillance en fonction de l’instant d’atteinte du seuil de sûreté . . . . . . . . . . . . . . . . . . . . . 129 5.2.1.4 Expression de PER(t) . . . . . . . . . . . . . . . . . . 129 5.2.2 Estimation par simulation de Monte Carlo sur le modèle ASH . 130 5.2.2.1 Évolution du niveau . . . . . . . . . . . . . . . . . . . 130 5.2.2.2 Dépendance de l’instant de panne et de l’instant d’atteinte du seuil de sûreté . . . . . . . . . . . . . . . . . 130 5.2.2.3 Évolution de la probabilité PER . . . . . . . . . . . . . 130 5.2.3 Comparaison des résultats analytiques et du produit des simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 5.2.3.1 Évolution du niveau . . . . . . . . . . . . . . . . . . . 131 5.2.3.2 Dépendance de l’instant de panne et de l’instant de l’événement redouté . . . . . . . . . . . . . . . . . . . 132 5.2.3.3 Évolution de la probabilité PER . . . . . . . . . . . . . 132 5.2.4 Vers un cas-test plus proche de la réalité : allure et interprétation de courbes de niveau h et de PER . . . . . . . . . . . . . . . . . 133 5.2.4.1 Vers une modélisation réaliste des débits entrant et sortant133 5.2.4.2 Vers des lois de probabilités variées : introduction de la loi de Weibull . . . . . . . . . . . . . . . . . . . . . . . 136 5.2.4.3 Vers un système de taille réaliste . . . . . . . . . . . . 138 5.3 Coupes équivalentes prépondérantes . . . . . . . . . . . . . . . . . . . 141 5.3.1 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 5.3.2 Applications aux exemples « fil rouge » . . . . . . . . . . . . . . 144 5.3.2.1 Système composé d’une alimentation et deux vannes . 144 5.3.2.2 Système composé d’une alimentation et six vannes . . 144 5.4 Classification des histoires . . . . . . . . . . . . . . . . . . . . . . . . . 145 5.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 5.4.2 Détermination analytique de la frontière . . . . . . . . . . . . . 146TABLE DES MATIÈRES 10 5.4.2.1 Réservoir vidangé par une vanne : calcul analytique de l’instant tsep . . . . . . . . . . . . . . . . . . . . . . . . 146 5.4.2.2 Réservoir vidangé par deux vannes : calcul analytique de la frontière u sep 2 (u1) . . . . . . . . . . . . . . . . . . 147 5.4.3 Classification des histoires simulées . . . . . . . . . . . . . . . . 147 5.4.3.1 Cas d’un composant défaillant . . . . . . . . . . . . . . 148 5.4.3.2 Cas de plusieurs composants . . . . . . . . . . . . . . . 148 5.4.4 Comparaison des résultats . . . . . . . . . . . . . . . . . . . . . 150 5.4.4.1 Système simple à une vanne . . . . . . . . . . . . . . . 150 5.4.4.2 Système simple à deux vannes . . . . . . . . . . . . . . 150 5.4.5 Application aux exemples « fil rouge » et conclusion . . . . . . 152 5.5 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . 153 6 Importance dynamique d’un composant 155 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 6.1.1 Définition d’une mesure d’importance dynamique . . . . . . . . 156 6.1.2 Systèmes étudiés . . . . . . . . . . . . . . . . . . . . . . . . . . 157 6.2 Calcul analytique de l’importance dynamique pour le système à deux composants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 6.2.1 Expression littérale de l’importance dynamique de Birnbaum pour l’alimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 6.2.2 Expression littérale de l’importance dynamique de Birnbaum pour la vanne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 6.3 Estimation à partir des histoires simulées . . . . . . . . . . . . . . . . 162 6.4 Résultats : comparaison et interprétation, pour un système à deux composants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 6.4.1 Importance au début de la mission du composant . . . . . . . . 163 6.4.2 Importance à la fin de la mission du composant . . . . . . . . . 165 6.4.3 Allure de la courbe . . . . . . . . . . . . . . . . . . . . . . . . . 165 6.4.4 Comparaison avec l’importance dynamique obtenue à partir des histoires simulées . . . . . . . . . . . . . . . . . . . . . . . . . . 166 6.4.5 Application aux systèmes « Fil Rouge » . . . . . . . . . . . . . . 169 6.4.5.1 Système composé d’une alimentation et de deux vannes 169 6.4.5.2 Système composé d’une alimentation et de six vannes . 17011 TABLE DES MATIÈRES Conclusion générale et perspectives 175 A Déroulement de l’algorithme de PyCATSHOO 181 B Démonstrations du chapitre 5 185 B.1 Instant d’atteinte du seuil de sûreté en fonction du temps de défaillance 185 B.2 Expression de PER(t) . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 B.3 Réservoir vidangé par deux vannes : calcul analytique de la frontière u sep 2 (u1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 C Démonstrations du chapitre 6 189 C.1 Démonstration de la proposition 6.2 . . . . . . . . . . . . . . . . . . . . 189 C.2 Expression littérale de l’importance dynamique de Birnbaum pour l’alimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 C.2.1 Calcul de P(ER/Talim ≤ t) . . . . . . . . . . . . . . . . . . . . . 189 C.2.2 Calcul de P(ER/Talim > t) . . . . . . . . . . . . . . . . . . . . . 190 C.3 Expression littérale de l’importance dynamique de Birnbaum pour la vanne191 C.3.1 Calcul de P(ER/TV ≤ t) . . . . . . . . . . . . . . . . . . . . . . 191 C.3.2 Calcul de P(ER/TV > t) . . . . . . . . . . . . . . . . . . . . . . 192 Bibliographie 194TABLE DES MATIÈRES 12Table des figures 1.1 Photographie d’un évacuateur de crues . . . . . . . . . . . . . . . . . . 27 1.2 Représentation schématique d’un évacuateur de crues . . . . . . . . . . 28 1.3 Exemple d’hydrogramme de crue . . . . . . . . . . . . . . . . . . . . . 31 2.1 Durées fondamentales en sûreté de fonctionnement . . . . . . . . . . . 39 2.2 Diagramme de fiabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.3 Arbre de défaillances . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.4 Exemple d’arbre d’événements, inspiré du domaine nucléaire . . . . . . 42 2.5 Exemple de DDET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.6 Extrait du modèle DFM d’un benchmark. . . . . . . . . . . . . . . . . . 50 2.7 Franchissement d’une transition dans un RdP . . . . . . . . . . . . . . 52 2.8 Exemple de réseau bayésien . . . . . . . . . . . . . . . . . . . . . . . . 54 2.9 Exemple de réseau bayésien dynamique . . . . . . . . . . . . . . . . . . 55 3.1 Graphe de Markov représentant une chaîne de Markov . . . . . . . . . 66 3.2 Construction d’un PDMP à partir de processus stochastiques classiques 68 3.3 Exemple de trajectoire d’un PDMP . . . . . . . . . . . . . . . . . . . . 70 3.4 Exemple d’automate fini déterministe . . . . . . . . . . . . . . . . . . . 73 3.5 Exemple d’automate hybride . . . . . . . . . . . . . . . . . . . . . . . . 74 3.6 Exemple d’automate stochastique hybride . . . . . . . . . . . . . . . . 75 3.7 Représentation des quatre types de transitions. . . . . . . . . . . . . . . 77 3.8 Exemple d’automate utilisant les quatre types de transitions. . . . . . . 78 3.9 Objet PyCATSHOO décrit par trois automates . . . . . . . . . . . . . 79 3.10 Construction d’un SVM . . . . . . . . . . . . . . . . . . . . . . . . . . 81 13TABLE DES FIGURES 14 3.11 Choix du meilleur séparateur . . . . . . . . . . . . . . . . . . . . . . . . 83 3.12 Projection des données dans un espace où elles sont linéairement séparables. 84 4.1 Chronologie d’une crue . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.2 Représentation schématique d’une vanne de surface . . . . . . . . . . . 90 4.3 Représentation schématique d’une vanne de surface associée à un clapet 90 4.4 Illustration du cas-test simple . . . . . . . . . . . . . . . . . . . . . . . 94 4.5 Évolution du débit entrant pour une crue en forme d’échelon . . . . . . 95 4.6 Évolution du débit sortant pour une débitance constante, en fonction de l’instant de panne u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.7 Évolution du débit entrant pour un hydrogramme de crue . . . . . . . 97 4.8 Évolution du débit sortant pour une débitance réaliste, en fonction de l’instant de panne u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.9 Automate de la crue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.10 Automate d’une vanne . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.11 Automate du réservoir . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.12 Modèle global du système simple . . . . . . . . . . . . . . . . . . . . . 106 4.13 Automate d’un objet manoeuvré . . . . . . . . . . . . . . . . . . . . . . 108 4.14 Automate d’un objet alimenté . . . . . . . . . . . . . . . . . . . . . . . 109 4.15 Automate d’un objet réparable . . . . . . . . . . . . . . . . . . . . . . 110 4.16 Automate d’un opérateur . . . . . . . . . . . . . . . . . . . . . . . . . . 111 4.17 Automate Stochastique Hybride d’une vanne . . . . . . . . . . . . . . . 113 5.1 Événement redouté en fonction des instants de défaillance de deux vannes118 5.2 Probabilité de l’événement redouté en fonction de la frontière et des densités de probabilités des instants de défaillance de deux composants 119 5.3 Crue en forme d’échelon et débitance constante : évolution du niveau dans le réservoir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 5.4 Dépendance de l’instant de défaillance de la vanne et de l’instant de l’événement redouté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 5.5 Évolution de la probabilité d’occurrence de l’événement redouté . . . . 133 5.6 Influence de la levée des hypothèses simplificatrices sur l’évolution du niveau dans le réservoir, pour quatre scénarios de défaillance . . . . . . 13415 TABLE DES FIGURES 5.7 Influence de la levée des hypothèses simplificatrices sur la probabilité d’occurrence de l’événement redouté . . . . . . . . . . . . . . . . . . . . 136 5.8 Influence de la loi de Weibull sur l’évolution de la probabilité d’occurrence de l’événement redouté . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.9 Répartition des instants de défaillance pour la loi de Weibull et la loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.10 Influence de l’introduction d’une seconde vanne sur l’évolution de la probabilité d’occurrence de l’événement redouté . . . . . . . . . . . . . . . 139 5.11 Évolution de la probabilité d’occurrence de l’événement redouté pour les deux systèmes « Fil Rouge » . . . . . . . . . . . . . . . . . . . . . . . . 140 5.12 Précision et taux de faux négatifs en fonction de la taille de l’échantillon d’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 5.13 Séparation des histoires en fonction des TTF de deux vannes . . . . . . 151 6.1 Calcul analytique de l’importance dynamique pour l’alimentation et la vanne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 6.2 Importance dynamique obtenue à partir des simulations, pour l’alimentation et pour la vanne . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 6.3 Comparaison des importances dynamiques de l’alimentation et de la vanne obtenues par calcul analytique et à partir des simulations . . . . 168 6.4 Importance dynamique des composants du système FR1 . . . . . . . . 169 6.5 Importance dynamique de chaque composant du système FR2, obtenue à partir des simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 6.6 Importance dynamique de chaque groupe de composants du système FR2 obtenue à partir des simulations . . . . . . . . . . . . . . . . . . . . . . 172Principaux acronymes 16Principaux acronymes IB Indicateur de Birnbaum TFN Taux de Faux Négatifs SSA Seuil de Sûreté Atteint ARSHY Analyse des Risques des Systèmes HYdrauliques ASH Automate Stochastique Hybride BdC Base de Connaissances CCl Contrôle-Commande local CPDMP Communicating PDMP EdC Évacuateur de Crues EPS Étude Probabiliste de Sûreté ER Événement Redouté FR Fil Rouge GASPART GAted Spillway System - Probabilistic Assessment of Reliability Tool MRI Management des Risques Industriels PDMP Piecewise Deterministic Markov Process PyCATSHOO PythoniC AuTomates Stochastiques Hybrides Orientés Objets RMB Receiving Message Box SDH Système Dynamique Hybride SMB Sending Message Box SVM Support Vector Machine TTF Time To Failure VTTF Vecteur de TTF 17Principaux acronymes 18Introduction générale L’utilisation d’eau par des aménagements hydrauliques fournit une énergie propre et renouvelable. L’hydroélectricité représente la deuxième source de production d’électricité en France en 2012. EDF est exploitant de 435 centrales hydroélectriques. A ce titre, il participe au programme de rénovation et de modernisation du parc hydraulique. Afin d’améliorer la sûreté des ouvrages hydrauliques, des études de danger sont réalisées en confrontant leur dimensionnement à des crues exceptionnelles ou au dysfonctionnement des évacuateurs de crues vannés. En cas de crue, il est nécessaire d’évacuer le volume d’eau déversé en amont du dispositif afin de maintenir le plan d’eau de la retenue sous un niveau acceptable. Les évacuateurs de crues (EdC) sont les structures dédiées au déversement des eaux en excédent. Pour cela, les EdC vannés requièrent la mobilisation de vannes. L’événement redouté (ER) est réalisé lorsqu’un seuil de sûreté est atteint par le niveau de la retenue. L’étude de la sûreté des EdC se traduit par des indications sur la fiabilité de ces dispositifs. Par exemple, les EdC sont hiérarchisés vis-à-vis du risque lié à l’ER, ou des leviers d’amélioration de la sûreté sont proposés, tels que des stratégies de maintenance. Au sein du département Management des Risques Industriels (MRI) d’EDF R&D, le projet ARSHY (Analyse des Risques des Systèmes HYdrauliques) développe des méthodologies d’analyse de risque systèmes pour le parc hydraulique d’EDF. En particulier, la méthode d’évaluation de la fiabilité des EdC vannés est consolidée par la prise en compte du facteur temps. La dynamique du processus de crue et de son évacuation est telle que l’évolution physique et déterministe du niveau d’eau dans la retenue est intimement liée aux événements discrets aléatoires qui vont affecter l’ouverture des vannes. En ce sens, les EdC sont des Systèmes Dynamiques Hybrides (SDH) et rentrent dans le cadre de la fiabilité dynamique. La prise en compte de l’information temporelle est corrélée à l’introduction d’une variable déterministe continue dans le processus stochastique. A travers les EdC, ce sont donc les SDH qui sont concernés par la problématique : comment estimer la sûreté des EdC ? Nous proposons une méthodologie qui accompagne l’utilisateur tout au long de la modélisation et de l’exploitation des résultats, pour des SDH de taille industrielle. Les EdC constituent un support et une illustration pour ces travaux mais la méthodologie proposée est adaptable au cadre général de la fiabilité dynamique. 19Introduction générale 20 En fiabilité dynamique, une classe de processus est généralement utilisée pour modé- liser les SDH. Il s’agit des Processus de Markov Déterministes par Morceaux (PDMP). Cette modélisation prend en compte la dynamique induite par la dépendance au temps du fonctionnement de ce type de système. En accord avec ce cadre théorique, les Automates Stochastiques Hybrides (ASH) distribués présentent le double avantage d’un formalisme riche et d’une représentation graphique intuitive et flexible pour décrire des systèmes complexes. La complexité des EdC est due au nombre élevé de composants, aux interactions composant-composant et composant-environnement, et à l’évolution simultanée de l’état du système et de la variable déterministe continue en fonction de l’état des composants. Les ASH sont ensuite associés à la simulation de Monte Carlo pour la quantification probabiliste de la fiabilité. La méthode d’évaluation de la fiabilité des EdC vannés, nommée GASPART (de l’anglais Gated Spillway System - Probabilistic Assessment of Reliability Tool) est associée à un outil du même nom. Cet outil est développé à partir d’un langage initialement conçu pour traiter les systèmes à états discrets. La prise en compte des phénomènes continus et transitoires n’est possible qu’au prix d’hypothèses de modélisation conservatives et en adoptant des méthodes simplifiées de résolution des équations différentielles. Par ailleurs, GASPART possède deux modules de quantification distincts. La conception d’un nouvel outil nommé PyCATSHOO écarte les limites identifiées de l’outil GASPART. En étant dédié à l’évaluation de la fiabilité des SDH dès sa conception, PyCATSHOO lève les hypothèses de modélisation conservatives et propose une démarche capable de caractériser les résultats en conservant l’information temporelle. Il est important d’identifier et de quantifier l’intérêt de prendre en compte de nouvelles informations temporelles dans l’évaluation des performances fiabilistes. En effet, la débitance des vannes dépend de la hauteur de leur ouverture. La position d’une vanne dépend elle-même de la progression du processus d’ouverture, interrompue ou non par la défaillance d’un composant nécessaire à ce processus. Une défaillance précoce entraîne une débitance faible susceptible de provoquer l’événement redouté. Contrairement à un problème de fiabilité classique, l’état du système n’est pas une fonction de l’état de ses n composants. Ce sont les dates de défaillance en fonctionnement (T1, ..., Tn) qui défi- nissent l’occurrence ou non de l’événement redouté pour le système. Cette dépendance est effective par le biais d’une fonction f(T1, ..., Tn) = s où s ∈ {ER, ER} désigne l’état du système (occurrence ou non de l’événement redouté ER). Ainsi, pour un même ensemble de composants en panne, le système peut être en panne ou en marche, selon les dates de panne des composants. Certaines notions de sûreté comme celles de coupes ou de mesures d’importance sont à redéfinir. Ces notions doivent être adaptées aux SDH dans l’objectif d’identifier la fonction f et de caractériser les histoires de défaillances. Cette démarche est rarement associée à la fiabilité dynamique, aussi les indicateurs proposés dans cette thèse sont-ils innovants. Les différentes étapes de cette méthodologie, exposées ci-dessous, permettent la modélisation du système puis l’exploitation des résultats obtenus. 1. La compréhension du fonctionnement du système implique la décomposition des21 Introduction générale sous-systèmes, l’identification des composants similaires par classes et la définition d’hypothèses de modélisation. 2. Chaque classe de composants est décrite par un automate dont les états sont les différentes phases de son fonctionnement. Les transitions entre ces états sont caractérisées par un ensemble de conditions. 3. Une Base de Connaissances (BdC) répertorie les classes ainsi définies. Les boîtes à messages destinataires et expéditrices participent à la synchronisation des automates, assurant la communication entre les objets qui interagissent. Le dispositif de calcul de la variable continue fait partie de cette construction. L’élaboration d’une BdC doit être suffisamment générale pour représenter plusieurs systèmes d’une même catégorie, mais suffisamment détaillée pour être proche de la réalité. 4. Les informations spécifiques à la topologie d’un système en particulier sont regroupées dans un script principal. Chaque composant y est déclaré en tant qu’instance d’une classe PyCATSHOO. Ces objets sont ensuite reliés entre eux par des liens, qui matérialisent les boîtes à messages. L’exécution de ce script génère aléatoirement des simulations. 5. L’analyse des résultats fournit des indicateurs de fiabilité classique, tels que l’évolution de la probabilité d’occurrence de l’ER par rapport au temps. Les combinaisons d’événements les plus contributeurs dans la réalisation de l’ER sont également identifiées. 6. Le fruit des simulations est une liste d’histoires. Une histoire est la séquence des états visités par chaque automate le temps d’une crue, associés à la date de chacune de ces transitions. Nous proposons une méthode pour extraire, synthétiser et utiliser l’information issue de la simulation du modèle. La séparation des histoires par rapport à l’occurrence ou non de l’événement redouté, en fonction des durées de fonctionnement avant défaillance de chaque composant du système, est un modèle qui exploite au maximum les données temporelles contenues dans les histoires simulées. Cette classification pronostique, à partir d’un jeu de nouvelles durées de fonctionnement avant défaillance, l’issue de l’histoire associée. 7. L’estimation de l’importance dynamique permet de savoir à tout instant quel est le composant dont la défaillance à cet instant précis aurait le plus d’impact sur la probabilité de l’ER, par rapport à une situation de référence. Cette définition est généralisable à un groupe de composants. Ce mémoire est structuré en six chapitres : – Le chapitre 1 positionne le problème industriel et les travaux de thèse. – Le chapitre 2 confronte un état de l’art des méthodes utilisées en fiabilité dynamique aux enjeux méthodologiques impliqués par le problème industriel. – Le chapitre 3 détaille les différents outils de modélisation pour la sûreté de fonctionnement. – Le chapitre 4 décrit le fonctionnement des deux EdC étudiés et présente la modélisation de ces systèmes par les ASH distribués et l’élaboration de la BdC qui en découle.Introduction générale 22 – Le chapitre 5 propose une démarche prévisionnelle fondée sur la classification des histoires et l’estimation de la probabilité d’occurrence de l’ER. – Le chapitre 6 définit l’importance dynamique comme un indicateur de fiabilité dynamique destiné à l’aide à la décision.Première partie De la problématique industrielle aux enjeux méthodologiques 23Chapitre 1 Position du problème et motivation industrielle Ce chapitre positionne le problème industriel, et par conséquent, ces travaux de thèse. La section 1.1 introduit la motivation de cette thèse, c’est-à-dire l’évaluation de la sûreté de fonctionnement des évacuateurs de crues. Ces systèmes hydrauliques ont la particularité de dépendre d’événements aléatoires discrets, mais aussi de l’évolution d’une variable déterministe continue. A ce titre, ce sont des systèmes dynamiques hybrides. A travers les évacuateurs de crues, ce sont donc tous les systèmes dynamiques hybrides qui sont concernés par la problématique : comment évaluer la sûreté de fonctionnement des évacuateurs de crues ? La section 1.2 énumère ensuite les enjeux de la thèse en dressant le « cahier des charges » de la méthodologie recherchée. 1.1 Problématique industrielle : les évacuateurs de crues et l’estimation de leur sûreté de fonctionnement Cette section a pour but de présenter la problématique industrielle de la thèse. Après une brève présentation de l’hydroélectricité (section 1.1.1) et une introduction sur le rôle des évacuateurs de crues (section 1.1.2), la section 1.1.3 résume la structure des évacuateurs de crues. Puis la section 1.1.4 dresse un rapide état de l’art de la sûreté de fonctionnement dans le domaine de l’hydraulique. Finalement, la section 1.1.5 introduit quelques notions d’hydrologie et d’hydraulique, notamment sur les hydrogrammes des crues et sur les cotes de la retenue d’un barrage. 25Chapitre1. Position du problème et motivation industrielle 26 1.1.1 L’hydroélectricité en France En France, l’hydroélectricité est l’une des principales énergies [EDF, 2011]. L’hydraulique, qui représente 11,7% de l’énergie électrique totale produite en France en 2012, y est ainsi la deuxième source de production d’électricité. L’utilisation du potentiel de l’eau par des aménagements hydrauliques fournit un double avantage. D’une part, c’est une énergie propre et renouvelable, sans impact sur le climat car elle émet très peu de gaz à effet de serre. D’autre part, à défaut de savoir stocker l’électricité, c’est un moyen écologique et économique de répondre rapidement aux variations de la consommation d’électricité. En France métropolitaine, EDF exploite 435 centrales hydroélectriques. L’eau retenue derrière un barrage est amenée par une conduite forcée vers une turbine. La force de l’eau fait tourner la turbine qui entraîne à son tour un alternateur, générant ainsi un courant électrique alternatif. Le transformateur élève ensuite la tension pour faciliter le transport de l’électricité sur de longues distances [EDF, 2011]. 1.1.2 Rôle des évacuateurs de crues En cas de crue, le volume d’eau déversé en amont de la retenue peut provoquer une montée d’eau incompatible avec la capacité de stockage et d’absorption du dispositif de production hydroélectrique recevant cette eau. Le volume d’eau en excédent représente une menace pour la sécurité du barrage et il est nécessaire de l’évacuer afin de maintenir le plan d’eau de la retenue (bassin amont du barrage) sous un niveau acceptable et d’éviter la submersion de la digue. Aussi les barrages sont-ils dotés de structures dédiées au déversement des eaux en excédent. Ces dispositifs, illustrés par la figure 1.1, sont appelés évacuateurs de crues (EdC). Certains EdC fonctionnent par déversement naturel lorsque le niveau d’eau dépasse celui du réservoir. Ce sont des EdC passifs. En revanche, les EdC vannés requièrent la mobilisation de vannes pour déverser le volume d’eau excédentaire. Les évacuateurs de crues vannés sont au centre de cette thèse. L’objectif de ces travaux est de modéliser les EdC et de les simuler du point de vue fiabiliste, puis d’exploiter les résultats obtenus pour l’évaluation de la sûreté de fonctionnement et la prise de décision. L’exploitation des résultats prend la forme d’indications sur la fiabilité de ces dispositifs pour donner des pistes d’amélioration de la sûreté. L’événement redouté (ER) est défini par l’atteinte du seuil maximal par le niveau de la retenue. Cet événement indésirable sera par la suite également nommé « débordement » ou OF pour « OverFlow ».27 1.1. Problèmatique industrielle Figure 1.1 – Évacuateur de crues. Crédit photo : EDF, Patrice Dhumes 1.1.3 Composition d’un évacuateur de crues Un évacuateur de crues est constitué d’une installation hydromécanique, d’un contrôle-commande et d’un système d’alimentation électrique, comme l’illustre la fi- gure 1.2. Un ou plusieurs opérateurs, alertés si besoin par un dispositif d’alarme, contrôlent le reste de l’aménagement. Par le biais d’un contrôle-commande (local ou non), l’opérateur sollicite un actionneur (moteur ou pompe). Cet actionneur déclenche le mouvement de la transmission (vérin, chaîne, crémaillère, etc.). Cette transmission communique ensuite ce mouvement aux vannes. Une passe est constituée du dispositif actionneur - transmission - vanne. Cette description est représentée schématiquement sur la figure 1.2 et s’applique à tous les évacuateurs de crues. Des subtilités apparaissent dès que l’on considère des évacuateurs différents ou que l’on rentre dans le détail de ces sous-systèmes. Chaque composant peut tomber en panne à la sollicitation ou en fonctionnement. La plupart du temps, la structure d’un système est telle que ce composant est relayé en cas de panne. Ces redondances forment un réseau d’interactions complexes à modéliser. La réaction de l’opérateur à ces pannes se traduit par la recherche du composant de secours et la sollicitation de celui-ci. Ce type d’action de l’opérateur est associé à une probabilité d’échec. Inversement, ces actions sont parfois automatisées. L’objectif industriel de cette thèse est de proposer une méthodologie pour la modélisation des EdC. Cette modélisation devra représenter le processus de crue, le rôle de chaque composant en cas de défaillance et les réactions de l’opérateur. L’élaboration d’un modèle suffisamment général pour représenter différents évacuateurs, mais suffi-Chapitre1. Position du problème et motivation industrielle 28 Figure 1.2 – Représentation schématique d’un évacuateur de crues Ex´ecution efficace de syst`emes multi-agents sur GPU Guillaume Laville To cite this version: Guillaume Laville. Ex´ecution efficace de syst`emes multi-agents sur GPU. Distributed, Parallel, and Cluster Computing. Universit´e de Franche-Comt´e, 2014. French. HAL Id: tel-01087226 https://hal.archives-ouvertes.fr/tel-01087226 Submitted on 25 Nov 2014 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destin´ee au d´epˆot et `a la diffusion de documents scientifiques de niveau recherche, publi´es ou non, ´emanant des ´etablissements d’enseignement et de recherche fran¸cais ou ´etrangers, des laboratoires publics ou priv´es.Thèse de Doctorat é c o l e d o c t o r a l e s c i e n c e s p o u r l ’ i n g é n i e u r e t m i c r o t e c h n i q u e s U N I V E R S I T É D E F R A N C H E - C O M T É n Exécution efficace de systèmes multi-agents sur GPU Guillaume LavilleThèse de Doctorat é c o l e d o c t o r a l e s c i e n c e s p o u r l ’ i n g é n i e u r e t m i c r o t e c h n i q u e s U N I V E R S I T É D E F R A N C H E - C O M T É THÈSE présentée par Guillaume Laville pour obtenir le Grade de Docteur de l’Université de Franche-Comté Spécialité : Informatique Exécution efficace de systèmes multi-agents sur GPU Soutenue le 27 juin 2014 devant le Jury : Christophe Cambier Rapporteur Chargé de recherche (HDR) à l’Université Pierre et Marie Curie, Paris Michaël Krajecki Rapporteur Professeur à l’Université de Reims ChampagneArdenne Stéphane Genaud Examinateur Professeur à l’Université de Strasbourg Fabrice Bouquet Examinateur Professeur à l’Université de Franche-Comté Laurent Philippe Directeur de thèse Professeur à l’Université de Franche-Comté Kamel Mazouzi Encadrant Ingénieur de Recherche au Mésocentre de calculs de Franche-Comté Christophe Lang Encadrant Maître de Conférences à l’Université de Franche-Comté N° X X XSommaire Table des matières 6 Remerciements 7 Introduction 9 I Contexte 13 1 Les systèmes multi-agents 17 1.1 Science et simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2 Les systèmes multi-agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2 Modèles d’exécution et de programmation parallèles 27 2.1 Une réponse à des besoins en calcul . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 Parallélisation en mémoire partagée . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3 Parallélisation en mémoire distribuée . . . . . . . . . . . . . . . . . . . . . . . . 31 2.4 Parallélisation hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.5 Une nouvelle architecture d’exécution : le GPU . . . . . . . . . . . . . . . . . . 34 2.6 Vers une convergence many-core . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.7 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3 Parallélisation de systèmes multi-agents 47 3.1 Stratégies de parallélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.2 Plates-formes multi-agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.3 État de la simulation multi-agents sur GPU . . . . . . . . . . . . . . . . . . . . 54 3.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 II Contribution 61 4 Problématique 65 4.1 Portabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66SOMMAIRE 6 4.2 Réutilisation d’algorithmes et de structures . . . . . . . . . . . . . . . . . . . . 66 4.3 Intégration avec l’existant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.4 Extensibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5 Adaptation d’un modèle multi-agents sur GPU : Proie-Prédateur 69 5.1 Présentation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.2 Stratégies de déplacement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.3 Adaptation OpenCL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6 Méthodes d’adaptation SMA sur GPU 79 6.1 Gestion de la dimension spatiale . . . . . . . . . . . . . . . . . . . . . . . . . . 79 6.2 Développement d’un modèle sur GPU . . . . . . . . . . . . . . . . . . . . . . . 80 6.3 Parallélisation de certains traitements . . . . . . . . . . . . . . . . . . . . . . . 85 6.4 Utilisation de traitements parallélisés existants . . . . . . . . . . . . . . . . . . . 88 6.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 7 MCMAS, une bibliothèque d’exécution générique 93 7.1 Présentation générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 7.2 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 7.3 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 7.4 Utilisation de l’interface de haut niveau . . . . . . . . . . . . . . . . . . . . . . 105 7.5 Développement de nouveaux plugins . . . . . . . . . . . . . . . . . . . . . . . . 109 7.6 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 8 Validation sur des modèles existants 113 8.1 Parallélisation de modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 8.2 Etudes de performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 8.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 9 Conclusion et perspectives 145 9.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 9.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 Bibliographie 156Remerciements Je tiens à remercier en premier lieu le Professeur Laurent Philippe, mon directeur de thèse, pour sa sympathie, sa disponibilité, ses idées, ses conseils et ses encouragements durant mes quatre années de thèse. Je voudrais également le remercier pour sa relecture et sa patience à corriger cette thèse. Je remercie M. Kamel Mazouzi, Ingénieur de Recherche au Mésocentre de Calculs, pour son soutien indéfectible et ses conseils précieux tout au long de cette thèse. Son aide et ses remarques sur MCMAS ont en particulier eu une influence déterminante sur l’architecture et l’interface de la bibliothèque obtenue. Je remercie M. Christophe Lang pour son aide au cours et en dehors de nombreuses réunion, et en particulier pour ses contributions et son expertise en systèmes multi-agents, qui m’ont été d’une assistance précieuse dans mes travaux et mon mémoire. J’exprime également ma plus profonde gratitude à M. Nicolas Marilleau pour avoir été un acteur clé du choix de ce sujet et de sa réalisation, en tant que personne également confrontée aux problématiques d’implémentations de systèmes multi-agents au quotidien. M. Christophe Cambier et M. le Professeur Michaël Krajecki ont accepté d’être les rapporteurs de cette thèse, et je les en remercie, de même que pour leur participation au Jury. Ils ont également contribué par leurs nombreuses remarques et suggestions à améliorer la qualité de ce mémoire, et je leur en suis très reconnaissant. MM. les professeurs Fabrice Bouquet et Stéphane Genaud m’ont fait l’honneur de participer au Jury de soutenance ; je les en remercie profondément. Tous mes remerciements vont également au Mésocentre de Calcul de Franche-Comté, qui m’a recruté en 2009 et sans lequel je n’aurais eu la chance unique d’être dans un cadre me permettant d’entreprendre et de réaliser cette thèse. Je remercie en particulier Cédric pour l’ambiance quotidienne dans le bureau et son expertise technique qui a été très utile à plusieurs reprises. J’adresse également mes remerciements à tous les membres du DISC pour leur accueil au sein du Département d’Informatique des Systèmes Complexes de l’institut FEMTO-ST. Cela a été pour moi un honneur de devenir leur collègue après les avoir rencontrés en tant qu’enseignants au cours de ma formation. Je tiens à remercier le personnel de l’école doctorale SPIM pour son aide précieuse dans les dé- marches administratives. Je tiens enfin à remercier ma famille pour son soutien indéfectible au cours de la rédaction de cette thèse, tant d’un point de vue humain que rédactionnel, pour quelqu’un comme moi qui apprécie un peu trop les longues phrases...Introduction Ces dernières années ont consacré l’émergence du parallélisme dans de nombreuses branches de l’informatique, tant au niveau matériel que logiciel. Elle s’est manifestée au niveau matériel, tout d’abord, du fait de la stagnation de l’augmentation des fréquences de fonctionnement des unités de calcul, avec l’apparition d’architectures dotées de très grands nombres de coeurs. Elle s’est ensuite manifestée au niveau logiciel avec la démocratisation de plates-formes d’exécution parallèle telles que MPI ou OpenMP, ou l’apparition de nouvelles solutions comme OpenCL et CUDA, pour exploiter ce parallélisme matériel croissant. Cette démarche de parallélisation de l’exécution peut être rapprochée du parallélisme conceptuel mis en œuvre dans les modèles multi-agents pour faciliter la description de systèmes complexes. Dans ce type de modèle, l’approche choisie est de décomposer un problème difficile ou impossible à appréhender de manière globale en sous-problèmes dont la résolution est plus simple, de manière à obtenir une solution globale. Ces sous-problèmes sont associés à des entités, ou agents, accomplissant chacun leurs tâches de manière simultanée et faisant évoluer le système dans son ensemble. Si l’adéquation entre un parallélisme d’exécution logiciel et conceptuel semble naturelle, la parallélisation reste une démarche difficile, du fait du déroulement séquentiel des opérations et des dépendances présents dans de très nombreux modèles agents. Les plates-formes d’exécution évoquées dans le paragraphe précédent sont généralistes, et ne sont pas spécifiquement adaptées aux problématiques multi-agents. Cette absence de support spécialisé impose au concepteur de nombreux développements de structures de données ou de traitements propres à son modèle, ou l’utilisation d’une plate-forme multi-agents parallélisée fournissant déjà ces outils. L’objectif de cette thèse est de proposer une solution commune pour faciliter l’implémentation de tels modèles sur une plate-forme d’exécution massivement parallèle telle que le GPU, dont le nombre important de coeurs permet d’envisager l’exécution simultanée de grands nombres d’agents. Notre mémoire est pour cela découpé en deux parties : la présentation de notre contexte, puis celle de nos contributions. Pour cerner notre contexte, nous présentons dans un premier temps les concepts de simulation et de modèle. Nous décrivons leur rôle en complément ou en remplacement de l’expérience pour permettre une meilleure compréhension du monde qui nous entoure. Cette présentation est également l’occasion d’introduire l’amélioration constante en précision et en taille des simulations nécessaire à l’avancée des connaissances et l’augmentation correspondante des ressources requises. Ce besoin motive à l’heure actuelle la recherche de nouvelles solutions d’exécution pour des simulations même modestes, exploitant efficacement plusieurs ressources matérielles. Nous décrivons ensuite un type de système particulier, au coeur de notre sujet de thèse : les systèmes multi-agents. Ces systèmes permettent, en décomposant le modèle à simuler en entités indépendantes, les agents, d’appréhender des modèles sans loi globale de comportement. La dynamique de ces systèmes ne dépend plus alors uniquement de règles générales, mais de l’interaction entre un ou plusieurs algorithmes s’exécutant en parallèle. La simulation de ces systèmes rencontre, comme la simulation de manière générale, un problème de disponibilité de ressources en calcul et en mémoire dans le cas de grands espaces ou nombres d’individus, que nous illustrons sur quelques exemples connus.Introduction 10 L’identification de ce besoin en ressources nous amène à considérer les différentes approches de parallélisation permettant d’y répondre, avec leurs avantages et leurs contraintes en termes d’exécution et de programmation. Cette présentation est l’occasion d’introduire les GPU, ou cartes graphiques, qui offrent une capacité de calcul normalement inaccessible sur le CPU d’une seule machine. Ces matériels permettent au programme de partager aisément des données dans une même mémoire globale tout en offrant l’accès à plusieurs centaines de coeurs. Leur utilisation est cependant associée à de nombreuses contraintes, tant en termes de découpage de l’exécution qu’en termes d’utilisation et d’accès aux données, pour permettre une exécution efficace. À la suite de cette présentation des solutions de parallélisation, nous évoquons leur application dans les simulations multi-agents. Pour cela, nous commençons par présenter les différentes approches de découpage de l’exécution et des données généralement utilisées dans le cas de modèles multi-agents. Nous présentons ensuite des plates-formes multi-agents supportant l’exécution parallèle du modèle comme MadKit, Repast HPC, JADE ou encore FLAME. Nous décrivons ensuite l’état de l’art des solutions permettant actuellement d’utiliser le GPU pour exécuter tout ou partie d’un modèle multi-agents. Ces solutions peuvent être classées en deux catégories principales, l’utilisation directe de modèles de programmation génériques comme CUDA ou OpenCL ou l’utilisation d’une bibliothèque d’abstraction telle que FLAME-GPU. Ces deux catégories laissent cependant une ouverture pour une approche intermédiaire qui faciliterait la réalisation de simulations ou de traitements multi-agents sur GPU sans imposer l’utilisation d’une plate-forme de développement multi-agents particulière, contrairement à FLAME-GPU avec le formalisme FLAME. La définition de cette problématique nous sert de transition pour la présentation de nos contributions, en seconde partie, et en particulier de MCMAS 1 , une bibliothèque d’exécution multi-agents sur GPU développée pour répondre à ces besoins. Notre première contribution est la présentation de l’adaptation d’un modèle multi-agents connu, le système proie-prédateur, sur GPU, pour mettre en évidence sur un cas concret les changements en termes de structures de données et de découpage de l’exécution nécessaires au portage de ce type de simulation. Cet exemple concret nous sert ensuite de fil rouge pour définir trois grandes approches de parallélisation du modèle sur GPU : une adaptation complète de la simulation, une délégation manuelle de certains traitements, ou la réutilisation de fonctions de haut niveau existantes. Ces approches nous permettent de définir les interfaces attendues par ces scénarios. L’adaptation complète ou partielle du modèle nécessite en effet une connaissance ainsi qu’un contrôle fin d’un modèle d’exécution tel que OpenCL ou CUDA. Au contraire, la parallélisation de certains traitements uniquement encourage une interface de programmation la plus simple possible pour le concepteur, de manière à faciliter son intégration et son utilisation dans de nombreux modèles existants sans connaissance particulière des détails d’implémentation. Notre bibliothèque MCMAS vient répondre à ces types d’utilisations au moyen de deux interfaces de programmation, une couche de bas niveau MCM 2 et un ensemble de plugins utilisables sans connaissances GPU. Nous présentons tout d’abord l’architecture qui résulte de ces deux perspectives d’utilisation, ainsi que la manière dont certaines de ces fonctions sont assurées, avant de décrire l’utilisation de l’interface haut niveau de notre bibliothèque et l’ajout de fonctionnalités au moyen de nouveaux plugins. Nous étudions ensuite l’utilisation de cette bibliothèque sur trois systèmes multi-agents distincts : le modèle proie-prédateur, notre fil rouge, le modèle MIOR et le modèle Collemboles. Ces 1. Many-Core Multi-Agent Systems 2. Many-Core ManagerIntroduction 11 applications sont l’occasion d’effectuer une étude des performances obtenues sur plusieurs types et générations de cartes graphiques par chaque modèle et des facteurs contribuant à une exécution efficace sur GPU. Nous présentons également une synthèse de l’expérience acquise en proposant quelques conseils pour implémenter un modèle sur cette architecture. Ces observations, tant en termes de ressources ou de stockage de données qu’en termes de précision des traitements, visent à faciliter une utilisation efficace du grand nombre de supports d’exécution gérés par MCMAS. Nous dressons enfin un bilan du travail et des réflexions présentées dans notre mémoire, avant d’évoquer quelques pistes possibles d’amélioration de notre solution. L’objectif de ces pistes est de favoriser l’extension et l’utilisation de notre bibliothèque, en proposant des couches d’adaptations dans des plates-formes existantes, la gestion de nouvelles structures de données, ou encore le support transparent d’une plus grande variété de configurations d’exécution.I Contexte15 Dans cette première partie, nous présentons tout d’abord le contexte de nos travaux, de manière à définir la portée de notre sujet et à introduire la problématique à laquelle nous avons souhaité répondre : la parallélisation efficace de systèmes multi-agents sur architecture à grand nombre de cœurs. Nous commençons par introduire le domaine de la simulation et des systèmes multi-agents et ce qu’ils représentent. Nous abordons ensuite la problématique du besoin en ressources rencontrées par ces modèles, lorsque nous cherchons à améliorer la précision et/ou la taille du modèle, et en quoi la parallélisation est une solution à ce besoin. Nous évoquons alors en quoi les moyens matériels associés à cette parallélisation peuvent être coûteux, et présentons les GPU, une architecture matérielle permettant de disposer de plusieurs centaines de coeurs d’exécution sur une machine locale. Après avoir présenté cette architecture, nous dressons un état de l’art des développements et portages de systèmes multi-agents déjà réalisés sur GPU, ainsi que la présentation d’une plate-forme multi-agents générique d’exécution sur GPU, FLAME-GPU.1 Les systemes multi ` -agents Avant de présenter les systèmes multi-agents et l’utilisation que nous en feront, il est nécessaire de présenter le rôle d’une simulation, mais également de définir les concepts de modèle et de modélisation qui seront utilisés très largement dans la suite de notre propos. 1.1 Science et simulation Dans cette section, nous commençons par présenter le contexte d’apparition de la simulation numérique, puis son principe. Nous définissons ensuite les termes de modèle et simulation avant d’étudier plusieurs classifications possibles des approches de modélisation permettant de passer d’un modèle à une simulation. 1.1.1 Principe de la simulation La résolution de problèmes est l’un des moteurs de la recherche et de l’innovation technique. Si cette résolution a longtemps été effectuée manuellement, elle est de plus en plus confiée aux ordinateurs à même de réaliser d’importants volumes d’opérations. Avant de pouvoir résoudre un problème, il est cependant essentiel de disposer d’outils permettant de le décrire puis de le mesurer. C’est le rôle de l’expérience et de la simulation. Une simulation est par nature la reproduction d’un phénomène en dehors du contexte dans lequel il se déroule habituellement. Cette simulation peut être de nature physique, sous la forme d’une expérience, ou dématérialisée sur un support informatique, auquel cas on parlera de simulation numérique. L’objectif est généralement de pouvoir étudier le phénomène en le reproduisant et en l’observant. Un premier moyen d’observer et de décrire un phénomène est la mise en place d’un protocole expérimental. Ce protocole décrit un ensemble de conditions fixées ou variables où sera observé l’évolution de certaines métriques. Son objectif est de permettre un contrôle des résultats en assurant que l’observation soit ciblée et reproductible. La réalisation ou la reproduction d’un phénomène dans sa globalité n’est cependant pas toujours financièrement ou pratiquement réalisable. Il est alors nécessaire de recourir à une représentation alternative généralement simplifiée du réel, le modèle. Dans le cas d’études topographiques sur l’érosion, il n’est ainsi pas possible de mettre sous serre une vaste étendue de territoire de manière à assurer des conditions contrôlées et reproductibles. De la même manière, le fait de demander à plusieurs milliers d’individus de reproduire à loisir un comportement pré-établi implique une coordination stricte faussant les résultats attendus.CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 18 L’objectif d’un modèle est de proposer une représentation de la réalité, de manière à en faciliter la compréhension. Sa conception se base sur des lois déduites d’un corpus d’observations et d’expériences. Ce modèle peut ensuite être associé à des scénarios d’exécution reproduisant le phénomène observé correspondants à des conditions particulières pour en faire une simulation informatique. Après cette courte introduction, nous allons maintenant définir formellement ces concepts. 1.1.2 Définitions : modèle, simulation Le modèle est une représentation d’un phénomène ou d’un système permettant de le rendre plus aisément manipulable, comme souligné par cette définition proposée par Peter Haggett en 1973 [Hag73] : Définition (modèle) : les modèles sont des représentations schématiques de la réalité, élaborés en vue de la comprendre et de la faire comprendre. Cette simplification implique une approximation du système simulé : un modèle est donc une vision simplifiée de la réalité. Wilson [Wil74] propose de son côté une définition de la simulation indépendante de toute notion de modèle : Définition (simulation) : par nature, une simulation est quelque chose pouvant être lancé, modifié, et produisant des résultats (exemple du crash-test). Peut être de nature physique (expérience dans un environnement contrôlé) ou dématérialisée (informatique). Cette définition met en avant l’indépendance entre les concepts de modèle et de simulation : une simulation est avant tout un moyen de produire des résultats, que ce soit à de manière physique ou informatique. Le passage d’un système concret à un modèle de simulation correspond à un processus nommé modélisation. 1.1.3 Un continuum d’approches de modélisation Notre contexte de travail est celui des systèmes multi-agents. Afin de situer ce contexte, nous rappelons ici les caractéristiques des principales approches de modélisation, qu’elles reposent sur l’utilisation de lois mathématiques de type équations différentielles ou statistiques ou sur la conception d’algorithmes représentant le comportement d’entités individuelles. Nous proposons ici deux axes possibles de caractérisation de ces approches de modélisation. Ces caractérisations ne doivent pas être considérées comme hermétiques, car certaines démarches reprennent des éléments de chacune de ces approches de modélisation pour décrire des aspects différents d’un même modèle.CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 19 Modélisation ascendante ou modélisation descendante Un premier axe de classification des approches de modélisation est la direction, descendante ou ascendante, dans laquelle cette démarche est appliquée au système simulé [CKQ+07, Jac98]. Dans une approche descendante (ou top-down), un comportement global est appliqué à tous les éléments particuliers du modèle. Il est par exemple possible, en observant l’évolution de la quantité d’oxygène présente dans l’environnement de bactéries aérobies, d’en déduire une loi décrivant la dynamique générale du système. Cette loi peut alors être utilisée pour reproduire cette évolution de manière informatique sous forme de modèle, sans avoir à réaliser à nouveau l’expérience concrète. En appliquant les mêmes lois à tout le système, cette modélisation rend cependant difficile la description de comportements émergents des entités simulées entraînant une évolution non linéaire du modèle du fait de conditions particulières. Dans le cas de ces comportements émergents en effet, seul le comportement de chaque élément est connu : il devient nécessaire d’adopter une approche ascendante (ou bottom-up). Le comportement du modèle dans son ensemble n’est alors plus globalement décrit par des lois globales mais par une combinaison d’algorithmes représentant les comportements locaux présents dans le système. Dans de nombreux systèmes biologiques, l’équilibre du métabolisme est basé sur l’interaction de processus antagonistes tels que la constitution de réserves de nutriments et la reproduction. L’évolution du système est alors directement déterminée par les conditions environnementales et l’impact résultant de chacun de ces mécanismes, ce qui rend une prévision a priori de l’évolution globale du système moins accessible. L’approche ascendance permet alors une modélisation plus adaptée, basée sur la description des comportements de chaque sous-élément du système. Le choix de l’une ou l’autre de ces approches de modélisation est fonction du niveau de connaissance initial du système et du type de résultats souhaités, locaux ou portant sur l’évolution globale du modèle. Simulation continue et simulation à événements discrets Une autre distinction est effectuée dans la littérature [BPL+06, Fuj03] entre les simulations continues et les simulations à événements discrets (DES). Une simulation continue permet de représenter des phénomènes par nature ininterrompus dits continus. Dans le cas d’une diffusion thermique dans un solide, il est ainsi possible de définir l’état du système à n’importe quel instant au moyen de fonctions mathématiques, généralement des équations différentielles. Dans ce cas, le choix de l’échelle de temps retenue est arbitraire et dépend uniquement de la durée et de la fréquence de l’observation demandée. Une simulation à événements discrets permet au contraire de décrire des systèmes dont l’évolution dépend d’événements particuliers : en l’absence de ces éléments déclencheurs, la simulation demeure statique. Un exemple de système à événements discret est une chaîne de production, inactive en l’absence de tâches à traiter. Ce type de simulation peut être décrit sous la forme de réseaux de Petri conçus pour la description de systèmes basés sur des variables discrètes, ou encore sous forme de systèmes multi-agents. Certaines simulations peuvent présenter à la fois des comportements discrets et continus. L’évolution de la position d’une balle en chute libre obéit ainsi à une loi continue, mais le sens du mouvement de cette balle est modifié de manière discrète par tout contact avec un autre objet, qu’il s’agisse du sol ou d’un autre obstacle. Il est dans ce cas possible de recourir à des simulations continues à événements discrets, ou simulations hybrides, associant ces deux fonctionnements.CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 20 1.2 Les systèmes multi-agents Après avoir présenté la simulation de manière générale, nous nous intéressons plus spécifi- quement aux systèmes et aux simulations multi-agents. La simulation à base d’agents centre le modèle sur des entités indépendantes nommées agents. Des comportements et des données sont associés à chacun de ces agents, de manière à obtenir des informations sur le modèle global : la modélisation à base d’agents est donc une modélisation de type ascendante permettant de simuler un environnement à partir de ses composants élémentaires. Les modèles basés sur ce paradigme de conception sont dits modèles multi-agents. Les simulations réalisées à partir de ce type de modèles sont alors appelées simulations multi-agents. Ce type particulier de simulations peut être décomposé en deux sous-classes [Fuj03] de simulations à événément discrets : — Les simulations discrètes par pas de temps (time-driven). Dans ce cas l’évolution du système est guidée par le temps découpé en pas réguliers parcourus par la simulation. — Les simulations discrètes par événément (event-driven). Dans ce cas l’évolution du système est guidée par une chaîne chronologique d’événements. 1.2.1 Définition et concepts Il est important de définir le concept d’agent pour comprendre celui de système multi-agents. Pour cela, nous nous référons à la définition proposée par Jacques Ferber dans [Fer95] : On appelle agent une entité physique ou virtuelle — qui est capable d’agir dans un environnement, — qui peut communiquer directement avec d’autres agents, — qui est mue par un ensemble de tendances (sous la forme d’objectifs individuels ou d’une fonction de satisfaction, voire de survie, qu’elle cherche à optimiser), — qui possède des ressources propres, et qui est capable de percevoir (mais de manière limitée) son environnement, — qui ne dispose que d’une représentation partielle de cet environnement (et éventuellement aucune), — qui possède des compétences et offre des services, — qui peut éventuellement se reproduire, — dont le comportement tend à satisfaire ses objectifs, en tenant compte des ressources et des compétences dont elle dispose, et en fonction de sa perception, de ses représentations et des communications qu’elle reçoit. Cette définition met en avant les capacités d’action sur l’environnement et de communication associées à ces agents. Elle souligne également la vision partielle de l’environnement associée à chaque agent, dont l’évolution est déterminée par cette perception partielle plutôt que par une connaissance globale du modèle. Cette notion d’agent n’a de sens que comme partie d’un système plus large, le système multiagents, sans lequel ces possibilités de communication sont inutiles. Ferber propose également, dans le même ouvrage, une définition de ces systèmes : On appelle système multi-agents (ou SMA) un système composé des éléments suivants : — Un environnement E, c’est-à-dire un espace disposant généralement d’une métrique. — Un ensemble d’objets O. Ces objets sont situés, c’est-à-dire que, pour tout objet, il estCHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 21 possible, à un moment donné, d’associer une position dans E. Ces objets sont passifs, c’est-à-dire qu’ils peuvent être perçus, créés, détruits et modifiés par les agents. — Un ensemble A d’agents, qui sont des objets particuliers (A ∈ O), lesquels représentent les entités actives du système. — Un ensemble de relations R qui unissent des objets (et donc des agents) entre eux. — Un ensemble d’opérations Op permettant aux agents de A de percevoir, produire, consommer, transformer et manipuler des objets de O. — Des opérateurs chargés de représenter l’application de ces opérations et la réaction du monde à cette tentative de modification, que l’on appellera les lois de l’univers. L’implémentation d’un système multi-agents débute par la conception ou le choix d’un modèle multi-agents basé sur des agents, un environnement et les interactions entre ces entités [DSJD02]. Ces interactions et cette organisation définissent la fonction, le type et les scénarios de communication possibles dans le système simulé [JOF03]. En fonction du modèle, ces communications peuvent être directes ou indirectes, par le biais des mises à jour de l’environnement perçues ensuite par d’autres individus. Les systèmes multi-agents représentent un continuum de simulation très large, s’étendant d’exemples très simples à des problèmes proches de l’intelligence artificielle. Cette diversité des problématiques est reflétée par le vaste vocabulaire employé par cette communauté scientifique, mêlant des concepts tels que celui d’agent à des notions moins directes d’objectif, de croyance ou de perception. Un aspect présent dans de nombreux systèmes multi-agents est celui d’environnement. L’environnement décrit l’espace dans lequel évoluent les agents, sa structure (composition, agencement) et sa dynamique. Il peut être considéré comme un agent spécifique ou comme un simple ensemble de structures de données partagées. Il est typiquement chargé du stockage des propriétés globales au modèle, mais peut être associé à d’autres fonctions : — Il peut remplir des fonctions à l’échelle du modèle telles que la gestion du temps ou la mise à jour des paramètres globaux à chaque itération. — Il peut servir d’espace de stockage de tout ou partie des informations des agents. — Il peut également remplir le rôle de médium de communication. Des normes telles que FIPA [fip] ont été proposées pour standardiser l’implémentation de ce type de simulations. Cette norme, publiée en 1997, établit de nombreuses règles liées aux modes de communications et d’interactions entre agents par le biais d’échanges de messages. Elle est basée autour de trois rôles particuliers : — Le système de gestion d’agents (Agent Management System, ou AMS), responsable de la supervision de l’accès et de l’usage de la plate-forme. Il assure en particulier l’authentifi- cation des agents présents et le contrôle des nouveaux enregistrements. — Le canal de communications entre agents (Agent Communication Channel, ou ACC) fournit l’infrastructure de communication entre agents. Cette interface doit être compatible avec le protocole IIOP, pour garantir l’interopérabilité entre plates-formes multi-agents. — L’assistant d’annuaire (Directory Facilitator, ou DF) propose un service de recherche aux agents de la plate-forme pour découvrir facilement les autres agents présents dans le modèle.CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 22 1.2.2 Agents réactifs, agents cognitifs Il est courant d’effectuer dans les systèmes multi-agents une distinction entre agent cognitif et réactif [WD92, CDJM01] en fonction de leurs capacités d’action et de raisonnement. Un agent cognitif dispose d’une mémoire de son passé et de son environnement lui permettant d’effectuer des déductions sur celui-ci et d’en prédire de futures évolutions. Le comportement de l’agent est déterminé par des intentions, correspondant à des objectifs à atteindre, et orientant les choix effectués entre plusieurs actions possibles. Ce type d’agent est utilisé pour représenter des individus dotés d’une intelligence propre. Celle-ci est alors souvent décrite sous la forme d’un moteur d’inférence intégré dans l’agent. Un exemple d’agent cognitif est ainsi le modèle proposé par J. Doran [DP93] pour décrire les évolutions sociales des sociétés du Paléolithique dans le sud-ouest de la France en fonction de la répartition des ressources. Cet article met en évidence l’importance des décisions prises par des individus particuliers sur la base d’une vision à moyen et long terme, plutôt qu’en simple réaction à une situation immédiate, pour expliquer les évolutions de peuplement observées en archéologie. Un agent réactif ne peut au contraire que réagir à l’état instantané du système. Son comportement peut être caractérisé en se basant sur la psychologie comportementale comme purement S-R (Stimulus-Reaction), où S représente un état particulier de l’environnement et R une série d’actions élémentaires entreprises par l’agent en réaction à cet état. De tels comportements sont rencontrés aussi bien pour des animaux [McF87] que pour des créatures artificielles [Mae90]. La séparation entre agents réactifs et cognitifs n’est pas très nette, et certains agents mélangent donc des comportements réactifs et cognitifs. Cette vision à plus ou moins long terme de l’environnement a un impact important sur la complexité de chaque agent et donc sur celle de son implémentation. 1.2.3 Implémentation de modèles agents Les systèmes multi-agents les plus simples peuvent être implémentés sous forme d’automates cellulaires. Ces automates sont également souvent utilisés pour représenter l’environnement de systèmes multi-agents plus complexes [SFS10]. Comme toute simulation informatique, l’exécution de simulations multi-agents requiert des ressources tant en termes de mémoire, pour stocker les données du système, qu’en temps de calcul pour le faire évoluer. Dans le cas des simulations multi-agents, ces besoins dépendent de deux facteurs principaux : — Des ressources requises par l’environnement. S’il s’agit d’un environnement stockant des données pour chaque unité de l’espace de simulation, les ressources mémoires requises pour représenter cet espace seront alors proportionnelles à sa taille. Si un traitement est associé sur chacune de ces unités, le temps d’exécution associé aux processus de l’environnement va également en augmentant. — Des ressources requises par les agents. Une augmentation du nombre d’agents implique une augmentation du nombre d’attributs à représenter, ainsi que du nombre d’individus à faire évoluer. D’autres parties de la simulation, comme la récupération ou le stockage de résultats, contribuent également à ces besoins en ressource. Leur impact n’est cependant pas nécessairement lié à la taille du système simulé. Dans la suite de cette section, nous allons illustrer dans le cadre de quelque simulations multi-agents connues l’impact des agents ou de l’environnement sur la consommationCHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 23 en ressources en fonction de la taille du système simulé. 1.2.4 Exemples de modèles Jeu de la vie L’exemple le plus connu de modèle multi-agents simple implémenté sous la forme d’automate cellulaire est probablement le Jeu de la Vie (Game of Life), imaginé en 1970 par John Horton Conway [Gar70]. Ce modèle est constitué d’une simple grille dont chaque cellule est soit "vivante" soit "morte". L’évolution de l’état de chaque cellule à la prochaine itération est déterminé par le nombre de ses voisines vivantes à l’itération précédente : — Une cellule morte possédant exactement trois voisines vivantes devient vivante. — Une cellule vivante possédant deux ou trois voisines vivantes le reste. — Une cellule vivante meurt dans le reste des cas. Ce système simple est souvent employé comme exemple d’introduction à l’utilisation de platesformes agent [Mic02, net], pour en présenter les concepts et la syntaxe fondamentale dans le cadre d’un modèle connu. La seule structure de données du système dans ce cas est l’environnement. Comme cet environnement décrit toutes les cellules possibles, la mémoire requise est directement fonction de sa taille : si celle-ci double, la consommation en mémoire sera alors multipliée par quatre (espace en deux dimensions). Le temps d’exécution est également directement lié à la taille de cet environnement grille, le même traitement devant systématiquement être appliqué à chaque cellule. Comme chaque traitement ne s’applique qu’à la cellule locale, la quantité totale de traitements à exécuter à chaque itération est proportionnelle à la taille de l’environnement. Ce modèle très simple peut donc devenir coûteux à grande échelle et, de ce fait, nécessiter des ressources de calculs parallèle pour explorer de grandes tailles de modèles [MCM12]. Abeilles Un autre modèle largement représenté dans les différentes plates-formes multi-agents et la littérature est le mouvement d’essaims d’abeilles. Dans cet essaim, chaque agent est associé à une position dans un espace de simulation en deux ou trois dimensions, l’environnement. La position de chaque individu est ensuite mise à jour à chaque itération de manière à pouvoir observer le comportement global de l’essaim. Ce modèle met en jeu deux types d’agents : — La reine : cet agent particulier se déplace aléatoirement dans l’espace. — L’abeille ouvrière : cet agent tend à se rapprocher de la reine de l’essaim en ajustant sa direction de déplacement. Si plusieurs reines sont en présence, l’individu sélectionne l’une de ces reines, ce qui peut induire des changements d’essaim. Ce modèle est une excellente illustration de l’apparition d’un comportement émergent complexe, la création, la fusion et l’évolution de la forme d’un ou plusieurs essaims, à partir d’algorithmes simples. Le comportement observé varie en fonction des paramètres de la simulation et en particulier de la vitesse de déplacement ou du champ de vision de chaque individu. Dans ce modèle, contrairement au jeu de la vie, l’environnement n’est plus une véritable struc-CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 24 ture de données séparées, mais un espace dans lequel une position est associée à chaque agent. Il n’est pas non plus associé à ses propres traitements. Les besoins en mémoire et en calcul sont donc cette fois directement dépendants du nombre d’agents présents dans le système. Les besoins en mémoire évoluent de manière linéaire avec le nombre total d’agents présents dans le système, et donc la quantité d’attributs à stocker. L’évolution des besoins en calcul est cette fois encore linéaire, mais proportionnelle au nombre d’abeilles ouvrières présentes dans le modèle, plutôt qu’à la taille de l’environnement. Fourmis Un autre modèle multi-agents connu est celui de la colonie de fourmis, représentant le déplacement des individus d’une fourmilière à la recherche de nourriture. Il est possible d’identifier trois types d’agents dans ce système : — La fourmilière. Cet agent fixe représente le point de départ et de retour des fourmis. Il est souvent responsable du stockage de la nourriture de manière à permettre la présence de plusieurs colonies dans une même simulation. — Le dépôt de nourriture. Il est représenté soit sous la forme d’un agent fixe dans le cas d’un espace de simulation continu, soit sous la forme d’une donnée associée à chaque unité de l’environnement. — La fourmi, seul agent mobile capable de se déplacer dans l’environnement. Sa fonction est de localiser et de ramener de la nourriture à sa fourmilière. L’évolution globale de la simulation est déterminée par le mouvement des fourmis et la répartition géographique des fourmilières et des ressources dans l’environnement. La vitesse de collecte de nourriture peut alors être utilisée comme métrique d’évaluation de différentes stratégies de dé- placement appliquées aux fourmis. Dans les cas les plus simples, ces déplacements sont effectués de manière aléatoire, mais un comportement plus réaliste est le dépôt et la prise en compte de phéromones dans l’environnement. Ces marqueurs chimiques encouragent l’individu à privilégier certaines directions de déplacement, et permettent l’émergence puis l’optimisation de chemins particuliers pour la récolte des ressources sans intelligence centrale directrice. Dans ce cas, l’environnement joue à la fois le rôle de mémoire et de médium d’interaction indirect entre individus. Ce troisième exemple représente un cas où l’environnement et les agents correspondent chacun à des structures de données et des traitements distincts, et contribuent donc tous deux aux besoins en termes de mémoire et de calcul. L’évolution des ressources en fonction de la taille du modèle et du nombre d’agents reprend à la fois des aspects du jeu de la vie et des abeilles : — La consommation en mémoire est proportionnelle à la taille de l’environnement et du nombre d’agents : si la taille du modèle est multipliée par deux, le nombre de cellules devant être stockées est multiplié par quatre, si une grille discrète de phéronomes est utilisée. De même, si le nombre d’agents fourmis est multiplié par deux, la mémoire est également multipliée par deux, pour stocker les données de ces individus supplémentaires. — La consommation en temps de calcul est proportionnelle de la même manière à la taille de l’environnement, du fait de la nécessité de calculer la diffusion des phéromones dans la grille à chaque itération. Elle est également proportionnelle au nombre d’individus dont le déplacement doit être géré. Il est important de noter que ces constatations ne sont valables que si l’environnement utilisé est une grille. Dans le cas où les phéromones seraient considérées comme des agents fixes, l’évolution des besoins en ressources se rapproche à nouveau de celle du modèle des abeilles.CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 25 1.2.5 Représentation de l’espace de simulation Si les modèles évoqués jusqu’à présent stockent les informations de positionnement soit sous forme de coordonnées à l’intérieur de chaque agent, soit sous forme de structures de grille en deux ou trois dimensions, de nombreuses autres solutions de représentation sont possibles pour l’environnement du système et l’emplacement des agents. Galland et all [GGDK09] proposent ainsi pour le positionnement en milieu urbain deux approches complémentaires : — L’utilisation d’une carte de hauteur (heighmap), où chaque pixel indique l’altitude du point de l’espace simulé correspondant. L’information est alors encore une fois représentée sous forme de grille, ici une image. — L’utilisation d’un modèle de positionnement des objets. L’objectif de cette seconde représentation est de permettre un accès rapide à la position et à l’orientation des objets présents dans le modèle. L’environnement est découpé en zones décrites par un graphe, pour un environnement en une dimension, ou par un arbre spatial. Chacun des objets du système est alors associé au noeud correspondant aux zones où il est situé, de manière à rapidement pouvoir déterminer les objets présents ou non dans un espace donné. Il est possible à un objet d’appartenir à plusieurs zones, s’il se trouve sur une frontière : dans ce cas, l’objet est copié et stocké à plusieurs endroits de la structure. Si dans ce cas la représentation sous forme de graphe est utilisée en complément d’une grille, de nombreux environnements multi-agents basés sur des axes de circulation discrets peuvent être entièrement représentés sous forme de graphe. Ces structures se retrouvent au sein de nombreux modèles de recherche de chemin dans la littérature agent, en particulier dans le cas de simulations de trafic routier [SN09]. 1.2.6 Synthèse L’étude des modèles du jeu de la vie, des abeilles ou des fourmis permet de mettre en évidence que l’exécution d’une simulation multi-agents peut rapidement devenir coûteuse, particulièrement dans le cas où l’environnement est représenté sous la forme d’une structure de données de type grille ou si le temps d’exécution de chaque agent est proportionnel à la quantité d’individus présents dans le modèle. Plusieurs scénarios sont à même d’imposer des simulations de taille importante, en espace de simulation ou en nombre d’agents. Un premier scénario est la volonté de simuler des systèmes mettant eux-même en jeu des espaces géographiques ou des populations importantes. C’est par exemple le cas de la simulation d’une ville : une simulation doit alors idéalement être capable de traiter tout son espace et ses habitants dans une même exécution, pour garantir une bonne représentation du système. Cette problématique est au coeur de projets comme MIRO [BBMC+10], qui vise à étudier la mobilité urbaine. Un deuxième scénario est celui des systèmes multi-échelles, où des simulations de portées très différentes doivent être couplées. Un exemple de tel système est Sworm [BMD+09], dédié à la modélisation de l’évolution des sols. Dans ce modèle, les principaux intervenants sont les vers de terre, à même de consommer et diffuser de la matière organique dans le sol. Cette matière organique fait également l’objet d’une évolution d’origine microbienne. Dans ce cas, la simulation même d’un petit volume de sol implique la réalisation de très grands nombres de simulations microscopiques MIOR.CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 26 Un dernier scénario enfin est de vouloir garantir l’apparition des comportements observés en pratique au sein de la simulation. Une simulation de trafic proposée par Strippgen [SN09] met en avant, même dans le cas où le système peut être décomposé à loisir, l’importance de taille ou de populations minimales pour voir émerger certains comportements. Dans ce cas, utiliser une simulation de trop petite taille, même quand c’est possible, est susceptible de fausser les résultats observés par rapport à une situation de taille plus importante. Cette utilisation d’environnements de grande taille ou de populations agents importantes est susceptible d’amener deux types de problèmes : — Des besoins en mémoire ne pouvant plus être assurés par une seule machine. — Des temps d’exécution très longs. Ces temps sont ainsi de l’ordre de la semaine dans le cas du modèle Sworm. Le recours à la parallélisation de l’exécution du système est une solution possible à ces deux limitations, comme nous l’abordons dans la suite.2 Modeles d ` ’execution et de programmation ´ paralleles ` La parallélisation est une solution pour accélérer l’exécution d’un programme ou pour permettre le traitement de données de taille plus importante en les répartissant sur plusieurs machines. Il est possible de distinguer deux grands modèles d’exécution en parallèle : la parallélisation en mémoire partagée et la parallélisation en mémoire distribuée. Dans ce chapitre, nous présentons ces deux modèles de parallélisation ainsi que des exemples d’outils en facilitant l’exploitation. Nous illustrons également leur impact sur le découpage des données et de l’exécution d’un programme. Dans les sections suivantes, nous présentons tout d’abord en quoi cette parallélisation vient en réponse aux besoins en ressources de calcul. Nous nous focalisons ensuite sur la parallélisation en mémoire partagée, et son exploitation par le biais des interfaces de programmation OpenMP et OpenACC. Nous présentons ensuite la parallélisation en mémoire distribuée et l’interface de programmation MPI, avant d’évoquer la parallélisation hybride combinant ces deux approches. Nous nous intéressons enfin à une nouvelle architecture d’exécution, le GPU, et voyons son modèle de programmation et ses apports par rapports aux architectures d’exécution traditionnelles en mémoire partagée ou en mémoire distribuée. Ces présentations nous permettent de définir les concepts utilisés pour la parallélisation des systèmes multi-agents. 2.1 Une réponse à des besoins en calcul Une constante universelle de la recherche scientifique est la nécessité permanente d’avancer plus loin dans la connaissance. Ce progrès peut être obtenu en ouvrant de nouvelles voies de recherches ou en améliorant les connaissances existantes, au moyen d’expérimentations plus précises ou de taille plus importante. A l’origine, ce processus a été purement mécanique, motivant l’invention de capteurs ou de méthodes de mesure du temps toujous plus fiables. Son application aux simulations informatiques se traduit désormais en besoins croissants en ressources mémoires et d’exécution. La progression en puissance de calcul du matériel a longtemps été assurée par l’accroissement des fréquences de fonctionnement des processeurs. Une augmentation en fréquence a en effet pour avantage de permettre à un programme limité par la vitesse du processeur de s’exécuter plus rapidement sans la moindre adaptation, à performance constante par cycle d’horloge. Cette augmentation de la fréquence a toutefois été freinée par l’apparition de multiple obstacles physiques, notamment en termes de miniaturisation et de densité thermique. L’accroissement de la puissance de calcul implique à présent une multiplication du nombre de coeurs d’exécutionCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 28 soit de manière locale (processeur multi-coeurs), soit de manière distante en interconnectant de nombreuses machines (clusters de calculs). La parallélisation des programmes est alors un moyen de tirer parti de cette nouvelle répartition des ressources d’exécution. La démarche de parallélisation est également motivée par l’accroissement des besoins en mé- moire des programmes. Si le passage de nombreuses architectures au 64 bits permet maintenant l’adressage de très grands espaces de travail, les quantités de mémoire physiquement utilisables sur une même machine restent limitées. Dans ce cas la parallélisation permet d’additionner les capacités mémoires fournies par plusieurs machines. Ce besoin croissant en puissance de calcul est illustré par l’augmentation d’année en année des capacités offertes par les plus puissants clusters mondiaux du TOP500 1 . Les premières places de ce classement étaient ainsi occupées par des solutions de l’ordre de la centaine de TeraFlops (1000 milliards, ou 1012 opérations flottantes par seconde) en juin 2005, puis du PetaFlops (1015 opérations) en juin 2009. En novembre 2013, les premières machines du classement proposent maintenant des puissances de plusieurs dizaines de PetaFlops. Si cette parallélisation est un moyen d’accéder à davantage de ressources d’exécution, les gains en termes de temps obtenus dépendent directement de la fraction de temps d’exécution du programme à même d’être parallélisée par rapport à celle devant demeurer séquentielle. La loi d’Amdahl [Amd67], énoncée en 1967, rappelle que le gain de performance pouvant être attendu de la parallélisation d’une partie d’un programme est directement proportionnel à la fraction du temps d’exécution correspondant. Ta = (1 − s)T + sT Ac S = T Ta = 1 (1 − s) + s Ac Où sont représentés : — T le temps d’exécution du programme avant parallélisation. — Ta le temps d’exécution du programme après parallélisation. — s la fraction du temps T concernée par l’amélioration. — Ac le facteur d’accélération obtenue sur la portion concernée. — S le facteur d’accélération globale. En pratique, l’application de cette loi se manifeste par une stagnation des performances au-delà d’un certain nombre de coeurs. Celle-ci survient d’autant plus rapidement que la fraction de temps parallélisée diminue, tel qu’illustré par la Figure 2.1. 2.2 Parallélisation en mémoire partagée 2.2.1 Modèle d’exécution La parallélisation en mémoire partagée est un modèle d’exécution permettant de tirer parti de ressources de calcul parallèles sur une même machine en découpant l’exécution du programme en plusieurs fils d’exécutions disposant d’un accès à un espace mémoire commun (Figure 2.2). 1. http ://www.top500.org/CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 29 20.00 18.00 16.00 14.00 12.00 10.00 8.00 6.00 4.00 2.00 0.00 Accélération 1 2 4 8 16 32 64 128 256 512 1024 2048 4096 8192 16384 32768 65536 Nombre d'unités d'exécution Loi d'Amdahl Portion parallélisable 50% 75% 90% 95% Figure 2.1 – Exemples d’applications de la loi d’Amdhal Une première manière de paralléliser l’exécution du programme est de faire appel à des processus légers, ou threads. Ces processus sont dit légers car ils partagent l’ensemble de leur espace mémoire, ce qui réduit les coûts de création ou de destruction associés à ces threads par rapport à des processus distincts, dits lourds. Une autre manière de paralléliser une exécution est de partager des portions de mémoires entre processus indépendants, soit en recopiant les données d’un processus parent au moment de la création d’une processus fils (fork), soit en utilisant les primitives de mémoire partagée proposées par le système. Cette technique est souvent employée pour des services où un unique processus parent demeure en attente de traitements à confier à un ou plusieurs processus fils. Ce fonctionnement est qualifié de maître-esclave. La parallélisation en mémoire partagée n’implique par nécessairement la création de plusieurs processus et peut également être réalisée au niveau de l’instruction. Dans ce cas, une même opération est appliquée à plusieurs données (SIMD) indiquées sous forme de vecteurs. Ces instructions sont pour cette raison dites vectorielles. Ce mode d’exécution est à la base de l’exécution sur GPU. La parallélisation en mémoire partagée est le modèle de parallélisation le plus aisé à exploiter car il permet de conserver un seul espace mémoire pour toutes les tâches. Ce partage facilite l’adaptation d’un algorithme séquentiel avec un minimum de modifications, sans répartition particulière des données. Comme pour toute ressource partagée, il devient cependant nécessaire de gérer la cohérence des données mémoires puisque plusieurs tâches peuvent les modifier de manière simultanée. Suivant le langage de programmation utilisé, cette synchronisation de l’accès aux données peut être intégrée au niveau des structures de données fournies (structure de données "thread-safe") ou être de la responsabilité du développeur. L’obligation de conserver toutes les ressources sur une même machine rend difficile l’utilisation de ce type de parallélisation au-delà de quelques dizaines de coeurs et d’une centaine de gigaoc-CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 30 tets de mémoire vive avec des processeurs traditionnels. Ces limites correspondent de plus à des machines dédiées à ce type de parallélisation et sont donc en pratique beaucoup plus basses pour des machines de bureau ou des ordinateurs portables. CPU1 Mémoire du programme Tâche 1 CPU2 Tâche 2 CPU3 Tâche 3 CPU4 Tâche 4 Figure 2.2 – Découpage d’une exécution en mémoire partagée L’utilisation de la parallélisation en mémoire partagée est grandement facilitée par des bibliothèques génériques telles que OpenMP, utilisé par de nombreuses simulations agents. 2.2.2 OpenMP, un modèle de programmation OpenMP [CDK+01] est un modèle de programmation pour les langages C, C++ et Fortran permettant le calcul parallèle en mémoire partagée. Il a été pour la première fois proposé en 1997. La parallélisation offerte par ce modèle repose sur la création et l’exécution implicite de sections parallèles d’un programme par un ensemble de threads, ou workers, alloués et gérés automatiquement par OpenMP. Ces sections parallèles sont indiquées par le biais de directives de préprocesseur classées en instructions de contrôle d’exécution (boucles parallèles), en directives de partage des données (privées, partagées), en outils de synchronisation permettant de coordonner la progression de l’exécution des threads et en fonctions de gestion de l’environnement. La possibilité d’annoter un code source existant facilite grandement l’utilisation d’OpenMP pour paralléliser de manière incrémentale un programme séquentiel. OpenMP permet également de configurer le nombre de coeurs d’exécution locaux à utiliser, pour mesurer aisément l’impact de la parallélisation sur les performances obtenues.CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 31 2.3 Parallélisation en mémoire distribuée Les ressources fournies par une seule machine ne suffisent pas toujours à atteindre les objectifs en termes de temps d’exécution ou de mémoire requis par le programme. Dans ce cas, il devient intéressant de pouvoir exploiter simultanément plusieurs machines. Cette parallélisation est souvent utilisée sur des grilles (machines hétérogènes reliées par un réseau informatique) ou des clusters (ensemble de noeuds de calculs homogènes, souvent reliés par un réseau informatique haute performance tel que Infiniband). 2.3.1 Modèle d’exécution La parallélisation en mémoire distribuée requiert une distribution explicite des données entre tâches d’exécution (Figure 2.3) de manière à permettre la répartition des tâches sur plusieurs machines dotées de mémoire indépendantes. Cette distribution des données permet également de s’affranchir des limitations en termes de taille mémoire imposées par une seule machine, en ne stockant pour chaque unité de traitement que les données nécessaires à son exécution. Cette répartition implique cependant la copie de certaines données communes dont la modification doit être ensuite répercutée dans les autres processus. La parallélisation en mémoire partagée impose également des modifications en profondeur de l’algorithme pour prendre en compte ce découpage mémoire, ce qui rend son utilisation pour un programme existant moins aisée que la parallélisation en mémoire partagée. CPU1 Mémoire Tâche 1 Tâche 1 CPU2 Mémoire Tâche 2 Tâche 2 CPU1 Mémoire Tâche 1 Tâche 1 Réseau CPU3 Mémoire Tâche 3 Tâche 3 CPU4 Mémoire Tâche 4 Tâche 4 Figure 2.3 – Découpage d’une exécution en mémoire distribuée La parallélisation en mémoire partagée requiert une prise en compte explicite du découpage des données par le concepteur du programme, mais peut elle aussi être facilitée au moyen de modèles de programmation comme MPI, capables d’abstraire la localisation et les communications entres portions du programme. 2.3.2 Un modèle de programmation standard : MPI MPI [Mes09] est une norme définissant un ensemble de fonctions de communication entre processus locaux ou distants. Des implémentations pour les langages C, C++ et Fortran en sontCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 32 disponibles sur de nombreuses plates-formes, ce qui en fait un standard pour la réalisation de parallélisations distribuées. L’objectif de ces fonctions est de permettre de bonnes performances d’exécution aussi bien sur une même machine qu’entre des machines distantes. MPI repose pour cela sur un ensemble de primitives de communication de haut niveau susceptibles d’exploiter les mécanismes optimisés d’échange de données offerts par le système d’exploitation et le matériel. Une exécution MPI est constituée d’un ensemble de processus associés à des numéros de rang indépendants de leur localisation physique (Figure 2.4). Ces numéros de rang permettent à chaque processus d’adapter ses traitements en fonction de son rôle dans le groupe, en se comportant par exemple en maître distribuant des tâches ou en esclave traitant ces calculs. 0 1 2 3 CPU1 CPU2 Nœud 1 CPU1 CPU2 Nœud 2 CPU1 CPU2 Nœud 3 MPI_COMM_WORLD Rang de processus Machines physiques Figure 2.4 – Exemple d’association entre processus MPI et matériel physique MPI propose deux catégories d’opérations de communications : — Les opérations point-à-point : ces communications mettent en jeu un unique émetteur et destinataire dans le groupe de processus. — Les opérations de groupe, également qualifiées de collectives ou de multicast, impliquent la participation d’une partie ou de tous les processus MPI pour réaliser un même traitement. Un exemple de tel traitement commun est la diffusion d’une donnée en début de calcul, ou la mise en commun de résultats partiels à la fin de l’exécution MPI. La plupart de ces opérations de communication possèdent des variantes synchrones et asynchrones, de manière à faciliter la gestion du déroulement de l’exécution ou la poursuite de traitements en tâche de fond dans l’attente de communications. La seconde version de MPI sortie en 1997 apporte la possibilité d’intégrer ou de créer dynamiquement des processus en cours d’exécution MPI. Elle permet également la gestion en parallèle de flux d’entrée/sortie vers des fichiers à l’aide des fonctions MPI-IO. Les implémentations libres les plus connues du standard MPI sont MPICH 2 et OpenMPI 3 . A côté de ces implémentations généralistes, de nombreux constructeurs proposent des alternatives optimisées pour leurs solutions logicielles et matérielles telles que IntelMPI pour les processeurs Intel. Si le standard MPI officiel est dédié aux langages C et C++, des solutions équivalentes pour Java telles que MPJ Express [SMH+10] ou JACE [BDM04] existent également. 2. http ://www.mcs.anl.gov/project/mpich-high-performance-portable-implementation-mpi 3. http ://www.open-mpi.org/CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 33 2.4 Parallélisation hybride 2.4.1 Modèle d’exécution La récente popularisation des processeurs multi-coeurs et l’apparition de nouvelles solutions d’exécution comme les cartes graphiques ont favorisé l’apparition de parallélisations dites hybrides, mettant à contribution dans un même programme plusieurs modèles de programmation distincts comme OpenMP, MPI ou le GPGPU 4 . L’utilisation judicieuse de ces différentes solutions permet d’exploiter l’ensemble des ressources présentes sur une même machine mais impose toutefois un certain nombre de précautions pour éviter tout conflit entre les modèles d’exécution. L’utilisation simultanée de MPI et d’OpenMP (Figure 2.5) requiert en particulier une certaine vigilance pour éviter tout problème de cohérence de l’état des processus ou des données. processus 0 thread 1 thread 2 thread 3 ... OpenMP processus 1 thread 1 thread 2 thread 3 ... OpenMP processus 2 thread 1 thread 2 thread 3 ... OpenMP processus 3 thread 1 thread 2 thread 3 ... OpenMP Découpage MPI Figure 2.5 – Parallélisation associant OpenMP et MPI Certains modèles, comme OpenACC, visent encore une fois à faciliter l’utilisation de ce type de distribution en regroupant les deux approches de parallélisation au sein d’un même formalisme, inspiré de OpenMP. 2.4.2 OpenACC, un modèle de programmation OpenACC [WSTaM12] est un modèle de programmation soutenu par les sociétés Gray, CAPS, PGI et NVIDIA permettant de tirer parti à la fois d’architectures processeurs traditionnelles et de 4. General-Purpose Computing on Graphics Processing Units.CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 34 cartes graphiques (Figure 2.6). Il se différencie d’OpenMP par le support des cartes graphiques comme architecture d’exécution. Son utilisation, à base de directives de pré-processeur, est par ailleurs très similaire, de manière à faciliter son adoption en remplacement de la solution précé- dente pour des architectures CPU ou hybrides. // Code séquentiel #pragma acc parallel loop for (int i = 0; i < n; i++) { // Section parallèle } // Code séquentiel Processeur multi-coeurs Carte graphique NVIDIA Figure 2.6 – Exemple d’utilisation du processeur et de la carte graphique avec OpenACC Le support d’OpenACC est pour l’instant limité à quelques compilateurs commerciaux fournis par les société participantes au standard, dont le compilateur PGI. Il est néanmoins disponible sous forme de branche expérimentale depuis septembre 2013 dans le compilateur libre GCC. Un implémentation de recherche nommée accULL 5 est également en phase de développement. 2.5 Une nouvelle architecture d’exécution : le GPU Après ce panorama des différents types de parallélisation connus, nous allons maintenant pré- senter une architecture d’exécution spécifique, le GPU. Cette architecture reprend à la fois des concepts de parallélisation en mémoire partagée et en mémoire distribuée à l’intérieur d’un même modèle de programmation. Elle nécessite toutefois une bonne connaissance des contraintes matérielles de la carte pour tirer parti efficacement des ressources fournies, particulièrement sur les architectures les plus anciennes. Pour cela, nous commençons par présenter l’origine et l’architecture matérielle des GPU. Nous étudions ensuite le modèle de programmation associé à cette architecture, avant d’évoquer les contraintes posées par ce modèle d’exécution. Nous présentons ensuite des bibliothèques permettant d’utiliser cette architecture dans des programmes existants sans connaissance directe de ce modèle de programmation. Enfin, nous replaçons l’exécution GPU dans le contexte d’une évolution plus large de la parallélisation vers des architectures matérielles dites many-cores, proposant de nombreux coeurs d’exécution. 5. http ://accull.wordpress.com/CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 35 2.5.1 Genèse des GPU Les cartes graphiques ou GPU 6 ont été à l’origine conçues pour décharger le CPU des calculs coûteux liés à l’introduction de rendus graphiques dans les programmes. Ces calculs, qu’il s’agisse de compositions de texture ou de calculs dans l’espace, se caractérisent en effet par l’application vectorielle d’une même opération à d’importants volumes de données. En proposant plusieurs dizaines ou centaines de coeurs d’exécution, le GPU permet d’appliquer ces traitements en parallèle et ainsi de réduire le temps total nécessaire pour effectuer ces opérations. Cette spécialisation permet également de réduire la complexité de chaque coeur et ainsi d’en augmenter la densité sur une surface donnée. Au départ, les premières cartes graphiques ne déchargeaient le processeur que de certains traitements graphiques. L’augmentation de la résolution d’une part, et des attentes en qualité de rendu graphique d’autre part, ont rapidement amené la délégation de plus en plus d’opérations à ces cartes, jusqu’à l’apparition des premiers GPU programmables, c’est à dire capables d’exé- cuter des portions de programme. Ces possibilités de programmation, initialement très limitées, n’ont été accessibles dans un premier temps que par le biais de bibliothèques de rendu graphique comme OpenGL et DirectX. Elles ont été pour la première fois pleinement accessibles au développeur en 2008, avec la GeForce 8, par le biais du modèle de programmation CUDA. Le modèle OpenCL [Khr08] apparaît également la même année et permet l’utilisation des matériels graphiques d’autres fabriquants, notamment Intel et AMD, ainsi que l’exécution sur processeur traditionnel par le biais de OpenMP. Un autre modèle de programmation GPU, DirectCompute [Joh12], a depuis été proposé par Microsoft dans sa bibliothèque DirectX pour les systèmes d’exploitation Windows. 2.5.2 Architecture matérielle Une carte graphique est constituée d’un très grand nombre de coeurs graphiques organisés en multi-processeurs. Chacun de ces coeurs dispose d’un accès à une vaste hiérarchie mémoire. Une partie de cette mémoire lui est propre, et une autre partie est partagée avec les autres coeurs du multi-processeur ou de la carte. L’apparition de la programmation GPGPU 7 a eu un impact sur l’architecture matérielle des cartes graphiques, où il est possible de déceler deux générations principales (Figure 2.8) : — Les cartes graphiques antérieures à l’architecture Fermi, basées sur une hiérarchie mémoire complexe sans caches implicites. Dans ce cas, la gestion des latences d’accès aux données pour éviter un ralentissement de l’exécution est du ressort du programme. — Les cartes graphiques plus récentes qui introduisent un mécanisme de caches mémoire L1 et L2 analogues à ceux présents sur CPU. Ces caches permettent le stockage dans une mémoire rapide, de manière transparente, des données les plus fréquemment utilisées par les unités de calcul. Il est possible d’identifier trois niveaux de mémoires principaux dans cette hiérarchie : — Les registres : chaque multi-processeur dispose de plusieurs centaines de registres. Ces registres sont partagés de manière statique entre les coeurs graphiques en début de programme. Ils sont d’accès très rapide et permettent le stockage des données intermédiaires entre les instructions consécutives du même programme. 6. (Graphical Processing Unit) 7. General-Purpose Processing on Graphics Processing UnitsCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 36 Coeur Mémoire globale Multi-processeur Registres Mémoire partagée Cache mémoire constante Cache mémoire texture Figure 2.7 – Architecture matérielle pre-Fermi Coeur Mémoire globale Multi-processeur Cache L2 Registres Cache L1 Mémoire partagée Cache mémoire constante Cache mémoire texture Figure 2.8 – Architecture matérielle Fermi, Kepler — La mémoire partagée : cette mémoire est partagée entre tous les coeurs situés dans un même multi-processeur. Sa latence d’accès reste faible et permet de partager des données temporaires ou souvent réutilisées. — La mémoire globale : cette mémoire est accessible à l’ensemble des coeurs graphiques de la carte. Elle permet le stockage de la plupart des données d’entrée ou de sortie du programme, avec ses quelques gigaoctets de capacité. Elle se caractérise toutefois par des temps de latence d’accès beaucoup plus importants, de plusieurs centaines de cycles d’horloge. Cette mémoire est la seule accessible depuis le CPU pour l’échange de données. Avant l’apparition du cache L1 et L2 sur les architectures GPU les plus récentes, différentes techniques ont été imaginées pour dissimuler les latences d’accès à cette mémoire globale. L’une d’elles [RRB+08] est l’utilisation de zones de mémoire globale d’utilisation spécifiques, pour faciliter l’optimisation de ces scénarios par le matériel. — Mémoire locale : cette zone, accessible en lecture/écriture, permet de stocker d’éventuelles informations ne tenant pas en registre. — Mémoire constante : cette zone permet de stocker des données accessibles en lecture seule par l’ensemble des coeurs graphiques. La plupart des matériels utilisent alors une mémoire cache spécialisée pour réduire la latence d’accès aux données constantes les plus utilisées. — Mémoire texture : cette zone permet le stockage de textures graphiques. Comme pour la mémoire constante, elle est associée sur de nombreux matériels à une mémoire cache spécialisée au niveau de chaque multi-processeur. Chacune de ces textures n’est accessible qu’en lecture ou en écriture seule au niveau d’un même programme. Ce système peut toujours être utilisé sur les cartes récentes en complément d’un cache L1 propre à chaque multi-processeur et d’un cache L2 global à la carte. La gestion du partage des ressources mémoires entre ces deux mécanismes est également possible sur les cartes NVIDIA. Les copies de données entre CPU et GPU sont réalisées par le biais de l’interface PCI-Express de la carte graphique. Les restrictions d’accès en lecture ou écriture à ces différentes mémoires ne s’appliquent qu’aux programmes en exécution sur le GPU : le CPU dispose toujours d’un accès complet à l’ensemble de la mémoire globale.CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 37 2.5.3 Modèle de programmation Le modèle de programmation GPU se caractérise par l’utilisation la plus large possible du découpage en threads en remplacement des boucles présentes dans l’algorithme. Cette démarche de parallélisation fine se justifie par les coûts d’exécution différents rencontrés sur CPU et sur GPU. Un processeur traditionnel est conçu pour traiter un nombre limité de processus s’exécutant sur une longue durée à l’échelle du matériel : secondes, minutes, heures. La création et la destruction de processus est ainsi un traitement coûteux, car elle requiert l’allocation ou la libération d’un environnement mémoire et système complet. Les threads, ou processus légers, permettent de réaliser des traitements ponctuels en évitant cette allocation d’environnement, comme évoqué dans notre section sur la parallélisation en mémoire partagée. Au contraire, un GPU est conçu pour permettre l’application d’un petit nombre d’opérations sur de grands volumes de données. Ce type d’exécution se caractérise par des tâches brèves et remplacées très fréquemment de manière à assurer le remplissage des centaines de coeurs proposés par l’architecture. Les latences mémoires, importantes en regard du temps de traitement de chaque tâche, encouragent également la ré-allocation des ressources matérielles de calculs bloqués en attente d’opérations mémoire à d’autres traitements. Dans ces circonstances, l’utilisation de nombres très importants de threads permet à l’ordonnanceur GPU de disposer d’un grand nombre de candidats pour optimiser le remplissage des ressources d’exécution fournies par la carte. Ces candidats sont regroupés en warp, ou paquet d’exécution, au moment de leur attribution à un multi-processeur matériel particulier. Pour permettre ce découpage de l’exécution, les modèles de programmation CUDA et OpenCL sont tous deux basés sur trois concepts fondamentaux illustrés par la figure 2.9 : — le kernel représente la suite d’instructions à exécuter sur le GPU. Il se présente sous la forme d’une fonction admettant un ensemble de paramètres en entrée et en sortie. Il est possible au kernel d’utiliser les primitives fournies par la plate-forme de programmation elle-même, mais il ne peut faire appel à aucune bibliothèque ou fonctionnalité offerte par le CPU. — le work-item (OpenCL) / thread (CUDA) (ou tâche) représente le support d’exécution d’une instance de kernel. Chaque thread a accès à son propre espace mémoire, comme évoqué dans la présentation de l’architecture matérielle GPU, mais également aux données partagées de la carte. — le work-group (OpenCL) / bloc (CUDA) (ou groupe de tâches) représente une grille de une à trois dimensions de tâches d’exécution GPU. Ce bloc permet de gérer le partage de ressources entre les traitements manipulant des données proches en mémoire et le découpage des données du traitement. Dans le cas d’une matrice, par exemple, il est possible d’associer un bloc de tâches à chaque ligne de la matrice, de manière à permettre l’échange de données et des synchronisations locales entre ces tâches. La nature déportée de la carte graphique impose une préparation de l’exécution et des données, puis une récupération des résultats et des ressources après l’exécution sur GPU. La réalisation d’un traitement est ainsi découpée en cinq phases (Figure 2.10) : — Chargement du programme. Les traitements à exécuter sont envoyés sur la carte graphique sous forme de binaires pré-compilés (CUDA) ou de code source (OpenCL, CUDA) devant auparavant passer par une compilation gérée par la plate-forme de programmation. — Allocations mémoires des paramètres et copie des données d’entrée. Les paramètres duCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 38 ND-Range (ensemble de work-group) Périphérique Work-group Multi-processeur Work-item Coeur graphique Figure 2.9 – Correspondances entre les structures de découpage OpenCL et l’architecture maté- rielle GPU programme sont alloués par le processeur central dans la mémoire globale de la carte, et les données d’entrée recopiées ou rendues accessibles sous forme de partage mémoire au GPU. — Lancement de l’exécution d’un ou de plusieurs kernels. Une fois les paramètres préparés sur la carte, le processeur soumet un ou plusieurs kernels d’exécution à l’ordonnanceur GPU. Ces soumissions peuvent être effectuées de manière synchrone, auquel cas le programme CPU demeurera bloqué jusqu’à la fin de l’exécution, ou asynchrone. Des dépendances peuvent être définies entre kernels d’exécution, de manière à garantir leur ordre de passage sur GPU. — Exécution non interruptible sur la carte graphique Les traitements sont lancés par la plate-forme GPU dès que des ressources sont disponibles, à la discrétion de l’ordonnanceur. Il n’est pas possible, une fois un traitement lancé, de l’interrompre depuis le CPU, ce qui peut causer un blocage du programme de durée importante en cas de lancement synchrone. Plusieurs kernels sont susceptibles d’être lancés simultanément par l’ordonnanceur. — Récupération des résultats et libération des ressources. Une fois l’exécution terminée, les données résultats stockées dans la mémoire globale de la carte peuvent être récupérées par le programme CPU, en vue de traitements supplémentaires, d’affichage, ou de stockage des résultats. La libération des ressources n’est pas automatique, et doit également être effectuée explicitement pour ne pas bloquer ou pénaliser de futures exécutions. CUDA et OpenCL permettent l’utilisation de plusieurs cartes graphiques par un même programme. Dans ce cas, l’utilisation de soumissions asynchrones permet la gestion simultanée de plusieurs files d’exécution. L’utilisation efficace des ressources matérielles GPU requiert toutefois une connaissance de ce mécanisme de soumission et des optimisations mémoires effectuées à l’exécution. Si les interfaces de programmation CUDA et OpenCL ne sont directement accessibles que depuis des programmes C ou C++, l’utilisation du calcul sur GPU n’est pas limitée à ces deux langages de programmation, grâce aux couches de liaisons avec des bibliothèques natives proposéesCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 39 Chargement des données et des programmes Chargement des données et des programmes Copie des données d'entrée et allocation des espaces résultats Copie des données d'entrée et allocation des espaces résultats Lancement de l'exécution d'un ou plusieurs kernels Lancement de l'exécution d'un ou plusieurs kernels Exécution non interruptible sur le périphérique Exécution non interruptible sur le périphérique Récupération des résultats Récupération des résultats Figure 2.10 – Démarche d’exécution GPGPU par de nombreux langages de plus haut niveau. Il est ainsi possible d’exploiter CUDA ou OpenCL en Java à l’aide des bibliothèques JCUDA 8 ou JOCL 9 pour ne citer que quelques solutions disponibles. 2.5.4 Synchronisation des opérations Après avoir évoqué les deux modèles de programmation, nous allons maintenant présenter quelques aspects plus spécifiques d’OpenCL en termes de synchronisation des opérations. Une première caractéristique d’OpenCL est le mode de lancement des opérations à réaliser de manière asynchrone. Après l’obtention d’un contexte d’exécution, une des premières opérations d’un programme OpenCL est de créer une ou plusieurs files d’attente dans lesquelles soumettre les différentes tâches à exécuter. La soumission de chaque tâche permet d’obtenir en retour un objet événement (cl_event), qui peut être utilisé pour construire un arbre de dépendances (DAG) entre les tâches à exécuter. Ces dépendances peuvent être utilisées pour s’assurer que la copie des données, les traitements et la copie des résultats auront lieu en séquence, ou encore pour chaîner plusieurs opérations, sans intervention intermédiaire du programme, comme illustré par la Figure 2.11. OpenCL fournit également des opérations de synchronisation permettant d’attendre de manière bloquante la fin du traitement de la file d’attente ou d’une tâche particulière, pour synchroniser le 8. http ://www.jcuda.org 9. http ://www.jocl.orgCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 40 op1 op2 op3 op4 e1 = enqueue(op1) e2 = enqueue(op2, e1) e3 = enqueue(op3, e2) e4 = enqueue(op4, e3) waitForEvent(e4) e1 e2 e3 Instructions OpenCL Graphe d'exécution OpenCL Synchronisation bloquante e4 Figure 2.11 – Utilisation des dépendances pour gérer la synchronisation en OpenCL flux du reste du programme. Si les options de suivi des performances sont activées, ces événements stockent également les informations de passage associées à chaque tâche : temps d’attente, temps d’exécution sur le périphérique. Ce premier type de dépendance est extérieur au kernel OpenCL, et ne permet donc pas de contrôler l’accès aux données partagées par chaque thread d’exécution. Pour cela, un second type de synchronisation est utilisé, à base de barrières d’exécution. Celles-ci permettent au développeur de s’assurer que tous les threads concernés atteindront un point de l’algorithme au même moment. Elles sont indispensables dans de nombreuses parallélisations de traitements comme la multiplication de matrices, où chaque thread sera responsable du traitement d’une ligne avant de récupérer les informations de ses voisins pour la suite de l’opération. Dans ce cas, une barrière d’exécution permet de s’assurer que la première opération est bien terminée, de manière à éviter de fausser le résultat. Une barrière d’exécution OpenCL peut être appliquée à l’ensemble (barrière globale) ou un groupe particulier de threads (barrière locale). Dans ce dernier cas, elle peut par exemple être utilisée pour protéger la création et l’utilisation d’un cache de données locales. Un intérêt de ces files d’attente OpenCL est de permettre une gestion explicite des ressources pour chaque périphérique d’exécution : en créant plusieurs contextes d’exécution et files d’attente, il est ainsi possible de gérer directement le flux d’exécution de plusieurs matériels. En contrepartie, cette gestion est exclusivement du ressort du développeur : OpenCL ne fournit à l’heure actuelleCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 41 pas de mécanisme qui permette de répartir la charge de calcul de manière transparente sur plusieurs matériels distincts. 2.5.5 Regroupement des accès mémoire La mémoire embarquée sur carte graphique se caractérise, comme nous l’avons vu dans la pré- sentation de l’architecture matérielle, par une bande passante et des latences importantes. Si les mécanismes de recouvrement d’exécution évoqués dans la présentation du modèle de programmation permettent d’amortir l’impact de ces latences, ils n’améliorent pas l’utilisation de cette bande passante. Pour cela, un autre mécanisme intervient sur GPU au niveau de chaque multi-processeur, le regroupement des accès mémoire (memory collapsing). L’objectif de ce mécanisme est de grouper les lectures de données proches en mémoire en requêtes de lecture de taille plus importante, tel qu’illustré par la Figure 2.12. Ces requêtes consolidées mettent à meilleure contribution la bande passante offerte par la mémoire et permettent également de regrouper les latences de chaque accès individuel. Lecture 128 bits Lecture 128 bits Mémoire globale Warp d'exécution Figure 2.12 – Mécanisme de regroupement des accès mémoire sur GPU La détection de ces accès contigus est dépendante, sur les architectures matérielles les plus anciennes, d’accès mémoires très réguliers (tâche n accédant à l’adresse n + 1 en mémoire). Les matériels plus récents permettent le regroupement d’accès moins ordonnés, ainsi que leur consolidation en requêtes de taille plus importante, pour maximiser l’utilisation de ce mécanisme sur des programmes plus irréguliers. Il est important de prendre en compte ce mécanisme lors de la conception d’un programme sur GPU, particulièrement sur des architectures dénuées de cache L1 et L2. Une mauvaise exploitation de ces regroupements peut en effet multiplier le nombre de lectures mémoires nécessaires pour traiter les mêmes instructions et brider l’exploitation des coeurs d’exécution offerts par la carte graphique, indépendamment de tout gain lié à la parallélisation. 2.5.6 Bibliothèques d’exécution sur GPU L’utilisation des ressources GPU ne requiert pas nécessairement une connaissance des concepts ou des modèles de programmation GPU : de nombreuses bibliothèques de traitement vectoriel ouCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 42 matriciel traditionnellement utilisées sur CPU sont maintenant disponibles pour cette architecture. Ces bibliothèques fournissent souvent une interface de programmation similaire à leur équivalent CPU, de manière à faciliter leur utilisation dans un programme parallélisé existant. Voici quelques exemples de bibliothèques de ce type basées sur CUDA : — cuBLAS est une implémentation du standard d’algèbre linéaire BLAS. Certaines opérations deviennent ainsi 6x à 17x plus rapides que leur équivalent CPU. Cette bibliothèque fait partie des bibliothèques optimisées GPU fournies par la société NVIDIA 10 . — cuFFT, pour CUDA Fast Fourier Transform library, permet le calcul de transformées rapides de Fourrier sur GPU. Cette bibliothèque est également fournie par la société NVIDIA. — CUSP (C++ Templated Sparse Matrix Library) est une bibliothèque d’algèbre linéaire à faible densité. Elle permet également la manipulation et le traitement de graphes. Son utilisation repose sur le mécanisme des templates C++ pour permettre la génération de code GPU parallélisé en fonction des traitements demandés par l’utilisateur. — cuSparse est une bibliothèque de traitements matriciels fournie par NVIDIA. Les formats de représentations de matrice creuses les plus courants (COO, CSR, CSC, ELL/HYB) et leur manipulation sont gérés de manière native en CUDA. Si de nombreuses bibliothèques utilisent le modèle de programmation CUDA, des alternatives basées sur OpenCL existent également : — clMath (anciennement AMD APPML) [amd] recouvre à la fois les opérations proposées par BLAS et le traitement des transformées de Fourrier. L’utilisation de cette bibliothèque est souvent combinée à cette de clMAGMA [CDD+13], qui fournit de nombreux solveurs linéaires et solutions de factorisation, réduction ou transformation de matrices. — clpp [clp] est un autre projet fournissant des primitives de traitement en parallèle de structures de données. Ces traitements incluent notamment la recherche par préfixe (“scan”), le tri, ou la réduction de valeurs, de manière à faciliter la parallélisation de traitements plus complexes sur des structures telles que des graphes ou des arbres. — VexCL [Dem] facilite également le traitement de matrices et de vecteurs en OpenCL. Cette bibliothèque est plus particulièrement orientée vers la réduction de la quantité de code né- cessaire à la préparation et à la gestion des traitements sur GPU, au moyen de l’architecture objet C++. Certaines bibliothèques supportent plusieurs plates-formes d’exécution comme OpenCL, CUDA ou OpenMP avec une même interface de programmation. C’est notamment le cas d’OpenCV [Bra00], pour la manipulation d’images en temps réel, ou ViennaCL [RWR10], pour la résolution de problèmes d’algèbre linéaire. Des comparaisons de l’utilisation et des performances de VexCL et ViennaCL sont disponibles dans la littérature [DARG12]. Une bibliothèque logicielle particulièrement intéressante est SnuCL [KSL+12]. Cette solution propose des opérations parallèles similaires à MPI pouvant être utilisées de manière transparente sur des clusters de CPU ou de GPU. Ces opérations permettent au concepteur de totalement se détacher de la plate-forme d’exécution, mais reste toutefois réservée pour l’instant aux langages C et C++. 10. https://developer.nvidia.com/gpu-accelerated-librariesCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 43 2.5.7 Optimisation de la soumission de tâches sur GPU La possibilité de soumettre des tâches de manière asynchrone et de définir des dépendances entre ces tâches rapproche l’utilisation efficace du GPU des problématiques d’ordonnancement présentes dans la littérature. Dans [TPO10], les auteurs analysent ainsi l’impact de différentes stratégies d’ordonnancement sur le temps nécessaire pour traiter un lot de tâches irrégulières. Pour cela, les traitements à réaliser sont groupées en kernels de manière dynamique, plutôt que directement soumises sur la plateforme, pour optimiser l’occupation des ressources. Plutôt que d’intervenir sur le regroupement des traitements, d’autres études reposent sur l’utilisation de l’historique d’exécution pour optimiser le passage des tâches sur GPU. Les auteurs de [ATN09] proposent ainsi un ordonnancement basé sur la mémorisation du temps d’exécution des tâches sur plusieurs architectures distinctes. De cette manière, les prochaines tâches peuvent alors être soumises sur la plate-forme permettant la terminaison la plus rapide. Les résultats obtenus sont très intéressants, mais très dépendants de cette prévisibilité pour assurer un bon remplissage des ressources. L’utilisation du processeur en parallèle du GPU permet de gagner 30% en performance par rapport à l’utilisation du seul GPU dans un autre article [GBHS11]. L’utilisation de l’historique dans cet article permet également d’assurer un remplissage à 80% des ressources, malgré la forte disparité en performance entre matériel CPU et GPU. Les auteurs de [MGR+11] étudient également l’impact de la décomposition des traitements en un ou plusieurs kernels sur l’ordonnancement OpenCL à l’aide de la plate-forme SURF [BETVG08] adaptée à instrumentalisation de traitements d’images. Les mesures effectuées illustrent l’impact du nombre, de la durée et de la dimension de chaque kernel sur les performances obtenues. L’interface de soumissions asynchrone proposée par OpenCL est utilisée pour gérer fi- nement les dépendances entre chaque kernel et obtenir les informations de temps précises de début et fin des traitements. La mesure du décalage entre temps de soumission et temps de lancement du kernel permet de déterminer le moment le plus pertinent pour lancer les prochaines requêtes, de manière à ne pas pénaliser l’exécution. Un défi de l’optimisation du passage de tâches sur GPU est l’absence de contrôle sur l’ordonnanceur lui-même. Si certains articles [NSL+11] suggèrent des améliorations possibles en termes d’exécution des warps pour une meilleure occupation des ressources des coeurs d’exécution, il est difficile de savoir si ces améliorations sont ou seront reprises dans les implémentations CUDA ou OpenCL existantes. La mesure des performances est donc un outil indispensable pour guider l’optimisation de l’exécution sur GPU, même en présence d’outils proposés par des sociétés comme NVIDIA permettant de déterminer à priori les ressources utilisées par un programme GPU donné. 2.5.8 Bonnes pratiques de programmation sur GPU Au vu de ces éléments sur l’architecture d’exécution GPU, de nombreux ensembles de recommandations existent sur la bonne manière de programmer sur GPU pour obtenir un programme efficace [cud09, Cor12, AG13]. Ces recommandations s’articulent autour de quatre objectifs principaux :CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 44 Minimisation des coûts de transferts Cette minimisation peut être effectuée à deux niveaux, soit en réduisant le nombre de transferts effectués, soit en regroupant ces transferts. La réduction du nombre de transferts n’est pas toujours possible, chaque donnée utilisée sur le périphérique devant être explicitement copiée avant son utilisation. Elle peut toutefois être obtenue en réduisant la fréquence de synchronisation de la valeur de cette donnée entre CPU et GPU, ou en augmentant le temps passé sur le périphérique entre chaque retour sur le CPU. Le regroupement est un autre moyen de minimiser le temps total des transferts, en utilisant la bande passante importante fournie par l’interface PCI-Express pour mettre en commun plusieurs copies de données. Cette mise en commun est facilitée par les mécanismes de copies asynchrone proposés par les modèles de programmation GPU. Optimisation des accès mémoires L’optimisation des accès mémoires correspond à deux problématiques distinctes sur GPU : la minimisation des latences d’accès et la maximisation de l’utilisation de la bande passante mémoire. La minimisation des latences d’accès est possible au moyen des mémoires spécifiques (constantes, globales, locales) proposées par l’architecture matérielle. L’utilisation de la mémoire partagée permet également d’éviter de récupérer à plusieurs reprises des données fréquemment utilisées par chaque traitement. La maximisation de l’utilisation de la bande passante mémoire est dépendante du mécanisme de regroupement des accès mémoires de l’ordonnanceur et du l’ordre et de la proximité des données accédées en mémoire. Pour faciliter ce regroupement, il est recommandé d’utiliser les structures de données les plus régulières possibles sur GPU. Maximisation de l’occupation Un dernier point essentiel pour l’obtention de bonnes performances sur GPU est d’utiliser le plus efficacement possible les nombreux coeurs d’exécution offerts par l’architecture. Cette occupation dépend de trois paramètres : Les ressources consommées par chaque thread. Chaque multi-processeur ne dispose que d’un nombre limité de registres, partagés de manière statique au lancement du programme. L’utilisation d’un trop grand nombre de registres par threads est susceptible d’empêcher l’utilisation de tous les coeurs d’exécution disponibles. Le nombre de conditions présentes dans l’algorithme. Du fait des limitations en termes de branchements de l’architecture, l’utilisation de conditions impose l’évaluation des deux branches par le matériel, pour ne conserver ensuite que les résultats de la branche effectivement retenue. L’utilisation de nombreuses branches est alors susceptible de cause une réduction important de l’occupation des coeurs d’exécution. Le nombre de threads total lancé. Comme évoqué précédemment, l’ordonnanceur d’exécution GPU est capable de dissimuler des latences d’exécution en attribuant automatiquement plusieursCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 45 threads à un même coeur d’exécution. Ce mécanisme de recouvrement dépend de la présence de nombreux threads à exécuter pour être pleinement efficace. 2.6 Vers une convergence many-core Tandis que l’exécution sur GPU devient toujours plus générique, avec l’apparition de mécanismes de cache ou l’implémentation de toujours plus d’opérations au niveau de la plate-forme, d’autres architectures dotées de grands nombres de coeurs (dites architectures many-core) se dé- mocratisent également. Les circuits programmables ou FPGA sont ainsi de plus en plus étudiés comme support d’exé- cutions parallèles économes en énergie et peu coûteux [WLL+ , BRT11]. La puissance offerte par les circuits les plus récents permet notamment d’envisager l’utilisation de compilateurs et de modèles de programmation existants plutôt que d’une expertise individuelle des instructions pour réduire le temps et les coûts de développement. La société Altera propose ainsi depuis 2011 une implémentation d’OpenCL sur ses matériels FPGA 11 . Intel propose également depuis 2013 la première architecture many-core basée sur des CPU traditionnels, le Xeon Phi. Cette nouvelle plate-forme peut être utilisée en tant qu’accélérateur séparé, par le biais des modèles de programmation OpenCL ou OpenACC, ou directement comme un processeur multi-coeurs traditionnel à l’aide du modèle de programmation OpenMP. La possibilité d’utiliser OpenCL sur ces trois plates-formes illustre la tendance actuelle à la convergence entre ces solutions many-core, de manière à permettre à un même programme de s’exécuter sur une grande variété de plates-formes matérielles. Cette convergence est également illustrée par celle des supports physiques, toutes ces nouvelles plates-formes étant basées sur l’utilisation de cartes connectées en PCI-Express à un ordinateur existant (Figure 2.6). Figure 2.13 – Carte graphique NVIDIA Tesla Figure 2.14 – Carte Intel Xeon Phi Figure 2.15 – Accélérateur FPGA Altera 2.7 Synthèse Les cartes graphiques sont un type d’architecture matérielle permettant une exécution en mé- moire partagée. Leur utilisation s’intègre dans le cadre d’un mouvement récent des problématiques de parallélisation vers les architectures many-core, proposant un très grand nombre de coeurs d’exécution sur un même matériel. Ce parallélisme matériel peut être exploité indirectement, par 11. http ://www.altera.com/products/software/opencl/opencl-index.htmlCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 46 le biais de bibliothèques de parallélisation proposant des opérations de haut niveau, ou via des plates-formes telles que OpenCL ou CUDA. Dans ce dernier cas se posent toutefois de nombreuses considérations d’implémentations pour obtenir un programme performant, exploitant les ressources offertes par le matériel de manière efficace. L’utilisation de cette architecture d’exécution est déjà possible dans le cadre de nombreuses bibliothèques d’algèbre linéaire. Si ce type de problème n’est pas forcément directement utilisé dans les systèmes multi-agents, cette possibilité de proposer des traitements parallélisés en fait une piste intéressante pour l’accélération de programmes existants. Les cartes graphiques se distinguent également par leur disponibilité sur de nombreuses machines personnelles, par opposition à des solutions matérielles spécialisées comme les grilles ou les clusters, ce qui en fait une piste intéressante pour la parallélisation de systèmes multi-agents.3 Parallelisation de syst ´ emes multi ` -agents Comme évoqué dans notre présentation des systèmes multi-agents, l’utilisation de simulations de tailles importantes peut rapidement engendrer des besoins en temps d’exécution et en mémoire importants. L’objectif du recours à la parallélisation est de résoudre ces problèmes en permettant l’accès à davantage de ressources mémoires ou d’exécution. Comme nous venons de le voir, la démarche de parallélisation d’un programme implique une répartition de son exécution et parfois de ses données. Ce découpage est facilité dans le cas des modèles multi-agents par la décomposition du système en agents indépendants dotés de comportements et de données propres. La parallélisation d’une simulation multi-agents est un processus complexe en temps et en ressources, du fait de l’exécution naturellement synchrone de nombreux modèles sur la base de pas de temps ou d’événements. Ce synchronisme impose en effet de nombreux échanges de données en cours de simulation. La délégation d’une partie de la simulation à chaque hôte ou l’exécution en mémoire partagée du système sont donc généralement les parallélisations les plus aisées à réaliser [Ble09] car elles minimisent le nombre d’échanges nécessaires à la synchronisation. L’environnement représente alors la seule structure globale devant être partagée entre l’ensemble de l’exécution. Dans les sections suivantes, nous présentons ces différentes approches de parallélisation de systèmes multi-agents pour souligner les problématiques qui devront être abordées dans notre proposition. Pour chacune, nous évoquons son principe ainsi que ses indications ou contre-indications. Nous voyons ensuite leur utilisation dans le cadre de plates-formes multi-agents parallèles qui dé- chargent le concepteur d’une partie importante de la gestion de cette parallélisation. Enfin, nous présentons des applications de ces techniques de parallélisation au GPU dans le cadre de divers types de systèmes multi-agents, avant de présenter FLAME-GPU, une première plate-forme multiagents générique pour l’exécution sur GPU. 3.1 Stratégies de parallélisation Il est possible de décomposer l’exécution d’un système multi-agents en trois grandes dynamiques [MFD09], illustrées sur la Figure 3.1 : — Celle de l’environnement, qui définit l’évolution de l’espace simulé. — Celle des comportements des différents agents présents dans le système. — Celle de l’ordonnanceur, qui contrôle l’exécution et la synchronisation des deux dynamiques précédentes. C’est cet ordonnanceur qui détermine si l’exécution de la simulation est guidée par des pas de temps (time-driven) ou par des événements (event-driven).CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 48 La parallélisation du modèle multi-agents implique une intervention sur une ou plusieurs de ces dynamiques en conservant la cohérence du modèle découlant de leur interaction. Comportements Environnement Ordonnanceur Contrôle Contrôle Moyens d'action et de perception Figure 3.1 – Rôle de l’ordonnanceur multi-agents 3.1.1 Parallélisation de l’ordonnanceur Une première manière de paralléliser le déroulement d’une simulation multi-agents est d’en lancer plusieurs instances séquentielles simultanément [BCC+11, CDFD10]. Cette parallélisation de lancement très simple, dite par lots, permet d’exploiter aisément plusieurs processeurs ou machines sans apporter aucune modification à la simulation. Elle est particulièrement intéressante pour tester de vastes ensembles de scénarios, en permettant d’obtenir une quantité plus importante de résultats dans la même période de temps. Il est cependant important de noter que cette parallélisation par lots ne réduit ni le temps, ni la quantité de mémoire nécessaires à l’exécution de chaque simulation. Elle ne représente donc pas une solution dans le cas où les ressources mémoires locales empêchent le lancement d’une simulation. Elle ne permet pas non plus d’obtenir les premiers résultats plus rapidement qu’une implémentation séquentielle, et en augmente simplement la quantité. Une approche de parallélisation de l’ordonnancement moins naïve consiste à répartir l’exécution de l’environnement et des agents entre plusieurs ordonnanceurs. Dans ce cas, un ordonnanceur est lancé pour chaque ressource d’exécution et collabore avec les autres ordonnanceurs pour traiter la simulation. Cette approche requiert toutefois la possibilité de pouvoir découper le système multi-agents en ensembles d’exécution distincts, de manière à minimiser les échanges de données et les synchronisations entre ordonnanceurs. Elle est proposée par plusieurs plates-formes multiagents parallèles, comme nous le verrons plus loin. Certaines simulations multi-agents [BMD+09] sont dites multi-échelles : dans ce cas l’évolution du modèle est gouvernée par plusieurs modèles agents représentant des échelles de simulation ou des aspects distincts d’un même système. Si chacun de ces modèles évolue de manière semiindépendante, une approche de parallélisation intuitive consiste à confier l’exécution des différents aspects de la simulation à plusieurs acteurs, de manière à permettre l’exécution en parallèle de la simulation sans modifier fondamentalement chaque modèle.CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 49 3.1.2 Parallélisation des comportements Une seconde approche de parallélisation consiste à paralléliser l’exécution des comportements des agents du modèle. Cette parallélisation peut être effectuée au niveau du système dans son ensemble, au niveau de l’agent, ou au niveau de chaque comportement. Dans le premier cas, l’ensemble des traitements de même type dans le système sera exécuté simultanément. Pour des raisons d’équité, l’exécution des agents demeure synchronisée, ce qui permet d’assurer que tous les agents se déplacent, respirent, ou consomment de l’énergie en même temps. Ce type de parallélisation, consistant à lancer le même traitement pour un grand nombre d’agents, est bien adapté à une exécution sur GPU. Dans le second cas, la parallélisation permet le traitement simultané de plusieurs types de comportements, de manière à gérer l’évolution de manière asynchrone à l’intérieur d’un pas d’évolution. Il est dans ce cas impossible de garantir que tous les agents progressent à la même vitesse dans leurs traitements : un agent est ainsi susceptible de se déplacer avant qu’un autre ne respire ou inversement. Cette seconde approche est sans doute l’une des plus réaliste pour des modèles où l’équité est introduite par la modélisation, mais elle est en pratique une des plus difficiles à mettre en place et à contrôler. Dans le dernier cas, enfin, l’algorithme d’évolution des agents n’est pas modifié et seul le traitement du comportement lui-même est parallélisé. Cette dernière approche est particulièrement intéressante dans le cas d’agents effectuant des actions coûteuses, à même d’être parallélisées, dans le cadre de leur évolution. Des exemples d’actions candidates à la parallélisation sont la collecte de données dans un périmètre étendu, ou encore le calcul de déplacements complexes mettant en jeu de nombreux paramètres. 3.1.3 Parallélisation de l’environnement Un dernier axe de parallélisation concerne la dynamique de l’environnement. En fonction du système multi-agents décrit, cette dynamique peut être inexistante, si l’environnement est utilisé comme un simple repère spatial comme dans le cas des modèles d’essaims, ou au contraire très complexe comme dans le cas de modèles comme les fourmis. Si le temps de traitement de la mise à jour de l’environnement représente une portion significative du temps d’exécution du modèle, il devient dans ce cas intéressant de paralléliser cette mise à jour. La parallélisation de l’environnement est également souvent requise parce qu’il s’agit de la structure de données dont taille est la plus importante dans le modèle. Dans ce cas, la parallélisation ne vise plus uniquement l’obtention de meilleures performances, mais également la possibilité de simuler des environnements de taille plus importante. Le découpage de l’environnement implique généralement la répartition des agents présents dans le modèle, de manière à pouvoir conserver les portions d’environnements et leurs agents associés sur les mêmes unités d’exécution. Ce type de partitionnement est également proposé par de nombreuses plates-formes agents parallèles. 3.2 Plates-formes multi-agents La parallélisation de simulations multi-agents rencontre de nombreuses difficultés liées à l’adaptation d’un programme en mémoire partagée ou distribuée. Il est ainsi possible de citer la nécessité d’identifier les sections parallèles de l’algorithme et de synchroniser l’accès aux données partagées en mémoire partagée, ou la décomposition explicite des données et de l’algorithme ainsiCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 50 que la prise en compte des échanges et des communications requises par l’exécution en mémoire distribuée. Heureusement, le formalisme multi-agents propose une décomposition du système en agents ou en environnement dont la gestion et les échanges peuvent être traités par des plates-formes multi-agents spécialisées. Cette prise en charge d’une partie de l’exécution permet également à de telles plates-formes de faciliter cette démarche de parallélisation. 3.2.1 Madkit MadKit (Multi-Agent Development Kit) 1 est une plate-forme générique de développement et d’exécution de systèmes multi-agents [GF00a] réalisée en Java. Elle est développée au sein du LIRRM 2 . Le modèle AGR (Agent, Groupe, Rôle) [Gut01] est à la base des modèles et de l’architecture de la plate-forme, dont les différents services sont implémentés par des agents pour un maximum de flexibilité. Le noyau de Madkit se caractérise par sa légèreté et n’assure que les services nécessaires à la mise en place de ces agents : la gestion des groupes et des rôles, un ordonnancement synchrone, et une infrastructure d’échange de messages entre agents locaux. Par défaut MadKit associe un thread à chaque agent autonome présent dans le système. Pour éviter l’utilisation de milliers de threads dans le cas de nombres importants d’agents, il est possible de créer des agents découplés de l’ordonnanceur, gérés et mis à jour par un ou plusieurs agents observateurs associés à des threads d’exécution. Ce modèle multi-thread permet une parallélisation aisée des agents en mémoire partagée. La parallélisation du modèle en mémoire distribuée est rendue possible par la possibilité de lancer plusieurs noyaux MadKit et de surcharger le service d’échange de messages pour permettre à toutes ces simulations de communiquer [GF00b]. Cette surcharge d’un service système est permise par la présence de points d’accroche (hook) permettant de surveiller les messages échangés ou de remplacer un service particulier. Un agent permettant ce fonctionnement nommé Communicator est fourni par défaut avec MadKit. Chaque noyau exécute alors une instance de cette agent Communicator pour gérer l’échange des messages. Un nouveau mécanisme de distribution permettant le dialogue par le biais d’un agent réseau sans connaître l’emplacement des instances distantes, NetComm [RHK06], a depuis également été proposé. Ces mécanismes de communication permettent soit une distribution maître-esclave, où un noyau possède le modèle de référence mis à jour par les agents distants, soit sur une duplication du modèle sur chaque instance. Ces deux approches de distribution sont étudiées plus en détail dans [MBF02]. 3.2.2 JADE La plate-forme JADE [BCG07] est une plate-forme multi-agents développée en Java par le groupe de recherche CSELT (partie de Gruppo Telecom). Elle permet la réalisation de systèmes multi-agents conformes à la norme FIPA [fip]. Les services FIPA sont fournis directement par la plate-forme JADE, ce qui rend le support de la norme transparent pour le concepteur de modèle. L’intégration d’un nouvel agent dans un modèle JADE en cours d’exécution est décomposée 1. http://www.madkit.org 2. Laboratoire d’Informatique, de Robotique et de Microélectronique de MontpellierCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 51 en plusieurs étapes : — L’enregistrement de l’agent auprès de la plate-forme agent. — L’attribution d’un nom et d’une adresse unique à l’agent. — L’utilisation des services de recherche et de communication pour s’interfacer avec les autres agents. Ce découplage des agents de leur emplacement physique rend possible la migration d’agents entre machines en cours d’exécution, au moyen d’un ensemble d’outils prenant en charge le dé- ploiement et le suivi du modèle. La distribution est assurée par l’utilisation des threads et une interface de communication proposée par JADE. Cette interface repose sur le protocole RMI proposé par Java pour communiquer entre instances distantes [VQC02]. JADE ne prend en charge que la création, l’évolution et la communication entre agents, et ne propose aucune structure de données pour la représentation de l’environnement ou d’autres données partagées. La représentation de ces éléments est néanmoins possible sous forme d’objets indépendant ou d’agents spécifiques dans la simulation. Il est ensuite possible d’utiliser des messages pour envoyer ou recevoir des informations sur ces structures partagées. En prenant en compte toutes les communications, JADE facilite l’utilisation d’une architecture en mémoire partagée ou distribuée pour la simulation multi-agents. Cette plate-forme se limite toutefois à ce rôle, et ne propose pas de mécanisme de synchronisation ou de partage automatique des données entre instances d’exécution : cette gestion reste de la responsabilité du concepteur du modèle, en utilisant les structures de données fournies par le langage Java. 3.2.3 FLAME FLAME 3 [HCS06] est un générateur de simulations multi-agents parallélisées. Il se base pour cela sur la description des modèles sous la forme de machines à états (X-Machine) en XMML, version étendue du XML. Cette description abstraite permet de découpler l’exécution du système multi-agents de toute plate-forme d’exécution spécifique. La description d’un modèle FLAME repose sur la spécification d’un état initial, d’un ensemble d’états intermédiaires et d’un ou plusieurs état finaux. Le passage entre ces états est décrit sous forme de fonctions de transition, exécutées pour chaque agent à chaque pas de temps de la simulation. Une itération, ou pas de temps, est définie comme la fenêtre de temps nécessaire à chaque agent pour progresser de son état initial à l’un des états finaux du graphe de transitions. Ce processus est reproduit à chaque itération. En parallèle de ces états représentant les stades d’exécution de chaque agent, FLAME associe à chaque agent une mémoire pouvant contenir des variables lues et modifiées par les différentes fonctions de transition. La communication entre agents est assurée par la possibilité d’envoyer et de recevoir des messages au niveau de ces mêmes fonctions de transition. Leur transmission est réalisée de manière synchrone, pour garantir la réception simultanée de chaque message par tous ses destinataires : cette synchronisation est particulièrement importante lors de l’exécution d’un modèle sur une architecture distribuée HPC pour permettre qu’aucun agent ne soit favorisé ou défavorisé par son ordre de passage. Les messages sont distribués à l’ensemble des agents du modèle par la bibliothèque Libmboard basée sur MPI pour les échanges de messages [KRH+10]. Il est ensuite possible à chaque agent de filtrer les seuls messages le concernant. 3. FLexible Large-scale Agent-based Modeling EnvironmentCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 52 La modélisation d’un modèle en FLAME est décomposée en quatre étapes : — La description de chaque agent et de sa fonction. — La description des états correspondant à leur évolution à chaque itération — L’identification des variables utilisées pour le déclenchement et dans le traitement de chaque fonction de transition définie dans le modèle. — L’identification des messages émis ou reçus par ces fonctions de transition. Ce processus peut être représenté sous la forme d’un diagramme de transition. La Figure 3.2 illustre une représentation possible d’un modèle d’essaim (Swarm) avec FLAME. début Diffusion de la position état 1 état 2 Réception autres positions fin Mise à jour position Nouvelle itération Figure 3.2 – Représentation conceptuelle d’une itération de modèle Swarm L’implémentation du modèle économique européen EURACE, mettant en jeu des agents intervenants sur plusieurs marchés économiques, prévoit d’utiliser ces mécanismes [DvdHD08]. La plate-forme FLAME permet de s’abstraire totalement de la démarche de parallélisation en mémoire partagée ou en mémoire distribuée, en prenant en charge la totalité de la génération de la simulation. Cette abstraction dépend toutefois d’une description très fine du modèle et de ses interactions par le concepteur, qui contraint fortement la définition des modèles. 3.2.4 Repast HPC Repast HPC [CN11] est une bibliothèque dédiée au calcul sur architectures hautes performances. Elle propose une implémentation des concepts fondamentaux de RepastSimphony sur des architectures mémoire distribuées et plus particulièrement sur les clusters de calculs. Le développement de modèles agents avec Repast HPC peut être effectué directement à l’aide des composants de la bibliothèque ou en manipulant des concepts d’emplacements et de tortues inspirés de Logo. L’implémentation des agents est réalisée sous forme d’instances de classes C++ encapsulées dans un Contexte représentant leur environnement. Leur organisation dans le modèle est assurée par la définition de Projections. Une projection grille place ainsi les agents dans une structure grille où chaque agent correspond à une cellule, tandis qu’une projection réseau permet la mise en place de relations entre agents. Une simulation Repast HPC est ainsi composée d’agents, d’au moins un contexte, et de zéro ou plusieurs projections. La distribution des agents en Repast HPC est basée sur un parallélisme à mémoire distribuée. Les agents du modèle sont répartis entre plusieurs processus responsables du traitement de leurs agents locaux. L’interaction avec un agent distant requiert sa copie en mémoire locale, la modification de cette copie, puis sa synchronisation avec l’agent original, pendant que l’exécution de l’agent distant est suspendue [rep]. Pour faciliter la gestion de ces copies, chaque agent est identifié de manière unique par trois informations : un identifiant attribué par l’utilisateur, l’index de son processus de lancement et son type. Chaque agent stocke également l’index du processusCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 53 l’exécutant actuellement. La synchronisation et l’échange des agents entre processus sont assurés via le protocole de communication MPI [rep] par le biais de son implémentation BoostMPI 4 . Ce mécanisme de découpage permet à Repast HPC de prendre en charge de nombreuses problématiques de la parallélisation en mémoire distribuée et en particulier la copie et l’exécution des agents présents sur les différents noeuds d’exécution. 3.2.5 D-MASON La plate-forme D-MASON [CCC+12] est une version parallèle de la bibliothèque MASON, ajoutant une couche supplémentaire permettant la distribution de la simulation en mémoire distribuée sur des machines hétérogènes. La distribution de la simulation en D-MASON est basée sur trois blocs fonctionnels, un gestionnaire, des travailleurs (workers) correspondant à des threads Java et des communications. Le rôle de gestionnaire est assuré par une application maîtresse qui prépare la simulation et gère ensuite son déroulement en pas de temps synchrones en coordonnant les différents processus travailleurs. Cette répartition des tâches repose sur le partitionnement de l’espace à simuler en régions pouvant être assignées à un worker particulier. Chaque worker est ensuite responsable de l’exécution des agents présents dans sa région, ainsi que de la synchronisation des traitements ou de la migration des agents entre régions. Les échanges requis pour ces opérations sont gérés par le biais de JMS [CCM+11], une interface de programmation permettant d’envoyer et de recevoir des messages asynchrones entre composants Java. Cette répartition automatique de l’environnement par la plate-forme, associée à celle de l’ordonnancement et des traitements, permet la gestion des trois approches de parallélisation de systèmes multi-agents. D-MASON se caractérise de manière générale par la volonté d’introduire la distribution à tous les niveaux du système, plutôt que de se focaliser uniquement sur les performances, pour résoudre les limitations en ressources, en particulier mémoires, de manière transparente pour le concepteur. 3.2.6 Pandora Une dernière plate-forme permettant la distribution d’un système multi-agents sur plusieurs noeuds de cluster est Pandora [pan]. Cette plate-forme permet le prototypage rapide de modèles à l’aide du langage de programmation Python, ou la réalisation de modèles plus complexes à l’aide de C++. Ces deux langages d’implémentation partagent la même interface de programmation et les mêmes concepts, de manière à faciliter l’adaptation de modèles entre les deux syntaxes. Il est plus particulièrement conçu pour la simulation de milliers d’agents dans un espace géographique. La distribution en mémoire partagée des systèmes Pandora repose sur la distribution de portions de l’environnement et des agents sur chaque noeud du système à l’aide de OpenMP et de MPI [ASÁ01]. La parallélisation locale de la simulation est basée sur l’observation par ses concepteurs d’une décomposition standard du cycle agent dans de nombreux modèles multi-agents : — Évaluation de l’environnement et des stimulis. — Prise de décision quant à l’action à effectuer. — Réalisation de l’action. 4. http://www.boost.org/CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 54 — Mise à jour des variables internes. Pandora permet la parallélisation de l’évaluation de l’environnement et de la prise de décision de manière automatique avec OpenMP. La suite des traitements est séquentialisée pour garantir la cohérence des mises à jour du modèle. L’originalité de cette plate-forme réside dans la gestion automatique de la distribution et de la copie des informations situées à la frontière de deux portions voisines de l’environnement à l’aide des champs d’action [WRC12]. 3.3 État de la simulation multi-agents sur GPU La simulation de systèmes multi-agents met en jeu la parallélisation, qu’elle soit en mémoire partagée ou distribuée. Cette démarche de parallélisation peut être effectuée manuellement ou à l’aide de plates-formes multi-agents parallélisées. Dans les deux cas, elle implique la répartition des traitements du modèle sur plusieurs coeurs d’exécution, que ce soit au niveau de l’ordonnancement, de l’environnement, ou des agents. L’utilisation de nombres importants de coeurs CPU requiert toutefois le recours à des environnements HPC spécialisés, grilles ou clusters de calculs. Ces clusters de calculs ne sont pas forcément à la portée de tout chercheur, soit pour des raisons techniques, soit pour des raisons financières. Dans ces circonstances, les GPU sont une alternative intéressante pour exécuter des nombres importants d’agents, avec leur coût réduit et leurs centaines de coeurs d’exécution. Ils présentent également l’intérêt d’être présents dans la totalité des machines personnelles actuelles. Dans ce chapitre, nous présentons tout d’abord les différents domaines de simulation multiagents ayant déjà fait l’objet d’adaptations sur GPU. Nous évoquons ensuite FLAME-GPU, une première plate-forme d’exécution générique sur GPU, et en montrons les caractéristiques et les limites permettant d’envisager d’autres approches d’exécution de systèmes multi-agents sur GPU. 3.3.1 Parallélisations indépendantes De nombreux systèmes multi-agents ont déjà été parallélisés de manière indépendante sur architecture GPU, dans le cadre d’optimisations de modèles existants ou d’étude de cette plateforme. Ces adaptations peuvent être rassemblées en grandes thématiques, souvent associées à la modélisation agent dans la littérature. La diversité de ces thématiques se retrouve dans les approches d’adaptations retenues, mais permet toutefois de dégager quelques grandes tendances de modélisation sur GPU. Automates cellulaires Les automates cellulaires sont un premier type d’implémentation utilisée pour les systèmes multi-agents se prêtant naturellement à une parallélisation du fait de leur découpage en grille et de l’application du même algorithme d’évolution à chacune des cellules de cette grille. Une telle exécution est dite SPMD (Single Program, Multiple Data ou "Un seul programme, de nombreuses données") et favorise le découpage du traitement sur de multiples unités de calculs. L’utilisation de grilles pour le stockage du système facilite également le partage des données en un ou plusieurs lancements, dans le cas où les besoins en mémoire du modèle seraient trop importants pour un seul GPU. Le Jeu de la Vie est un exemple d’automate cellulaire souvent utilisé pour illustrer ce type deCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 55 Buffer A Buffer B Lecture état n Écriture état n + 1 Buffer B Buffer A Lecture état n + 1 Écriture état n + 2 Itération n Itération n + 1 Figure 3.3 – Concepts de double bufferisation des données entre itérations parallélisation, du fait de ses règles simples d’évolution et de l’indépendance de l’évolution de chaque cellule. La seule synchronisation de l’exécution du modèle a lieu entre chaque itération, de manière à assurer la progression de tous les agents au même rythme et la prise en compte des modifications effectuées à l’itération précédente. Cette synchronisation peut être implémentée au moyen d’une barrière d’exécution ou en découpant le traitement en plusieurs lancements. Un découpage en plusieurs lancements permet alors d’utiliser les mécanismes de dépendances fournis par OpenCL et CUDA pour inclure d’autres opérations dans le déroulement de la simulation, telles que l’échange d’une grille d’entrée et d’une grille de sortie (Figure 3.3) entre chaque itération. Un autre exemple d’automate cellulaire parallélisé est SugarScape, un modèle décrivant l’évolution de populations d’individus en fonction de la répartition de glucose dans un environnement en grille. Une parallélisation en CUDA proposée pour ce modèle [DLR07] repose sur l’utilisation de textures graphiques pour représenter cette grille, en tirant parti de la possibilité d’utiliser les canaux de couleurs pour stocker les propriétés de chaque cellule dans un seul pixel, et ainsi de représenter l’environnement dans un seul objet texture. La mise à jour du modèle est effectuée en associant une tâche GPU à chaque cellule de la grille. L’utilisation, comme dans le cas du Jeu de la Vie, d’une texture d’entrée et d’une texture de sortie permet de gérer plus facilement l’affichage de la simulation pendant les traitements, et de contourner la limitation des accès en lecture seule ou écriture seule à ces textures au sein d’un même kernel. Cette impossibilité de lire et d’écrire dans la même texture au cours du même lancement empêche, contrairement au Jeu de la Vie, l’utilisation d’une simple barrière d’exécution entre deux itérations. Cette parallélisation de SugarScape met en avant les problèmes rencontrés par le stockage des agents dans une structure en liste indépendante. Le décès et l’apparition de nouveaux agents nécessitent des mécanismes efficaces de mise à jour de cette liste sur GPU, et en particulier de recherche d’emplacements libres pour stocker les nouveaux individus. La solution retenue dans cette adaptation est de rechercher un emplacement libre décalé de n cases par rapport à l’emplacement de chaque agent en attente de reproduction, et de faire varier ce décalage jusqu’à ce qu’une case libre se dégage pour toutes les reproductions en attente. Cette approche stochastique repose sur l’observation qu’une solution est généralement trouvée en quelques itérations et permet d’éviter de synchroniser chaque reproduction, au prix de la perte d’un peu de temps de calcul.CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 56 Ces deux exemples illustrent l’importance des traitements et des échanges de grilles pour paralléliser ce type d’implémentation. Agents indépendants Un autre modèle souvent parallélisé sur GPU est celui des fourmis [CGU+11, UIN12], dont la mise à jour peut être décomposée en deux processus distincts, comme nous l’avons vu dans la description du modèle : — La mise à jour de l’environnement, et en particulier la simulation de la diffusion et de l’évaporation au cours du temps des phéromones déposées par les fourmis. — La gestion du déplacement des fourmis (agents) elles-mêmes, au vu de ces données environnementales et de leur état actuel, à la recherche de nourriture ou en train de rapporter des ressources. Ce second état conditionne le dépôt ou non de phéromones par l’individu. La parallélisation de ce modèle sur GPU pose le problème de synchroniser l’exécution de ces deux processus à chaque itération. L’utilisation de textures impose, comme dans le cas du modèle SugarScape, le recours à plusieurs kernels d’exécution distincts pour pouvoir accéder à ces textures alternativement en écriture, pour la mise à jour des quantités de phéromones, puis en lecture au moment de la détermination du comportement de chaque individu. Cette parallélisation met l’accent sur l’importance de la synchronisation, et plus généralement de la possibilité de mettre en place un graphe de dépendance, pour l’exécution de la simulation en parallèle sur GPU. Un autre exemple de modèle multi-agents avec des agents indépendants est le mouvement de volées de différentes espèces d’oiseaux dans un espace en deux dimensions [Wei13]. Ce mouvement, inspiré du modèle Boids décrit par Craid Reynolds en 1987 [Rey87], illustre l’apparition de comportements émergents au niveau de volées d’oiseaux à partir de règles simples assignées à chaque individu, aboutissant à un compromis de déplacement à chaque itération. Les règles utilisées sont les suivantes : — Séparation : choix de la direction de manière à éviter une trop grande agglomération avec les oiseaux voisins. — Alignement : choix de la direction de manière à adopter la même direction de déplacement que les oiseaux voisins. — Regroupement : choix de la direction de manière à se rapprocher du centre de masse des oiseaux à proximité. Les oiseaux décrits sont positionnés dans un espace continu et il n’existe donc plus cette fois aucune grille sur laquelle baser un découpage pour GPU. Le positionnement de chaque agent dans l’environnement est à la place indiqué par un jeu de coordonnées associé à chaque individu. Le mouvement de chaque individu est également stocké dans ses propriétés sous la forme d’un vecteur. Dans ce cas, le découpage d’exécution retenu n’est plus basé sur une sous-division de l’environnement, mais sur l’association d’une tâche de traitement à chaque individu. La synchronisation entre les individus est effectuée à l’aide de barrières d’exécution dans un même lancement de kernel d’exécution. Pour minimiser le nombre et donc les coûts d’accès à la mémoire globale, les oiseaux sont regroupés en ensembles (clusters) dont les positions et les vitesses sont recopiées en mémoire partagée. Un dernier modèle d’agent concerne la simulation de la propagation de la tuberculose dans les cellules du système immunitaire [DLMK09]. Cet exemple réintroduit un découpage de l’environnement en espace discret, sous la forme d’une grille d’agents représentant alternativement des macrophages ou des lymphocytes-T. Chacun de ces agents est associé à un automate à états finisCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 57 déterminant les états accessibles à chaque agent en fonction de son état actuel. La parallélisation du modèle est effectuée par le biais de plusieurs kernels lancés à des fréquences différentes. Un premier kernel, exécuté cent fois plus fréquemment que les autres traitements, gère ainsi la diffusion des marqueurs chimiques dans l’environnement. Un second kernel gère la reproduction des bactéries dans l’environnement de simulation, tandis que quatre autres kernels gèrent la mise à jour de l’état de chaque macrophage et lymphocyte T, puis leur déplacement et le recrutement de nouveaux individus. Cet exemple met en avant le nombre importants d’opérations différentes pouvant être présentes dans un même modèle agent, et l’importance de pouvoir exécuter ces traitements à la suite sur GPU, après initialisation et copie des données depuis le CPU. Recherche de chemins (pathfinding) Un autre domaine d’application multi-agents souvent rencontré dans les exemples de parallélisation sur GPU est la recherche de chemins en deux ou trois dimensions, dans des environnements continus ou discrets [FSN09, GCK+09]. La popularité de ce type de traitement s’explique par l’existence d’une forte demande au niveau de ce type d’algorithme dans l’industrie vidéo-ludique (déplacement d’unités) et les simulations urbaines ou de transport. Ces modèles agents considèrent généralement un individu associé à une position dans l’espace, et éventuellement une taille, se déplaçant dans un environnement constitué de points de passage et d’obstacles. Dans le cadre d’un découpage de l’environnement en grille, des algorithmes de recherche de chemin dans des grilles et des graphes comme l’algorithme A* [HNR68] peuvent alors être utilisés pour déterminer le plus court chemin vers un point destination. Ce type de modèle implique encore une fois de disposer de facilités de traitement de grilles sur GPU, ainsi que la possibilité de mettre à jour ces grilles de manière concurrente pour gérer la cohérence des dé- placements de chaque agent. Cette grille peut être intrinsèque au repère de positionnement, ou être appliquée à chaque itération pour discrétiser des positions réelles, de manière à permettre l’application des algorithmes de recherche de plus court chemin. Un premier exemple de modèle parallélisé concerne le déplacement des unités dans des jeux de stratégie sur la base de champs de potentiels [SFF+10]. L’utilisation de champs de potentiels, et donc de vecteurs de déplacement, permet dans ce cas non seulement d’obtenir des chemins effi- caces (distance) mais également plus naturels en adoucissant notamment les courbes ou en limitant les comportements peu réalistes (virage à 90°) déclenchés par la détection soudaine d’un obstacle. La difficulté de parallélisation de ce modèle est la nécessité de prendre en compte l’ensemble de l’espace de simulation pour déterminer le mouvement calculé par chaque tâche GPU. Pour limiter le nombre d’accès mémoire à effectuer, une carte locale des obstacles et de la direction projetée de son objectif est préalablement créée pour chaque agent et un vecteur associé à chacun de ces éléments. Le déplacement de l’agent est ensuite calculé à partir de la combinaison de ces vecteurs, puis projeté sur l’environnement de simulation. L’utilisation du GPU permet ici de considérer ces cartes locales et ces opérations vectorielles en parallèle pour chaque agent, plutôt que d’effectuer un parcours linéaire de chaque individu intégrant un autre parcours des cellules voisines à cet individu. Une simulation de déplacement de piétons [RR08] se base sur le découpage des données de chaque agent en canaux de textures. Cet exemple met également en valeur, dans le cas de la recherche de chemins, l’utilité du découpage des données en structures d’entrée et structures de sortie déjà rencontré pour les automates cellulaires. Le portage de ce type de simulation sur GPU, notamment par Bleiweiss [Ble09], a également amené des réflexions sur d’autres architectures vectorielles [GCK+09] telles que SSE, mettant enCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 58 avant le potentiel de ce type de parallélisation sur architecture many-core massivement parallèle de manière générale. Il est également possible de citer, pour une réflexion approfondie sur la comparaison de diffé- rentes heuristiques permettant de résoudre ce type de problèmes sur GPU, le mémoire de thèse de A. Delévacq [Del13]. L’auteur commence pour cela par établir une présentation des métaheuristiques parallèles existantes sur GPU, avant d’en proposer une taxonomie orientée autour de deux axes, en fonction du niveau d’utilisation du GPU dans la métaheuristique d’une part (population, solution ou élément), et en fonction de l’utilisation faite de chaque type de mémoire proposé par le modèle de programmation d’autre part (globale, texture, constante, partagée, registres). Une fois cette taxonomie posée, l’auteur compare alors deux approches différentes de la résolution du problème du voyageur de commerce, tout d’abord à base de colonies de fourmis, puis à base de recherche locale (RL) de solutions. L’approche à base de colonies de fourmis repose sur l’utilisation d’individus, les fourmis, parcourant le graphe selon une heuristique de type min-max, de manière à construire progressivement des listes solutions. L’approche RL repose, quant à elle, sur l’amélioration d’une solution existante en évaluant l’impact de modifications locales à certaines positions de la liste. Elle est ainsi susceptible de compléter d’autres métaheuristiques pour la recherche de solutions efficaces. Les résultats obtenus montrent des gains de performance signi- ficatifs avec une implémentation GPU, avec un impact sur la qualité des solutions demeurant entre −1.33% et 1.64%. Au contraire, des dégradations significatives sont observées sur la parallélisation de l’approche RL, liées aux découpages en termes de synchronisation rendues nécessaires par l’adaptation sur GPU. Ce mémoire met en évidence l’importance des adaptations dans ce modèle de programmation et celle de la validation par des mesures de leurs conditions d’utilisation. Réflexions sur des exécutions hybrides GPU et CPU La parallélisation de systèmes multi-agents a également donné lieu à des réflexions plus génériques, orientées sur la distribution de la charge en général sur des plates-formes parallèles [CCDCS11], ou sur le cas plus particulier de clusters de GPU et de machines multi-coeurs. En particulier dans [APS10], l’auteur propose la comparaison d’une implémentation à base de threads et de CUDA du même modèle agent. Pour minimiser le nombre d’échanges nécessaires dans le cas de systèmes multi-agents, où des portions de l’environnement sont réparties dans de multiples copies distantes, l’article propose la mise en place d’un système de zone-frontière au niveau du découpage des données. Ces zones frontières situées autour des données directement utilisées par les agents exécutés en local permettent de prendre en compte la diffusion des erreurs de mise à jour liées à l’exécution indépendante de chaque portion du modèle. La largeur de ces frontières permet de déterminer le nombre de cycles pouvant être exécutés avant que les divergences n’impactent d’autres portions de l’environnement simulé, et donc le temps pendant lequel une synchronisation peut être reportée sans impact sur le résultat de la simulation générale. En réduisant le nombre d’échanges de données nécessaires, ce système d’isolation permet de maximiser le temps passé en calcul pour chaque tâche et donc d’améliorer les performances obtenues. L’implémentation GPU proposée est basée sur le modèle de programmation CUDA et des blocs mémoires pour chaque agent ou groupe d’agent. L’utilisation d’OpenCL est toutefois prévue, pour pouvoir tirer parti d’une plus grandes variété d’architectures. Cet article met en évidence l’impact important que peut avoir la fréquence de synchronisation des données sur les performances obtenues, en variant la largeur des frontières autour de la copie de l’environnement de chaque agent.CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 59 3.3.2 Une plate-forme multi-agents orientée GPU : FLAME-GPU Si l’utilisation du GPU est à l’étude pour des plates-formes comme JADE [ZG12] ou TurtleKit [Mic13], seule FLAME-GPU [Ric11], une extension pour la plate-forme FLAME [CGH+12], permet à l’heure actuelle l’utilisation du GPU pour l’ensemble du modèle. FLAME-GPU permet la génération d’implémentations GPU de modèles FLAME avec un minimum d’adaptations, de manière à afficher ou exploiter plus facilement de grandes quantités d’agents. Cette utilisation transparente du GPU est rendue possible du fait de la décomposition très fine de la simulation en états et en traitements. La syntaxe XXML, proposée par FLAME, est également étendue pour permettre d’indiquer le nombre maximum d’agents présents dans le modèle, de manière à pouvoir allouer à l’avance les structures de données sur GPU. Ces extensions incluent également des directives permettant de choisir les algorithmes de traitement des fonctions de transition à utiliser en CUDA. L’application d’une fonction de transition sur GPU aux agents d’un modèle FLAME est dé- composée en deux étapes : — Un premier kernel vérifie les pré-conditions d’application de la fonction de transition pour chaque agent du modèle. Si les conditions d’application sont remplies pour cet agent, il est ajouté à la liste des agents devant être traités. — Une fois ce filtrage effectué, la fonction de transition est appliquée à tous les agents en attente de traitement. Cette décomposition facilite le lancement de traitements réguliers sur le GPU dont l’exécution peut être ensuite parallélisée aisément par l’ordonnanceur CUDA. FLAME-GPU a déjà établi les gains en performance pouvant être obtenus dans plusieurs types de systèmes multi-agents [RWCR10, KRR10] mais impose, tout comme FLAME, un cadre très strict de modélisation. Ce cadre est basé sur la décomposition du modèle en chacun de ces comportements, des données et de toutes leurs interactions, pour permettre à la plate-forme de générer le programme capable de les exécuter. Son utilisation n’est donc pas envisageable dans le cadre d’une plate-forme multi-agents ou d’une implémentation existante, et requiert une réécriture complète du modèle. Cette absence de portage incrémental impose une barrière d’entrée à l’utilisation du GPU et rend également plus difficile la comparaison du modèle obtenu avec l’original, la gestion du programme même n’étant plus directement du ressort du concepteur. Si le formalisme et les plates-formes supportées par FLAME sont extensibles, comme l’illustre l’existence de FLAME-GPU, cette extension se limite également à l’utilisation de CUDA, ce qui limite son utilisation aux seuls matériels NVIDIA, et ne permet pas de tirer parti des cartes graphiques d’autres fabriquants présents sur des machines personnelles. 3.4 Synthèse Dans ce chapitre, nous avons montré les différentes approches de parallélisation possibles pour des systèmes multi-agents, au niveau de l’ordonnanceur, des comportements ou de l’environnement. Nous avons ensuite présenté la manière dont ces approches sont gérées et rendues plus aisément accessibles pour le concepteur par quelques plates-formes multi-agents parallélisées. La plupart de ces plates-formes permettent une exécution aussi bien en mémoire distribuée ou partagée, en distribuant le passage des traitements à l’aide d’une collaboration de plusieurs ordonnanceurs. Certaines de ces plates-formes gèrent aussi automatiquement la répartition de l’environne-CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 60 ment entre chaque tâche, pour résoudre tout problème de taille mémoire. De nombreuses solutions, comme JADE, laissent toutefois cette responsabilité au concepteur, plus à même de décider si ces structures doivent être recopiées ou accédées de manière distante dans sa simulation. Si la parallélisation sur CPU est aujourd’hui supportée par de nombreuses plates-formes, la parallélisation sur carte graphique est moins répandue. Cette architecture montre pourtant son intérêt, dans le cadre de milliers d’agents à exécuter, par sa possibilité de disposer de plusieurs centaines de coeurs sur une machine personnelle. Des modèles comme SugarScape, ou des implémentations sous forme d’automates cellulaires ou de recherche de chemin mettent ainsi en avant l’intérêt en termes de performance du GPU pour l’exécution de traitements homogènes, de type SIMD, souvent rencontrés dans les systèmes multi-agents réactifs. Le support du GPU n’est cependant pas totalement absent des plates-formes agents : des solutions permettant d’utiliser CUDA existent déjà dans des modèles comme JADE. Des couches d’abstraction, soit des perceptions dans le cas de TurtleKit, soit de tout le modèle dans le cas de FLAME-GPU, existent également.II Contribution63 Dans la première partie de notre mémoire nous avons présenté notre contexte, les systèmes multi-agents et les GPU, et mis en avant l’intérêt de cette nouvelle architecture en termes d’accessibilité et de performance, par rapport aux solutions de parallélisation classiques basées sur la distribution en mémoire partagée ou en mémoire distribuée. Dans cette seconde partie, nous introduisons et décrivons maintenant nos contributions à cette problématique. Pour cela, nous commençons par étudier la parallélisation sur GPU d’un modèle concret, le modèle proie-prédateur. Cette parallélisation est pour nous l’occasion d’une réflexion sur les différentes représentations en termes de données et de comportements de ce système, et leur impact sur une adaptation GPU. Les contraintes rencontrées dans l’adaptation de ce modèle ouvrent alors la voie à une définition des principales considérations nécessaires pour le portage d’un système multi-agents sur GPU. Cette présentation est en particulier l’occasion de décrire les différents types de découpages des données ou d’exécution devant être supportés par une bibliothèque pour permettre son utilisation dans les systèmes multi-agents. Ces contraintes nous servent de préambule pour présenter notre solution, MCMAS, et la manière dont cette bibliothèque répond à ces problématiques d’exécution et de données. Pour cela, nous commençons par présenter les principaux objectifs de MCMAS et leur traduction en termes d’architecture de la bibliothèque. Nous présentons ensuite l’utilisation de MCMAS en tant que bibliothèque de fonctions génériques, puis l’ajout de nouvelles fonctionnalités à cette solution. L’utilisation de MCMAS est ensuite illustrée de manière expérimentale sur trois modèles : — Proie-prédateur qui nous a servi de fil rouge dans notre propos. — MIOR, un modèle d’évolution microscopique de sol s’intégrant dans le cas de la simulation multi-échelles Sworm. — Collemboles, enfin, un modèle permettant de décrire la diffusion de populations entre parcelles de terrain importées depuis un système d’information géographique. Une fois ces applications présentées, nous proposons quelques recommandations d’implémentation, de manière à prendre en compte les éventuels différences en traitements des données et en performance associées à chaque matériel d’exécution.4 Problematique ´ Comme nous l’avons vu dans le chapitre précédent de nombreux systèmes multi-agents ont déjà été adaptés sur GPU. Dans la plupart des cas, ces adaptations sont basées sur une réécriture complète du programme, directement à l’aide d’un modèle de programmation comme OpenCL ou au moyen du formalisme spécialisé proposé par l’environnement FLAME-GPU. La première approche, l’implémentation directe du modèle avec la programmation GPGPU, permet un contrôle fin sur le programme obtenu mais requiert une expertise et un investissement en temps conséquents pour pouvoir tirer parti efficacement des possibilités offertes par l’architecture matérielle. Ces contraintes s’expliquent par la nécessité d’implémenter la totalité du système agent, sans aucune infrastructure existante pour ce type de simulation. La seconde approche, l’utilisation de FLAME-GPU, apporte une abstraction totale du mode d’exécution en permettant au concepteur de n’avoir qu’à décrire les opérations de son modèle. Elle repose sur l’utilisation de l’approche FLAME pour générer automatiquement le programme GPU liant ces différentes actions. Cette abstraction présente cependant un coût, en contraignant la structure des modèles multi-agents décrits dans un formalisme existant strict. Ce formalisme peut être aisément utilisé pour la conception de nouveaux modèles mais rend difficile la comparaison des simulations obtenues avec des simulations plus traditionnelles, du fait de la nature radicale des changements apportés à l’algorithme. Il permet toutefois la disponibilité d’un support robuste adapté aux agents, et ne laisse donc pas le concepteur livré à lui-même comme un modèle de programmation plus générique. Ces deux approches laissent place à une solution intermédiaire qui permettrait au chercheur de disposer d’un support incrémental pour les traitements agents sur GPU, de manière à pouvoir y exécuter tout ou partie de la simulation. Une telle solution doit également être capable de s’inté- grer et de complèter une plate-forme multi-agents existante. Cette facilité d’intégration implique la proposition d’une interface orthogonale à la modélisation du système, à même d’être utilisée aussi bien dans des cadres basés sur la décomposition du système en messages et en comportement que dans des simulations agents moins segmentées. Elle permet également de tirer parti des nombreuses facilités d’implémentation et d’exécution déjà offertes par les plates-formes multi-agents existantes. Dans les sections suivantes nous présentons les propriétés nous paraissant particulièrement importantes pour notre proposition, MCMAS 1 . 1. Many-Core Multi-Agent SystemsCHAPITRE 4. PROBLÉMATIQUE 66 4.1 Portabilité Un premier élément nécessaire à l’intégration d’une nouvelle bibliothèque dans des systèmes multi-agents existants est sa portabilité sur plusieurs systèmes d’exploitation. De nombreux chercheurs utilisent en effet différents systèmes d’exploitation pour réaliser leurs simulations, comme l’illustre la portabilité de plates-formes multi-agents telles que Repast, Madkit ou NetLogo. Une nouvelle bibliothèque doit également être portable en termes d’utilisation, en se basant sur les langages de programmation largement utilisés dans le domaine. Si C, C++ et Java sont présents parmi les plates-formes multi-agents décrites dans notre contexte, c’est surtout ce dernier langage qui est utilisé par de nombreuses plates-formes comme NetLogo, JADE, MadKit ou D-MASON. Cette large utilisation s’explique par plusieurs avantages associés à l’environnement Java : — La portabilité des programmes sans recompilation. Il est ainsi possible de distribuer une seule version de la plate-forme pour tous les systèmes d’exploitations supportés. — La disponibilité d’une bibliothèque graphique intégrée, Swing. Cette bibliothèque facilite la réalisation de plates-formes interactives sans dépendances ou binaires externes. — La possibilité de programmer en objet, de manière à représenter de manière intuitive les différentes entités du modèle agent. — La disponibilité de nombreux mécanismes d’exécution (threads) ou de communication (RMI, JMS) et de nombreuses structures de données dynamiques directement dans la bibliothèque standard. — Une gestion de la mémoire automatique, qui facilite à la fois le développement de la plateforme de simulation et des modèles multi-agents. — La disponibilité de bibliothèques de gestion de données géographiques comme GIS, permettant un import aisé d’informations externes dans la simulation. Il est toutefois nécessaire de coupler Java à des couches d’adaptation native comme JOCL pour permettre l’accès au modèle d’exécution GPU. Le choix du modèle de programmation utilisé est également un élément de cette portabilité d’utilisation : si CUDA et OpenCL sont tous deux disponibles sur de nombreux systèmes d’exploitations, OpenCL offre un plus grand choix de périphériques d’exécution CPU ou many-cores que CUDA, qui reste limité à l’utilisation de matériels Nvidia. Au vu de cette large disponibilité, le choix d’OpenCL paraît naturel pour notre solution, en gardant toutefois à l’esprit que chaque architecture d’exécution ne fournira pas forcément les mêmes performances pour les mêmes programmes. 4.2 Réutilisation d’algorithmes et de structures Comme évoqué au début de notre problématique, l’utilisation directe de modèles de programmation tels que OpenCL et CUDA pour l’adaptation d’un système multi-agents impose le redé- veloppement par le concepteur de l’ensemble de ses traitements et de ses structures de données. Ce développement requiert des connaissances poussées en programmation C ou C++ et un travail important en termes d’adaptation de l’exécution et des structures de données. Mené correctement, ce type d’adaptation permet d’obtenir une solution optimisée, au plus proche des contraintes des données et des algorithmes utilisés par le modèle source. Cette solution encourage toutefois, en imposant leur développement, l’utilisation de structures spécifiques à chaque modèle adapté et difficilement réutilisables. Elle représente également un coût en temps important devant être réinvesti à l’adaptation de chaque nouveau modèle. Dans ces circonstances, l’intérêt d’une bibliothèque est de permettre et favoriser la réutilisation d’algorithmes et de struc-CHAPITRE 4. PROBLÉMATIQUE 67 tures de données. Cette réutilisation peut être grandement facilitée en fournissant des implémentations optimisées des traitements multi-agents les plus courants, prêtes à être employées par le modèle agent. L’objectif de cette démarche est de proposer, à l’image de bibliothèques comme CUBLAS, des fonctions de haut-niveau déjà adaptées aux principales problématiques rencontrées dans les systèmes multi-agents. Ces problématiques peuvent aussi bien concerner la mise à jour de l’environnement que le calcul de distances entre agents, la génération de nombres aléatoires ou encore le regroupement des données à chaque pas d’exécution, de manière à pouvoir observer la dynamique du modèle. 4.3 Intégration avec l’existant De nombreuses plates-formes multi-agents ont pour objectif d’être une solution "tout en un" aux problèmes de modélisation du chercheur. Elles comprennent dans cette optique de nombreuses fonctionnalités annexes de conception et d’édition de modèle, d’affichage de l’environnement simulé ou de courbes représentant l’évolution du modèle, ou de production de fichiers résultats. Une solution pour les GPU visant à remplacer totalement ces plates-formes impliquerait d’intégrer toutes ces fonctionnalités avant de constituer une alternative crédible, et représenterait une nouvelle solution concurrente, ce qui n’est pas l’objectif de notre contribution. La bibliothèque doit donc être capable de s’intégrer dans ces plates-formes à plusieurs niveaux d’encapsulation du modèle. Elle ne doit notamment pas imposer un paradigme d’exécution particulier, de manière à ne pas entrer en conflit avec le fonctionnement de la simulation. Cette transparence est également importante pour permettre son utilisation dans des plates-formes n’employant pas directement le langage Java, au moyen de modules additionnels (plugins) ou d’extension de la syntaxe agent proposée. Pour décharger totalement le modèle de la gestion de cette bibliothèque, il est possible d’envisager son intégration sous la forme d’agents services fournissant l’accès à des services implémentés sur GPU au reste du modèle. 4.4 Extensibilité La simulation orientée agent est un domaine en perpétuelle évolution, tant au niveau conceptuel, dans le domaine par exemple de l’intelligence artificielle, qu’en termes d’implémentation, avec l’arrivée de nouvelles architectures matérielles et de nouveaux modèles de programmation. Ce dynamisme et cette flexibilité expliquent la popularité de cette approche de modélisation pour la résolution de nombreux problèmes, mais soulignent également l’importance de proposer des solutions modulaires et si possible génériques. Les avantages de cette modularité sont illustrés par le succès des nombreuses plates-formes agents traditionnelles, fournissant un vaste ensemble de fonctionnalités indépendantes pouvant être ou non exploitées par un modèle particulier : c’est ainsi le cas de plates-formes comme D-MASON ou NetLogo [Skl11], qui proposent un découpage des structures de données implicite, de JADE, avec la possibilité d’ajouter de nouveaux composants de manière dynamique au système, ou encore de MadKit qui permet la surcharge de nombreux comportements de la plate-forme. La généricité est également présente dans ces plates-formes sous forme de cadre de modélisation et d’opérations facilitant la conception de nouveaux modèles agents. Ce cadre peut être très souple, dans le cas par exemple de Madkit, ou beaucoup plus strict, dans le cas des plates-formes FLAME ou FLAME-GPU.CHAPITRE 4. PROBLÉMATIQUE 68 Notre solution doit donc, au-delà de la flexibilité d’utilisation, permettre l’ajout aisé de fonctionnalités et d’extensions sans remettre en cause son architecture fondamentale, de manière à pouvoir traiter de nouveaux problèmes agents sur GPU. 4.5 Synthèse Dans notre présentation du contexte, nous avons eu l’occasion d’évoquer le besoin en ressources toujours plus important rencontré par les simulations en général et en particulier par les simulations multi-agents. S’il est en effet courant de commencer par valider un système à petites échelles, l’observation de certains comportements émergents requiert parfois un nombre minimal d’individus [SN09]. L’amélioration des résultats obtenus par la simulation agent implique, de manière plus générale, une augmentation en taille des modèles, que ce soit en termes de dimension de l’environnement ou de nombres d’agents, et des comportements toujours plus complexes. La parallélisation de l’exécution en mémoire partagée ou en mémoire distribuée est une réponse à ce besoin toujours croissant en ressources mémoires et de calcul. Les architectures many-core et GPU en particulier offrent l’accès à plusieurs centaines de coeurs d’exécution à des tarifs comparables à ceux d’une machine de bureau, via des modèles de programmation comme CUDA et OpenCL. L’utilisation de ces architectures pour la simulation multi-agents n’est pas une idée nouvelle et a déjà été explorée pour de nombreux modèles, sous forme de développement de nouvelles implémentations complètes. Ces adaptations requièrent cependant une connaissance approfondie des modèles de programmation et d’exécution GPU pour permettre l’obtention de programmes efficaces. De nombreux concepteurs agents, théoriciens, n’ont pas le temps d’acquérir ces compé- tences pour la réalisation de nouveaux modèles. FLAME-GPU permet, a contrario, la génération de modèles agents basés sur CUDA sans connaissance de ce modèle de programmation à partir de modèles FLAME. Cette solution impose cependant l’utilisation du formalisme strict de cette plate-forme, et n’est donc pas accessible à des modèles basés sur d’autres plates-formes agents parallèles ou séquentielles telles que Madkit, NetLogo ou GAMA sans un redéveloppement complet. Notre thèse est de montrer qu’une bibliothèque de ce type peut être développée de manière indépendante et générique par rapport à ces plates-formes d’exécution multi-agents, pour permettre son utilisation dans un large nombre d’environnements et de modèles existants. Dans la suite de ce mémoire, nous présentons la démarche qui nous a mené à la conception de MCMAS, une bibliothèque permettant de réaliser tout ou partie d’une simulation multi-agents sur GPU. L’objectif de cette bibliothèque est de permettre une utilisation de cette nouvelle architecture d’exécution de manière indépendante ou en complément de plates-formes de conception et d’exécution multi-agents existantes. Elle reprend en compte, pour cela, les problématiques de portabilité, de réutilisation, d’intégration et d’extensibilité évoquées dans ce chapitre dans un tout cohérent, proposant deux niveaux d’utilisation, l’un adapté à son utilisation sans connaissances GPU, l’autre à une extension aisée des fonctionnalités offertes par la bibliothèque.5 Adaptation d’un modele multi ` -agents sur GPU : Proie-Predateur ´ Le modèle proie-prédateur est un modèle multi-agents inclus à titre de démonstration dans de très nombreuses plates-formes agents. Il présente l’intérêt d’offrir un grand choix de niveaux de représentation, mais également de nombreuses implémentations possibles. Dans ce chapitre, nous l’utilisons comme illustration des types de problématiques agents devant être traitées pour une adaptation sur GPU, tant en termes de mémoire que d’exécution. 5.1 Présentation du modèle Le modèle proie-prédateur a été pour la première fois décrit de manière indépendante par Alfred James Lotka en 1925 et par Vito Volterra en 1926 sous la forme d’un couple d’équations différentielles. Ces équations, basées sur des observations effectuées au 19me siècle sur des populations d’animaux sauvages, permettent d’estimer l’évolution en fonction du temps de deux populations, carnivore et herbivore, en fonction des paramètres définis pour la simulation du modèle :    dx(t) dt = x(t)(α − βy(t)) dy(t) dt = −y(t)(δ − γx(t)) où — t est le temps ; — x(t) est le nombre de proies en fonction du temps ; — y(t) est le nombre des prédateurs en fonction du temps ; — les dérivées dx(t)/dt et dy(t)/dt représentent la variation des populations au cours du temps. Les paramètres suivants décrivent les interactions entre les deux espèces : — α le taux de reproduction des proies ; — β le taux de mortalité des proies dû aux prédateurs ; — γ le taux de mortalité des prédateurs ; — δ le taux de reproduction des prédateurs. Pour des paramètres d’entrée évitant la disparition totale de l’une ou l’autre des populations, l’évolution du nombre d’individus de chaque type tend alors rapidement à osciller de manière régulière entre périodes de faste et de famine. La Figure 5.1 illustre ces oscillations dans le temps.CHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 70    α = 2 β = 0.5 γ = 0.2 δ = 6 0 20 40 60 80 100 0 5 10 15 20 Temps Nombre d'individus Proies Prédateurs Figure 5.1 – Exemple de courbes obtenues par l’application des équations de Lotka-Volterra Cette première approche, mathématique, ne considère que les nombres d’individus du modèle et des paramètres synthétisant leur évolution générale. Une autre approche de modélisation, orientée agent, reproduit ces tendances en décrivant le comportement des individus mis en présence au moyen d’actions élémentaires de bas niveau décrites sous forme d’algorithme. Une approche agent possible est ainsi d’isoler trois niveaux d’évolution dans le modèle proieprédateur : — L’environnement, modélisant les ressources consommées par les proies (végétation). Il s’agit d’un agent passif, modifié par les autres agents du système. Le seul traitement propre lui étant associé est l’augmentation des ressources d’un facteur fixé entre chaque pas de simulation, de manière à refléter la croissance et le remplacement des végétaux dans le temps. — Les proies, capables de se déplacer et de se reproduire. Lors de ce second processus, la proie modifie l’environnement, pour répercuter la nourriture consommée. — Les prédateurs, capables de se déplacer, de consommer des proies et de se reproduire. Ces agents n’interviennent que sur les proies, et ne modifient pas directement l’environnement. L’ajout d’un environnement basé sur les ressources en végétation s’inscrit dans l’optique de décrire le système selon une approche montante, comme nous l’avons vu dans notre présentation des approches de modélisation, plutôt que de se baser sur une observation de haut niveau pour extrapoler le comportement de chaque individu, avec une approche descendante. Ce modèle agent se caractérise par une relation stricte entre les populations, à sens unique. Seuls les prédateurs sont à même d’influer sur les proies, qui sont seules à pouvoir influer sur l’environnement. Par rapport à la modélisation mathématique du modèle proie-prédateur, cette re-CHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 71 présentation agent introduit aussi une prise en compte de l’accès aux ressources de chaque agent, en introduisant une répartition géographique des différentes entités du système. Cet aspect supplémentaire permet non seulement d’obtenir des valeurs de population, comme le modèle mathé- matique, mais ouvre également l’accès à des résultats plus précis, permettant de mettre en avant l’influence de la répartition des ressources sur la position des agents dans l’environnement. 5.2 Stratégies de déplacement Un facteur important de l’évolution du système proie-prédateur est l’algorithme de déplacement utilisé. Cet algorithme détermine en effet non seulement la manière dont chaque agent considérera les données de son voisinage, mais également le nombre de branchements et la régularité du nombre d’opérations à effectuer, pour un bon remplissage des ressources GPU. 5.2.1 Déplacement aléatoire Une première implémentation du déplacement des proies et prédateurs est la sélection d’une destination aléatoire à chaque itération. Cette approche évite le parcours du voisinage de chaque agent pour la recherche d’une cible, et donc de nombreux accès mémoire, mais est peu intéressante à implémenter en termes de modèle et d’adaptation GPU : — En termes de modélisation, elle est très peu cohérente avec le comportement de nombreuses espèces animales capables de détecter et poursuivre des proies. Elle minimise également artificiellement la population pouvant être supportée par le modèle, en ne laissant qu’une chance minime, en fonction de la densité des ressources dans l’environnement, à chaque individu de disposer des ressources nécessaires à sa survie. — En termes d’adaptation sur GPU, ce comportement réduit la démarche de chaque individu au simple tirage aléatoire d’un jeu de coordonnées. Ce tirage rend inutile tout parcours de données sur GPU, et ne requiert plus qu’une gestion des conflits et la génération de nombres aléatoires. Ces deux processus sont difficiles à réaliser sans rendre partiellement séquentiels les deux traitements, ce qui limite l’intérêt des centaines de coeurs offerts par l’architecture. Cette stratégie de déplacement aléatoire est surtout utilisée pour valider le fonctionnement d’une nouvelle simulation. 5.2.2 Proie la plus proche Cette seconde stratégie implique un parcours pour chaque individu de l’ensemble des cases du modèle qui sont à sa portée, suivi par un déplacement sur la position de la proie la plus proche. Elle requiert un grand nombre d’accès mémoires pour évaluer toutes les cases destinations possibles, ainsi qu’une notion de priorité entre ces cases : une case proche contenant une proie doit être préférée à une autre case solution plus éloignée. Une manière d’éviter le calcul de la distance de chaque proie est d’effectuer le parcours des cases voisines sous forme d’une spirale comme illustré par la Figure 5.2. Ce parcours en spirale permet non seulement de garantir que les proies seront automatiquement considérées par ordre d’éloignement, mais offre également l’avantage de pouvoir arrêter l’évaluation à la première proie détectée (court-circuit).CHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 72 individu cible rayon Figure 5.2 – Principe de recherche de la proie la plus proche Cet algorithme est aisément parallélisable sur GPU en attribuant une tâche à chaque individu, puis en effectuant le parcours des cellules voisines sous forme de boucle à l’intérieur de chacune de ces tâches. Il implique néanmoins, du fait de la condition d’arrêt, une forte variabilité du nombre de cellules à parcourir et donc du temps d’exécution de chaque tâche. Il n’est pas facile de paralléliser davantage ce parcours en spirale en confiant l’examen de chaque case candidate à un thread distinct. Cet algorithme de déplacement requiert en effet la prise en compte des cases dans un ordre particulier, qui n’est pas garanti par l’ordonnanceur GPU. Une solution à ce problème est d’introduire un calcul de la distance pour chaque destination potentielle, suivie d’une réduction pour ne conserver que la cible détectée la plus proche de l’individu. Cette stratégie minimise la distance de déplacement de chaque prédateur, mais n’est pas forcé- ment la meilleure en termes de survie à moyenne ou longue échéance, car la proie la plus proche n’est pas forcément la plus dotée en énergie. 5.2.3 Proie la plus énergétique Une autre stratégie de déplacement possible est de sélectionner cette fois systématiquement la proie à portée disposant de la plus grande quantité d’énergie. Cette stratégie, qui permet de toujours sélectionner la proie la plus intéressante immédiatement accessible, garantit la sélection d’une proie équivalente ou supérieure en énergie par rapport à la sélection de la cible la plus proche. Elle impose cependant le parcours de l’ensemble des cases à portée avant de pouvoir tirer une conclusion, tel qu’illustré par la Figure 5.3. Le nombre d’accès à la mémoire est d’autant plus important, en comparaison avec la recherche de la proie la plus proche, que le modèle est dense. Ce parcours obligatoire de l’ensemble des cellules à portée rend cette stratégie beaucoup plus coûteuse en nombres d’accès mémoire. L’absence de priorité entre les différentes cases voisines permet cependant des accès plus réguliers sur GPU, ligne par ligne ou colonne par colonne, pour mieux tirer parti du chargement des données par paquet ou du regroupement des accès mémoire réalisés à l’exécution. 5.2.4 Compromis et stratégies avancées En fonction de l’intelligence du prédateur modélisé, il peut être pertinent de combiner une ou plusieurs des stratégies suggérées ci-dessus. Ainsi, si aucune proie n’est à portée d’un individu, un déplacement aléatoire par défaut offre une chance de se rapprocher de densités de proie plusCHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 73 individu cible rayon Figure 5.3 – Principe de recherche de la proie la plus énergétique importantes. Ce déplacement comporte cependant également le risque d’éloigner l’individu des ressources recherchées, et son intérêt est donc très dépendant des paramètres du modèle et de la répartition géographique des agents. Nous avons fait le choix dans notre modèle de ne pas déplacer l’individu en l’absence de cible, pour éviter ce problème. Au-delà de ces compromis instantanés entre plusieurs comportements, la recherche de cible ouvre également la voie à de véritables intelligences, avec mémorisation des proies. Il est ainsi possible d’intégrer la possibilité pour le prédateur de suivre sa proie si celle-ci quitte son champ de vision immédiat. Un autre mécanisme pouvant être implémenté est un comportement de persistance : si plusieurs cibles offrent des caractéristiques très similaires, mais deviennent tour à tour les plus intéressantes du fait de micro-variations du modèle entre chaque itération, il est alors pertinent de pousser l’individu à se concentrer sur une seule cible, plutôt que de dépenser son énergie à courir dans diverses directions. 5.3 Adaptation OpenCL Après avoir présenté les principales approches de modélisation possibles pour le modèle proieprédateur et en particulier les différents algorithmes de déplacement et leur influence sur la simulation, tant en termes de modèle que de parallélisation, nous étudions dans cette section les choix d’implémentation effectués pour notre implémentation OpenCL. 5.3.1 Algorithme retenu Pour évaluer l’efficacité de l’adaptation de ce type d’algorithme sur plate-forme GPGPU, nous avons choisi d’implémenter l’algorithme proie-prédateur décrit dans l’algorithme 1. Cette implémentation est caractérisée par la simulation de trois populations, dont deux repré- sentent des prédateurs : — L’herbe, ou végétation représente les ressources végétales pouvant être consommées par la population herbivore du modèle. — Les proies représentent la première population prédatrice du modèle, capables de consommer des végétaux, de se déplacer et de se reproduire. Cette population est caractérisée par son abondance, liée à des besoins limités et un taux de fertilité important. — Les prédateurs représentent la seconde population prédatrice du modèle, capable de consommer des proies de la première population. Cette seconde catégorie d’individus estCHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 74 Algorithme 1 : Algorithme proie-prédateur retenu Data : grass Grille de flottants représentant la couche herbe Data : preys Grille de flottants représentant la couche proies Data : preds Grille de flottants représentant la couche prédateurs Data : n Largeur de chacune des trois grilles d’entrée Data : m Hauteur de chacune des trois grilles d’entrée 1 for i = 0 to n do 2 for j = 0 to m do 3 grass[i][j] ← grass[i][j] + growth; 4 end 5 end 6 for (i, j) ∈ (proiesX, proiesY) do 7 x, y ← f indT arget(i, j); 8 if preys[i][j] vide then /* Déplacement de la proie en x, y */ 9 preys[x][y] ← preys[i][j]; 10 preys[i][j] ← 0; 11 end /* Consommation des végétaux */ 12 preys[x][y] ← clamp(preys[x][y] + grass[x][y], prey_min, prey_max); /* Diminution de l’énergie de la proie */ 13 preys[i][j] ← preys[i][j] − delta; 14 if preys[i][j] < 0 then /* Décès de la proie */ 15 preys[i][j] ← 0; 16 end 17 end 18 for (i, j) ∈ (predateursX, predateursY) do 19 x, y ← f indT arget(i, j); 20 if preds[i][j] vide then /* Déplacement du prédateur en x, y */ 21 preds[x][y] ← preds[i][j]; 22 preds[i][j] ← 0; 23 end /* Consommation de la proie */ 24 preys[x][y] ← 0; /* Diminution de l’énergie du prédateur */ 25 preds[i][j] ← preys[i][j] − delta; 26 if preds[i][j] < 0 then /* Décès du prédateur */ 27 preds[i][j] ← 0; 28 end 29 endCHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 75 associée à des besoins plus importants, et un taux de fertilité relativement plus faible. Cet algorithme pose plusieurs problèmes de parallélisation : — L’évolution de chaque population dépend des mises à jour des populations précédentes. — Plusieurs individus d’une même population peuvent tenter de se déplacer au même endroit. — L’algorithme repose sur le parcours des positions des proies et des prédateurs. Cette liste de positions doit être mise à jour au fur et à mesure de la disparition et de l’apparition de nouveaux individus. 5.3.2 Représentation mémoire Dans notre implémentation OpenCL, nous avons fait le choix de représenter les données globales du modèle sous la forme d’une unique structure mémoire accessible en lecture seule à toutes les tâches GPU. Ces informations comprennent l’ensemble des données d’entrée de la simulation : taux de métabolisme et de croissance des ressources végétales, énergie minimale et maximale pour chaque individu... Chaque population est stockée sous forme de grille à deux dimensions (Figure 5.4). Toutes ces grilles font la même taille, et peuvent être considérées comme une vision particulière de l’espace de simulation. La présence d’un agent est indiquée par une énergie strictement positive dans une cellule, et l’absence d’individu correspond à une valeur d’énergie négative ou nulle. Prédateurs Proies Végétation Figure 5.4 – Stockage retenu pour les populations et les niveaux d’énergie du modèle proieprédateur Pour éviter un parcours complet de chaque grille pour localiser les individus, quatre tableaux statiques indiquant la position des agents proies et prédateurs du modèle sont également spécifiés en paramètres des traitements de mise à jour et de déplacement : — Un tableau comprenant les positions en x des proies. — Un tableau comprenant les positions en y des proies. — Un tableau comprenant les positions en x des prédateurs. — Un tableau comprenant les positions en y des prédateurs. Ces tableaux de positions sont mis à jour par le CPU entre chaque itération de la simulation pour prendre en compte l’apparition de nouveaux individus ou les décès d’agents existants. Cette mise à jour sur le processeur hôte permet d’éviter toute problématique de réallocation mémoire non supportée sur GPU.CHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 76 5.3.3 Extraction de sections parallèles Il est possible de paralléliser le modèle proie-prédateur de deux manières sur GPU : — Soit en réalisant l’ensemble de la simulation sur GPU. — Soit en n’intervenant que sur les traitements coûteux et parallélisables. La première approche implique de gérer la totalité des problèmes de parallélisation posés par le modèle en OpenCL, et en particulier la gestion des structures de données dynamiques comprenant les positions des proies. Elle implique également le traitement de populations agents très diverses en nombre, qu’il s’agisse de l’herbe, des proies, ou des prédateurs. Cette diversité impose soit une réalisation de la simulation en plusieurs lancements OpenCL, soit une occupation très disparate des threads d’exécution lancés sur la carte graphique aux différents stades de l’exécution. Nous avons donc fait le choix de privilégier la seconde approche, où la simulation est au départ intégralement réalisée sur CPU, pour en adapter ensuite un ou plusieurs traitements sur GPU. Dans ce cas, un point central de l’adaptation est de sélectionner les portions du programme à même de bénéficier d’une parallélisation sans modification fondamentale de l’algorithme. Cette sélection est favorisée par l’existence dans le modèle d’opération de transformation ou de réductions analogues à celles proposées par des bibliothèques telles que BLAS ou MPI. C’est en particulier le cas de l’opération de mise à jour des ressources végétales, qui correspond à l’application d’une même fonction mathématique à chaque cellule de l’environnement, et le cas de la réduction de la quantité d’énergie présente dans le modèle. Dans l’algorithme décrit, trois traitements semblent de bons candidats à une telle extraction : — La mise à jour des ressources végétales. L’application d’une transformation mathématique simple à chaque cellule, sans dépendance sur ses voisines, permet l’utilisation d’une tâche OpenCL pour la mise à jour de chaque cellule. L’absence de synchronisation permet ainsi de tirer aisément parti du grand nombre de coeurs du GPU. Le coût de cette section est également directement proportionnel à la taille de l’environnement de simulation, plutôt qu’au nombre d’individus présents dans le modèle, ce qui garantit un temps de calcul important et aisément prévisible en connaissant les dimensions du modèle d’entrée. Cette opération revient à l’application d’une même fonction mathématique à chaque cellule de l’environnement. — La recherche des nouvelles positions pour chaque individu. Si la gestion des individus est malaisée à implémenter de manière intégrale sur GPU, du fait de l’apparition ou de la disparitions des agents, ou des nombreuses conditions rencontrées dans l’algorithme, la recherche de cibles de déplacement implique le parcours d’un nombre de cellules d’autant plus important que le nombre et la portée de chaque agent augmentent. Réaliser ce calcul sur GPU permet le parcours de cellules en parallèle pour chaque position d’individu du modèle, et laisse ensuite la possibilité au CPU d’intervenir au niveau de la prise en compte de cette valeur brute, en l’ignorant ou l’adaptant si nécessaire. — Totalisation des quantités d’énergie présentes dans le modèle. Le choix de représentation de chaque population dans une grille spécialisée, enfin, permet aisément d’effectuer la somme des valeurs de l’ensemble des cellules de la grille pour obtenir l’énergie totale à une itération donnée représentée sous forme de végétaux, de proies ou de prédateurs. Ce traitement revient à une forme de réduction cas de la quantité d’énergie présente dans chaque grille du modèle.CHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 77 5.4 Synthèse Dans ce chapitre, nous avons évoqué une parallélisation possible du modèle proie-prédateur reposant sur la délégation de certaines fonctions au GPU. La parallélisation d’une partie du modèle est motivée par deux observations : — Certains traitements correspondent directement à des opérations déjà parallélisées par des bibliothèques telles que BLAS ou MPI. C’est en particulier le cas de l’opération de mise à jour des ressources végétales, qui revient à l’application de la même fonction mathématique à chaque cellule de l’environnement, et le cas de la réduction de la quantité d’énergie présente dans le modèle. — D’autres traitements, comme le déplacement, impliquent la réalisation d’un grand nombre d’itérations de boucle pour chaque agent dans le modèle. Dans ce cas, cette opération de recherche peut être parallélisée, de manière à permettre à tous les agents de consulter l’environnement simultanément. Au vu de notre contexte et de cette première démarche de parallélisation d’un système multiagents, il est maintenant possible de présenter les différentes approches pouvant être utilisées pour l’adaptation de ce type de système sur GPU.6 Methodes d ´ ’adaptation SMA sur GPU Au vu de notre contexte et de notre démarche de parallélisation du modèle proie-prédateur en OpenCL, il est possible de dégager trois méthodes principales d’utilisation du GPU pour des simulations multi-agents : l’adaptation de la totalité du modèle, la parallélisation de certaines opé- rations, ou le recours à des opérations parallélisées existantes. La première approche, l’adaptation de la totalité du modèle, implique l’implémentation de l’ensemble de l’algorithme sur GPU par le concepteur. Dans ce cas, l’essentiel de la simulation utilise le langage et les structures de données OpenCL pour son exécution, et la gestion de l’allocation, de la copie et de la manipulation des structures de données est directement effectuée par le programme. Cette solution permet également un contrôle total de l’exécution par le programme. La seconde approche, la parallélisation de certaines opérations seulement sur GPU, vise à maximiser le gain en performance obtenue tout en conservant une démarche de parallélisation incré- mentale. Cette approche partielle permet de conserver les aspects complexes de la simulation sur le CPU, comme dans le cas de la gestion des listes de positions de chaque individu dans le modèle proie-prédateur. Elle requiert elle aussi une expertise en programmation pour implémenter ces opérations parallélisées. La troisième approche, enfin, est de réutiliser des opérations de haut niveau déjà parallélisées sur GPU. Cette approche permet l’utilisation de la puissance des cartes graphiques dans une simulation multi-agents sans connaissance particulière de l’architecture. Elle implique toutefois de se conformer à l’interface de ces fonctions existantes en visant une certaine généricité des traitements. Dans le modèle proie-prédateur, il est ainsi intéressant de se ramener à des opérations matricielles, plutôt que d’effectuer le traitement de chaque case de manière indépendante. Dans les sections suivantes, nous présentons dans un premier temps comment l’espace de simulation utilisé par le système multi-agents est susceptible d’orienter le choix du concepteur vers l’une ou l’autre de ces approches. Nous évoquons ensuite, pour chacune de ces trois solutions, les contraintes associées pour permettre une utilisation efficace de la parallélisation sur GPU. 6.1 Gestion de la dimension spatiale L’algorithme d’évolution d’un système multi-agents ne fixe généralement pas de bornes particulières au nombre d’individus ou à la taille de l’environnement utilisé dans le modèle. Ces deux paramètres sont déterminés par le scénario de la simulation. Une connaissance même approximative de ces paramètres au moment de la conception d’un programme permet cependant au développeur de privilégier a priori certaines structures de données. Le choix d’utiliser un dictionnaire se justifie ainsi pour indexer un grand nombre d’éléments,CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 80 mais s’avère au contraire pénalisant pour une très petite quantité de données, du fait des traitements supplémentaires requis par la gestion de la structure. Cette connaissance préalable est également importante dans le cadre de l’implémentation d’un système multi-agents : si certaines portions de l’algorithme présentent un coût constant, comme l’initialisation des variables globales, d’autres sont directement liées à ces paramètres d’exécution. La mise à jour des agents peut ainsi présenter un coût linéaire par rapport au nombre d’agents présents dans le modèle. Au contraire, la recherche dans un voisinage dans un espace de simulation en deux dimensions représente un coût évoluant de manière quadratique. Suivant les modèles, cette topologie spatiale est présente sous forme de structure de données explicite, dans le cas du modèle proie-prédateur, ou de manière plus abstraite. Ce second type est illustré par le graphe d’accessibilité utilisé pour le modèle MIOR plus loin dans ce mémoire. Cette variation des coûts en fonction des paramètres d’entrée influence directement les performances obtenues par une implémentation particulière, et en particulier par une adaptation sur le GPU, en application de la loi d’Amdhal. Si les portions adaptées sur GPU sont parallélisables et deviennent de plus en plus coûteuses avec l’augmentation du nombre d’agents ou de la taille de l’espace de simulation, l’utilisation de cette plate-forme sera alors d’autant plus avantageuse en regard au CPU que ces deux paramètres augmentent. Au contraire, si le coût de ces portions parallélisées reste constant ou très limité dans la plage de paramètres qui intéresse le chercheur, les gains offerts par telle adaptation seront plus limités. Dans toute expérimentation, il apparaît donc prometteur d’identifier les traitements dont le coût augmente rapidement en regard de l’espace de simulation du système, puis d’évaluer l’impact sur les performances de ces traitements sur différentes tailles du système, si possible avec un facteur de mise à l’échelle assurant un comportement identique de la simulation. 6.2 Développement d’un modèle sur GPU La première approche de parallélisation d’un système multi-agents sur GPU est de réaliser l’ensemble du modèle sur ce support. De nombreuses réalisations de ce type ont été présentées dans la section 3.3.1. Cette approche requiert toutefois la maîtrise du modèle de programmation GPU, ainsi que la gestion de nombreuses problématiques par le concepteur du modèle. Nous détaillons ces différentes problématiques dans la suite de cette section. 6.2.1 Implémentation des structures de données OpenCL ne spécifie pas, en tant que standard basé sur le langage C, de structures telles que les listes chaînées ou les grilles : les seules structures de données gérées directement par le langage sont les types primitifs, les structures et les tableaux statiques. Pour pouvoir adapter un modèle multi-agents sur GPU, il est donc nécessaire de convertir toutes les structures décrites dans le modèle en combinaison d’un ou plusieurs de ces types de données. Cette restriction limite le modèle à l’utilisation de tableaux statiques à une dimension ou à des structures spécifiques telles que les textures pour représenter les grilles souvent rencontrées dans les systèmes multi-agents. Cette conversion en structures de données implique des choix de représentation. La Figure 6.1 illustre ainsi deux manières possibles de représenter une matrice en OpenCL, sur la base d’une linéarisation ligne par ligne ou colonne par colonne. Chacune de ces alternatives est adaptée à un mode particulier d’accès aux données. La linéarisation par ligne permetCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 81 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 1 4 7 2 5 8 3 6 9 Linéarisation par lignes Linéarisation par colonnes Figure 6.1 – Linéarisation par lignes ou par colonnes d’une grille à deux dimensions de tirer un meilleur parti de la localité des données en cas de traitements sur des lignes complètes de matrice, et en particulier du chargement des données par paquet par la carte graphique. Elle est également adaptée à la répartition des cellules de chaque ligne entre plusieurs traitements, en permettant à la carte graphique de grouper l’accès aux données voisines en mémoire. Ces deux avantages disparaissent dans le cas d’un traitement de la matrice colonne par colonne où il sera alors nécessaire de préférer une linéarisation par colonnes, pour les mêmes raisons. La conversion de ces structures est rendue plus difficile en OpenCL, par rapport au C, par l’impossibilité d’utiliser des pointeurs à l’intérieur des structures de données GPU [ope]. Toute structure basée sur ce concept (liste chaînée, graphe...) doit également être représentée sur GPU sous forme d’un ou plusieurs tableaux statiques ou d’objets texture avec une perte en flexibilité d’utilisation. La gestion de ces représentations alternatives doit être prise en charge à la fois au niveau du système hôte, pour permettre l’allocation et l’initialisation de ces structures de données, et au niveau du périphérique d’exécution. La plupart des bibliothèques OpenCL décrites dans notre contexte se focalisent sur l’utilisation de structures et d’opérations du côté hôte uniquement, en délégant à l’implémentation le soin de gérer les données indiquées, même si des bibliothèques comme ELMO [FVSS13] facilitent certains traitements au niveau de l’exécution GPU. 6.2.2 Allocation et gestion de la mémoire OpenCL requiert également une gestion totalement manuelle de la mémoire de la part du dé- veloppeur, au contraire de langages comme Java ou de nombreuses plates-formes multi-agents qui intègrent un mécanisme de ramasse-miettes chargé de la libération automatique des ressources. Cette gestion manuelle de la mémoire est basée sur un mécanisme de comptage des références à chaque objet natif OpenCL, où la mémoire est libérée une fois que plus aucune référence n’existe sur l’objet. Ce mécanisme implique une vigilance importante de la part du développeur pour s’assurer que les ressources natives sont effectivement libérées après utilisation. Une dernier aspect important de la gestion en mémoire est que son allocation repose, comme en C, sur la demande d’un espace de taille fixée au système. La zone mémoire obtenue n’est pas typée, et peut être utilisée indifféremment pour n’importe quel type de donnée. Si cette généricité permet d’envisager la réutilisation du même espace mémoire pour plusieurs données du modèle, elle empêche également toute vérification automatique de son utilisation par le compilateur ou la plate-forme d’exécution. Les espaces mémoires obtenus sont également caractérisés, comme en C, par l’absence de toute vérification de la validité des accès. Il est ainsi aisément possible, en manipulant des tableauxCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 82 de données, d’écrire ou de lire à des adresses mémoires invalides. Ce type d’erreur n’est pas nécessairement détecté par la plate-forme d’exécution, et impose une grande vigilance dans l’accès aux structures de données pour éviter de corrompre silencieusement les données de la simulation. 6.2.3 Gestion de l’exécution Au-delà de la gestion de la représentation des données du modèle, la réalisation d’un modèle multi-agents directement sur GPU pose la question de la granularité de parallélisation de l’exécution et du type de distribution des données à retenir : est-il préférable d’effectuer la totalité de la simulation en un seul lancement de kernel ? Vaut-il mieux, au contraire, découper l’exécution en plusieurs kernels correspondants à des données et des traitements différents ? Comment découper l’algorithme utilisé en threads ? Granularité de parallélisation La décomposition du traitement à effectuer en nombreux threads est un pré-requis important pour une exécution efficace du nombre important de coeurs fournis par l’architecture matérielle GPU. L’exécution d’un agent à la fois n’a ainsi aucun intérêt si l’exécution de cet agent n’est pas parallélisable et coûteuse en soi, du fait des coûts de transfert, du faible taux d’occupation et des temps d’exécution obtenus. Une manière d’assurer ce découpage est d’exécuter tous les agents du modèle de manière simultanée (parallélisation "en largeur"), en associant chaque agent à un thread d’exécution. Une alternative est une parallélisation dite "en profondeur", dans laquelle chaque agent réalise un ou plusieurs calculs coûteux à même d’être largement parallélisés, de manière à justifier son exécution indépendante sur GPU. Le choix du nombre de kernels devant être utilisés pour la réalisation de la simulation dépend de plusieurs facteurs : L’algorithme a un impact primordial sur le type de parallélisation retenue. Il peut être aisément parallélisable, s’il s’agit par exemple d’un traitement indépendant sur chaque élément d’une grille d’entrée, ou au contraire imposer de nombreuses synchronisations entre agents. Si tous les threads d’une exécution doivent conclure les mêmes opérations avant de pouvoir continuer l’exécution de la simulation, des barrières d’exécution deviennent nécessaires. Le découpage en programmes distincts est un autre moyen d’obtenir implicitement ce type de synchronisation. Le nombre de threads (work-items) devant être lancés. Le nombre et l’organisation des threads associés à un kernel sont fixés au niveau du lancement et ne peuvent pas être modifiés en cours d’exécution. Si plusieurs populations d’agents de tailles variées, ou des structures de taille très variées, existent dans le modèle, il est préférable d’utiliser un découpage adapté à chaque population, plutôt qu’un unique découpage peu adapté, de manière à maximiser l’utilisation des threads lancés. Le lancement en un seul kernel d’une simulation proie-prédateur comprenant 2000 proies et 100 prédateurs implique ainsi l’utilisation de 2000 works-items, si chaque population doit être traitée en parallèle. Si ce découpage est optimal en regard du nombre de proies, seuls 5% des threads seront effectivement utilisés pour la simulation les prédateurs, ce qui induit une irrégularité importante en temps de traitement sur GPU. Les dépendances de données. Le type des données manipulées et leur utilisation dans les différentes phases de l’exécution ont également leur importance en termes de découpage. Ainsi, les objets textures ne sont accessibles qu’en lecture ou en écriture au sein d’un même lancement.CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 83 Les dépendances de transfert. Certaines données peuvent également demander des traitements intermédiaires sur CPU avant de poursuivre l’exécution sur GPU. Dans ce cas, l’application de ces traitements requiert une récupération des données par le CPU, un calcul, puis une nouvelle copie sur GPU, et les coûts de transferts associés. La fréquence et le nombre des transferts devant être réalisés. Le fait de déléguer une partie de la simulation au GPU impose l’échange régulier de données entre les deux plates-formes d’exé- cution, pour la mise à jour de la simulation ou la récupération de résultats. S’il est plus intéressant d’effectuer tous les traitements en un minimum de lancements, pour limiter les coûts associés à ces transferts, des contraintes en termes de découpage d’exécution, évoqués dans le paragraphe précé- dent, ou en termes de visualisation de la simulation peuvent imposer le découpage de la simulation en plusieurs étapes de traitement. Distribution des données L’exécution en OpenCL est basée sur le découpage de la tâche en une grille à une, deux ou trois dimensions de threads (ou work-items) exécutant le même traitement pour l’accès aux données. Chacun de ces threads est associé à une position dans cette grille. Dans ces circonstances, il est naturel de souhaiter adapter ce découpage d’exécution au découpage retenu pour les données, de manière à pouvoir utiliser ces positions dans les traitements. Pour les systèmes multi-agents, cette association revient souvent à associer un thread à chaque agent en cours de traitement du système. Cette association entre index dans la grille d’exécution et agent ouvre la voie à deux possibilités de représentation des données des agents dans le modèle, illustrées par la Figure 6.2. positionX positionY positionZ positionX positionY positionZ positionX positionY positionZ positionX positionY positionZ x1 x2 x3 x4 ... xn x y z x2 y2 z2 x3 y3 z3 ... xn yn zn x1 y1 z1 y1 y2 y3 y4 ... yn z1 z2 z3 z4 ... zn x4 y4 z4 Agent 1 Agent 2 Agent 3 Agent 4 positionX positionY positionZ positionX positionY positionZ positionX positionY positionZ positionX positionY positionZ Agent 1 Agent 2 Agent 3 Agent 4 Figure 6.2 – Représentations possibles des propriétés multi-agents en termes de structures OpenCL La première approche pour le stockage de ces données est d’associer à chaque ensemble de propriétés son propre tableau à une dimension. Dans le cas où chaque agent est associé à un triplet de coordonnées réelles (x, y,z) représentant sa position dans l’espace de simulation, ce processus se traduit par le stockage de ces informations sous forme de trois tableaux de réels, un parCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 84 coordonnées. Le nombre de tableaux à une dimension obtenu est directement lié au nombre de propriétés différentes associées à chaque agent : si ce nombre augmente, le nombre de tableaux nécessaires, et donc le nombre de paramètres devant être passés au programme, augmente également. Si le modèle agent décrit plusieurs types d’individus différents, dotés ou non de certaines propriétés, un choix se pose alors au concepteur du stockage mémoire : soit d’effectuer l’union de tous les ensembles de propriétés stockés dans le modèle, soit de dédier à chaque type d’agent son ensemble de tableau, sans réutilisation. Le premier cas permet de limiter l’explosion du nombre de paramètres quand de nombreuses informations sont communes à toutes les catégories d’agents, comme une position. Elle signifie cependant que chaque tableau de propriétés n’est plus applicable à l’ensemble des agents, et comprendra donc des “lacunes” correspondant aux agents pour lesquels cette propriété n’est pas définie. Ces lacunes peuvent avoir à être ignorées au moyen de tests nuisant à l’utilisation effective des coeurs d’exécution en forçant le matériel à évaluer les deux branches de la condition. Le second cas évite ce problème, chaque propriété étant définie pour l’ensemble du type d’agent décrit, au prix d’une multiplication du nombre de structures de données devant être gérées dans la programmation du modèle. Une seconde approche est une programmation “objet”, où chaque ensemble de propriétés est stocké dans sa propre structure spécialisée. Il est dans ce cas important de prendre en compte l’augmentation de l’espace mémoire engendré par l’alignement des attributs de chaque structure. Une règle simple pour minimiser ces pertes mémoires est, autant que possible, d’organiser les propriétés par ordre de taille dans la description de la structure. Cette opération n’est pas effectuée automatiquement par la plupart des compilateurs pour éviter de produire des représentations binaires différentes, et donc des incompatibilités, en fonction du logiciel utilisé pour compiler chaque portion de programme. Le choix de l’une ou l’autre de ces solutions est à la fois gouverné par les considérations dé- crites en termes de stockage (nombre de paramètres nécessaires, de types distincts, recouvrement ou non de nombreuses propriétés entre les agents) et par l’algorithme lui-même, et plus particuliè- rement l’ordre et le mode d’accès aux données. Ainsi, dans le cadre d’un kernel où tous les agents accèdent à une seule propriété, un stockage des propriétés par tableaux permet de récupérer cette information pour tous les agents voisins en une seule requête, du fait des lectures par paquet effectuées par le GPU. Si l’exécution de chaque agent est au contraire basée sur l’accès à ses propres données uniquement, l’utilisation de tableaux de structures permet dans ce cas de récupérer toutes les propriétés associées à l’agent de manière simultanée. 6.2.4 Diagnostic des erreurs Le développement et le diagnostic des erreurs de modèles complets sur GPU sont rendus diffi- cile par l’impossibilité d’écrire des informations de diagnostic dans une sortie ou dans un fichier pendant l’exécution OpenCL. La récupération des erreurs est également rendue ardue par la nature asynchrone de l’exécution sur GPU. Cette asynchronisme se traduit par une vérification des erreurs sur de nombreuses implémentations d’OpenCL au moment de la soumission de la prochaine opération seulement. Cette soumission peut n’avoir aucun rapport avec l’exécution fautive ou être éloignée, ce qui retarde la découverte du dysfonctionnement. Enfin, la remontée des erreurs est effectuée, comme en C, sous forme de codes de retours prédéfinis n’indiquant pas la source et la position précise de l’erreur dans le programme. Ces codes d’erreurs sont de plus susceptibles de varier entre implémentations d’OpenCL.CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 85 Il est possible de pallier, dans une certaine mesure, à ces difficultés de diagnostic en examinant régulièrement l’évolution des structures de données de la simulation au cours du processus de développement, ou en écrivant des informations de diagnostic dans des structures de données de sorties spécialisées. Cette solution ne fonctionne cependant pas en cas d’interruption du kernel d’exécution, et permet surtout la validation du bon fonctionnement de la simulation. 6.3 Parallélisation de certains traitements Une seconde approche de parallélisation d’un système multi-agents sur GPU est de ne réaliser que certains traitements sur carte graphique et de conserver le reste de la simulation sur CPU. Cette approche permet de conserver les aspects complexes de la simulation sur le CPU, comme dans le cas de la gestion des listes de positions de chaque individu dans le modèle proie-prédateur. Elle permet de tirer parti de la puissance du GPU pour des traitements parallélisables et coûteux en temps de calcul, et donc d’accélérer l’exécution du modèle dans son ensemble, mais requiert elle aussi une expertise en programmation pour implémenter ces opérations. L’utilisation de deux langages et architecture d’exécution différentes dans la même simulation impose également de pouvoir transformer les structures de données utilisées sur CPU en structures équivalentes sur GPU, et inversement, pour les informations communes aux deux modes d’exécution. 6.3.1 Adaptation des structures de données CPU Le langage Java est associé à une très vaste bibliothèque de structures de données prédéfinies à la disposition des développeurs. Cette base commune permet au concepteur de nouvelles bibliothèques Java de disposer des structures les plus courantes, comme les dictionnaires, les listes ou des files d’attente sans avoir besoin d’en développer sa propre implémentation ou de recourir à des bibliothèques externes. Cette standardisation des structures de données facilite également leur partage et leur adaptation sous forme de structure OpenCL. 6.3.2 Exécution synchrone ou asynchrone Les simulations multi-agents sont basées sur le découpage de leur évolution en étapes discrètes déclenchées de manière régulière (pas de temps) ou par certains événements. L’exécution du modèle ou de la plate-forme est également souvent synchrone, pour faciliter la gestion de la mise à jour de la vue ou des résultats de la simulation. Le modèle d’exécution offert par OpenCL est, pour sa part, basé sur une exécution asynchrone par le biais d’un mécanisme de file d’attente. L’utilisation d’opérations asynchrones favorise la réalisation de tâches en parallèle de l’exécution de traitements et l’indication de dépendances entre tâches, tandis que l’exécution synchrone permet un blocage implicite de l’exécution du modèle multi-agents dans l’attente de résultat. Dans ces circonstances, une première approche est d’interrompre le déroulement de la simulation sur CPU pour chaque traitement sur GPU en effectuant des soumissions synchrone. Le déroulement de l’exécution obtenue est illustré par la Figure 6.3. Cette approche revient à bloquer l’exécution de la totalité du modèle tant que le traitement GPU n’est pas terminé, alors qu’il serait par exemple possible d’exploiter le CPU pour réaliser des opérations d’affichage ou encore la mise à jour ou l’exécution d’autres parties du modèle.CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 86 Traitement CPU 1 Traitement CPU 4 Traitement GPU 1 Traitement GPU 2 Traitement CPU 2 Traitement CPU 3 Traitement CPU 3bis Figure 6.3 – Synchronisation bloquante de chaque traitement GPU Une seconde approche est de lancer l’ensemble des traitements GPU en une seule fois pour obtenir le type de déroulement de l’exécution illustré par la Figure 6.4. Dans ce cas, les opérations GPU sont lancées à la suite, au moyen du système de dépendances fourni par OpenCL, et le programme CPU attend la fin de l’ensemble des traitements plutôt que chaque opération intermédiaire. Cette approche permet de tirer parti du CPU et du reste des ressources matérielles de la machine pendant l’exécution sur GPU, au prix toutefois d’une certaine désynchronisation des traitements à l’intérieur de l’itération, du fait de l’exécution de plusieurs traitements consécutifs en arrière plan, avant leur réintégration dans la simulation. Traitement CPU 1 Traitement CPU 4 Traitement GPU 1 Traitement GPU 2 Traitement CPU 2 Traitement CPU 3 Figure 6.4 – Synchronisation bloquante à la fin des traitements GPUCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 87 Ces deux approches offrent comme avantage la conservation de l’ensemble des traitements au sein de la même itération. Dans les deux cas, l’ensemble des traitements GPU est terminé et réintégré à chaque pas de temps. Elles montrent cependant leurs limites dans deux situations : — Pour des traitements de fond très longs. Dans ce cas, la poursuite de l’itération est susceptible d’être bloquée pendant un temps important. — Si le recours au GPU à chaque itération ne permet pas une exécution efficace. Il est dans ce cas possible de recourir à un système de mise en attente des traitements pour grouper par lots les lancements à effectuer. Une troisième solution est donc de désynchroniser l’exécution des itérations de la simulation sur CPU et des traitements GPU. De cette manière, il devient possible d’exécuter plusieurs ité- rations avant de récupérer les données résultats, ou encore de rassembler les travaux de plusieurs itérations avant exécution sur GPU. Cette approche est la plus délicate à gérer, et demande une connaissance fine du modèle simulé, pour déterminer le nombre d’itérations de décalage pouvant être admises entre traitements CPU et GPU, puisque le découpage en pas de temps n’est plus respecté. Ce choix du niveau de synchronisation implique également un choix du nombre d’étapes de lancements utilisées pour effectuer les traitements, en fonction du taux de contrôle et des différents découpages de parallélisation pour chaque portion de calculs, comme nous l’avons vu dans le choix de la granularité de parallélisation pour l’implémentation d’un modèle sur GPU. Dans des modèles qui ne requièrent que des mises à jours partielles ou sporadiques du système, il peut être difficile de rassembler d’assez grandes quantités de traitements pour bénéficier d’une exécution sur GPU. La mise en place d’un mécanisme de file d’attente est alors nécessaire, de manière à rassembler les traitements en attente et les exécuter par lot de manière asynchrone, plutôt que sous forme de lancements indépendants. Cette approche, illustrée par la Figure 6.5, permet ensuite la récupération des résultats par la simulation au moyen d’une autre file de données. Modèle agent File de traitements en attente Exécution parallèle avec OpenCL Récupération des résultats Figure 6.5 – Regroupement des traitements en attente pour une exécution par lot sur GPUCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 88 6.3.3 Gestion de la mémoire Dans le cas où seuls certains traitements sont parallélisés sur GPU, il est possible de distinguer trois cycles de vie distincts pour les structures mémoires OpenCL : — Tout la durée d’utilisation du GPU. Ce cycle de vie comprend les structures de données, telles que le contexte d’exécution OpenCL ou les files de soumission de traitement, qui sont utilisées pour toute la durée de la simulation. La création d’un nouveau contexte est effectuée soit au moment de l’initialisation du modèle ou de la plate-forme, soit au moment du premier lancement OpenCL. Sa libération peut être gérée de la même manière, soit implicitement par la plate-forme ou la sortie du programme, soit explicitement par la simulation. La libération explicite du contexte d’exécution est importante dans le cas où le même programme créerait d’autres contextes par la suite, pour éviter toute perte de ressources liée aux anciens contextes d’exécution GPU encore présents en mémoire. — Le lancement d’un ensemble de fonctions apparentées ou de la même fonction à plusieurs reprises. La même opération peut être utilisée à chaque itération du modèle, ou plusieurs fois dans une même itération pour des fonctions différentes. C’est le cas, par exemple, dans le modèle proie-prédateur, de la fonction de déplacement utilisée à la fois pour les proies et les prédateurs. Dans ces circonstances, il est intéressant de ne pas avoir de nouveau à préparer et compiler les mêmes programmes GPU à chaque appel de la fonction. Cette réutilisation impose cependant, une fois de plus, la gestion de la mémoire par la plate-forme ou la simulation. Une solution est de permettre au développeur d’indiquer s’il est souhaitable de conserver les programmes entre chaque exécution, ou si la totalité des structures nécessaires au lancement doit être de nouveau préparée à chaque traitement. — Le lancement d’un seul traitement. Comme nous l’avons vu dans notre présentation du modèle de programmation GPU, l’exécution du lancement d’un programme implique une copie des données d’entrée sur le périphérique avant l’exécution, suivi d’une récupération des résultats une fois l’exécution terminée. Cette démarche donne lieu à l’utilisation de nombreux objets temporaires, susceptibles d’être alloués et libérés automatiquement par l’implémentation du traitement sur GPU, de manière transparente pour le reste de la simulation. La prise en compte de ces trois cycles de vie est importante pour permettre une gestion correcte de l’allocation et de la libération de la mémoire native, tout en minimisant la quantité de gestion manuelle de la mémoire devant être effectuée par le reste de la simulation, souvent basée sur un mécanisme de ramasse-miettes. L’utilisation de ce mécanisme n’est hélas pas possible pour automatiser toutes ces libérations, car son invocation n’est pas garantie par de nombreux langages et de nombreuses plates-formes tant qu’il reste de la mémoire disponible. Les structures natives n’étant que partiellement situées dans les données visibles par le programme, la saturation des ressources GPU ne déclenche pas ce mécanisme de récupération mémoire. La prise en compte du ramasse-miettes peut cependant venir en complément de cette gestion du cycle de vie des diffé- rentes structures GPU, en filet de sécurité supplémentaire permettant la libération de la mémoire. 6.4 Utilisation de traitements parallélisés existants Les deux approches précédentes correspondent à un premier scénario de parallélisation, où le concepteur dispose d’une expertise GPU à même de lui permettre de réaliser tout ou partie de la simulation sur cette architecture. Elles ne permettent cependant pas directement un second scénario d’utilisation, le recours au GPU sans connaissance particulière de l’architecture d’exécution ouCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 89 d’un langage de programmation GPGPU. Une troisième approche possible d’adaptation d’une simulation multi-agents est de réutiliser des opérations de haut niveau déjà parallélisées sur GPU, en considérant ainsi la programmation GPGPU comme une boîte opaque permettant d’améliorer les performances du programme. Elle ne requiert pas une gestion directe des ressources ou de l’exécution GPU par la simulation ou la plate-forme multi-agents. L’utilisation de fonctions génériques implique cependant, comme dans le cas de l’utilisation de bibliothèques matricielles ou d’algèbre linéaire, de ramener les portions de la simulation à paralléliser à des opérations et des structures de données standards pour pouvoir utiliser un traitement générique. Dans le modèle proie-prédateur, il est ainsi intéressant de ramener la mise à jour des végétaux ou la somme des énergies à des opérations matricielles, plutôt qu’à un traitement ponctuel par chaque agent dans l’algorithme. 6.4.1 Contrôle du contexte d’exécution OpenCL sélectionne par défaut automatiquement une périphérique d’exécution local présent sur la machine, CPU ou GPU, si aucun type de matériel n’est indiqué. Ce comportement facilite le lancement de calculs sans avoir à choisir explicitement un support parmi les solutions d’exécution disponibles. Il est toutefois important, dans le l’utilisation de traitements parallélisés pré-implémentés, que le concepteur de modèle ait la possibilité de contrôler le type de périphérique d’exécution utilisé, pour plusieurs raisons : — Dans le cas d’une parallélisation hybride, pour garantir que l’exécution des opérations aura bien lieu sur GPU, Xeon Phi, ou FPGA plutôt que sur le processeur déjà utilisé pour le reste de la simulation. — Pour permettre la comparaison entre différents matériels, de manière à mesurer l’impact sur les performances de différentes alternatives d’exécution. Pour faciliter au maximum l’utilisation de ces traitements agents parallélisés, et assurer leur portabilité sur de nombreuses machines, quelles que soient les ressources locales disponibles de manière générale, il est toutefois important de laisser la possibilité d’une sélection implicite du type de périphérique utilisé. Ce choix par défaut peut alors être celui du premier périphérique disponible, ou reposer sur des heuristiques plus complexes, privilégiant la solution disponible considérée comme la plus rapide en calcul. 6.4.2 Gestion de la mémoire L’utilisation de traitements parallélisés existants libère l’utilisateur de la responsabilité de la gestion des structures mises en jeu de manière interne par les traitements, mais requiert toujours la prise en compte des structures persistantes entre plusieurs traitements. Le fait de devoir préparer à nouveau un contexte d’exécution et compiler un programme GPU pour chaque opération peut poser problème dans le cas de calculs courts. Ces préparations prennent alors en effet un temps important en regard du temps effectivement passé en calcul sur le périphé- rique. Une solution à ce problème est de regrouper les traitements de même type sous forme de mo-CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 90 dule, à même d’être préparé une seule fois et réutilisé pour lancer plusieurs fois le même traitement. Dans ce cas, le lancement d’un traitement parallélisé sur GPU peut être décomposé très simplement : — Création d’un contexte. — Instantiation d’un module d’exécution. — Lancement de n traitements fournis par ce module. — Libération du module après utilisation. — Libération du contexte. Il est possible d’envisager une libération automatique de toutes les ressources associées à ce contexte au moment de sa destruction. Cette démarche simplifie alors encore davantage ce type d’utilisation dans une simulation ou une plate-forme multi-agents existants. 6.4.3 Conception de nouveaux traitements génériques Si l’utilisation de traitements génériques permet l’utilisation du GPU sans expertise de l’architecture, elle requiert également une démarche de conception particulière pour le développement de ces traitements. Si ce processus se rapproche de la seconde approche de parallélisation d’une simulation multi-agents, une adaptation partielle sur GPU, elle s’en différencie toutefois par la volonté de proposer une interface générique, découplée de tout modèle spécifique. Cette volonté de proposer une opération utilisable le plus largement possible se retrouve à la fois dans le choix des structures de données, de type grille, vecteur ou scalaires plutôt qu’objet, et dans l’interface d’appel. Cette dernière est conçue de manière à permettre au concepteur d’indiquer tous les paramètres d’entrée et de sortie de l’exécution sur GPU en une seule fois, en minimisant autant que possible les transformations ou préparations à effectuer. De cette manière, la totalité de l’exécution (préparation, copie des données, exécution et récupération des résultats) peut être prise en charge une seule fois par la fonction générique, plutôt que par le concepteur. Il est possible d’illustrer cette démarche de généralisation sur la mise à jour des ressources végétales de l’environnement dans le modèle proie-prédateur. Une première approche de mise à jour de cette grille est d’indiquer directement les facteurs de croissance devant être appliqués sous forme de constantes dans l’implémentation OpenCL. Cette solution lie cependant fortement cette mise à jour au modèle proie-prédateur : pour pouvoir utiliser ce traitement dans un autre modèle, il est nécessaire d’effectuer une copie du code associée à ce traitement, et de modifier la valeur de ces constantes. Une manière de rendre ce traitement générique et directement utilisable par d’autres simulations multi-agents est d’indiquer ces facteurs de croissance dans l’appel de la fonction. L’opération de mise à jour devient alors un moyen d’appliquer une transformation affine sur une grille quelconque, plutôt qu’uniquement sur un environnement proie-prédateur. Ce type de traitement générique peut être rapproché des opérations proposées par des bibliothèques comme CuBLAS : il peut alors être exploité sans connaissance particulière du fonctionnement de l’algorithme ou du GPU avec une simple structure de grille et deux facteurs indiquant l’opération à appliquer à chaque cellule.CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 91 6.5 Synthèse Ce chapitre nous a permis de mettre en avant deux scénarios d’utilisation du GPU dans des modèles et des plates-formes multi-agents existants. Le premier scénario repose sur une utilisation directe des concepts de programmation GPU pour implémenter tout le modèle agent sur cette architecture. Cette utilisation de bas niveau impose cependant de nombreuses contraintes, tant en termes de représentation des données qu’en termes d’exécution, pour lesquelles il est toutefois possible de fournir des mécanismes venant en aide au développeur. Le second scénario repose sur l’utilisation de traitements agents parallélisés existants ou implémentés par le concepteur. L’utilisation du GPU est alors totalement abstraite pour le reste de la simulation, ce qui facilite son intégration dans des modèles ou des plates-formes multi-agents pour accélérer des portions de traitements. Cette seconde utilisation, de beaucoup plus haut niveau, pose également ses propres problématiques pouvant être en partie résolues par une bibliothèque adaptée. L’étude de ces deux scénarios a conduit notre réflexion lors de la conception de la bibliothèque MCMAS, conçue pour permettre ces deux types d’utilisations.7 MCMAS, une bibliotheque d ` ’execution ´ gen´ erique ´ Dans le chapitre précédent, nous avons mis en avant les deux méthodes de parallélisation de modèles multi-agents sur GPU, le portage de la totalité du modèle sur cette architecture d’exécution ou la seule adaptation de certains traitements. Dans ce chapitre, nous présentons notre bibliothèque MCMAS, qui vise à répondre à ces deux scénarios en facilitant à la fois l’utilisation du GPU sans connaissance approfondie de la plate-forme, et la réutilisation d’algorithmes et de structures pour des modèles qui souhaiteraient utiliser OpenCL. Dans une première section, nous détaillons les objectifs auxquels répond notre bibliothèque. Nous étudions ensuite l’influence de ces objectifs sur l’architecture de MCMAS, basée sur une interface de programmation haut niveau, ne mettant pas en jeu de connaissances GPU, et une interface plus bas niveau permettant un accès complet à OpenCL. Nous présentons ensuite l’implémentation par MCMAS de la gestion du contexte d’exécution et des principales structures de données rencontrées dans les systèmes multi-agents. Nous abordons également la manière donc la bibliothèque permet le recours à des types plus spécifiques spécialisés pour l’exécution sur GPU. Enfin, nous présentons l’utilisation de MCMAS par le biais de son interface de haut niveau, puis par le biais de son interface de bas niveau pour développer de nouvelles fonctionnalités de manière indépendante ou au sein de la bibliothèque. 7.1 Présentation générale MCMAS 1 est une bibliothèque Java développée pour permettre la parallélisation efficace de systèmes multi-agents sur GPU. Son exécution est basée sur le modèle de programmation OpenCL, de manière à permettre l’utilisation une variété de supports la plus large possible, allant d’architectures many-cores comme les GPU aux processeurs traditionnels le cas échéant. La volonté centrale derrière la conception de MCMAS est d’offrir deux niveaux d’utilisation au développeur, basés sur des interfaces de programmation distinctes : — Une interface d’utilisation OpenCL accessible en Java incluant tous les éléments nécessaires à l’accès au modèle de programmation, dans le cadre d’une programmation objet, ainsi que des structures de données et des mécanismes d’aide à l’exécution prêts à être utilisés. — Une interface de haut niveau permettant l’appel d’implémentations optimisées des traitements multi-agents les plus courants. Cette interface permet la parallélisation aisée de modèles existants sans connaissance GPU, tant depuis des modèles d’agents directement 1. Many-Core Multi Agent SystemsCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 94 réalisés en Java, que depuis des plates-formes existantes telles que MadKit, NetLogo ou GAMA. L’utilisation de ces fonctions est conçue pour être la moins intrusive possible et réduire au minimum le nombre de structures de données manipulées pour réaliser un traitement. Cette volonté de fournir deux interfaces d’utilisation a une influence directe sur l’architecture retenue pour la bibliothèque, que nous présentons dans la section suivante. 7.2 Architecture L’architecture de MCMAS peut être vue comme l’empilement de deux couches applicatives distinctes et complémentaires en termes d’utilisation : — Une base commune, MCM 2 . Cette couche permet l’accès au modèle de programmation OpenCL par le biais d’une interface objet. Elle comprend de nombreux outils de gestion de l’exécution et des structures de données communément utilisées pour l’implémentation de modèles et de traitements multi-agents utilisables sur GPU. Elle représente l’interface de bas niveau de MCMAS, permettant la réalisation de nouveaux traitements avec la bibliothèque. — Un ensemble de plugins fournissant des traitements génériques réutilisables. Cette couche applicative repose sur l’interface de programmation MCM pour proposer des traitements multi-agents déjà implémentés sous la forme de fonctions de haut niveau, comme la mise à jour de l’environnement ou le calcul de déplacements. Cet ensemble de plugins est extensible au moyen de la couche applicative MCM ou en encapsulant l’appel à d’autres plugins, de manière à ajouter le support de nouvelles opérations et de nouvelles structures de données à la bibliothèque. Ces deux couches applicatives sont représentées dans la Figure 7.1, qui illustre également les concepts de plugins et de contexte d’exécution proposés par notre bibliothèque. Des fonctions différentes sont dévolues à chacune de ces deux couches, comme nous le présentons par la suite. 7.2.1 Une interface de bas niveau : MCM MCM représente la base de la bibliothèque MCMAS, et offre l’accès à l’interface de programmation de bas niveau de notre bibliothèque et à tous les mécanismes de l’exécution sur GPU. Elle reprend la gestion d’un grand nombre de problématiques liées au développement et au lancement de programmes OpenCL. MCM facilite la gestion de la mémoire native en intégrant la gestion du ramasse-miettes et en permettant de manière optionnelle d’associer toutes les structures mémoires et applicatives à leur contexte d’allocation, de manière à assurer leur libération automatique au moment de la destruction de ce contexte. Cette couche applicative fournit les structures de données communes de type grille, vecteur ou objet proposées par MCMAS, à la fois du côté Java et OpenCL de l’exécution. La conversion de ces structures MCMAS vers et depuis les types de données Java les plus courants est également incluse à ce niveau de la bibliothèque. MCM repose sur la couche d’adaptation JOCL pour l’accès à l’interface de programmation 2. Many-Core ManagerCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 95 JOCL (adaptateur OpenCL) Plugin Gestionnaire MCM Files d'attentes, structures de données, programmes OpenCL... Contexte MCMAS Plugin Plate-forme ou modèle multi-agent Interface haut niveau Interface bas niveau Figure 7.1 – Architecture de MCMAS native. Le choix de cette solution est motivée par son minimalisme illustrée par une interface de programmation identique à OpenCL transposée en Java. D’autres bibliothèques, telles que LWJGL, proposent des implémentations OpenCL déjà orientées objets, sur lesquelles il est cependant plus malaisé de redéfinir une autre gestion de l’allocation ou de la libération de la mémoire. 7.2.2 Une interface de haut niveau basée sur des plugins MCMAS propose, au dessus de la couche logicielle MCM, une interface de haut niveau basée sur l’utilisation d’un contexte d’exécution abstrait MCMAS et de plugins regroupant des fonctions multi-agents apparentées. Un contexte d’exécution abstrait Le contexte d’exécution MCMAS représente un environnement d’exécution doté de tous les mécanismes nécessaires au lancement d’un traitement OpenCL. Ce contexte vient répondre au besoin de personnaliser l’exécution des traitements en permettant au concepteur de modèle multiagents de sélectionner le type de périphérique d’exécution souhaité et d’activer différents mécanismes à l’exécution tels que l’enregistrement du temps consacré à chaque opération (profiling). En l’absence d’indication, MCMAS favorise par défaut l’utilisation des cartes graphiques présentesCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 96 en local, et recourt, le cas échéant, à l’utilisation du processeur traditionnel. Ce contexte offre également l’accès aux objets MCM sous-jacents, de manière à permettre la combinaison des deux interfaces de programmation offertes par MCMAS dans un même environnement d’exécution. Des plugins spécialisés Les opérations de haut niveau proposées par MCMAS sont regroupées en plugins spécialisés par thématiques, de manière à faciliter la découverte de l’interface de haut niveau de la bibliothèque et d’assurer un découpage clair des responsabilités de chaque module. Ces plugins gèrent la réutilisation des ressources mémoires entre fonctions apparentées de manière transparente, et implémentent des classes de traitements agents pouvant être parallélisées. Cette décomposition en modules indépendants facilite l’ajout de nouvelles fonctionnalités à MCMAS, pour gérer de nouveaux traitements ou de nouvelles structures de données rencontrés dans les systèmes multi-agents. Une grande partie des plugins proposés avec MCMAS est incluse dans la même archive que la bibliothèque logicielle. Les plugins MCMAS peuvent également être distribués de manière indépendante : l’enregistrement de ces nouvelles opérations n’impose pas de contrainte particulière, de manière à faciliter leur intégration dans tout programme ou plate-forme multi-agents existant. 7.3 Implémentation Après ce panorama de l’architecture proposée par MCMAS, nous présentons dans la suite quelques points d’implémentation de cette bibliothèque et nous justifions les choix correspondants qui ont été effectués. 7.3.1 Contexte d’exécution La première fonction essentielle pour MCMAS est la création d’un contexte d’exécution et des structures correspondantes. Ce processus implique le choix d’un périphérique d’exécution sur la machine, qui est susceptible d’offrir de manière simultanée l’accès à des architectures matérielles many-core ou à des architectures multi-coeurs CPU plus traditionnelles. Le choix de ce périphérique d’exécution peut être effectué de trois façons différentes avec MCMAS : — En l’absence d’indication, MCMAS sélectionne automatiquement une solution d’exécution. Dans ce cas, les cartes graphiques sont retenues en priorité, avant de considérer à défaut l’exécution sur le processeur local. — En indiquant un type de matériel d’exécution. Dans ce cas, MCMAS recherche tous les périphériques OpenCL de ce type présents sur la machine, et sélectionne par défaut le premier matériel rencontré. Une erreur est retournée le cas échéant par la bibliothèque. Il est possible d’indiquer plusieurs types de matériel à rechercher, pour reproduire une recherche en cascade similaire à celle effectuée en l’absence d’indication. — En indiquant une implémentation et un matériel OpenCL particulier. Cette dernière approche permet de contrôler le périphérique d’exécution effectivement utilisé par MCMAS.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 97 Elle est indispensable pour exploiter plusieurs cartes graphiques qui seraient présentes sur la même machine. En parallèle du choix du périphérique, de nombreux paramètres de l’exécution OpenCL peuvent également être contrôlés, parmi lesquels : — Le niveau d’optimisation à utiliser pour la compilation des programmes OpenCL. — L’activation du support du profiling, pour permettre l’obtention de statistiques de temps sur chaque opération. — L’utilisation par défaut d’opérations flottantes en double ou simple précision. — Le respect strict ou non du standard IEEE sur les opérations flottantes, pour permettre l’obtention de meilleures performances sur les opérations les plus courantes. MCMAS permet le contrôle simple de la disponibilité et de l’activation de ces fonctionnalités indépendamment des spécificités liées aux différentes versions d’OpenCL et aux extensions proposées par les implémentations du standard de chaque fabriquant. Par défaut, les fonctionnalités ne pénalisant ni les performances ni la précision des calculs sont activées, pour permettre un meilleur diagnostic au moment de la compilation d’erreurs de syntaxe ou des ressources consommées sur GPU. 7.3.2 Structures de données agents De nombreuses structures de données, telles que les vecteurs ou les grilles, sont très couramment utilisées par les systèmes multi-agents. Si ces structures sont fournies de manière standard sous forme de collection ou aisément réalisables par le développeur sous forme de tableaux statiques à plusieurs dimensions en Java, l’absence de support objet et les restrictions sur les types de données imposées par OpenCL rendent moins aisée leur représentation sur GPU, particulièrement en l’absence de véritable bibliothèque de données standard. OpenCL ne permet en effet le passage et l’utilisation sur GPU que de trois catégories de données : — Des données scalaires de type primitif ou structure. — Des tableaux statiques à une dimension. — Des textures. Dans ces circonstances, il est nécessaire pour supporter les principaux types de données agents de pouvoir les convertir et les manipuler sous la forme d’une combinaison d’une ou plusieurs des structures ci-dessus. L’approche retenue par MCMAS est de tirer parti des outils de conversion déjà fournis par JOCL entre buffers binaires Java NIO et buffers OpenCL, en facilitant la conversion et la récupération des autres types scalaires à partir de ce format. Pour ce faire, de nombreuses classes constituées de fonctions statiques de conversion sont fournies. Dans les sous-sections suivantes, nous allons présenter quelques structures de données fournies par MCMAS, ainsi que leur implémentation.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 98 Types primitifs Le langage OpenCL étant directement basé sur le standard C99, l’ensemble des types primitifs communs à C et à Java sont directement utilisables dans MCMAS, à l’exception notable du type booléen. Les types non signés disponibles en C et en OpenCL doivent cependant être manipulés avec précaution, Java ne gérant que les types signés. L’interprétation automatique du premier bit comme un indicateur de signe signifie en effet que leur valeur sera interprétée de manière différente entre le système hôte et les kernels d’exécution. Types objets Il est possible de passer des objets à l’exécution d’un programme OpenCL en les représentant sous forme de structure. Ces structures reprennent alors les propriétés de l’objet devant être accessibles sur le GPU. Ces structures sont générées automatiquement par introspection à partir de toute classe Java héritant de la classe Struct. Seuls les attributs publics associés à la classe sont pris en compte, OpenCL ne proposant pas de contrôle d’accès. Le Listing 7.2 illustre un exemple d’objet Java et de la structure équivalente associée au niveau d’OpenCL. 1 public class Coord extends Struct { 2 3 public int x; 4 public int y; 5 public int z; 6 7 public Coord(int x, int y, int z) { 8 this.x = x; 9 this.y = y; 10 this.z = z; 11 } 12 } 1 struct { 2 int x; 3 int y; 4 int z; 5 } Coord; Figure 7.2 – Exemple d’objet Java et de sa représentation en OpenCL avec MCMAS Vecteurs Le langage OpenCL propose un type de tableau statique hérité du langage C. Ces tableaux peuvent non seulement stocker les types communs à ces deux langages (primitifs et structures), mais également les types vectoriels introduits par l’architecture GPU. Ces tableaux, contrairement à leur équivalent Java, ne stockent cependant aucune information de taille. Dans ces conditions, deux choix sont possibles : — L’utilisation directe de tableaux OpenCL. Dans ce cas, la taille du tableau doit être stockée et indiquée aux différentes fonctions de manière indépendante. Cette approche similaire à celle employée en C/C++ est grandement facilitée dans le cas de problèmes où la taille des structures est directement liée aux propriétés du modèle, et peut donc être déduite de manière aisée à partir de ces informations. Le nombre de positions d’individus à déplacer peutCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 99 ainsi facilement être déduit, dans le cadre du modèle proie-prédateur, à partir du nombre total de threads lancés, puisqu’un thread correspond à un agent à déplacer. Dans le cas où plusieurs structures de données partageraient une même taille, comme l’addition de deux vecteurs, le passage de la taille de la structure comme donnée importante permet de n’avoir à spécifier qu’une seule fois l’information. — L’utilisation d’une structure de type vecteur, représentant un tableau natif OpenCL associé à une information entière de taille. Dans ce dernier cas, une structure OpenCL peut être utilisée pour le stockage des méta-données du vecteur associée à un tableau contenant les données brutes du vecteur. Une autre solution est de stocker cette information de taille au début ou à la fin des données du tableau, sous forme d’élé- ment supplémentaire : cette seconde approche requiert cependant que les éléments stockés dans le tableau soient d’un type compatible avec la représentation de cette taille, ainsi qu’une vigilance particulière lors du parcours des données du vecteur pour ignorer cet élément supplémentaire. La définition de fonctions d’accès spécifiques, ou d’une condition de terminaison particulière, devient alors nécessaire. Le fait qu’OpenCL interdise l’emploi de pointeurs dans les structures de données [ope] rend l’utilisation d’une structure séparée stockant les méta-données peu pratique. Deux approches sont possibles pour contourner cette limitation, avec cependant certains problèmes : — La déclaration de structures de tableaux dont la taille est déclarée à la compilation. Cette solution requiert la connaissance de toutes les tailles de vecteur au moment du chargement du programme, et la génération d’une structure pour chaque taille de vecteur du programme. Une alternative est la définition d’une taille maximale pour les vecteurs utilisés, et la défi- nition à la compilation d’une seule structure de données. Cette approche peut cependant, en fonction des variations de tailles de données, occasionner des pertes mémoires importantes. — L’utilisation de deux variables, l’une associée aux méta-données, l’autre au tableau comprenant les éléments du vecteur. Cette second approche, plus simple, ne réduit pas le nombre de variables distinctes nécessaire par rapport à un stockage séparé de la taille du tableau dans l’algorithme, et peut rapidement favoriser une explosion du nombre de paramètres requis pour le fonctionnement du programme. Au vu de ces problématiques, deux implémentations des vecteurs sont proposées par défaut par MCMAS, dont la représentation mémoire est illustrée sur la Figure 7.3 : taille e1 e2 e3 etaille -1 e1 e2 e3 e4 Taille en début de tableau Marqueur de fin Figure 7.3 – Représentations de vecteurs proposées par MCMAS — Une représentation basée sur un tableau statique contenant comme premier élément le nombre d’éléments stockés. Ce stockage au début du tableau est motivé par la nécessitéCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 100 de disposer de cette information à un emplacement aisément déductible sans connaître la taille du vecteur. — Une représentation basée sur un marqueur de fin. Cette représentation ne permet plus l’accès direct à la taille du tableau, mais requiert un parcours du tableau pour obtenir cette information. Ce parcours est rendu nécessaire dans le cas de l’application d’un traitement à chaque élément ou de la copie des données, et n’est donc pas pénalisant pour ce type d’opération. Il pose toutefois problème pour insérer ou récupérer un élément particulier du tableau, s’il est nécessaire de procéder à la validité de l’indice indiqué par rapport aux limites du tableau. Collections En complément des tableaux statiques, le langage Java propose un vaste ensemble de collections, correspondant aux structures de données les plus connues et utilisées dans le domaine de l’algorithmique : — Listes simplement et doublement chaînées — Dictionnaires — Matrices — Piles, files... Ces structures de données sont représentées en Java sous la forme de type objets dérivés de la classe de base Collection, qui assure la disponibilité de nombreuses méthodes communes d’insertion, de suppression, de parcours des éléments ou de récupération de la taille. Cette généricité des opérations facilite la conversion de ces collections vers et depuis des tableaux statiques au niveau de MCMAS à l’aide d’un ensemble de primitives de conversion inté- grées à MCM. Les positions des individus dans le modèle proie-prédateur sont ainsi, dans notre implémentation, basées sur une collection d’entiers convertie en tableau statique au niveau du GPU. Grilles Une structure souvent rencontrée dans les systèmes multi-agents est la grille. Suivant le type de modèle représenté, elle peut constituer l’ensemble des données (cas d’une implémentation du modèle à base d’automates cellulaires) ou un simple moyen de discrétiser un espace de simulation (cas du modèle proie-prédateur). La solution la plus directe pour représenter une telle structure dans de nombreux langages est l’utilisation de tableaux de tableaux, ou tableaux à plusieurs dimensions. Dans ce cas, l’accès aux données est effectué au moyen d’une double indexation du contenu, du type tableau[x][y]. Cette implémentation n’est cependant pas directement possible en OpenCL du fait de la limitation des tableaux à une seule dimension. Dans ces circonstances, plusieurs implémentations alternatives sont proposées par MCMAS, en fonction du type de grille et d’accès souhaités sur GPU. La solution la plus simple à cette limitation en nombre de dimensions est la linéarisation de la grille sous forme d’un tableau à une dimension. Dans ce cas, l’accès à l’élément situé aux coordonnées (x, y) du tableau revient au calcul d’un unique index basé sur ces deux dimensions, et la largeur ou hauteur de la grille, suivant le sens deCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 101 linéarisation retenu, en lignes ou en colonnes. Si x correspond à l’abscisse, y à l’ordonnée, l à la largeur et L à la hauteur de la grille, cet index est calculé de la manière suivante : 1 / / Li n é a r i s a t i o n en l i g n e 2 i = y * l + x 3 4 / / Li n é a r i s a t i o n en c ol o n n e 5 i = x * L + y Le calcul de cet index est pris en charge de manière transparente par les objets grilles offerts par MCMAS du côté CPU, et par un ensemble de directives de macro-processeur du côté de l’exécution OpenCL. La linéarisation des données est très efficace du point de vue des accès mémoire GPU car elle permet de s’assurer que des éléments adjacents seront effectivement stockés à des emplacements mémoires contigus ou à intervalles réguliers, de manière à pouvoir regrouper et profiter de la largeur des lectures mémoires sur cette architecture. Cette proximité des données permet d’optimiser l’exploitation des caches L1 et L2 intégrés aux matériels GPU récents, en assurant le stockage de ces données voisines dans la même ligne de cache. Cette linéarisation montre cependant ses limites dans le cas de grilles de faible densité, où un grand nombre de cellules ne sont pas utilisées : Consommation mémoire. La linéarisation de grilles de grande dimension impose au périphé- rique de disposer d’assez de mémoire contigüe pour stocker tous les éléments de la grille, même inutilisés, là ou des implémentations Java peuvent être basées sur des structures creuses comme des collections. Nombre d’accès. Si ce type de grille est très performant en accès, du fait de la simple nécessité de calculer un index supplémentaire par rapport à un tableau statique et de la proximité des données en mémoire, des opérations comme le calcul du nombre de cellules utilisées dans la grille ou tout traitement sur les cellules imposent un parcours de l’ensemble de la grille. Cette utilisation inefficace de la mémoire pour des structures de faible densité est rendue obligatoire par l’impossibilité d’allouer de la mémoire depuis un programme OpenCL, ce qui impose un dimensionnement de la structure très défensif, à même de gérer le pire des scénarios. Une solution, dans ce cas, est d’employer d’autres représentations pour les grilles, où seules les cases effectivement utilisées seront stockées de manière contigüe, plutôt que l’ensemble de la grille. Un grand nombre de formats [BG09] ont déjà été proposés pour la littérature pour ce type de matrices à faible densité, typiquement optimisés soit pour la création (DOK 3 ), soit pour le parcours et la modification de matrices (LIL 4 , COO 5 , CSR6 ). Ces formats sont actuellement en cours d’implémentation dans MCMAS. 7.3.3 Structures spécifiques A côté des types courants en Java, MCMAS permet l’accès à deux types de données spécifiques au GPU, les textures et les types vectoriels. Dans les sections suivantes, nous présentons leur principe et leur fonctionnement. 3. Dictionnaire de clés 4. Liste de listes 5. Liste de coordonnées 6. Lignes creuses compresséesCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 102 Textures Ces structures, à l’origine graphique, sont représentées en OpenCL par des objets image associés à des dimensions et un format de stockage des pixels. Ce format de stockage indique le nombre de canaux stockés pour chaque pixel (rouge, vert, bleu, alpha...) ainsi que le type de donnée utilisé pour la représentation de chaque canal (entier 8bits, 16bits ou flottant...) Une même texture peut être employée dans plusieurs kernels OpenCL, mais ne peut être utilisée qu’en lecture ou en écriture par un même kernel. Cette limitation empêche son utilisation pour des données agents qui seraient accessibles en entrée/sortie, mais permet son utilisation dans le cadre de mises à jour non destructives d’un paramètre d’entrée en lecture seule, où les modifications sont stockées dans un buffer résultat en écriture, comme c’est par exemple le cas dans le jeu de la vie. Une autre restriction de ces textures tient au nombre limité de formats supportés, pour le stockage des données, chaque canal étant prévu pour le stockage d’une composante entière ou flottante. Ces limitations de format empêchent le stockage de données en double précision, de structures ou de plus de trois informations par pixel, contrairement aux types vectoriels ou au tableaux de structures permis par OpenCL. L’utilisation de textures présente cependant plusieurs avantages : — L’accès à ces objets est optimisé par un cache spécialisé sur toutes les architectures GPU supportant OpenCL, comme nous l’avons vu dans la présentation de l’architecture mémoire GPU. Cet avantage est particulièrement employé dans le cas de modèles comme celui de proie-prédateur ou des automates cellulaires, où un nombre limité de propriétés doit être stocké par chaque case mais un accès rapide est indispensable. — Contrairement aux tableaux, il est possible de déclarer des images à deux ou trois dimensions. Cet aspect multi-dimensionnel facilite l’accès à un élément particulier de la texture sans utilisation d’opérations supplémentaires évoquées dans le cas des vecteurs, et permet au concepteur d’associer directement la dimension des textures et le découpage de l’exécution des données, de manière à simplifier son programme et exploiter au mieux la localité des données dans chaque unité de traitement. — Un dernier intérêt des textures, enfin, est la possibilité de les afficher directement de manière graphique à l’aide des primitives d’intégration OpenGL offertes par OpenCL. Cette fonctionnalité est particulièrement intéressante dans le cadre de systèmes multi-agents, où une forme d’affichage est souvent attendue pour faciliter le suivi de la simulation. L’absence de transformation particulière est un avantage important dans le cas de modèles dotés de grands nombres d’individus, où tout traitement représenterait une perte en temps d’exécution pouvant être consacré à la simulation elle-même. Types vectoriels OpenCL complète l’ensemble de types primitifs hérités de C par des types vectoriels permettant de stocker dans une seule variable 2, 3, 4, 8 ou 16 données primitives de même type. Ces types vectoriels, également présents sur d’autres modèles de programmation GPGPU comme CUDA, sont nativement supportés par de nombreuses opérations arithmétiques fournies par le modèle de programmation. Ce support permet, par exemple, d’effectuer un calcul de distances euclidiennes ou une normalisation de vecteur sur GPU en stockant chaque élément sous la forme d’un seul paramètre. L’accès aux membres de ces types vectoriels est possible en OpenCL à l’aide des champs x, y, z et w pour les quatre premiers éléments ou sous forme d’index numérique, tel qu’illustré par leCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 103 Listing 7.1. Listing 7.1 – Initialisation de données vectorielles OpenCL 1 float4 pos = (float4) (0, 0, 0, 0); 2 pos.x = 1.0; 3 pos.s3 = 4.0; Le standard OpenCL impose le support de ces alternatives vectorielles pour les types char, short, int, float et long et leurs variantes non signées. Chaque implémentation peut également fournir un support vectoriel pour les nombres réels de type double, en déclarant une extension, de manière analogue au mécanisme proposé par OpenCL. Au-delà de la possibilité de stocker un ensemble de coordonnées dans une même variable, un autre intérêt important de ces types vectoriels est la facilité avec laquelle ils peuvent être composés ou décomposés en OpenCL, en combinant les noms ou les index de champs de chaque côté de l’opérateur d’affectation. De telles facilités rendent le changement de nombre de dimensions d’une coordonnée, requis pour certaines opération agent, trivial en OpenCL, tel qu’illustré par le Listing 7.2. Listing 7.2 – Transtypage de données vectorielles OpenCL 1 float2 pos1 = (float2) (1, 2); 2 float4 pos2 = (float4) (1, 3, 5, 0); 3 float2 pos4 = (float4) (0, 0, 0, 0); 4 pos4 = (float4) (pos1.xy , pos2.z} L’utilisation de ces types dans MCMAS est rendue possible par le biais de la bibliothèque joclstructs, proposée par les développeurs de JOCL, offrant l’accès à ces types sous forme d’objets Java. 7.3.4 Exécution synchrone ou asynchrone La plate-forme OpenCL est basée sur une soumission de l’ensemble des opérations à réaliser sur le périphérique en file d’attente. Ce mode de fonctionnement permet au programme principal de poursuivre son exécution, et de consulter les résultats de sa soumission de manière ultérieure, grâce à un "ticket" retourné lors de la soumission. Ce mécanisme est également intégré dans l’interface de bas-niveau de MCMAS, sous forme d’objets événements Java implémentant l’interface standard Future, en plus des opérations OpenCL spécialisées. Ces événements peuvent être alors manuellement utilisés pour choisir le moment où synchroniser l’exécution des traitements, ou directement comme paramètres pour la soumission de nouveaux traitements, de manière à créer un enchaînement d’actions OpenCL. Ce mécanisme de dépendances peut par exemple être utilisé pour effectuer la copie de données avant et après le lancement d’un programme sans synchronisation intermédiaire, comme illustré par le Listing 7.3. Ce mécanisme, indispensable pour tirer parti du recouvrement permis par OpenCL entre opé- rations de copie des données et d’exécution, est exploité par de nombreux plugins offerts par MCMAS. Il peut également être mis à disposition au niveau de l’interface par le biais de variantes asynchrones des opérations proposées, de manière analogue à l’interface proposée par MPI pour la communication en mémoire distribuée.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 104 Listing 7.3 – Utilisation asynchrone de MCM 1 / / Pr é p a r a t i o n d e s a r g um e nt s e t l a n c e m e nt d ’ un programme OpenCL 2 kernel. setArguments (vector , radius , xPositionsMem , yPositionsMem , xResultsMem , yResultsMem ); 3 4 MCMEvent finished = q. enqueue1DKernel (kernel , vector.length); 5 6 / / Mise en f i l e d ’ a t t e n t e de l a r é cup é r a t i o n d e s donn é e s r é s u l t a t s , 7 / / une f o i s l ’ ex é c u t i o n du programme t e r m i n é e ( é v é n é ment f i n i s h e d ) 8 MCMEvent r1 = q. enqueueReadBuffer (xResultsMem , Pointer.to(xResults), 0, xResultsMem .getSize (), finished); 9 MCMEvent r2 = q. enqueueReadBuffer (yResultsMem , Pointer.to(yResults), 0, yResultsMem .getSize (), finished); 10 11 / / A u t r e s t r a i t e m e n t s J av a 12 13 / / A t t e n t e b l o q u a n t e de l a f i n du g r a p he d ’ ex é c u t i o n 14 MCMEvent.waitFor(r1 , r2);CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 105 7.4 Utilisation de l’interface de haut niveau Après nous être intéressés à son architecture, nous présentons dans cette section l’utilisation de l’interface de haut niveau de notre bibliothèque, sans connaissance particulière de la programmation GPU. Cette utilisation est rendue possible à l’aide de deux structures principales : le contexte d’exécution et un ou plusieurs plugins offrant l’accès aux fonctions de haut niveau de MCMAS. 7.4.1 Initialisation de MCMAS L’interface de haut niveau de MCMAS est basée sur l’utilisation d’un contexte d’exécution de type MCMASContext. Cet objet contient l’ensemble des structures nécessaires à la soumission d’un traitement OpenCL, et admet différents constructeurs permettant au développeur d’indiquer le type et les paramètres d’exécution souhaités, tel que représenté dans le Listing 7.4. Une fois instancié, un contexte MCMAS peut être utilisé pour créer et appeler des plugins MCMAS. Ces deux modes d’utilisation peuvent être librement combinés pour un même contexte. Listing 7.4 – Exemples de création de différents types de contexte MCMAS 1 / / Aucun argument , s é l e c t i o n a ut o m ati q u e de l a p l a t e −f o rm e d ’ ex é c u t i o n p a r MCMAS: 2 / / GPU en p r i o r i t é , p u i s CPU. 3 MCMASContext context = new MCMASContext () 4 5 / / Dé f i n i t i o n e x p l i c i t e de l a p r i o r i é t é d e s p l a t e −f o r m e s à u t i l i s e r : 6 MCMASContext context = new MCMASContext ( ContextType .GPU , ContextType .CPU) 7 8 / / Cr é a t i o n d ’ un c o n t e x t e GPU 9 MCMASContext context = new MCMASContext ( ContextType .GPU) 10 11 / / Cr é a t i o n d ’ un c o n t e x t e CPU 12 MCMASContext context = new MCMASContext ( ContextType .CPU) 13 14 / / Cr é a t i o n d ’ un c o n t e x t e s u p p o r t a n t l e p r o f i l i n g 15 MCMASContext context = new MCMASContext (MCMAS. PROFILING ); 7.4.2 Exemples d’appel de fonctions de haut niveau Une fois un contexte MCMAS obtenu, il est possible de l’utiliser pour appeler de nombreuses fonctions de haut niveau regroupées sous forme de plugins spécialisés inclus dans la bibliothèque. Chacun de ces plugins propose un ensemble de fonctions classées par thématique d’utilisation (calcul de distance, diffusion...) Ces fonctions admettent un certain nombre de paramètres d’entrée et de sortie correspondants au traitement à effectuer. L’accent est mis, au niveau de ces paramètres d’entrée, sur l’utilisation de tableaux statiques et d’autres structures Java standard, de manière à permettre la plus large utilisation possible de ces fonctions. Des outils de conversions fournis avec MCMAS facilitent le passage vers ces types depuis les autres types de données référencés dans notre présentation précédente, et en particulier depuis des objets, des buffers de données ou des objets. Nous illustrons dans la suite de cette section l’utilisation de certains des plugins fournis par notre bibliothèque.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 106 Calcul de distances Une première fonctionnalité rencontrée dans de nombreux systèmes multi-agents, dont le modèle proie-prédateur, est le calcul de distances euclidiennes entre individus. Selon le type de modèle employé, ce calcul peut être effectué en une, deux ou trois dimensions, sur des coordonnées entières (grille) ou réelles. L’obtention de ces distances implique généralement, sur CPU, le calcul séquentiel de cette distance pour chaque couple d’agents présents dans le modèle, ou le calcul de ces distances à la volée pour les seuls points utilisés. Le calcul de ces distances pouvant être aisément effectué en parallèle, il est possible de réaliser tous ces calculs en simultané avec MCMAS, en indiquant en entrée les coordonnées à considérer et en récupérant l’ensemble des distances comme résultat. Les coordonnées des points d’entrée peuvent être spécifiées sous forme d’un tableau par dimension à considérer (array_x, array_y, array_z), sous forme de tableau de structures coordonnées, ou encore sous forme de tableau de type vectoriel OpenCL tel que float2 ou float3, comme évoqué précédemment. Pour deux ensembles de M et N coordonnées d’entrée, le résultat de ce module est une grille comprenant les distances euclidiennes entre chaque point du premier ensemble et chaque point du second ensemble, de dimension M × N, et de type compatible avec le stockage des coordonnées d’entrée (entier, réel ou flottant). Diffusion Une autre opération souvent rencontrée dans les modèles multi-agents est la diffusion d’une quantité au sein d’un vecteur ou d’une grille. Ce mécanisme est souvent utilisé pour des mises à jour de l’environnement, de manière à simuler la diffusion de phéromones par exemple dans le cas du modèle des fourmis, ou de populations dans des modèles de reproduction d’individus dans un nouvel habitat. Cette diffusion est caractérisée par plusieurs paramètres : — Le nombre de dimensions considérées : le nombre de cellules voisines vers lesquelles diffuser est directement lié à la configuration du modèle. Dans un modèle à une dimension, avec des cellules en grille, seules deux voisines devront être considérées, contre six dans le cas de deux dimensions et vingt-six dans un cas à trois dimensions. — La possibilité ou non de diffuser en diagonale : le calcul précédent suppose que l’ensemble des cellules voisines sont considérées. Si seules celles partageant une arête avec la cellule courante sont prises en compte (diffusion "en croix"), alors le nombre de voisins pour chaque cellule est modifié, ce qui peut changer drastiquement le comportement de la simulation. Un autre choix important pour effectuer cette diffusion est le comportement devant être retenu aux limites de la grille, où certains voisins sont manquants : — Une première approche est de supposer toute diffusion en dehors de la grille comme perdue. Ces frontières se comportent alors comme un puits sans fond, et peuvent amener une perte de matière dans le modèle (système non clos). — Une autre approche est d’interdire la diffusion en dehors de la grille (système fermé). Cette approche est préférable dans le cadre d’un véritable environnement fermé, mais décon-CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 107 seillée dans le cas d’un modèle ne représentant qu’une fraction d’un environnement plus vaste, comme une parcelle de terrain d’un territoire, car elle introduit des frontières artificielles pouvant influer sur le cycle d’évolution des agents situés à la périphérique du modèle, sans que cette influence n’ait aucune base pratique. — Une dernière approche, enfin, est de considérer l’environnement agent comme bouclant verticalement et horizontalement. Cette approche, souvent retenue pour des raisons de commodité, revient à représenter l’espace de simulation comme la projection d’un tore. Le module diffusion de MCMAS fournit les opérations correspondant à ces différents cas. Cette implémentation est également basée sur l’utilisation de programmes OpenCL adaptés à chaque type de données d’entrée (scalaire, structure ou vectoriel, entière ou flottante). Le lancement d’une diffusion peut être effectué en quelques lignes, à l’aide des paramètres acceptés par la fonction, comme l’illustre le Listing 7.5. Listing 7.5 – Exemple d’utilisation du plugin diffusion sur une grille de flottants représentée par un tableaux à deux dimensions 1 / / Dé c l a r a t i o n d e s s t r u c t u r e s 2 float [][] grille , grilleResultat ; 3 4 / / I n s t a n t i a t i o n d ’ un c o n t e x t MCMAS e t du p l u g i n de d i f f u s i o n 5 MCMASContext context = new MCMASContext (); 6 DiffusePlugin diffuser = DiffusePlugin . newInstance (context); 7 8 / / Pr é p a r a t i o n d e s s t r u c t u r e s de donn é e s MCMAS 9 MCMASGrid input = MCMAS. createGridFrom (grille); 10 MCMASGrid output = MCMAS. createGridFrom ( grilleResultat ); 11 12 / / L a nceme nt d ’ une d i f f u s i o n e t r é cup é r a t i o n du r é s u l t a t . 13 / / D i f f u s e P l u g i n . DIMENSION_4 r e q u i e r t une d i f f u s i o n v e r t i c a l e e t h o r i z o n t a l e : 14 / / D i f f u s e P l u g i n . DIMENSION_8 p e r m e t t r a i t de demander l a p r i s e en c om pte d e s d i a g o n a l e s . 15 diffuser.diffuse(input , output , DiffusePlugin . DIMENSION_4 ); 16 17 / / R e c o pi e de l a g r i l l e o bt e n u e d a n s l a s t r u c t u r e j a v a o r i g i n a l e 18 output.write( grilleResultat ); De nombreux modèles agents imposent également des limites minimales et maximales particulières à la valeur pouvant être stockée dans chaque cellule. Ces limitations sont prises en compte par le plugin diffusion fourni par MCMAS via la disponibilité de variantes bornées des opérations précédentes, permettant d’indiquer la valeur minimale et la valeur maximale permises pour chaque cellule. Cette opération de normalisation peut également être effectuée à l’aide d’un plugin spécialisé fourni par MCMAS, de manière indépendante. Réduction De très nombreuses simulations agents requièrent la production régulière d’indicateurs associés au modèle, comme la quantité globale d’énergie présente dans le système ou la population dans le modèle proie-prédateur. La dispersion de ces quantités entre les différents éléments du modèle implique, à chaque itération, de pouvoir synthétiser ces quantités dans une variable globale, à même d’être affichée ou utilisée pour interrompre ou non la simulation.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 108 Des modèles de programmation CPU tels que OpenMP ou MPI facilitent cette opération à l’aide de primitives de réduction, permettant au concepteur d’indiquer les données devant être réduites et l’opération à utiliser (somme, minimum, maximum...) MCMAS reprend cette logique dans un plugin spécialisé permettant d’effectuer cette réduction en parallèle à l’aide des informations suivantes : — Le champ de la réduction : un vecteur ou une grille contenant la propriété du modèle agents à prendre en compte. — L’opération de réduction : minimum, maximum, moyenne, addition, multiplication... Le résultat d’une réduction totale est un type scalaire, et un vecteur pour une réduction partielle. Comme dans le cadre d’une diffusion, le type résultat est compatible avec le type d’entrée : flottant, par exemple, pour une réduction sur des données flottantes. Fonctions affines Un autre type de traitement parallélisable est, comme nous l’avons vu dans le cas du modèle proie-prédateur, l’application d’une même fonction affine a × x + b à chaque cellule d’un vecteur ou d’une grille d’entrée. Cette opération est directement supportée par MCMAS sur ces deux structures de données, un vecteur pouvant être considéré comme une grille à une dimension. Le Listing 7.6 illustre l’appel du plugin effectué pour la croissance de l’herbe dans le cadre du modèle proie-prédateur. Listing 7.6 – Application d’une fonction affine sur les éléments d’une grille 1 / / Dé c l a r a t i o n d e s s t r u c t u r e s 2 float [][] grille , grilleResultat ; 3 4 / / I n s t a n t i a t i o n d ’ un c o n t e x t MCMAS e t du p l u g i n de d i f f u s i o n 5 MCMASContext context = new MCMASContext (); 6 DiffusePlugin transformer = AXBPlugin . newInstance (context); 7 8 / / Pr é p a r a t i o n d e s s t r u c t u r e s de donn é e s MCMAS 9 MCMASGrid input = MCMAS. createGridFrom (grille); 10 MCMASGrid output = MCMAS. createGridFrom ( grilleResultat ); 11 12 / / L a nceme nt de l a t r a n s f o r m a t i o n e t r é cup é r a t i o n du r é s u l t a t . 13 / / a v a ut 1 . 0 , c a r aucun f a c t e u r v a r i a b l e de c r o i s s a n c e n ’ e s t a p p l i q u é . 14 / / b v a ut GRASS_GROWTH, l e t a u x de c r o i s s a n c e f i x e d é f i n i d a n s l a s i m u l a t i o n . 15 transformer . transform (input , output , 1.0, GRASS_GROWTH ); 16 17 / / R e c o pi e de l a g r i l l e o bt e n u e d a n s l a s t r u c t u r e j a v a o r i g i n a l e 18 output.write( grilleResultat ); 7.4.3 Utilisation depuis des framework multi-agents existants La bibliothèque MCMAS est utilisable directement en Java, mais doit également pouvoir être accessible à des plates-formes multi-agents ne permettant pas l’accès direct à ce langage. Dans ce cas, il est possible de fournir le service assurant le rôle d’interlocuteur et de traducteur entre le formalisme utilisé par la plate-forme et MCMAS. Ce service peut être un agent du systèmeCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 109 spécialisé, tel qu’illustré sur la Figure 7.4, ou un système indépendant, accessible par le biais de messages. Bibliothèque MCSMA Parcelle Agent service Interfaces MCSMA Cellule Cellule Di ffusion Di ffusion Réduction populations cellules diffusion(cellules) reduction(cellules, totals) Traitement messages et appels de services Encapsulation des résultats Figure 7.4 – Exemple d’utilisation de MCMAS depuis un modèle multi-agents Chacun de ces messages doit respecter un format bien défini, indiquant le traitement souhaité ainsi que des contraintes d’exécution du calcul (sur GPU, sur CPU...). L’identité de l’expéditeur est mémorisée avant le traitement de chacun de ces messages, de manière à pouvoir lui envoyer les résultats de l’exécution dans un autre message une fois la requête traitée. Par exemple, dans le cas de Madkit où les agents communiquent à l’aide d’un gestionnaire de messages, ce processus se traduit pas la mise en place d’un protocole d’échange. Dans le cas de GAMA, cette intégration peut être réalisée sous la forme d’un plugin ajoutant des fonctions MCMAS au langage de description utilisé pour les agents. Cette couche d’adaptation entre MCMAS et la plate-forme multi-agents ciblée permet l’utilisation transparente de la bibliothèque, en conservant l’infrastructure du modèle existant. L’utilisation d’un agent service permettant la réalisation de traitements MCMAS est une autre solution utilisant les mécanismes de communication du modèle existant. Il est également possible d’utiliser MCMAS directement au niveau de chaque agent, soit à l’aide de Java directement, soit à l’aide d’une couche d’adaptation dans le cas de plates-formes telles que GAMA ou NetLogo. 7.5 Développement de nouveaux plugins L’ensemble de plugins fourni avec MCMAS ne pourra jamais recouvrir l’ensemble des fonctionnalités pouvant être rencontrées dans la littérature agents. Pour pallier à cette limitation, MCMAS permet l’ajout aisé de nouveaux plugins, de manière à permettre au concepteur de simulations d’étoffer les fonctionnalités offertes par la bibliothèque. Pour valider le type d’opération à implémenter et l’implémentation à utiliser, plusieurs étapes de réflexion et de conception sont recommandées. Dans cette section, nous décomposons les différentes étapes de cette démarche.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 110 7.5.1 Conception du modèle et parallélisation La première étape du développement d’un nouveau plugin est la définition du problème rencontré et de sa portée exacte. Un système multi-agents peut représenter un ensemble d’individus et de comportements complexes, se prêtant ou non à une adaptation sur GPU. Il est alors dans ce cas nécessaire de déterminer les parties du modèle pouvant tirer avantage d’une exécution sur GPU, ainsi que la manière de paralléliser ces traitements. Un élément important pour évaluer les gains pouvant être attendus de la parallélisation avec MCMAS est d’évaluer l’impact en termes de performance des parties du modèle pouvant être accélérées par rapport au temps total d’exécution de la simulation, en application de la loi d’Amdahl. Une conséquence directe de cette loi est que tout gain obtenu par l’utilisation d’une plate-forme est rapidement limité si la portion parallélisée ne représente pas une fraction significative du temps d’exécution de la simulation multi-agents. Le découpage du modèle en sous-parties peut même, dans ce cas, entraîner une perte de performance liée aux échanges de données entre les différentes portions de l’algorithme. Il est donc nécessaire, en développant un nouveau plugin MCMAS, d’avoir à l’esprit ces limitations et une estimation du gain de performance pouvant être attendu, ainsi que le nombre de recours à cette simulation, de manière à pouvoir quantifier le temps pouvant être consacré à une adaptation GPU du modèle par rapport au temps supplémentaire qui aurait été utilisé avec l’ancienne implémentation. L’efficacité d’exécution d’un programme sur GPU est directement liée aux opérations et aux structures utilisées, mais n’est pas linéaire en termes d’efforts. La recherche de performance est un processus sans fin tendant toujours vers une limite où les adaptations à effectuer ne permettent plus de gains en performance très importants. Nos cas d’applications illustrent particulièrement qu’un portage à l’identique d’un algorithme ne permet que rarement l’obtention de bonnes performances, pour des raisons d’occupation processeur, de synchronisation ou de mémoire. Un autre aspect critique de l’efficacité de l’utilisation du GPU, déjà évoqué dans notre pré- sentation du découpage d’une simulation en OpenCL, est le niveau de granularité retenu par la simulation, c’est à dire la taille en temps passé sur chaque plate-forme. Une parallélisation “à gros grains” permet de réduire le nombre d’échanges entre les deux plate-formes, et donc les coûts de synchronisation ou de communication associés ces échanges. Au contraire, une parallélisation dite “à petits grains” implique le lancement de nombreux traitements simultanés sur GPU, pour minimiser l’impact des échanges plus réguliers devant avoir lieu. 7.5.2 Définition de l’interface et des fonctionnalités Une fois la problématique et la solution précisément connues, il est nécessaire de définir la manière dont la parallélisation pourra être intégrée dans le modèle existant. Cette intégration porte à la fois sur les scénarios d’exécution, et les données manipulées : — Dans quel ordre les opérations seront-elles appelées ? Est-il possible de se servir de cette information pour rendre les traitements asynchrones ou de changer leur ordre d’exécution ? — Quelles structures de données sont-elles utilisées ? Doivent-elles être transformées pour une exécution sur GPU ? Peuvent-elles être partagées entre un maximum de traitements, pour éviter des copies ? Ces deux problématiques, complémentaires, ont une importance vitale pour la définition de l’interface du nouveau plugin, et plus particulièrement sur le nombre et le prototype des opérationsCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 111 fournies. 7.5.3 Implémentation de la solution retenue Une fois l’interface du plugin définie, il est possible de réaliser l’implémentation de la solution elle-même. Dans MCMAS, cette implémentation met en jeu deux langages différents : — Java pour l’ensemble des traitements exécutés sur CPU. Dans le cadre d’un plugin, ces traitements comprennent au minimum la gestion de la copie et des lancements des traitements sur la plate-forme OpenCL, ainsi que le suivi de l’exécution et la récupération des résultats. Cette partie peut également inclure des pré-traitements sur les données, soit dans le cadre de conversions de représentations, soit parce que ces traitements sont peu adaptés à une exécution sur GPU. Le reste du modèle multi-agents n’est pas nécessairement réalisé en Java, si une interface d’adaptation MCMAS est utilisée. — OpenCL est utilisé pour tous les traitements ayant lieu sur le périphérique. Comme C et C++, ce langage permet l’inclusion de portions de programmes existantes au moment de la compilation. Cette fonctionnalité est utilisée par MCMAS pour fournir de nombreux raccourcis pour la manipulation des structures de données incluses dans MCMAS, et permet également au plugin de partager des fonctionnalités entre ses traitements natifs. Il est importante de noter que tout lancement de programme OpenCL implique de définir explicitement le point d’entrée (kernel) utilisé : il est donc toujours possible d’implémenter tous les traitements du plugin dans un unique fichier source OpenCL. Si OpenCL permet le stockage de binaires correspondant à des programmes compilés, les binaires obtenus sont spécifiques à l’implémentation et au matériel courant. Ce mécanisme permet d’éviter de multiples compilations au-delà de la première exécution, et ainsi de réduire le temps de chargement du programme, mais ne dispense pas le développeur du plugin de devoir fournir le code source des portions OpenCL de son programme, en cas de distribution sur de nombreuses plates-formes. Le plugin obtenu peut être directement inclus dans l’arborescence de fichiers sources du modèle multi-agents y ayant recours, ou empaqueté sous forme d’archive JAR indépendante, de manière à faciliter son partage et sa distribution. La distribution d’une documentation et de tests associés au nouveau plugin est fortement recommandée. La rédaction de ces tests est facilitée par la disponibilité de nombreuses fonctions de création de contextes et de récupération d’informations, en termes de plate-forme d’exécution et de temps au niveau de MCMAS. La création d’un contexte simple CPU, GPU, avec ou sans activation des fonctionnalités de profiling, est ainsi possible en une ligne. 7.5.4 Validation Une fois le développement du plugin terminé, une validation de celui-ci est requise. Cette validation regroupe deux aspects : — La validation de l’exactitude des résultats. Cette première étape, critique, consiste à s’assurer que les résultats obtenus sont similaires à ceux prévus par le modèle théorique ou observés dans l’implémentation originale. Elle peut être effectuée de manière formelle, dans le cas où l’équivalence sémantique avant et après adaptation peut être établie. Le recours au parallélisme tend cependant à introduire de nombreuses inconnues dans ce type de démonstration, qu’il est nécessaire de quantifier. Ces difficultés favorisent une validationCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 112 expérimentale, bouclant d’une certaine manière le cycle de pensée agent : dans ce cas, les résultats obtenus par les deux implémentations sont comparées dans le cadre d’un protocole expérimental prenant en compte les cas limites, les données et les conditions d’utilisation devant être envisagées. — La validation des performances obtenues. Cette seconde étape permet de quantifier les performances effectivement observées par rapport à l’implémentation originale et aux éventuelles attentes basées sur les caractéristiques de la solution retenue et de la plateforme, comme le nombre de cœurs. Elle ne peut être qu’expérimentale, à l’aide de mesures de temps d’exécution des simulations. La comparaison de ces temps, et l’allure des courbes de performance obtenue, permet de caractériser le type de comportement obtenu en termes de performance et de ressources consommées. Ces résultats peuvent, ou non, conforter les attentes établies au moment de la conception du plugin. Ils permettent également de mettre en avant des parties coûteuses ou mal adaptées de l’algorithme dont l’impact aurait pu être négligé ou sous-estimé, pouvant relancer une itération supplémentaire de parallélisation. 7.6 Synthèse Dans ce chapitre, nous avons présenté MCMAS, notre bibliothèque dont l’objectif est de prendre en charge deux scénarios d’utilisation, l’utilisation du GPU au moyen de fonctions gé- nériques sans connaissance de l’architecture ou le développement de nouveaux traitements GPU. Ce double usage est à l’origine du choix d’une architecture modulaire pour MCMAS, basée d’une part sur une interface de bas niveau, MCM, pour l’accès au modèle de programmation OpenCL et d’autre part sur un ensemble de plugins regroupant des traitements agents pré- implémentés. Ces plugins reposent également sur l’interface MCM, pour favoriser la combinaison des deux types d’utilisation ou l’expérimentation de nouveaux traitements. Cette architecture se retrouve également dans l’implémentation de la bibliothèque. Elle est basée sur trois parties fondamentales : — Un contexte d’exécution encapsulant tout l’environnement d’exécution GPU. — Un ensemble de structures de données GPU et d’outils de conversion de ces structures vers et depuis des structures de données Java. — Une interface de programmation MCM reprenant les principaux concepts OpenCL mais en facilitant la gestion dans un environnement objet. Nous avons ensuite abordé l’utilisation de MCMAS selon chacun de ces deux scénarios d’utilisation : — Sans connaissance GPU. Dans ce cas, l’utilisation de l’interface de haut niveau MCMAS est possible simplement au moyen de la création d’un contexte d’exécution, suivie de l’instantiation d’un ou plusieurs plugins avec ce contexte. Les fonctions fournies par ces plugins peuvent alors être utilisées pour lancer des opérations comme des calculs de déplacements, de distances, ou de transformations matricielles. — Avec des connaissances GPU, pour le développement de nouveaux traitements avec MCM. Ce type d’utilisation permet alors, de manière optionnelle, l’encapsulation de ces traitements dans un plugin MCMAS de manière à favoriser leur redistribution et leur réutilisation dans d’autres simulations multi-agents.8 Validation sur des modeles existants ` Dans le chapitre précédent, nous avons présenté notre bibliothèque MCMAS, ainsi que ses deux scénarios d’utilisation, par le biais d’une interface de bas niveau MCM, ou au moyen de fonctions génériques fournies par un ensemble de plugins. Pour valider son utilisation sur des cas concrets, nous illustrons dans ce chapitre son utilisation sur trois exemples de systèmes multiagents concrets : le modèle proie-prédateur, qui nous a servi de fil rouge à la présentation de MCMAS, un modèle de simulation de l’évolution microscopique des sols, MIOR, et enfin un modèle de diffusion de populations, le modèle Collemboles. Dans une première section, nous commençons par présenter les deux modèles n’ayant pas encore été évoqué, ainsi que la manière dont nous avons choisi de les paralléliser avec MCMAS. Dans une seconde section, nous présentons ensuite les performances obtenues sur ces trois adaptations. Pour cela, nous commençons par décrire les plates-formes d’exécution et le protocole utilisés, avant d’analyser les performances obtenues. Nous synthétisons enfin, dans la troisième section, les observations et les recommandations pour une parallélisation sur GPU qu’il nous a été possible de tirer de ces trois adaptations. 8.1 Parallélisation de modèles L’étude de ces trois modèles a été l’occasion d’appliquer plusieurs approches de parallélisation parmi celles évoquées dans le Chapitre 6. Pour le modèle proie-prédateur, nous avons choisi une implémentation reposant sur l’utilisation de plugins génériques fournis par MCMAS pour paralléliser certains traitements coûteux de la simulation. Pour le modèle MIOR, nous avons choisi de réaliser un nouveau plugin MCMAS pouvant être utilisé pour lancer de nombreuses simulations microscopiques. Enfin, pour le modèle Collemboles, nous avons utilisé l’interface de bas niveau MCM pour implémenter chaque étape de la simulation sur GPU. 8.1.1 Proie-prédateur Dans la continuité de notre réflexion sur ce modèle, dans le chapitre 5, nous avons choisi d’implémenter la mise à jour des ressources végétales de l’environnement et le déplacement des individus proies et prédateurs à l’aide des plugins génériques de transformation de données et de recherche dans une grille proposés par l’interface de haut niveau de notre bibliothèque. Cette implémentation est basée sur l’algorithme 1. Deux plugins fournis par MCMAS sont mis à contribution : — Le plugin de fonction affine est utilisé pour l’ensemble de la mise à jour de la grille re-CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 114 présentant les ressources végétales à chaque itération. Dans le cadre de ce traitement, la structure de données grille fournie par MCMAS est automatiquement considérée comme un vecteur. — Un plugin de recherche de maximums fourni avec MCMAS est utilisé pour le calcul des déplacements des individus vers la cible la plus énergétique. Ce plugin permet la recherche de maximums locaux autour d’une ou plusieurs positions dans une grille. Pour ce faire, trois informations sont indiquées, la grille ainsi que les positions et le rayon de recherche. Ce plugin retourne en résultat le maximum local trouvé pour chaque position, correspondant à la case vers laquelle doit se déplacer l’individu dans le modèle proie-prédateur. Pour permettre la recherche des nouvelles positions en parallèle à l’échelle de chaque population, l’évolution de chaque type d’individu proie ou prédateur du modèle est effectuée étape par étape, tel qu’illustré par la Figure 8.1 : — Préparation des positions. Toutes les positions en deux dimensions des individus de la population sont synthétisées, en vue de l’appel à MCMAS. Cette étape permet également un comptage du nombre d’agents présents dans le modèle. Cette étape n’est pas parallélisée car elle implique la manipulation de structures de données dynamiques dont la taille n’est pas connue à priori, la liste des positions. — Recherche de maximums locaux. Cette opération, implémentée par un plugin MCMAS, permet le calcul de la nouvelle position des individus en un seul lancement. Elle admet trois arguments d’entrée : un espace de recherche, une liste de positions et un rayon de recherche. Ce rayon de recherche indique la distance maximale autour de chaque position où chercher un couple de coordonnées solution dans l’espace de recherche. La fonction retourne en résultat une liste de coordonnées correspondant aux maximums locaux trouvés pour chaque position. Cette fonction implique un parcours coûteux, en particulier si le rayon de recherche est important. Ce parcours a l’avantage de pouvoir être réalisé simultanément pour tous les individus du modèle, ce qui justifie sa parallélisation. — Déplacements. Une fois les nouvelles positions obtenues, ces informations sont utilisées pour déplacer chaque individu de manière séquentielle. Cette application séquentielle garantit la cohérence des déplacements, en assurant un fonctionnement du type "premier arrivé, premier servi" : si un conflit de destination existe entre plusieurs individus, le premier l’emporte, et les autres restent immobiles pour cette itération. Cette étape n’est pas parallé- lisée de manière à pouvoir traiter de manière séquentielle les déplacements sur le CPU, et ainsi gérer les conflits où plusieurs individus souhaitent se déplacer au même emplacement. — Consommation. Les ressources présentes à la position de chaque individu sont consommées : dans le cas d’une proie, la quantité de végétaux est réduite. Dans le cas du prédateur, la proie est tuée. Dans les deux cas, le différentiel en énergie est ajouté à l’individu courant, dans une certaine limite correspondant à la vitesse maximale d’absorption des ressources pour ce type d’individu. Cette étape n’est pas parallélisée car elle ne représente qu’une soustraction et une addition simple pour chaque individu qui peut être effectuée dans la continuité du déplacement. — Reproduction. Si l’énergie de l’individu dépasse un certain seuil, un nouvel individu est créé à son ancienne position. La quantité d’énergie minimale prévue par le modèle est retirée de l’individu parent et assignée à ce nouvel arrivant. Cette opération demeure séquentielle car elle implique une modification de la grille pour ajouter de nouveaux individus susceptible d’aboutir à des conflits. — Métabolisme. L’énergie de chaque individu est décrémentée. Si elle devient négative ou nulle, l’individu est supprimé du modèle, pour indiquer son décès. Cette opération est susceptible d’être parallélisée en traitant en parallèle tous les niveaux d’énergie du modèle,CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 115 mais nécessiterait en pratique le traitements de nombreuses cellules vides de la grille, ainsi qu’un aller-retour sur GPU. Dans ces circonstances, cette gestion du métabolisme est réalisée dans la même boucle que les trois traitements précédents. Ce processus d’évolution des individus est appliqué de manière identique à chacune des populations du modèle, en variant les positions et les distances de recherche. Elle permet de réaliser le calcul du déplacement de manière parallèle, plutôt que sous forme de nombreuses boucles séquentielles sur CPU. Reproduction Recherche maximum Entrée : grille, positions, distance Sortie : solutions Préparation des positions Déplacement Métabolisme Simulation MCMAS Consommation Figure 8.1 – Décomposition du cycle de vie des individus avec MCMAS 8.1.2 Une simulation microscopique : MIOR Le modèle multi-agents MIOR (MIcro-ORganisme) [CCP07] reproduit l’évolution microscopique des sols sous l’effet de l’activité microbienne. Ce modèle permet de simuler l’évolution en terme de biomasse microbienne, de quantité de matière organique et de CO2 produit d’un cube de sol de de 0.002 mm de côté. Cette échelle microscopique requiert le lancement d’un grand nombre de simulations MIOR pour traiter des volumes de sols macroscopiques. Dans ce cas, le développement d’un plugin MIOR permettant de lancer des paquets de simulation est intéressant pour permettre la simulation de volumes variables de sol en parallèle, en tirant parti du parallélisme d’exécution offert par l’architecture GPU. Cette multiplication des modèles permet aussi d’augmenter le nombre d’agents en parallèle, de manière à garantir une occupation efficace des coeurs matériels. Ce lancement peut être effectué de deux manières :CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 116 — Soit jusqu’à la stabilisation de l’évolution de l’ensemble des simulations MIOR. De cette manière, le modèle macroscopique dispose de toutes les informations futures de l’état microscopique de cette cellule. Le nombre d’itérations nécessaires à cette stabilisation de toutes les simulations n’est cependant pas forcément aisé à prévoir en fonction des paramètres d’entrée. — Soit sur un nombre fixe d’itérations. Cette alternative permet d’éviter une attente trop longue pour l’obtention des résultats des simulations MIOR. Il est également possible dans ce cas au modèle Sworm de relancer ces simulations ultérieurement sur GPU, en fonction des besoins du modèle macroscopique. Elle ne garantit pas d’atteindre la stabilisation de la simulation. Sworm échelle n Sworm échelle n + 1 Simulation MIOR Figure 8.2 – Représentation fractale de l’environnement Sworm Le modèle MIOR repose sur deux espèces d’agents : — Les Méta-Mior (MM) qui représentent des colonies microbiennes consommatrices de carbone. — Les dépôts de matière organique (OM) qui caractérisent les dépôts de carbone répartis dans le volume de sol. Les agents Meta-Mior sont associés à deux comportements distincts : — la respiration : transformation du carbone minéral en dioxyde de carbone CO2) — la croissance : chaque colonie ayant prélevé suffisamment de carbone dans l’environnement est en mesure de croître en population. Ces deux comportements sont décrits dans l’algorithme séquentiel 2. Aucune interaction n’est considérée comme possible entre les colonies microbiennes : les seuls échanges sont réalisés entre dépôts de carbone et colonies, en fonction de leur proximité spatiale (distance en deux ou trois dimensions) par rapport au rayon d’action associé à la colonie microbienne. Ces associations peuvent être représentées sous la forme de lignes liant les agents de chaque type pouvant potentiellement interagir, tel qu’illustré par la Figure 8.3CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 117 Algorithme 2 : Algorithme séquentiel d’évolution MIOR Data : mmList Tableau d’agents MM (colonies microbiennes) Data : omList Tableau d’agents OM (dépôts de carbone) Data : world Environnement global de la simulation 1 breathNeed ← world.respirationRate × mm.carbon; 2 growthNeed ← world.growthRate × mm.carbon; 3 availableCarbon ← totalAccessibleCarbon(mm); 4 if availableCarbon > breathNeed then /* Processus de respiration */ 5 mm.active ← true; 6 availableCarbon ← availableCarbon − consumCarbon(mm, breathNeed); 7 world.CO2 ← world.CO2 + breathNeed; 8 if availableCarbon > 0 then /* Processus de croissance */ 9 growthConsum ← max(totalAccessCarbon(mm), growthNeed); 10 consumCarbon(mm, growthConsum); 11 mm.carbon ← mm.carbon + growthConsum; 12 end 13 else 14 mm.active ← f alse 15 end Figure 8.3 – Représentation graphique d’une simulation MIORCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 118 Problématiques d’implémentation du plugin L’ajout d’un nouveau plugin MCMAS permettant de lancer plusieurs simulations MIOR de manière simultanée implique l’utilisation de MCM, puisque l’ensemble de la simulation et non certains traitements génériques doit être parallélisé. Cette approche implique donc l’utilisation d’OpenCL pour implémenter l’algorithme MIOR, ce qui impose la gestion de plusieurs problématiques : — La parallélisation de l’exécution du modèle. Cette démarche, commune à toute parallélisation de modèle sur GPU, impose en particulier l’identification du grain de parallélisation retenu aux différentes étapes de l’algorithme d’évolution. — L’adaptation des structures de données. Les principales structures de données utilisées par MIOR sont une grille et un vecteur de structures par population, contenant les informations de chaque agent. — La gestion de l’accès aux ressources partagées. La parallélisation de l’algorithme séquentiel MIOR implique le partage de nombreux dépôts de carbone entre colonies microbiennes. Il est nécessaire, à ce niveau, de garantir un accès équitable à ces ressources pour ne pas pénaliser certains agents. Cette problématique est l’occasion d’étudier l’application des barrières d’utilisation OpenCL. — Le choix du nombre d’itérations de la simulation à exécuter. Ce nombre peut être directement indiqué en paramètre du lancement, ou déterminé à partir de l’évolution du modèle. Dans ce second cas se pose alors la question de définir la ou les métriques permettant de déterminer s’il y a lieu d’arrêter l’exécution. Organisation de l’exécution en parallèle Le plugin MIOR repose sur l’utilisation d’un bloc, ou work-group, pour traiter chaque simulation MIOR. A l’intérieur de ce bloc, chaque agent de la simulation est associé à un thread GPU. La simulation d’une itération de la simulation est découpée en fonctions OpenCL distinctes, pour permettre leur appel de manière indépendante à des fins de tests ou en un seul lancement pour effectuer une ou plusieurs itérations. L’utilisation d’un work-group par simulation permet l’exécution de plusieurs modèles en parallèle, tel qu’illustré sur la Figure 8.4. Ce choix permet également de tirer parti des possibilités de recouvrement d’exécution offertes par OpenCL : si l’exécution de un ou plusieurs work-items est bloquée (accès mémoire, opération coûteuse) les ressources disponibles peuvent être allouées à d’autres work-items en attente d’exécution. Cette exécution de multiples simulations permet également de garantir un bon remplissage des coeurs fournis par la plate-forme, ce qui n’est pas toujours possible avec une seule simulation en fonction du nombre d’agents à traiter. La possibilité de lancer plusieurs simulations MIOR simultanément réduit également le nombre de copies et de données nécessaires pour une même quantité de simulations. Étant donné la rapidité de chaque simulation, ce facteur a un impact direct sur les performances obtenues, tel qu’illustré dans nos expérimentations.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 119 MIOR MIOR MIOR Workgroup Kernel Workgroup Workgroup Simulations MIOR Figure 8.4 – Répartition de l’exécution de plusieurs modèles MIOR en OpenCL Adaptation des structures de données L’adaptation du modèle MIOR requiert la conversion des données du modèle existant en structures de données OpenCL. Dans le cadre de la réalisation de ce plugin, l’environnement et les agents sont représentés sous forme de tableaux statiques de structures représentant l’état de chaque entité. Le comportement associé à ces entités est, quant à lui, implémenté sous forme de fonctions OpenCL, appelées par les programmes OpenCL exécutés. Quatre structures de données, illustrées sur le Listing 8.1, sont employées pour représenter chaque simulation MIOR : — Un tableau d’agents MM, stockant l’état des colonies microbiennes du modèle. — Un tableau d’agents OM, représentant l’état des dépôts de matière organique. — Une matrice de topologie, stockant les informations d’accessibilité — Une structure monde globale, stockant à la fois les paramètres du système (taux de respiration, de métabolisme) et les données résultat (quantité de CO2 produite).CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 120 Listing 8.1 – Structures de données MIOR utilisées en OpenCL 1 / / C ol o ni e mi c r o bi e n n e 2 typedef struct MM { 3 float x; / / P o s i t i o n X 4 float y; / / P o s i t i o n Y 5 int carbon; / / Carbone de l a c o l o n i e 6 int dormancy; / / É t a t a c t u e l 7 } MM; 8 9 / / Dé pô t de c a r b o n e 10 typedef struct OM { 11 float x; / / P o s i t i o n X 12 float y; / / P o s i t i o n Y 13 int carbon; / / Carbone du d é pô t 14 } OM; 15 16 / / E n vi r o n n em e nt de s i m u l a t i o n 17 typedef struct World { 18 int nbMM; 19 int nbOM; 20 int RA; / / Rayon d ’ a c t i o n 21 float RR; / / Taux de r e s p i r a t i o n 22 float GR; / / Taux de c r o i s s a n c e 23 float K; / / Taux de d é c o m p o s i t i o n 24 int width; / / T a i l l e du modè l e 25 int minSize; / / T a i l l e mi nim al e d ’ une c o l o n i e mi c r o bi e n n e 26 int CO2; / / Q u a n t i t é t o t a l e de CO2 d a n s l e modè l e 27 } World; L’ensemble de ces structures est d’abord alloué et initialisé par le processus principal, puis copié sur le périphérique d’exécution OpenCL. La topologie du modèle peut être représentée sous deux formes (Figure 8.5) : — En associant directement à chaque jeu de coordonnées (i, j) de la matrice l’information de voisinage entre la colonie microbienne i et le dépôt de carbone j. — En représentant ces informations sous forme de structure compacte en nombre d’accès. Notre proposition, basée sur [JGLG09], permet de diminuer le nombre d’accès mémoire devant être effectués pour accéder à tous les voisins associés à un agent particulier. Cette représentation compacte se traduit par le stockage contigu des numéros d’index associés à chaque agent dans chaque ligne de la matrice, mais requiert une duplication de la structure, comme dans le cas des techniques de linéarisation de grille évoquées dans les structures de MCMAS, pour permettre un accès efficace d’un point de vue ligne (index MM connu, recherche des OM associés) et colonne (index OM connu, recherche des MM associés). L’utilisation d’une représentation compacte (en nombre d’accès) consomme davantage de mé- moire mais permet une réduction du nombre d’accès mémoire nécessaires pour le traitement du modèle proportionnelle à la densité de remplissage de la matrice de topologie. Une utilisation de la matrice à 10% permet ainsi de réduire d’autant le nombre d’accès mémoire nécessaires au parcours de toutes les cellules utilisées de la structure dans le cadre de la mise à jour du modèle. L’allocation dynamique de mémoire n’est actuellement pas possible en OpenCL, et vient seulement d’être introduite dans les dernières versions du standard CUDA. Toutes ces structures de matrices doivent donc être allouées de manière statique sur CPU en prenant en compte le pire des cas possibles, où tous les agents OM du modèle accessibles depuis tous les agents MM. Une allocation moins pessimiste est possible en ajoutant une étape de pré-traitement du modèle, de manière àCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 121 Figure 8.5 – Représentation creuse et compacte en accès de la topologie MIOR compter le nombre de liaisons devant effectivement être représentées, au prix toutefois d’une étape de calcul supplémentaire. Cette piste n’a pas été évaluée dans notre étude. Gestion de l’accès aux ressources critiques Deux points critiques du modèle MIOR sont l’équité d’accès aux ressources en carbone pour les colonies microbiennes du modèle et la nécessité d’assurer la cohérence des mises à jour de données, pour éviter toute perte ou gain de matière dans le modèle. Sur une architecture massivement parallèle telle que les cartes graphiques, ce type de synchronisation peut très rapidement devenir coûteux, et entraîner une séquentialisation de l’algorithme. Dans ce cas extrême, l’ensemble des fils d’exécution est bloqué en attente d’un verrou, et un seul agent peut s’exécuter : les performances obtenues sont alors inférieures à celles d’une simple implémentation séquentielle, du fait des latences et de la complexité introduites par la gestion de la synchronisation. Il est donc critique, dans la parallélisation complète d’un système multi-agents, de s’assurer que les agents seront effectivement capables de s’exécuter de manière indépendante, pour tirer parti du parallélisme. Pour traiter cette problématique, l’algorithme de la simulation MIOR a été adapté pour permettre un découpage en trois étapes d’exécution parallélisables, séparées par des barrières de synchronisation. Ce fonctionnement est permis par un découpage en parts de carbone des ressources présentes dans le modèle : 1. distribution : le carbone disponible dans chaque dépôt de carbone (OM) est partagé en parts équitables entre tous les MM y ayant accès. 2. simulation du métabolisme : les différents processus métaboliques associés aux colonies microbiennes (respiration, croissance) sont appliqués en parallèle pour chaque agent sur les parts de carbone qui lui sont associées. 3. rassemblement : les parts de carbone restantes non consommées sont réintégrées dans leur dépôt d’origine. Cette solution permet de réduire le nombre de synchronisations nécessaires à chaque itération à trois barrières, plutôt qu’un grand nombre de verrous, et permet également d’exécuter ces trois étapes en un seul lancement depuis le langage Java.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 122 Détection de la terminaison Si le modèle MIOR s’intéresse à l’évolution microscopique d’un système, il est tout à fait possible de le coupler avec des modèles s’appliquant à d’autres échelles de taille, notamment macroscopiques, pour obtenir une simulation plus exhaustive du problème : on parle alors de simulation multi-échelles. Sworm [BMD+09] est un exemple de système multi-agents agent pouvant compléter l’évolution à l’échelle microscopique décrite par MIOR. Ce modèle permet de représenter l’effet de la macrofaune (par exemple les vers de terre) et de la microfaune (les bactéries) sur l’évolution des quantités de matière organique dans le sol. L’implémentation de Sworm est développée en Java sur la plate-forme Madkit [GF00a]. Elle se focalise sur l’effet bioturbant (déplacement des matières minérales et organiques) causé par les vers de terre dans le sol. Cette version ne prenant pas en compte l’activité microbienne, l’objectif du modèle MIOR est de simuler cette activité à l’échelle d’un cube de sol de 0.002 mm, là où le modèle Sworm s’intéresse à des échelles de sols de 20 cm. La représentation des données sous la forme d’unités de sol est liée à cette intégration : pour ne pas imposer l’instantiation de l’ensemble des cellules du volume de sol représenté, Sworm se base sur une représentation des données de type fractale (Figure 8.2). Cette organisation permet l’allocation et le raffinement de la représentation de chaque cellule de sol à la demande. Elle est totalement transparente du point de vue de la représentation des données du modèle MIOR, qui ne manipule que des cellules de la plus petite échelle de représentation. Elle possède cependant son importance en termes de scénarios d’exécution devant être envisagés pour ce modèle. L’instantiation de nouvelles unités macroscopiques de sol implique en effet le lancement de nombreuses simulations MIOR, qui peuvent être déléguées par lot sur GPU. Cette utilisation dans le cadre d’un autre modèle pose cependant le problème de pouvoir contrô- ler le temps d’exécution, et donc la quantité de traitements effectués par ces simulations MIOR. Il est possible de définir deux critères de terminaison pour assurer ce contrôle : — Stabilisation de l’évolution du modèle sur N itérations — Exécution d’un nombre fixé d’itérations Ces deux critères répondent à des optiques différentes, avec toutefois systématiquement la volonté de pouvoir suivre l’historique de l’évolution des principales données du modèle (quantité de carbone, de CO2 ). Stabilisation de l’évolution du modèle sur N itérations Ce critère de terminaison correspond à une absence d’évolution d’un ensemble de métriques pendant un nombre fixé d’itérations. Cet ensemble peut comprendre un nombre variables de mé- triques, suivant le niveau d’évolution à surveiller : une simple surveillance de la quantité globale de carbone stockée par les colonies microbiennes permet par exemple de déceler tout arrêt de fixation du carbone sur cette période de temps. Cet état ne garantit pas cependant l’arrêt de l’évolution du modèle, mais simplement l’absence de ressources en carbone suffisantes pour déclencher la moindre croissance microbienne. La poursuite du processus de respiration n’est pas prise en compte. La surveillance des quantités de dioxyde de carbone (CO2) pallie à ce défaut, du fait de sa production lors du processus de respiration. Une surveillance de ces deux quantités n’est cependant pas nécessaire pour garantir l’arrêt des deux processus d’évolution dans le modèle : la respiration prenant le pas sur toute croissance dans l’algorithme, la cessation de ce processus suffit à garantir l’arrêt du second. L’utilisation de N itérations de surveillance est rendue nécessaire par l’obligation de prendreCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 123 en compte l’éventuel décès d’une ou plusieurs colonies bactériennes, une fois ce type d’équilibre atteint. Ces décès, en diminuant la concurrence d’accès aux dépôts de carbone, augmentent la quantité de carbone utilisable par les autres colonies microbiennes en partageant l’accès. Cette augmentation est susceptible de permettre à ces colonies de sortir de leur état de dormance et de relancer une nouvelle phase d’évolution du système. L’inconvénient de ce critère d’arrêt est la difficulté d’estimer à priori le nombre d’itérations né- cessaires à la stabilisation du système. L’exécution sur GPU ne pouvant pas être interrompue par le programme, il est difficile, même avec une connaissance précise des paramètres de la simulation, de par la nature aléatoire du positionnement des agents, et donc leur accès aux ressources, et de certains processus, de calculer une échéance de temps fiable avant obtention du type de stabilisation de l’évolution recherchée. Exécution d’un nombre fixé d’itérations Ce critère de terminaison est totalement agnostique vis-à-vis de l’état du modèle, et considère le seul nombre d’itérations de la simulation écoulé comme indicateur d’arrêt. Cette limite permet, en connaissant la durée moyenne d’une itération, d’estimer le temps total nécessaire pour effectuer le calcul demandé. En variant le nombre d’itérations exécutées pour chaque lancement GPU, cette information permet le contrôle de la latence maximale entre deux retours de résultats. L’estimation de la durée d’une itération est possible, en dépit de la nature stochastique de certaines portions de l’algorithme (positions, probabilité de décès) en considérant le cas le plus coû- teux possible en complexité d’exécution. Dans le cas de MIOR, les seules boucles de l’algorithme sont associées à des parcours de relations inter-agents. Ce coût revient à calculer le nombre maximal de relations pouvant être présentes dans le modèle. Ce nombre est atteint si chaque colonie microbienne a un rayon d’interaction égal ou supérieur à la dimension la plus grande du modèle. Tous les dépôts de carbone présents dans le modèle sont alors accessibles à chaque colonie microbienne, ce qui se traduit, pour n colonies microbiennes et m dépôts de carbone, par un total de n ∗ m relations possibles. Les deux approches de terminaison sont rendues possibles par le plugin MIOR fourni avec MCMAS, de manière à permettre le choix de l’une ou l’autre des approches par le modèle Sworm, en fonction du nombre de simulations à lancer et des impératifs en temps du modèle macroscopique. 8.1.3 Un modèle macroscopique : Collemboles Après avoir présenté la parallélisation du modèle MIOR, nous nous intéressons à présent à un autre système multi-agents, macroscopique cette fois, Collemboles. Ce modèle nous permet de mettre en avant un exemple de parallélisation complète de modèle sur GPU au moyen de plusieurs kernels d’exécution lancés de manière asynchrone. Présentation du modèle Le modèle Collemboles est un système multi-agents conçu pour modéliser la diffusion d’arthropodes, des collemboles, entre des parcelles de plusieurs types naturelles, forestières ou artificielles, en vue d’étudier leur impact sur la biodiversité. Il est basé sur le chargement de données depuis un système d’information géographique pour obtenir un espace en deux dimensions découpé en parcelles de terrain de forme polygonale, tel qu’illustré par la Figure 8.6. Cet environnement continuCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 124 est ensuite décomposé en cellules, ou patchs, correspondants à une aire de sol fixe, qui sont utilisés comme unités de base de modélisation. L’implémentation de référence de cet algorithme a été réalisée en NetLogo, de manière à permettre une visualisation aisée de l’évolution de la répartition géographique et de la densité de population des individus. Figure 8.6 – État initial d’une simulation Collemboles - Implémentation NetLogo L’évolution de la simulation est découpée en quatre étapes, appliquées au niveau de chaque cellule : 1. L’Arrivée de nouveaux individus. Cette opération correspond à la distribution équitable d’une fraction de la population de chaque parcelle à toutes les cellules la constituant. Toutes les populations du modèle étant entières, ce processus n’a d’effet au niveau de chaque parcelle que si cette fraction de nouveaux individus représente un nombre supérieur à la quantité de cellules de la parcelle. 2. La Reproduction, qui consiste à mettre à jour la population de chaque parcelle pour correspondre à la somme des populations de toutes les cellules la composant, pour permettre un suivi de l’évolution de chaque parcelle. 3. La Diffusion. Cette opération consiste à diffuser une portion de la population de chaque cellule à ses huit voisines, comme évoqué dans nos exemples de plugins MCMAS. Cette diffusion se différencie de celle fournie par notre bibliothèque par le fait qu’elle n’a lieu que si le terrain de la parcelle courante est adapté aux collemboles et si la population globale de la parcelle atteint un certain seuil. 4. La Mort des individus. A la fin de chaque itération, toute population non nulle de collemboles au niveau de parcelles inadaptées à ces individus est fixée à zéro pour indiquer sa disparition. Cet algorithme, relativement simple, est cependant composé de plusieurs opérations coûteuses en temps de calcul mais parallélisables : la diffusion et la mise à jour des populations. L’applicationCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 125 de ces traitements à chaque cellule est cependant largement conditionnelle, en fonction d’informations externes telles que le type ou la population de la parcelle, ce qui rend difficile l’utilisation des primitives de haut niveau de diffusion ou de réduction fournies par MCMAS. Dans la suite de cette section, nous évoquons un autre moyen de paralléliser cette exécution à l’aide de l’interface bas niveau donnant accès à OpenCL. Implémentation Comme nous venons de le voir, les différents traitements mis en jeu par le modèle Collemboles sont parallélisables, mais mettent en jeu de nombreuses conditions externes qui rendent difficile l’utilisation de primitives de haut niveau MCMAS. Dans ces conditions, nous avons retenu une autre approche d’implémentation basée sur l’utilisation de l’interface de bas niveau pour décomposer le déroulement de la simulation en quatre traitements distincts lancés sans synchronisation intermédiaire sur GPU, tel qu’illustré par la Figure 8.7 : — Un kernel responsable de la gestion des nouveaux arrivants. — Un kernel chargé de la reproduction des individus. — Un kernel responsable de la diffusion des populations sur les parcelles propices. — Un dernier kernel gérant la disparition des populations situées sur des parcelles inadaptées. Nouveaux arrivants Préparation données Récupération et enregistrement des résultats CPU GPU Reproduction Diffusion Décès Figure 8.7 – Découpage d’une itération collembole entre CPU et GPUCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 126 Structures de données Deux structures principales sont mises en jeu dans le modèle Collemboles : — Les parcelles, associées à une surface, une population et un type de terrain. — La grille représentant l’environnement de simulation, dont chaque cellule comprend une indication de parcelle et une population. La représentation des parcelles en OpenCL peut être effectuée, comme nous l’avons vu dans notre réflexion sur les structures de données agents, sous forme de tableaux de structures ou d’un tableau pour chaque propriété. Nous avons choisi, dans le cas du modèle Collembole, d’avoir recours à un tableau par propriété pour représenter les parcelles pour plusieurs raisons : — Le faible nombre de propriétés associées à chaque parcelle limite l’explosion du nombre de paramètres sur GPU. — Seules une ou deux de ces propriétés sont utilisées à chaque étape des traitements. Le découpage des propriétés en structures distinctes permet donc de récupérer certaines informations du modèle en cours d’exécution à des fins de vérification ou de stockage sans perturber l’exécution des traitements n’y ayant pas recours. — Les traitements des cellules étant toujours basés sur les mêmes propriétés dans un même traitement, ce découpage maximise la localité de ces propriétés en mémoire, à la fois pour optimiser les accès et l’occupation des éventuels caches L1 et L2 présents sur le matériel. Ce raisonnement s’applique également à l’environnement, pour lequel l’utilisation d’une grille par propriété, assez similaire à celle de l’implémentation proie-prédateur, a été retenue. Dans le cas de la grille d’environnement, ce découpage en grilles de propriétés offre un avantage supplé- mentaire, en permettant de limiter au strict minimum les données devant être présentes en mémoire GPU à un moment donné. Nouveaux arrivants L’arrivée de nouveaux arrivants est traitée au niveau de chaque cellule. Pour cela, chaque instance du kernel récupère la population et le nombre de cellules de la parcelle associée à la cellule courante, pour déterminer le nombre d’individus devant être répartis sur chaque unité de sol. Cette opération revient à calculer de nombreuses fois la même fraction de population à répartir, mais permet à chaque thread de ne mettre à jour que sa cellule locale, ce qui élimine tout problème de synchronisation de l’écriture des données. Reproduction Ce traitement est également effectué pour chaque cellule de l’environnement. La réduction de la population au niveau de la parcelle est effectuée sous forme d’addition atomique, pour garantir la cohérence des totaux obtenus. Le choix d’un traitement basé sur les parcelles, plutôt que les cellules, éviterait l’utilisation d’opérations atomiques, mais impose de disposer d’une liste des cellules associées à chaque parcelle pour ne pas avoir à parcourir l’ensemble de la grille, structure qui n’est pas présente dans notre modèle. Le code final obtenu est très proche d’une opération de diffusion MCMAS, si ce n’est que les résultats sont réduits en plusieurs sous-totaux sur la base de parcelles plutôt que sous la forme d’une unique valeur scalaire.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 127 Diffusion La réalisation de la diffusion sur GPU des populations du modèle est effectuée en deux étapes, séparées par une barrière d’exécution. — Une quantité d’individus à diffuser est calculée au niveau de chaque cellule. — Chaque cellule récupère un huitième de la quantité de chaque cellule voisine et l’ajoute à sa propre population. L’application des mises à jour sur la cellule associée à chaque thread, plutôt que d’effectuer directement les mises à jour sur les cellules voisines, permet comme dans le cas de l’arrivée de nouveaux individus de garantir l’absence d’écriture de la même donnée par plusieurs threads différents, et ainsi d’éviter la synchronisation des modifications associées dans le modèle. Mort des individus Le dernier traitement exécuté sur GPU pour chaque cellule est la mise à zéro de la population de chaque cellule inadaptée du fait du type de terrain aux individus collemboles. Cette dernière opération ne requiert pas de considération particulière en termes de synchronisation de l’exécution, la seule donnée utilisée en écriture est la cellule courante. Elle peut donc être directement réalisée sans adaptation particulière en OpenCL. 8.2 Etudes de performances 8.2.1 Supports d’exécution Dans le cadre de nos études de performances, nous avons eu recours à une variété de supports d’exécution, tant grand public que orientés vers le calcul haute performance. Dans cette section, nous présentons les caractéristiques de chacun de ces matériels, pour les replacer dans le contexte de l’évolution de l’exécution sur GPU. L’objectif de cette variété de supports est de permettre la comparaison entre gammes professionnelles et grand public d’une part, entre anciennes et nouvelles générations d’autre part, de différentes solutions matérielles d’exécution. De cette manière, il est possible de quantifier, pour un chercheur, le bénéfice pouvant être obtenu par l’utilisation de matériel spécialisé par rapport à celle de son poste personnel. Cette variété permet également de valider les performances obtenues de manière indépendante par rapport à une génération de matériel ou une implémentation OpenCL donnée. Il est important de noter que le nombre de coeurs n’est pas directement comparable entre maté- riel NVIDIA et AMD, les unités d’exécution proposées par ce second fabriquant étant plus nombreuses mais également plus spécialisées. Voici la liste de ces supports, classés par ordre chronologique. NVIDIA Geforce 8800GT Le premier matériel sur lequel nous avons eu l’occasion de réaliser des essais est une carte graphique milieu de gamme grand public de NVIDIA, la Geforce 8800GT, sortie en octobre 2007. Cette carte dispose de 112 unités d’exécution, soit 14 multi-processeurs, cadencés à 1.5 GHz et accompagnés de 512 Mo de mémoire vive, et offre une puissance théorique de 504 Gflops enCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 128 simple précision. Elle ne supporte pas matériellement la gestion des nombres en double précision. Dans nos expérimentations, elle est associée à un processeur Intel Core 2 Q9300 fonctionnant à 2.5 GHz. Elle ne propose pas de mécanisme de cache L1 et L2. NVIDIA Tesla S1070 Le second matériel utilisé est un châssis graphique dédié au calcul GPU proposé par NVIDIA en 2009. Il est constitué de quatre cartes graphiques Tesla C1060 dotées de 240 unités d’exécution, soit 30 multiprocesseurs cadencés à 1.3 Ghz pour une puissance théorique de 933 Gflops par carte. Chaque carte est associée à 4 Go de mémoire vive. Dans le cadre de nos tests, un seul de ces GPU est utilisé, couplé à un processeur Intel Xeon X5550 cadencé à 2.67 Ghz. L’architecture matérielle de cette solution est très similaire à la Geforce 8800GT présentée précédemment. Elle se différencie par la quantité de mémoire disponible, 4 Go, ainsi que le support de la correction des erreurs mémoires (ECC) et des calculs en nombres flottants double précision. Elle ne propose pas de mécanisme de cache L1 et L2. AMD Radeon HD6870 La carte graphique AMD Radeon HD6870 est une carte graphique grand public de milieu de gamme sortie en octobre 2010. Elle se caractérise par l’utilisation d’un mécanisme de cache L1 et L2 similaire à celui rencontré sur les cartes NVIDIA récentes, mais ne supporte pas toutefois le traitement matériel de nombres flottants en double précision. Elle est constituée, au niveau du matériel, de 1120 coeurs cadencés à une fréquence de 900 MHz, pour une puissance théorique de 2016 Gflops. Ces unités d’exécution sont associées à 1Go de mémoire vive intégrés à la carte. Dans nos expérimentations, elle est associée à un processeur AMD Phenom II X6 1090T cadencé à 3.2 GHz. NVIDIA Geforce 560Ti La Geforce 560Ti est une carte graphique grand public de milieu de gamme sortie en janvier 2011. Elle est basée sur l’architecture Fermi. Cette carte propose 384 unités d’exécution cadencées à 822 MHz et 1 Go de mémoire vive. Elle dispose d’un mécanisme de cache L1 et L2 et supporte les calculs en double précision, mais limite le débit d’opérations obtenu à un douzième de celui des traitements en simple précision. Dans notre configuration de test, elle est associée à un processeur Intel Core i7 2600K cadencé à 3.4 GHz. NVIDIA Tesla K20 La carte graphique Tesla K20 est basée sur l’architecture matérielle Kepler et propose donc un cache L1 et un cache L2. Sortie fin novembre 2012, elle est destinée spécifiquement au calcul scientifique, et supporte matériellement le traitement de nombres flottants en double précision ainsi que la correction des erreurs mémoires. Elle est constituée au niveau matériel de 2496 coeurs graphiques cadencés à 706 MHz, pour une puissance théorique de 3520 Gflops. Ces coeurs d’exé- cution sont associés à 5120 Mo de mémoire vive. Les performances en double précision offertes par cette carte sont de l’ordre du tiers des performances obtenues en simple précision. Cette carte est associée dans nos expérimentations à un processeur Intel Xeon CPU E5-2609v2 cadencé à 2.50 GHz.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 129 8.2.2 Protocole expérimental L’évolution du matériel GPU est très rapide. Nous avons donc eu l’occasion, entre le début et la fin de nos recherches, de tester des supports très différents. Certains d’entre eux, comme la carte Geforce 8800GT, n’ont pas pu être utilisés pour l’ensemble de nos tests. Nous avons cependant inclus les courbes correspondantes pour permettre une comparaison avec nos autres plates-formes d’exécution. Tous les tests ont été lancés sur des systèmes d’exploitation Linux 64 bits. Les courbes de la Geforce 8800GT ont été réalisées avec la version 3.2 de l’environnement CUDA fourni par la société NVIDIA. Toutes les autres courbes mettant en jeu du matériel de ce fabriquant ont été réalisées avec la dernière version stable, la version 5.2. Pour les tests de performance sur matériel AMD ou CPU, nous avons utilisé l’implémentation OpenCL proposée par l’environnement AMD APP en version 2.7. Dans le cadre de nos expérimentations, nous avons choisi d’évaluer le temps d’exécution en fonction de la quantité de traitements. Nous avons pour cela fait varier la taille et le nombre d’agents du modèle dans le cas des modèles MIOR et Collemboles. Dans le cas de proie-prédateur, cette variation de la quantité des traitements est obtenue en modifiant le rayon de recherche de chaque individu. Toutes les valeurs indiquées sont basées sur une moyenne des temps d’exécution obtenus sur plusieurs dizaines d’exécution, de manière à minimiser l’impact du système d’exploitation et du pilote graphique sur les temps observés. 8.2.3 Résultats obtenus Proie-prédateur Pour mesurer l’impact de l’utilisation du GPU sur les performances obtenues, nous avons choisi de faire varier le rayon de recherche de nouvelles positions sur GPU, en maintenant toutes les autres données constantes. De cette manière, il est possible de mesurer l’impact du nombre de cases parcourues et du nombre d’accès mémoires sur les performances obtenues. Le rayon de recherche est directement appliqué aux proies, et majoré de 50% pour les prédateurs, de manière à conserver un rapport fixe entre les champs de vision de chaque population. Nous avons utilisé pour nos expérimentation un environnement de dimension 1000, capable de tenir en mémoire sur tous nos supports d’évolution. Pour éviter de donner l’accès à l’ensemble de l’environnement à chaque individu, nous nous sommes arrêtés à un rayon de recherche de 100, correspondant à 1% de l’espace total simulé. Chaque courbe compare les performances obtenues entre la carte graphique et le CPU présent sur le même support d’exécution, ce qui explique l’allure différente de chaque courbe CPU. Le temps moyen d’une itération est pris pour référence pour mesurer l’impact de ce rayon de recherche sur les performances du modèle. Ce temps est à chaque fois comparé entre l’implé- mentation basée sur MCMAS, et une implémentation reprenant exactement le même algorithme mais utilisant des équivalents réalisés en Java de ces opérations génériques, de manière à disposer de deux décompositions du programme équivalentes. La moyenne en temps d’exécution d’une itération sur cinquante itérations de la simulation est retenue comme référence. La Figure 8.8 illustre les temps obtenus sur carte Kepler et sur le processeur Xeon correspondant. Tant que le rayon de recherche configuré pour les individus proies demeure inférieur à 30, l’implémentation GPU présente des performances très similaires à la version CPU. Cette proximitéCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 130 0 1000 2000 3000 4000 5000 6000 7000 10 20 30 40 50 60 70 80 90 100 Temps moyen par itération (ms) Rayon de recherche CPU GPU Figure 8.8 – Temps moyen d’exécution d’une itération du modèle proie-prédateur sur carte Kepler K20m et processeur Xeon CPU E5-2609v2 s’explique par le coût fixe du reste de l’itération, mais permet toutefois d’illustrer que le recours au GPU ne pénalise pas les performances du modèle, même à petite échelle. La version de la simulation s’exécutant sur carte Kepler prend l’avantage à partir d’un rayon de recherche supérieur à 30, et cet avantage devient particulièrement marqué à partir d’un rayon de recherche de 60, où les performances CPU présentent un important ralentissement. La différence de performance atteint un facteur 7 en faveur de la carte GPU quand le rayon de recherche approche de 100. 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 10 20 30 40 50 60 70 80 90 100 Temps moyen par itération (ms) Rayon de recherche CPU GPU Figure 8.9 – Temps moyen d’exécution d’une itération du modèle proie-prédateur sur carte Radeon HD6870 et processeur AMD Phenom II X6 1090T La Figure 8.9 illustre les performances obtenues sur la Radeon HD6870 décrite dans nos supports d’exécution. L’implémentation GPU prend l’avantage dès un rayon de recherche de 10, et cet avantage va ensuite en s’accentuant irrégulièrement jusqu’à un rayon de recherche de 70, au-delàCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 131 duquel la courbe CPU indique une brusque dégradation des performances. Si le comportement du CPU par rapport à l’augmentation du rayon de recherche demeure très régulière, il est possible de remarquer que les performances obtenues par la carte Radeon manifestent des variations marquées. Les temps obtenus sur GPU sont meilleurs qu’avec notre carte Kepler, ce qui tend à confirmer l’excellente réputation des cartes AMD en exécution GPU et en support d’OpenCL. 0 500 1000 1500 2000 2500 3000 3500 4000 10 20 30 40 50 60 70 80 90 100 Temps moyen par itération (ms) Rayon de recherche CPU GPU Figure 8.10 – Temps moyen d’exécution d’une itération du modèle proie-prédateur sur carte Geforce 560Ti et sur CPU La Figure 8.10 montre les performances obtenues sur la plate-forme matérielle Geforce 560Ti. Elle se caractérise, comme dans le cas de la carte Kepler, par des performances initialement très proches entre version CPU et GPU, avant que les temps ne tournent nettement à l’avantage de cette dernière à partir d’un rayon de recherche de 40. Cet avantage devient encore plus marqué à partir d’un rayon de 60. La courbe GPU présente également, quoique de manière moins accentuée, les pics observés sur les temps de la carte Radeon. L’accélération finale obtenue entre CPU et GPU est du même ordre qu’avec la carte Kepler, un facteur sept, au rayon de recherche 100. Si l’objectif de ces trois courbes est de mettre en avant les gains permis par l’utilisation de deux ressources de calculs différentes, CPU et GPU, sur une même machine, il est également intéressant de comparer les résultats obtenus entre matériels CPU et matériels GPU. — Entre matériels GPU, la carte Kepler se caractérise par une très grande régularité des performances obtenues, cependant légèrement en deçà des cartes grand public récentes. Cet handicap relatif peut être mis sur le compte de la fréquence de fonctionnement moins élevée de chaque coeur graphique (700 MHz contre 800 MHz ou plus). L’utilisation des ressources est à contrario plus stable sur cette carte, comme l’indique la courbe plus régulière. Les ressources en mémoire plus importantes offertes par la carte permettent également d’envisager des scénarios de taille supérieure. — Entre CPU, les comportements en termes de performance sont très similaires, avec une première portion linéaire, suivie d’un point charnière avant que les performances ne se dégradent plus rapidement. Ces courbes mettent en avant le temps supérieur utilisé par l’implémentation correspondant au CPU associé à la carte Tesla K20. S’il s’agit du processeur le plus récent de nos tests, ce retard en temps est aisément expliqué par le fait que l’exécution CPU ne tire pas parti de tous les coeurs d’exécution dans nos tests. DansCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 132 ces conditions, la fréquence joue un rôle très important, directement visible sur la courbe correspondant au processeur AMD (3.2 GHz) et encore plus sur la courbe correspondant au processeur Core i7 2600K (3.4 GHz). Par comparaison, le processeur Xeon testé ne fonctionne qu’à 2.5 GHz.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 133 MIOR Pour évaluer les performances de ce nouveau processus de distribution/rassemblement des ressources du modèle sur GPU, nous avons choisi de comparer les performances obtenues par l’implémentation sur plusieurs modèles de cartes graphiques. Pour illustrer l’impact des changements incrémentaux apportés à l’algorithme original, nous avons également testé cinq implémentations successives, comprenant un nombre croissant d’adaptations pour l’architecture GPU. Dans tous les cas, le temps d’exécution moyen de 50 simulations a été retenu comme indicateur de performance. Voici les caractéristiques des implémentations comparées : — L’implémentation GPU 1.0 est une adaptation directe de l’algorithme et des structures de données présentées, incluant seulement la suppression des dépendances d’accès aux données par le biais du mécanisme de distribution/rassemblement décrit dans l’implémentation du modèle. — L’implémentation GPU 2.0 ajoute à l’algorithme de la première implémentation l’utilisation d’une représentation alternative, plus compacte en termes d’accès, pour le stockage de la topologie du modèle. Cette représentation exige toutefois des quantités plus importantes de mémoire vive. — L’implémentation GPU 3.0 introduit l’utilisation de la mémoire locale du périphérique (voir présentation de l’architecture GPU), au moyen de copies manuelles de données les plus utilisées (parts de carbone) au début et à la fin de chaque pas de calcul. L’algorithme est par ailleurs identique à celui de la seconde implémentation. — L’implémentation GPU 4.0 introduit la possibilité de résoudre plusieurs simulations en parallèle pour chaque lancement de kernel. L’algorithme de chacune de ces simulations est identique à la première implémentation. — L’implémentation GPU 5.0 permet, de manière similaire à l’implémentation GPU 4.0, le lancement de plusieurs implémentations GPU 2.0 de manière simultanée. Les deux dernières implémentations présentées, GPU 4.0 et GPU 5.0, ont pour objectif de permettre au modèle de profiter des possibilités de recouvrement d’exécution offerts par l’ordonnanceur GPU, en s’assurant qu’il existe toujours des agents à exécuter en cas de blocage (barrière) d’une simulation particulière, comme évoqué dans nos bonnes pratiques. Le fait de disposer de nombreux threads permet en effet dans ce cas au matériel de traiter d’autres agents MIOR, pendant que certains agents sont en attente de ressources. Pour permettre la comparaison de ces implémentations avec la version séquentielle originale, une version CPU réalisée en Java est également incluse. Les figures 8.11, 8.12 et 8.13 donnent le temps d’exécution de 50 simulations sur nos supports Tesla S1070, Geforce 560Ti et Tesla K20. Pour permettre une mesure de l’impact de la taille du modèle et du nombre d’agents sur les performances, un facteur d’échelle est appliqué horizontalement : à l’échelle 1, le modèle comprend 38 colonies microbiennes (MM) et 310 dépôts de carbone (OM). Ces nombres sont multipliés par 6 à l’échelle 6, et la taille de l’environnement est également modifiée pour conserver la même densité moyenne d’agents dans le modèle. La Figure 8.11 met tout d’abord en évidence les performances obtenues sur une carte graphique Tesla C1060 dénuée de cache. Ces courbes illustrent l’avantage initial en performance marqué en faveur de l’implémentation GPU 2.0. Les autres variantes GPU sont plus lentes à prendre l’avantage sur le CPU, et ne se détachent réellement en performance qu’à partir de l’échelle 4, pour ensuite continuer à offrir des performances très proches. L’amélioration de performance obtenue entre l’implémentation la plus rapide, GPU 2.0, et l’exécution sur CPU devient de l’ordre de 10 à l’échelle 10.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 134 0 100 200 300 400 500 600 700 Temps moyen d'exécution d'une simulation (ms) 0 2 4 6 8 10 Facteur de mise à l'échelle du modèle CPU GPU v1.0 GPU v2.0 GPU v3.0 Figure 8.11 – Performances CPU et GPU MIOR sur carte Tesla C1060 0 50 100 150 200 250 300 350 400 450 500 550 Temps moyen d'exécution d'une simulation (ms) 0 2 4 6 8 10 Facteur de mise à l'échelle du modèle CPU GPU v1.0 GPU v2.0 GPU v3.0 Figure 8.12 – Performances CPU et GPU MIOR sur carte Geforce 560Ti La Figure 8.12 illustre les performances obtenues sur un matériel grand public beaucoup plus récent, et illustre en particulier les importants progrès réalisés par la gestion de la mémoire locale. Les courbes possèdent, en dehors de cet élément, une évolution très similaire, avec des temps d’exécution absolus toutefois de l’ordre de deux fois plus rapides, du fait de la fréquence et du nombre de cœurs plus importants sur cette plate-forme. Les courbes se caractérisent de manière générale par leur évolution très régulière, sans la rupture en performance rencontrée par la carte Tesla. Cette régularité peut être expliquée par la présence de cache d’exécution sur cette nouvelle architecture, et d’un meilleur algorithme de regroupement des accès mémoires, plus à même de gérer les accès à la topologie effectués par la simulation MIOR. Ces courbes illustrent une nouvelle fois un avantage de l’implémentation GPU 2.0 sur les autres implémentation. Elle est ainsi cinqCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 135 0 100 200 300 400 500 600 700 800 900 Temps moyen d'exécution d'une simulation (ms) 0 2 4 6 8 10 Facteur de mise à l'échelle du modèle CPU GPU v1.0 GPU v2.0 GPU v3.0 Figure 8.13 – Performances CPU et GPU MIOR sur carte Kepler K20m fois plus rapide que l’implémentation GPU 3.0 à l’échelle 10. Cet avantage sur l’implémentation GPU 3.0 est toutefois moins marqué que pour la carte Tesla C1060, ce qui montre l’intérêt de nombreuses optimisations des accès mémoires effectués sur le coût de recopie des données en mémoire locale. Les courbes GPU 1.0 et CPU illustrent des tendances et des temps d’exécution très similaires au support d’exécution plus ancien. La Figure 8.13 correspondant à la carte Tesla K20 est extrêmement similaire aux courbes obtenues sur Geforce 560Ti, ce qui s’explique aisément par la proximité dans le temps et en termes d’architecture, Kepler contre Fermi, entre ces deux cartes. Kepler se caractérise ici par des performances en léger retrait, comme dans le cas du modèle proie-prédateur. Ce retrait peut encore une fois être expliqué par la différence de fréquence de fonctionnement entre les deux cartes, dédiées à des utilisations différentes. Ces courbes confirment également encore une fois l’avantage en termes de fréquence de processeurs comme le Core i7 2600K sur des processeurs plus récents mais moins véloces comme le Xeon, dans le cadre d’une exécution séquentielle. L’implémentation GPU 2.0 permet de nouveau l’obtention des meilleures performances, en étant approximativement six fois plus rapide à l’échelle 10 que l’implémentation GPU 3.0. L’implémentation GPU 1.0 demeure la plus lente des implémentations GPU, avec un facteur 10 par rapport à l’implémentation GPU 2.0 à l’échelle 10. Le plugin MIOR est conçu pour pouvoir réaliser un grand nombre de simulations microscopiques dans le cadre de la simulation multi-échelles Sworm. Dans ces circonstances, il est intéressant de mesurer le coût d’un lancement MIOR sur GPU, ainsi que l’évolution des performances obtenues en fonction du nombre de simulations demandées, de manière à évaluer la taille de lot la plus efficace. L’objectif, de cette manière, est d’amortir les coûts de transferts liés à l’exécution sur GPU, tout en étant capable de connaître le temps d’exécution total du lot de simulation, de manière à éviter de bloquer d’autres traitements Sworm. Au vu de ces éléments, il existe plusieurs manières de mesurer les performances de l’exécution en parallèle de plusieurs simulations : — En mesurant les performances d’un seul lancement et en variant le nombre de simulationsCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 136 (Figure 8.14). Cette approche permet de mesurer l’évolution du temps total d’exécution de l’ensemble des simulations, théoriquement linéaire (loi d’accélération). Une stagnation de la courbe indique une amélioration de l’efficacité d’exécution sur GPU, et une augmentation de sa pente illustre au contraire une augmentation du coût de la parallélisation. Une mauvaise efficacité peut être compensée, à plus grand échelle, par le recouvrement des accès et des calculs proposés par la carte graphique, possible uniquement quand le nombre de threads d’exécution en attente est suffisant. — En mesurant le temps d’exécution total pour effectuer un nombre fixe de simulations (Figure 8.15) en faisant varier le nombre de simulations lancés simultanément. Cette approche permet de mettre en évidence les coûts associés aux transferts et aux lancements, par rapport au nombre et à la durée des calculs utilisés. La Figure 8.14 illustre les temps d’exécution obtenus pour le lancement d’un nombre variable de simulations en une seule fois. Les courbes montrent que, pour des petits nombres de simulations, l’implémentation compacte de la topologie mémoire est plus performante que la repré- sentation sous forme de matrice pleine à deux dimensions. Cette tendance s’inverse au-delà de 50 simulations exécutées en parallèle, ce qui s’explique soit par une progression non linéaire des coûts de synchronisation, soit par la consommation mémoire supplémentaire imposée par l’utilisation de la représentation optimisée en accès. 0 10 20 30 40 50 60 70 80 90 0 10 20 30 40 50 60 70 80 90 100 Temps total d'exécution (ms) Nombre de simulations (workgroup) par exécution GPU v4.0 GPU v5.0 Figure 8.14 – Temps d’exécution par simulation MIOR sur Tesla C1060, en fonction du nombre total de simulations La Figure 8.15 illustre les temps d’exécution obtenus pour l’exécution d’un même nombre total de simulations, en variant le quantité de systèmes lancés en simultané. Les courbes illustrent cette fois les coûts résultants de l’exécution sur GPU pour des lancements de petite taille. Ces coûts comprennent notamment la préparation du programme et la copie des données vers et depuis la carte, entre chaque lot de simulations. Ces coûts sont masqués une fois que le nombre de simulations devient suffisamment important, et que le pilote OpenCL peut ainsi effectuer un recouvrement des temps de communication par des calculs pour conserver les unités d’exécution en activité. Cette pénalité à l’exécution sur GPU est davantage marquée dans le cas de l’implémentation optimisée en accès, mais est visible sur les deux courbes. Au-delà de 30 simulations par lancement, le tempsCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 137 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 0 10 20 30 40 50 60 70 80 90 100 Temps total d'exécution (ms) Nombre de simulations (workgroup) par exécution GPU v4.0 GPU v5.0 Figure 8.15 – Temps d’exécution total pour 1000 simulations MIOR sur plate-forme Tesla C1060, en variant le nombre de simulations exécutées de manière simultanée. d’exécution total de toutes les simulations stagne, indiquant qu’un remplissage optimal de la carte est atteint pour cette implémentation.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 138 Collemboles Pour mesurer l’impact de l’utilisation du GPU sur les performances obtenues, nous avons choisi de faire varier le nombre de cellules présentes dans le modèle. Cette mise à l’échelle de l’environnement impose cependant une réflexion particulière, le découpage des parcelles étant assuré sur la base de données géographiques externes, associées à une réalité géographique particulière. Dans ces conditions, l’augmentation du nombre de cellules entraîne une augmentation de la précision du modèle, plutôt qu’un agrandissement de l’espace de simulation. Le temps d’exécution de 500 itérations du modèle Collemboles est pris en compte pour mesurer l’impact de ce rayon de cellules sur les performances du modèle. Ce temps est comparé sur trois catégories de supports d’exécution : — Les GPU accessibles au grand public, représentés par les supports Geforce 560Ti et Radeon HD6870. — Les GPU destinés à une utilisation professionnelle, représentés par les cartes Tesla C1060 et Tesla K20. — Deux CPU grands publics, pour évaluer les performances pouvant être attendues en l’absence de GPU. La même implémentation basée sur l’utilisation d’OpenCL est utilisée pour toute les courbes, qui illustrent donc les performances pouvant être obtenues en utilisant tous les coeurs d’exécution disponible sur le matériel. 0 200 400 600 800 1000 1200 1400 1600 0 5 10 15 20 Temps total pour 500 itérations (s) Facteur de mise à l'échelle AMD Phenom X6 1090T Intel Core i7 2600k Figure 8.16 – Temps d’exécution de 500 itérations du modèle Collembole sur CPU La Figure 8.16 illustre tout d’abord les performances obtenues en OpenCL sur deux CPU grand public, un AMD Phenom X6 1090T et un Intel Core i7 2600K. Ces courbes mettent en évidence un comportement très irrégulier des performances observées, avec toutefois un avantage de l’ordre de 40% en faveur du processeur Intel. La Figure 8.17 illustre l’exécution sur deux solutions graphiques grand public, et met en avant l’intérêt de paralléliser la simulation sur GPU, avec des gains de l’ordre d’un facteur 2 par rapport à une exécution sur CPU. La Figure 8.18 enfin, oppose deux matériels professionnels, une carte Tesla C1060 et une carteCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 139 0 100 200 300 400 500 600 700 800 900 1000 0 5 10 15 20 Temps total pour 500 itérations (s) Facteur de mise à l'échelle Geforce 560Ti Radeon HD 6870 Figure 8.17 – Temps d’exécution de 500 itérations du modèle Collembole sur GPU grand public 0 500 1000 1500 2000 2500 0 5 10 15 20 Temps total pour 500 itérations (s) Facteur de mise à l'échelle Tesla C1060 Tesla K20m Figure 8.18 – Temps d’exécution de 500 itérations du modèle Collemboles sur GPU professionnels Kepler K20m, et permet de mettre en avant les énormes progrès réalisés en termes de noeuds de calculs GPGPU en quatre années par des mécanismes comme les caches L1 et L2. Les temps obtenus pour la carte Kepler sont sur cette figure proches des résultats sur cartes grand public récentes illustrées par la Figure 8.17, alors que la carte Tesla C1060 se caractérise par des performances jusqu’à quinze fois inférieures à l’échelle 20. Collemboles est un exemple de modèle multi-agents bénéficiant de manière moins nette d’une parallélisation sur GPU grand public, avec des gains de l’ordre d’un facteur 2 entre l’exécution sur le CPU le plus rapide, le Core i7 2600K, et la Geforce 560Ti à l’échelle 20. Ce gain est toutefois plus marqué dans le cas de la carte graphique professionnelle Tesla K20, qui permet d’obtenir des traitements 4 fois plus rapide à l’échelle 10. La comparaison des cartes graphiques dotées de caches d’une part, et de la Tesla C1060 dénuée de ce mécanisme d’autre part, permet de mettreCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 140 en avant l’impact de ce mécanisme dans le cas du modèle Collemboles. Parmi les GPU dotés de ce mécanisme, les performances obtenues sont au contraire proches entre cartes graphiques grand public et matériel professionnel. 8.3 Synthèse Les résultats obtenus montrent un gain en performance sur GPU par rapport au CPU pour les trois modèles multi-agents adaptés. Ces gains sont particulièrement visibles sur les modèles MIOR et proie-prédateur, où l’utilisation du GPU permet d’obtenir un gain de l’ordre d’un facteur 10 en performance. Les résultats observés illustrent également l’importance de l’architecture matérielle, et en particulier de la disponibilité ou non de mécanisme de cache L1 et L2, sur les performances observées. Les cartes dotées de caches permettent l’obtention de meilleures performances dans tous les cas. Cet avantage est d’autant plus marqué, dans le cas du modèle MIOR, sur des implémentations ayant recours à de nombreux accès mémoires. Ils montrent l’intérêt du GPU pour déléguer certains traitements normalement effectués sur CPU, en particulier dans le cas du système proie-prédateur. Dans cette section, nous présentons quelques recommandations d’implémentation au sujet de la parallélisation de traitements sur GPU, sur la base des modèles multi-agents parallélisés et de l’implémentation de la plate-forme MCMAS. En parallèle aux problématiques de découpage de la représentation et de l’exécution de la simulation sur architecture GPU, certains défis d’implémentations propres à OpenCL s’appliquent aux traitements pouvant être réalisés. 8.3.1 Allocations dynamique de mémoire Si ce support est présent dans les toutes dernières révisions du modèle de programmation CUDA, OpenCL ne permet pas, au moment de notre rédaction, l’allocation de mémoire depuis le code GPU en cours d’exécution. Cette limitation est particulièrement problématique pour la manipulation de la structure de données dynamiques sur GPU, dans le cas où la taille des structures n’est pas connue au moment du lancement du traitement. Dans ce cas, la seule solution est une allocation défensive de la mémoire à priori, basée sur l’hypothèse la plus pessimiste de la taille mémoire requise pour l’exécution du modèle. Elle né- cessite un sur-dimensionnement des ressources allouées par rapport aux ressources effectivement consommées, particulièrement dans le cas de modèles de taille importante, et donc une perte de mémoire significative. La seule alternative pour éviter ce type de perte est une interruption régulière des traitements pour permettre des réallocations sur CPU, avec les coûts associés aux échanges de données et au changement de contexte. Ces deux approches requièrent des sacrifices soit en mémoire, soit en performance.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 141 8.3.2 Variabilité du support matériel Un autre défi d’implémentation posé par l’exécution sur GPU est l’existence de multiple géné- rations de plates-formes matérielles, chacune associée à ses propres valeurs limites d’exécution ou support de certaines fonctionnalités. Des cartes anciennes telles que la plate-forme Tesla C1060 imposent ainsi des contraintes très strictes en termes d’accès mémoires pour permettre une exécution efficace, alors que les CPU ou les cartes graphiques plus modernes minimisent ces contraintes par la présence de logiques de prédictions et de cache gommant ces latences. L’impact de ces attentes est particulièrement visible dans le cas de nombreux accès aléatoires (MIOR) ou de petites tailles (Collemboles) à la mémoire globale GPU sur des cartes dénuées de cache implicite. Dans un souci de transparence, Nvidia propose la notion de Computing Capabilities (capacité de calcul) pour chacune de ses cartes, indiquant les fonctionnalités CUDA et OpenCL supportées par le matériel, et les limitations associées en termes d’exécution sur ces deux plates-formes : — Nombre de registres utilisables par work-item et au total. — Taille maximale de work-group et de grille d’exécution. — Taille maximale pour chaque type de structure de données. — Taille maximale totale de chaque espace mémoire. Ces deux derniers paramètres sont particulièrement importants pour des simulations manipulant de grands buffers de données. Nos expériences ont mis en avant le fait que, si sur les architectures NVIDIA testées, la taille maximale utilisable pour des données en mémoire globale est directement liée à la mémoire physique du périphérique, ce n’est pas le cas sur des implémentations OpenCL proposées par AMD, où cette limite est fixée à une valeur inférieure par l’interface logicielle. Ces limitations associées au matériel n’ont pas seulement une influence sur la possibilité ou non d’exécuter un traitement OpenCL, mais également sur les performances attendues. Il est alors nécessaire d’adapter l’algorithme ou le découpage de l’exécution utilisé à ces paramètres, pour une efficacité maximale, comme évoqué dans la section suivante. 8.3.3 Adaptation aux paramètres de la plate-forme Si le standard OpenCL impose à toutes les implémentations le support d’une base commune de primitives et d’opérations, chaque implémentation reste libre, comme nous venons de le voir, de définir ses propres limites au niveau des ressources disponibles. Le respect du standard permet de garantir le fonctionnement du programme, mais n’assure pas l’obtention automatique des meilleures performances possibles tant sur le nombre limité de coeurs polyvalents offerts par un CPU que sur les centaines de coeurs d’un GPU. La prise en compte dynamique du type et des limites effectivement offertes par un matériel au moment de l’exécution est donc importante pour permettre une utilisation optimale du matériel disponible [SFSV13]. L’adaptation la plus critique à ce niveau est celle de la taille des paquets d’exécution utilisés, dont la valeur devra être aussi proche que possible, soit du nombre de coeurs effectivement disponibles sur CPU, soit de l’unité de découpage d’exécution ou warp sur GPU. La taille d’un warp est de 32 threads ou work-items sur la plupart des plates-formes GPU. Les bonnes pratiques OpenCL [Cor12] proposées par NVIDIA recommandent une taille minimale de 64 work-items pour les blocs OpenCL, de manière à permettre un recouvrement des accèsCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 142 mémoires. Elle recommandent également l’utilisation de blocs de 128 à 256 work-items pour des premières expérimentations, pour ensuite ajuster cette valeur en fonction du taux d’occupation obtenu et des performances obtenues. La société fournit une feuille de calcul permettant d’estimer cette occupation en fonction du modèle de carte utilisé, pour faciliter le choix d’un découpage optimal. Un exemple de traitement particulièrement impacté par ce choix de découpage est celui de la réduction en parallèle. Si l’utilisation d’un algorithme basé sur plusieurs passes est plus performante sur GPU, il est plus efficace sur CPU d’effectuer un simple découpage du tableau en autant de parties que de coeurs disponibles, et de réaliser l’ensemble de l’opération en un seul lancement. Pour faciliter cette démarche, MCMAS recommande par défaut une valeur adaptée à l’architecture sous-jacente (CPU, GPU ou autre). Cette valeur est également utilisée pour l’exécution de fonctions de haut niveau par les plugins, en l’absence d’intervention de l’utilisateur. La valeur optimale effective pour ce découpage est cependant très dépendante de l’algorithme exécuté et de l’occupation résultante des ressources matérielles. 8.3.4 Différents espaces mémoires pour différentes utilisations Comme évoqué dans notre présentation de l’architecture, les cartes graphiques disposent, contrairement aux processeurs traditionnels, de multiples espaces mémoires spécialisés. La sé- lection de l’espace mémoire dans lequel stocker chaque donnée est effectuée de manière explicite en OpenCL, au moyen de qualificateurs utilisés pour la déclaration de la variable : — private int data : entier en mémoire privée (accessible uniquement au work-item) — local int data : entier en mémoire locale (accessible uniquement au work-group) — global int data : entier en mémoire globale — constant int data : entier en mémoire constante En l’absence de qualificateur, l’espace privé est utilisé pour le stockage de la variable. La copie de données entre ces espaces mémoire n’est pas automatique et doit être explicitement effectuée par le programme. La mémoire locale, en particulier, ne peut de plus être initialisée que depuis le périphérique, et requiert donc au moins une copie des données. Elle est généralement employée pour stocker des données intermédiaires souvent utilisées par chaque membre d’un work-group, de manière à éviter son calcul ou sa récupération depuis la mémoire globale à plusieurs reprises. La copie entre ces types de mémoire n’a pas nécessairement besoin d’être effectuée de manière totalement manuelle : des bibliothèques telles que ELMO [FVSS13] permettent de définir des associations entre structures de données globales et mise en cache en mémoire locale, au moyen de nombreux raccourcis définis sous forme de code OpenCL. 8.3.5 Précision des données et respect des standards Les cartes graphiques ont initialement été conçues pour effectuer des rendus en deux ou trois dimensions, avant rastérisation sur une grille graphique correspondant au périphérique d’affichage. En termes d’architectures, ce scénario d’utilisation se traduit par une forte optimisation du matériel pour le traitement de nombres flottants, suffisant pour ce type de rendu. D’éventuelles erreurs de précision liées à ce format sont en effet mitigées par deux facteurs propres au rendu graphique : la résolution limitée d’un écran, qui contraint une projection géométrique dans une résolutionCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 143 ne dépassant pas les quelques milliers de pixels, et le nombre important d’images affichées par seconde, qui estompe toute erreur de rendu ne survenant que dans une image précise. Cette préférence matérielle pour les flottants est particulièrement marquée, dans le cas des cartes graphiques grand public, par un bridage volontaire des traitements sur des nombres en double précision à une fraction de la fréquence du reste du GPU, pour encourager l’achat de matériel professionnel. Ces considérations sur les performances sont particulièrement importantes pour des modèles multi-agents, où l’utilisation de nombres double précision est critique pour obtenir des résultats valides. Dans de tels systèmes multi-agents, l’utilisation de réels simple précision peut conduire à des erreurs croissantes, susceptibles de modifier les résultats ou d’empêcher la convergence de la simulation. Les modèles agents employant souvent des données entières peuvent également être impactés par ce type de disparité matérielle, ce type d’opération étant moins optimisé sur les architectures matérielles les plus anciennes. En parallèle à ce choix de précision des données se pose la question du mode de calcul souhaité, compatible ou non avec le standard l’IEEE 754. Le non respect strict de ces standards permet de simplifier les calculs dans les cas les plus courants. Il ne garantit cependant plus la prise en compte correcte de valeurs telles que Nan ou l’infini dans les opérations, ou encore des valeurs non normalisées. Le standard à utiliser pour les calculs flottants peut être configuré pour l’ensemble de l’exé- cution au moment de la compilation. Dans le cas où de telles opérations devraient être limitées à des portions spécifiques de l’algorithme, OpenCL fournit des versions préfixées des opérations intégrées telles que fast_sqrt, potentiellement plus rapide que sqrt. Les compromis liés à cette recherche de performance sont dépendants de chaque plate-forme OpenCL, et peu détaillés par les fabriquants. Dans ces circonstances, l’utilisation du mode standard IEEE et des opérations par défaut est recommandé pour tout nouveau modèle, au moins en attente de validation, de manière à pouvoir évaluer ensuite l’impact de l’utilisation de flottants simple précision ou d’autres modes de calculs sur les résultats de la simulation. 8.3.6 Capacités mémoires physiques La dernière limitation imposée par l’architecture GPU est la quantité de mémoire offerte par la plate-forme, de l’ordre de 6 à 8 Go sur les solutions graphiques Kepler les plus récentes. Cette quantité demeure plus limitée que sur CPU pour deux raisons : — Le coût de la mémoire classique pour CPU, et la possibilité pour le chercheur d’étendre aisément la capacité disponible sur sa machine. 4Go de mémoire RAM est un minimum sur de nombreuses machines actuelles, et l’achat de 16 ou 32Go de mémoire est aujourd’hui possible pour quelques centaines d’euros. Au contraire, la mémoire graphique doit être très performante en accès, ce qui augmente son coût, et en adressage, ce qui limite sa taille. — L’impossibilité d’utiliser, sur GPU, le disque dur ou la mémoire du système pour délé- guer de manière transparente le stockage des données supplémentaires. Si l’exploitation de la mémoire du système est facilitée par les dernières révisions des modèles d’exécution GPGPU, il n’existe pas d’analogue à la mémoire d’échange ou au stockage permanent sur cette architecture.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 144 Cette limitation peut poser problème pour des modèles multi-agents de taille importante, particulièrement dans le cas d’utilisation de structures de données surdimensionnées pour compenser l’impossibilité d’effectuer des allocations dynamiques dans un programme OpenCL.9 Conclusion et perspectives 9.1 Conclusion Dans ce mémoire, nous avons étudié les manières d’exécuter efficacement des systèmes multiagents sur cartes graphiques. Cette étude a été l’occasion de mettre en avant l’intérêt des platesformes parallèles dans le cadre des simulations multi-agents, tant en termes de ressources qu’en termes de performances. Elle nous a également permis de présenter les trois axes de parallélisation possibles pour un système multi-agents, au niveau de l’ordonnanceur, de l’environnement ou des traitements. Cette parallélisation du système prend deux formes principales sur GPU : — Une adaptation complète de l’exécution sur cette plate-forme, sous forme de nouveau programme. — Une utilisation du GPU pour ne déléguer qu’une partie de la simulation, et en particulier des traitements coûteux à même d’être parallélisés. Ces deux approches requièrent une connaissance de la plate-forme GPU. Notre étude bibliographique a montré qu’il n’existait pas de plate-forme générique de parallélisation de systèmes multi-agents permettant un libre choix entre ces deux approches. Notre solution pour permettre l’utilisation la plus large possible de type de matériel est de proposer une nouvelle bibliothèque d’exécution multi-agents, MCMAS. Notre bibliothèque fournit de nombreux traitements multi-agents de haut niveau prêts à être utilisés sans aucune connaissance en parallélisation. Elle facilite l’ajout de nouveaux traitements au moyen d’une interface de bas niveau fournissant de nombreuses structures de données et facilités d’exécution au développeur. Cette double approche permet une utilisation simple de MCMAS et des cartes graphiques, sans pour autant imposer de cadre de modélisation ou d’exécution particulier, de manière à pouvoir aisément compléter les fonctions offertes par des environnements multi-agents existants. L’application de ces deux formes de parallélisation sur plusieurs exemples concrets de modèles multi-agents nous a permis de mettre en avant les avantages et les inconvénients associés à chacune de ces approches. La réalisation de la totalité de la simulation multi-agents permet un contrôle fin de la modé- lisation et de l’exécution. Elle offre la possibilité d’effectuer la totalité de la simulation en un seul lancement, comme illustré dans le cas du modèle MIOR. Cette flexibilité vient toutefois au prix d’adaptations importantes en termes de données et d’exécution pour tirer pleinement parti de l’architecture GPU. Ces adaptations requièrent une expertise du modèle de programmation et d’exécution pour aboutir à un résultat efficace adapté à l’architecture matérielle. La validation du modèle n’est possible qu’une fois celui-ci fonctionnel sur la nouvelle architecture.CHAPITRE 9. CONCLUSION ET PERSPECTIVES 146 La délégation d’une partie de la simulation permet au contraire un recours plus incrémental au GPU, facilitant des validations intermédiaires du fonctionnement ou des résultats. Elle requiert elle aussi une expertise en parallélisme pour identifier et implémenter les traitements pouvant bénéficier d’une délégation. Cette isolation et cette encapsulation des traitements facilitent leur réutilisation dans d’autres modèles, soit directement, soit dans le cadre de plates-formes multiagents existantes. Dans ce mémoire, nous avons apporté une analyse des différentes méthodes de parallélisation de systèmes multi-agents sur GPU, ainsi qu’une illustration de leur utilisation avec MCMAS. Cette illustration nous a permis de détailler ces différentes démarches et leur impact sur les performances obtenues, ainsi que de formuler des recommandations pour la réalisation de calculs sur GPU. 9.2 Perspectives Si la bibliothèque MCMAS est fonctionnelle et fournit déjà de nombreuses opérations utilisées dans nos trois modèles d’études, elle représente une solution appelée à être améliorée pour répondre à un domaine très dynamique. Au moins trois pistes d’amélioration peuvent à l’heure actuelle être envisagées. Une première piste d’amélioration consiste à faciliter l’accès à la bibliothèque depuis de nouveaux langages et environnements de simulation agents. De nombreux modèles ont recours à des langages ou à des environnements particuliers pour leur exécution. C’est en particulier le cas du modèle Sworm réalisé avec Madkit pour lequel la simulation MIOR a été conçue. Cet accès peut prendre deux formes, le développement d’une couche d’adaptation permettant l’accès direct à l’interface de MCMAS, ou le développement d’un agent service GPU s’intégrant de manière conceptuelle au modèle. Cet agent est alors à même de répondre à des requêtes d’exécution et de favoriser la réalisation de calculs parallèles de manière transparente pour le reste de la simulation. Une autre piste, complémentaire, est d’ajouter de nouvelles structures de données et opérations à MCMAS pour répondre aux besoins de nouvelles simulations multi-agents. Si de nombreuses structures de données rencontrées dans les systèmes agents ont déjà été implémentées, certains modèles agents reposent sur des graphes de données encore absents de notre bibliothèque. Des thématiques agents, comme la recherche de chemin, n’ont également pas encore été implémentées. Le développement de nouvelles opérations, et l’enrichissement des opérations existantes, est un élément important pour assurer que MCMAS soit non seulement accessible, mais également utile à de nombreux modèles agents. Le développement de nouveaux traitements agents peut également être facilité par l’intégration de bibliothèques comme ELMO [FVSS13] pour faciliter la gestion de la mémoire partagée en OpenCL. Une dernière piste d’amélioration concerne la découverte et l’utilisation des ressources maté- rielles offertes par la machine. Si, à l’heure actuelle, MCMAS permet l’utilisation de plates-formes GPU ou CPU de manière transparente, ces architectures ne sont que quelques représentantes des architectures dites many-core, basées sur de nombreux coeurs d’exécution. Leur exploitation reprend de nombreuses problématiques d’ordonnancement et de décomposition des tâches, et ouvre la voie à l’utilisation de plusieurs matériels locaux. Ces problématiques permettent également d’envisager la mise en place de mécanismes capables d’optimiser le passage des traitements sur les ressources disponibles, de manière à pouvoir simultanément tirer parti du CPU et GPU. De tels mécanismes pourraient dans ce cas introduire une intelligence supplémentaire au niveau de chaque traitement, pour choisir l’algorithme et les types de données les plus adaptés à chaque matériel d’exécution.CHAPITRE 9. CONCLUSION ET PERSPECTIVES 147 Publications Chapitre de livre — Guillaume Laville, Christophe Lang, Bénédicte Herrmann, Laurent Philippe, Kamel Mazouzi, and Nicolas Marilleau. Implementing Multi-Agent Systems on GPU. In Raphaël Couturier, editor, Designing Scientific Applications on GPUs, Numerical Analysis and Scientific Computing, chapter 18, pages 413–439. Chapman and Hall/CRC, 2013. Conférences — Guillaume Laville, Christophe Lang, Nicolas Marilleau, Kamel Mazouzi, and Laurent Philippe. Using GPU for Multi-agent Soil Simulation. In PDP 2013, 21st Euromicro International Conference on Parallel, Distributed and Network-based Computing, Belfast, Ireland, pages 392–399, February 2013. IEEE Computer Society Press. — Guillaume Laville, Kamel Mazouzi, Christophe Lang, Nicolas Marilleau, Bénédicte Herrmann, and Laurent Philippe. MCMAS : a toolkit to benefit from many-core architecture in agent-based simulation. In PADAPS 2013, 1st Workshop on Parallel and Distributed Agent-Based Simulations, in conjunction with EuroPar 2013, volume 8374 of LNCS, Aachen, Germany, pages 544–554, August 2013. Springer. — Guillaume Laville, Kamel Mazouzi, Christophe Lang, Nicolas Marilleau, and Laurent Philippe. Using GPU for Multi-agent Multi-scale Simulations. In DCAI’12, 9-th Int. Conf. on Advances in Intelligent and Soft Computing, volume 151 of Advances in Intelligent and Soft Computing, Salamanca, Spain, pages 197–204, March 2012. Springer. Communications — Présentation d’un poster "MCSMA : A library for multi-agent simulations on manycore architectures" au séminaire FEMTO-ST du 26 juin 2013 à la CCI du Doubs. — Présentation "Accélération d’une simulation de sol sur GPU" aux journées Région Grand Est (RGE) du 14 février 2013 à Belfort. — Présentation "Portage d’une simulation multi-agents sur GPU" aux journées Région Grand Est (RGE) du 9 juin 2011 à Metz.Bibliographie [AG13] Nevena Ilieva-Litova Alan Gray, Anders Sjöström. Best Practice mini-guide accelerated clusters. Using General Purpose GPUs. http://www.prace-project.eu/IMG/pdf/ Best-Practice-Guide-GPGPU.pdf, 2013. [En ligne ; vérifié le 27 avril 2014]. [amd] AMD Accelerated Parallel Processing Math Libraries (APPML). http://developer.amd.com/tools-and-sdks/heterogeneous-computing/ amd-accelerated-parallel-processing-math-libraries/. [En ligne ; vérifié le 26 avril 2014]. [Amd67] Gene M. Amdahl. Validity of the Single Processor Approach to Achieving Large Scale Computing Capabilities. In Proceedings of the April 18-20, 1967, Spring Joint Computer Conference, AFIPS ’67 (Spring), pages 483–485, New York, NY, USA, 1967. ACM. [APS10] B. G. Aaby, K. S. Perumalla, and S. K. Seal. Efficient simulation of agent-based models on multi-GPU and multi-core clusters. In Proceedings of the 3rd International ICST Conference on Simulation Tools and Techniques, SIMUTools ’10, pages 29 :1–29 :10, ICST, Brussels, Belgium, Belgium, 2010. ICST (Institute for Computer Sciences, Social-Informatics and Telecommunications Engineering). [ASÁ01] Elaini S Angelotti, Edson E Scalabrin, and Bráulio C Ávila. PANDORA : a multiagent system using paraconsistent logic. In Computational Intelligence and Multimedia Applications, 2001. ICCIMA 2001. Proceedings. Fourth International Conference on, pages 352–356. IEEE, 2001. [ATN09] Cédric Augonnet, Samuel Thibault, and Raymond Namyst. Automatic Calibration of Performance Models on Heterogeneous Multicore Architectures. In 3rd Workshop on Highly Parallel Processing on a Chip (HPPC 2009), Delft, Pays-Bas, August 2009. [BBMC+10] Arnaud Banos, Annabelle Boffet-Mas, Sonia Chardonnel, Christophe Lang, Nicolas Marilleau, and Thomas Thévenin. Simuler la mobilité urbaine quotidienne : le projet MIRO. In Arnaud Banos and Thomas Thévenin, editors, Mobilités urbaines et risques des transports - approches géographiques, chapter 2, pages 51–86. Hermès, 2010. [BCC+11] E. Blanchart, C. Cambier, C. Canape, B. Gaudou, T.-N. Ho, T.-V. Ho, C. Lang, F. Michel, N. Marilleau, and L. Philippe. EPIS : A Grid Platform to Ease and Optimize Multi-agent Simulators Running. In PAAMS, volume 88 of Advances in Intelligent and Soft Computing, pages 129–134. Springer, 2011. [BCG07] Fabio Luigi Bellifemine, Giovanni Caire, and Dominic Greenwood. Developing Multi-Agent Systems with JADE. Wiley, 2007. [BDM04] Jacques M. Bahi, Stéphane Domas, and Kamel Mazouzi. Jace : A Java Environment for Distributed Asynchronous Iterative Computations. In PDP, pages 350–357. IEEE Computer Society, 2004. [BETVG08] Herbert Bay, Andreas Ess, Tinne Tuytelaars, and Luc Van Gool. Speeded-Up Robust Features (SURF). Comput. Vis. Image Underst., 110(3) :346–359, June 2008.BIBLIOGRAPHIE 150 [BG09] Nathan Bell and Michael Garland. Implementing Sparse Matrix-vector Multiplication on Throughput-oriented Processors. In Proceedings of the Conference on High Performance Computing Networking, Storage and Analysis, SC ’09, pages 18 :1–18 :11, New York, NY, USA, 2009. ACM. [Ble09] A. Bleiweiss. Multi Agent Navigation on the GPU. GDC09 Game Developers Conference 2009, 2009. [BMD+09] E. Blanchart, N. Marilleau, A. Drogoul, E. Perrier, JL. Chotte, and C. Cambier. SWORM : an agent-based model to simulate the effect of earthworms on soil structure. EJSS. European Journal of Soil Science, 60 :13–21, 2009. [BPL+06] Lars Braubach, Alexander Pokahr, Winfried Lamersdorf, Karl-Heinz Krempels, and Peer-Oliver Woelk. A generic time management service for distributed multi-agent systems. Applied Artificial Intelligence, 20(2-4) :229–249, 2006. [Bra00] G. Bradski. Dr. Dobb’s Journal of Software Tools, 2000. [BRT11] B. Beresini, S. Ricketts, and M.B. Taylor. Unifying manycore and FPGA processing with the RUSH architecture. In Adaptive Hardware and Systems (AHS), 2011 NASA/ESA Conference on, pages 22–28, June 2011. [CCC+12] M. Carillo, G. Cordasco, R. De Chiara, F. Raia, V. Scarano, and F. Serrapica. Enhancing the Performances of D-MASON - A Motivating Example. In SIMULTECH, pages 137–143, 2012. [CCDCS11] B Cosenza, G Cordasco, R. De Chiara, and V. Scarano. Distributed Load Balancing for Parallel Agent-based Simulations. In 19th Euromicro International Conference on Parallel, Distributed and Network-Based Computing, Ayia Napa, Cyprus, 2011. [CCM+11] Gennaro Cordasco, Rosario Chiara, Ada Mancuso, Dario Mazzeo, Vittorio Scarano, and Carmine Spagnuolo. A Framework for Distributing Agent-Based Simulations. In Euro-Par 2011 : Parallel Processing Workshops, volume 7155 of Lecture Notes in Computer Science, pages 460–470, 2011. [CCP07] M. Bousso C. Cambier, D. Masse and E. Perrier. An offer versus demand modelling approach to assess the impact of micro-organisms spatio-temporal dynamics on soil organic matter decomposition rates. Ecological Modelling, pages 301–313, 2007. [CDD+13] Chongxiao Cao, Jack Dongarra, Peng Du, Mark Gates, Piotr Luszczek, and Stanimire Tomov. clMAGMA : High Performance Dense Linear Algebra with OpenCL. 2013. [CDFD10] F Chuffart, N Dumoulin, T Faure, and G Deffuant. SimExplorer : Programming Experimental Designs on Models and Managing Quality of Modelling Process. IJAEIS, 1(1) :55–68, 2010. [CDJM01] Brahim Chaib-Draa, Imed Jarras, and Bernard Moulin. Systèmes multi-agents : principes généraux et applications. Edition Hermès, 2001. [CDK+01] Robit Chandra, Leonardo Dagum, Dave Kohr, Dror Maydan, Jeff McDonald, and Ramesh Menon. Parallel Programming in OpenMP. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2001. [CGH+12] Simon Coakley, Marian Gheorghe, Mike Holcombe, Shawn Chin, David Worth, and Chris Greenough. Exploitation of High Performance Computing in the FLAME Agent-Based Simulation Framework. In Geyong Min, Jia Hu, Lei (Chris) Liu, Laurence Tianruo Yang, Seetharami Seelam, and Laurent Lefevre, editors, HPCC-ICESS, pages 538–545. IEEE Computer Society, 2012.BIBLIOGRAPHIE 151 [CGU+11] José M. Cecilia, José M. Garcia, Manuel Ujaldon, Andy Nisbet, and Martyn Amos. Parallelization Strategies for Ant Colony Optimisation on GPUs. In IPDPS Workshops, pages 339–346. IEEE, 2011. [CKQ+07] Jean-Christophe Castella, Suan Pheng Kam, Dang Dinh Quang, Peter H. Verburg, and Chu Thai Hoanh. Combining top-down and bottom-up modelling approaches of land use/cover change to support public policies : Application to sustainable management of natural resources in northern Vietnam. Land Use Policy, 24(3) :531 – 545, 2007. Integrated Assessment of the Land System : The Future of Land Use. [clp] clpp : OpenCL Data Parallel Primitives Library. https://code.google.com/p/clpp/. [En ligne ; vérifié le 26 avril 2014]. [CN11] Nicholson Collier and Michael North. Repast HPC : A platform for large-scale agentbased modeling. Wiley, 2011. [Cor12] Nvidia Corporation. OpenCL Best Practices Guide. http://www.nvidia. com/content/cudazone/CUDABrowser/downloads/papers/NVIDIA_OpenCL_ BestPracticesGuide.pdf, 2012. [En ligne ; vérifié le 26 avril 2014]. [cud09] NVIDIA CUDA C Programming Best Practices Guide CUDA Toolkit 2.3. NVIDIA Corporation, 2009. [DARG12] Denis Demidov, Karsten Ahnert, Karl Rupp, and Peter Gottschling. Programming CUDA and OpenCL : A Case Study Using Modern C++ Libraries. CoRR, abs/1212.6326, 2012. [Del13] Audrey Delévacq. Métaheuristiques pour l’optimisation combinatoire sur processus graphiques (GPU). Thèse de doctorat, Université de Reims Champagne-Ardenne, France, February 2013. [Dem] D. Demidov. VexCL : Vector Expression Template Library for OpenCL. http://www.codeproject.com/Articles/415058/ VexCL-Vector-expression-template-library-for-OpenCL. [En ligne ; vérifié le 27 avril 2014]. [DLMK09] Roshan M. D’Souza, Mikola Lysenko, Simeone Marino, and Denise Kirschner. Dataparallel Algorithms for Agent-based Model Simulation of Tuberculosis on Graphics Processing Units. In Proceedings of the 2009 Spring Simulation Multiconference, SpringSim ’09, pages 21 :1–21 :12, San Diego, CA, USA, 2009. Society for Computer Simulation International. [DLR07] R. M. D’souza, M. Lysenko, and K. Rahmani. Sugarscape on Steroids : Simulating Over a Million Agents at Interactive Rates. In Proceedings of the Agent 2007 Conference, 2007. [DP93] J.E. Doran and M. Palmer. ’Contrasting models of upper palaeolithic social dynamics : a distributed artificial intelligence approach’. In Aarhus University Press., editor, J. Andresen, T. Madsen and I. Scollar (Eds.) : Computing the Past - Proceedings of Computer Applications and Quantitative Methods in Archaeology Conference 1992 (CAA 92), pages pp.251–262„ 1993. [DSJD02] Luis T. Da Silva Joao and Y. Demazeau. Vowels co-ordination model. In AAMAS, pages 1129–1136, Italy, 2002. [DvdHD08] Christophe Deissenberg, Sander van der Hoog, and Herbert Dawid. EURACE : A massively parallel agent-based model of the European economy. Applied Mathematics and Computation, 204(2) :541 – 552, 2008. Special Issue on New Approaches in Dynamic Optimization to Assessment of Economic and Environmental Systems.BIBLIOGRAPHIE 152 [Fer95] J. Ferber. Les systèmes multi-agents : vers une intelligence collective. InterEditions, Paris, 1995. [fip] FIPA Specifications Published in 1997. http://www.fipa.org/repository/fipa97.html. [En ligne ; vérifié le 26 avril 2014]. [FSN09] L. Fischer, R. Silveira, and L. Nedel. GPU Accelerated Path-Planning for Multiagents in Virtual Environments. In Proceedings of the 2009 VIII Brazilian Symposium on Games and Digital Entertainment, SBGAMES ’09, pages 101–110, Washington, DC, USA, 2009. IEEE Computer Society. [Fuj03] Richard M Fujimoto. Parallel simulation : distributed simulation systems. In Proceedings of the 35th conference on Winter simulation : driving innovation, pages 124–134. Winter Simulation Conference, 2003. [FVSS13] Jianbin Fang, Ana Lucia Varbanescu, Jie Shen, and Henk Sips. ELMO : A UserFriendly API to Enable Local Memory in OpenCL Kernels. 16th Euromicro Conference on Parallel, Distributed and Network-Based Processing (PDP 2008), 0 :375– 383, 2013. [Gar70] M. Gardner. The fantastic combinations of John Conway’s new solitaire game “life”. Scientific American, 223 :120–123, October 1970. [GBHS11] Chris Gregg, Michael Boyer, Kim Hazelwood, and Kevin Skadron. Dynamic heterogeneous scheduling decisions using historical runtime data. Workshop on Applications for Multi-and Many-Core Processors (A4MMC), 2011. [GCK+09] S. J. Guy, Jatin Chhugani, Changkyu Kim, Nadathur Satish, Ming C. Lin, Dinesh Manocha, and Pradeep Dubey. ClearPath : Highly Parallel Collision Avoidance for Multi-Agent Simulation. In ACM SIGGRAPH/EUROGRAPHICS SYMPOSIUM ON COMPUTER ANIMATION, pages 177–187. ACM, 2009. [GF00a] O. Gutknecht and J. Ferber. MadKit : a generic multi-agent platform. In Proceedings of the fourth international conference on Autonomous agents, AGENTS ’00, pages 78–79, New York, NY, USA, 2000. ACM. [GF00b] Olivier Gutknecht and Jacques Ferber. The MADKIT Agent Platform Architecture. In In Agents Workshop on Infrastructure for Multi-Agent Systems, pages 48–55, 2000. [GGDK09] Stéphane Galland, Nicolas Gaud, Jonathan Demange, and Abderrafiaa Koukam. Environment Model for Multiagent-Based Simulation of 3D Urban Systems. 2009. [Gut01] Olivier Gutknecht. Proposition d’un modèle organisationnel générique de systèmes multi-agents. PhD thesis, Universite de Montpellier II, Montpellier, France, 2001. [Hag73] P. Haggett. Analyse spatiale en géographie humaine. Armand Colin, Paris, 1973., 62(1) :125–127, 1973. [HCS06] Mike Holcombe, Simon Coakley, and Rod Smallwood. A General Framework for agent-based modelling of complex systems. In Proceedings of the 2006 European Conference on Complex Systems, 2006. [HNR68] P.E. Hart, N.J. Nilsson, and B. Raphael. A Formal Basis for the Heuristic Determination of Minimum Cost Paths. Systems Science and Cybernetics, IEEE Transactions on, 4(2) :100–107, July 1968. [Jac98] Henrik Klinge Jacobsen. Integrating the bottom-up and top-down approach to energyeconomy modelling : the case of Denmark. Energy Economics, 20(4) :443 – 461, 1998.BIBLIOGRAPHIE 153 [JGLG09] J.-I. Benavides J. Gómez-Luna, J.-M. González-Linares and N. Guil. Parallelization of a Video Segmentation Algorithm on CUDA—Enabled Graphics Processing Units. In 15th Euro-Par Conference, pages 924–935, Berlin, Heidelberg, 2009. SpringerVerlag. [JOF03] H. Van Dyke Parunak J. Odell and M. Fleischer. Software engineering for largescale multi-agent systems. chapter The role of roles in designing effective agent organizations, pages 27–38. Springer-Verlag, Berlin, Heidelberg, 2003. [Joh12] Haakan Johansson. Volume Raycasting Performance Using DirectCompute. http: //hgpu.org/?p=9050, 2012. [En ligne ; vérifié le 26 avril 2014]. [Khr08] Khronos OpenCL Working Group. The OpenCL Specification, version 1.0.29, 8 December 2008. [KRH+10] M. Kiran, P. Richmond, M. Holcombe, L. S. Chin, D. Worth, and C. Greenough. FLAME : simulating large populations of agents on parallel hardware architectures. In Proceedings of the 9th International Conference on Autonomous Agents and Multiagent Systems : volume 1 - Volume 1, AAMAS ’10, pages 1633–1636, Richland, SC, 2010. International Foundation for Autonomous Agents and Multiagent Systems. [KRR10] T. Karmakharm, P. Richmond, and D. Romano. Agent-based Large Scale Simulation of Pedestrians With Adaptive Realistic Navigation Vector Fields. In Theory and Practice of Computer Graphics (TPCG) 2010, pages 67–74, 2010. [KSL+12] Jungwon Kim, Sangmin Seo, Jun Lee, Jeongho Nah, Gangwon Jo, and Jaejin Lee. SnuCL : An OpenCL Framework for Heterogeneous CPU/GPU Clusters. In Proceedings of the 26th ACM International Conference on Supercomputing, ICS ’12, pages 341–352, New York, NY, USA, 2012. ACM. [Mae90] P. Maes. Designing Autonomous Agents : Theory and Practice from Biology to Engineering and Back. A Bradford book. MIT Press, 1990. [MBF02] Fabien Michel, Pierre Bommel, and Jacques Ferber. Simulation distribuée interactive sous MadKit. In JFSMA, pages 175–178, 2002. [McF87] D. McFarland. The Oxford companion to animal behaviour. Oxford Paperback Reference. Oxford University Press, 1987. [MCM12] Longfei Ma, Xue Chen, and Zhouxiang Meng. A performance Analysis of the Game of Life based on parallel algorithm. CoRR, abs/1209.4408, 2012. [Mes09] Message Passing Interface Forum. MPI : A Message-Passing Interface Standard, Version 2.2. Specification, September 2009. [MFD09] Fabien Michel, Jacques Ferber, and Alexis Drogoul. Multi-Agent Systems and Simulation : a Survey From the Agents Community’s Perspective. In Adelinde Uhrmacher Danny Weyns, editor, Multi-Agent Systems : Simulation and Applications, Computational Analysis, Synthesis, and Design of Dynamic Systems, page 47. CRC Press - Taylor & Francis, May 2009. [MGR+11] Perhaad Mistry, Chris Gregg, Norman Rubin, David Kaeli, and Kim Hazelwood. Analyzing Program Flow Within a Many-kernel OpenCL Application. In Proceedings of the Fourth Workshop on General Purpose Processing on Graphics Processing Units, GPGPU-4, pages 10 :1–10 :8, New York, NY, USA, 2011. ACM. [Mic02] Fabien Michel. Introduction to Turtlekit : A Platform for Building Logo Based MultiAgent Simulations with Madkit. Technical Report 9557, 2002.BIBLIOGRAPHIE 154 [Mic13] Fabien Michel. Intégration du calcul sur GPU dans la plate-forme de simulation multi-agent générique TurtleKit 3. In Salima Hassas and Maxime Morge, editors, JFSMA, pages 189–198. Cepadues Editions, 2013. [net] NetLogo Models Library : Life. http://ccl.northwestern.edu/netlogo/models/Life. [En ligne ; vérifié le 26 avril 2014]. [NSL+11] Veynu Narasiman, Michael Shebanow, Chang Joo Lee, Rustam Miftakhutdinov, Onur Mutlu, and Yale N. Patt. Improving GPU Performance via Large Warps and Twolevel Warp Scheduling. In Proceedings of the 44th Annual IEEE/ACM International Symposium on Microarchitecture, MICRO-44, pages 308–317, New York, NY, USA, 2011. ACM. [ope] OpenCL 1.2 Reference Pages - Restrictions. http://www.khronos.org/registry/cl/sdk/ 1.2/docs/man/xhtml/restrictions.html. [En ligne ; vérifié le 26 avril 2014]. [pan] Pandora : An HPC Agent-Based Modelling framework. https://www.bsc.es/ computer-applications/pandora-hpc-agent-based-modelling-framework. [En ligne ; vérifié le 26 avril 2014]. [rep] Repast HPC Manual. repast.sourceforge.net/docs/RepastHPCManual.pdf. [En ligne ; vérifié le 26 avril 2014]. [Rey87] Craig W. Reynolds. Flocks, Herds and Schools : A Distributed Behavioral Model. In Proceedings of the 14th Annual Conference on Computer Graphics and Interactive Techniques, SIGGRAPH ’87, pages 25–34, New York, NY, USA, 1987. ACM. [RHK06] Sebastian Rodriguez, Vincent Hilaire, and Abder Koukam. A Holonic Approach to Model and Deploy Large Scale Simulations. In Luis Antunes and Keiki Takadama, editors, MABS, volume 4442 of Lecture Notes in Computer Science, pages 112–127. Springer, 2006. [Ric11] Paul Richmond. FLAME GPU Technical Report and User Guide (CS-11-03). Technical report, Department of Computer Science, University of Sheffield, 2011. [RR08] P. Richmond and D. Romano. A High Performance Framework For Agent Based Pedestrian Dynamics on GPU hardware. European Simulation and Modelling, 2008. [RRB+08] Shane Ryoo, Christopher I. Rodrigues, Sara S. Baghsorkhi, Sam S. Stone, David B. Kirk, and Wen-mei W. Hwu. Optimization Principles and Application Performance Evaluation of a Multithreaded GPU Using CUDA. In Proceedings of the 13th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, PPoPP ’08, pages 73–82, New York, NY, USA, 2008. ACM. [RWCR10] Paul Richmond, Dawn Walker, Simon Coakley, and Daniela Romano. High performance cellular level agent-based simulation with FLAME for the GPU. Briefings in Bioinformatics, 2010. [RWR10] Karl Rupp, Josef Weinbub, and Florian Rudolf. Automatic Performance Optimization in ViennaCL for GPUs. In Proceedings of the 9th Workshop on Parallel/HighPerformance Object-Oriented Scientific Computing, POOSC ’10, pages 6 :1–6 :6, New York, NY, USA, 2010. ACM. [SFF+10] Renato Silveira, Leonardo Fischer, José Antônio Salini Ferreira, Edson Prestes, and Luciana Nedel. Path-planning for RTS games based on potential fields. In Proceedings of the Third international conference on Motion in games, MIG’10, pages 410–421, Berlin, Heidelberg, 2010. Springer-Verlag.BIBLIOGRAPHIE 155 [SFS10] Antoine Spicher, Nazim A. Fatès, and Olivier Simonin. Translating Discrete MultiAgents Models into Cellular Automata, Application to Diffusion-Limited Aggregation. CCIS 67 Communications in Computer and Information Sciences series, 67 :270–282, January 2010. [SFSV13] Jie Shen, Jianbin Fang, Henk Sips, and Ana Lucia Varbanescu. Performance Traps in OpenCL for CPUs. In Proceedings of the 2013 21st Euromicro International Conference on Parallel, Distributed, and Network-Based Processing, PDP ’13, pages 38– 45, Washington, DC, USA, 2013. IEEE Computer Society. [Skl11] E. Sklar. NetLogo, a multi-agent simulation environment. Artificial Life, 13(3) :303– 311, 2011. [SMH+10] Aamir Shafi, Jawad Manzoor, Kamran Hameed, Bryan Carpenter, and Mark Baker. Multicore-enabling the MPJ Express Messaging Library. In Proceedings of the 8th International Conference on the Principles and Practice of Programming in Java, PPPJ ’10, pages 49–58, New York, NY, USA, 2010. ACM. [SN09] D. Strippgen and K. Nagel. Multi-agent traffic simulation with CUDA. 2009 International Conference on High Performance Computing Simulation, pages 106–114, 2009. [TPO10] Stanley Tzeng, Anjul Patney, and John D. Owens. Task Management for Irregularparallel Workloads on the GPU. In Proceedings of the Conference on High Performance Graphics, HPG ’10, pages 29–37, Aire-la-Ville, Switzerland, Switzerland, 2010. Eurographics Association. [UIN12] Akihiro Uchida, Yasuaki Ito, and Koji Nakano. An Efficient GPU Implementation of Ant Colony Optimization for the Traveling Salesman Problem. 2013 International Conference on Computing, Networking and Communications (ICNC), 0 :94–102, 2012. [VQC02] G. Vitaglione, F. Quarta, and E. Cortese. Scalability and Performance of JADE Message Transport System. http://jade.tilab.com/papers/Final-ScalPerfMessJADE.pdf?, 2002. [En ligne ; vérifié le 27 avril 2014]. [WD92] Eric Werner and Yves Demazeau. The design of multi-agent systems. Decentralized AI, 3 :3–30, 1992. [Wei13] Robin M. Weiss. Accelerating Swarm Intelligence Algorithms with GPU-Computing. In David A. Yuen, Long Wang, Xuebin Chi, Lennart Johnsson, Wei Ge, and Yaolin Shi, editors, GPU Solutions to Multi-scale Problems in Science and Engineering, Lecture Notes in Earth System Sciences, pages 503–515. Springer Berlin Heidelberg, 2013. [Wil74] A.G. Wilson. Urban and Regional Models in Geography and Planning. A WileyInterscience publication. John Wiley & Sons Incorporated, 1974. [WLL+ ] John Wawrzynek, Mingjie Lin, Ilia Lebedev, Shaoyi Cheng, and Daniel Burke. 1 Rethinking FPGA Computing with a Many-Core Approach. [WRC12] Peter Wittek and Xavier Rubio-Campillo. Scalable agent-based modelling with cloud HPC resources for social simulations. In Cloud Computing Technology and Science (CloudCom), 2012 IEEE 4th International Conference on, pages 355–362. IEEE, 2012. [WSTaM12] Sandra Wienke, Paul Springer, Christian Terboven, and Dieter an Mey. OpenACC : First Experiences with Real-world Applications. In Proceedings of the 18th International Conference on Parallel Processing, Euro-Par’12, pages 859–870, Berlin, Heidelberg, 2012. Springer-Verlag.BIBLIOGRAPHIE 156 [ZG12] L. Zaoralek and P. Gajdos. CUDA code support in multiagent platform JADE. In Intelligent Systems Design and Applications (ISDA), 2012 12th International Conference on, pages 546–551, Nov 2012.Résumé : Ces dernières années ont consacré l’émergence du parallélisme dans la plupart des branches de l’informatique. Au niveau matériel, tout d’abord, du fait de la stagnation des fréquences de fonctionnement des unités de calcul. Au niveau logiciel, ensuite, avec la popularisation de nombreuses plates-formes d’exécution parallèle. Une forme de parallélisme est également présente dans les systèmes multi-agents, qui facilitent la description de systèmes complexes comme ensemble d’entités en interaction. Si l’adéquation entre ce parallélisme d’exécution logiciel et conceptuel semble naturelle, la parallélisation reste une démarche difficile, du fait des nombreuses adaptations devant être effectuées et des dépendances présentes explicitement dans de très nombreux systèmes multi-agents. Dans cette thèse, nous proposons une solution pour faciliter l’implémentation de ces modèles sur une plateforme d’exécution parallèle telle que le GPU. Notre bibliothèque MCMAS vient répondre à cette problématique au moyen de deux interfaces de programmation, une couche de bas niveau MCM permettant l’accès direct à OpenCL et un ensemble de plugins utilisables sans connaissances GPU. Nous étudions ensuite l’utilisation de cette bibliothèque sur trois systèmes multi-agents existants : le modèle proie-prédateur, le modèle MIOR et le modèle Collemboles. Pour montrer l’intérêt de cette approche, nous présentons une étude de performance de chacun de ces modèles et une analyse des facteurs contribuant à une exécution efficace sur GPU. Nous dressons enfin un bilan du travail et des réflexions présentées dans notre mémoire, avant d’évoquer quelques pistes d’amélioration possibles de notre solution. Mots-clés : Framework de simulation, Système multi-agents, Many-core, GPU, Calcul haute performance Abstract: These last years have seen the emergence of parallelism in many fields of computer science. This is explained by the stagnation of the frequency of execution units at the hardware level and by the increasing usage of parallel platforms at the software level. A form of parallelism is present in multi-agent systems, that facilitate the description of complex systems as a collection of interacting entities. If the similarity between this software and this logical parallelism seems obvious, the parallelization process remains difficult in this case because of the numerous dependencies encountered in many multi-agent systems. In this thesis, we propose a common solution to facilitate the adaptation of these models on a parallel platform such as GPUs. Our library, MCMAS, provides access to two programming interface to facilitate this adaptation: a low-level layer providing direct access to OpenCL, MCM, and a high-level set of plugins not requiring any GPU-related knowledge. We study the usage of this library on three existing multi-agent models : predator-prey, MIOR and Collembola. To prove the interest of the approach we present a performance study for each model and an analysis of the various factors contributing to an efficient execution on GPUs. We finally conclude on a overview of the work and results presented in the report and suggest future directions to enhance our solution. Keywords: Simulation framework, Multi-agents system, Many-core, GPU, High-performance computing Bornes inferieures et superieures dans les circuits arithmetiques S´ebastien Tavenas To cite this version: S´ebastien Tavenas. Bornes inferieures et superieures dans les circuits arithmetiques. Other. Ecole normale sup´erieure de lyon - ENS LYON, 2014. French. . HAL Id: tel-01066752 https://tel.archives-ouvertes.fr/tel-01066752 Submitted on 22 Sep 2014 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destin´ee au d´epˆot et `a la diffusion de documents scientifiques de niveau recherche, publi´es ou non, ´emanant des ´etablissements d’enseignement et de recherche fran¸cais ou ´etrangers, des laboratoires publics ou priv´es.THÈSE en vue de l'obtention du grade de Docteur de l’Université de Lyon, délivré par l’École Normale Supérieure de Lyon Discipline : Informatique Laboratoire de l’Informatique du Parallélisme École Doctorale Informatique et Mathématiques présentée et soutenue publiquement le 9 juillet 2014 par Sébastien TAVENAS _______________________________________________________________________________ Bornes inférieures et supérieures dans les circuits arithmétiques _______________________________________________________________________________ Directeur de thèse : Pascal KOIRAN Après avis de : Markus BLÄSER Neeraj KAYAL Mohab SAFEY EL DIN Devant la commission d'examen formée de : Frédéric BIHAN Université de Savoie Membre Markus BLÄSER Universität des Saarlandes Rapporteur Étienne GRANDJEAN Université de Caen Basse-Normandie Membre Pascal KOIRAN École normale supérieure de Lyon Directeur Natacha PORTIER École normale supérieure de Lyon Co-encadrante Mohab SAFEY EL DIN Université Pierre et Marie Curie Rapporteur2Table des matières Table des matières 3 Introduction 1 1 Préliminaires 7 1 Polynômes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1 Propriétés élémentaires des polynômes . . . . . . . . . . . . . 8 1.2 Fractions rationnelles . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 Polynômes classiques . . . . . . . . . . . . . . . . . . . . . . . 9 2 Circuits arithmétiques . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.1 Les circuits . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Degré formel . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Arbres monomiaux . . . . . . . . . . . . . . . . . . . . . . . . 13 2.4 Notations en profondeur constante . . . . . . . . . . . . . . . 14 3 Classes de Valiant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.1 Un soupçon de complexité booléenne . . . . . . . . . . . . . . 15 3.2 Classes VP, VNP . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.3 Classes sans constantes . . . . . . . . . . . . . . . . . . . . . . 18 3.4 Polynômes complets . . . . . . . . . . . . . . . . . . . . . . . 19 2 Profondeur bornée 21 1 Les formules de Ryser, Glynn et Fischer . . . . . . . . . . . . . . . . 23 2 Quelques bornes inférieures . . . . . . . . . . . . . . . . . . . . . . . 24 2.1 Comptage de monômes . . . . . . . . . . . . . . . . . . . . . . 24 2.2 Quasi-optimalité des formules de Ryser et de Glynn . . . . . . 25 2.3 Quelques résultats récents de bornes inférieures . . . . . . . . 27 3 Bornes supérieures pour circuits homogènes . . . . . . . . . . . . . . 28 3.1 Propositions sur les circuits arithmétiques . . . . . . . . . . . 29 3.2 Réduction à la VSBR . . . . . . . . . . . . . . . . . . . . . . . 30 3.3 Réduction à une profondeur bornée constante . . . . . . . . . 33 4 Bornes supérieures pour circuits non homogènes . . . . . . . . . . . . 36 3 Variantes de la τ -conjecture 39 1 Transfert de bornes inférieures . . . . . . . . . . . . . . . . . . . . . . 41 1.1 Quelques définitions de classes booléennes . . . . . . . . . . . 41 1.2 Les polynômes définissables . . . . . . . . . . . . . . . . . . . 42 1.3 Preuve du théorème 3.3 . . . . . . . . . . . . . . . . . . . . . 44 2 Variations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3TABLE DES MATIÈRES 2.1 Raffinement de la τ -conjecture réelle . . . . . . . . . . . . . . 47 2.2 Différentes τ -conjectures . . . . . . . . . . . . . . . . . . . . . 48 2.3 Problèmes fg + 1 . . . . . . . . . . . . . . . . . . . . . . . . . 54 4 Premiers résultats sur les τ -conjectures 57 1 Équivalence de la version monotone . . . . . . . . . . . . . . . . . . . 57 2 Polygones de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2.1 Bornes supérieures grâce à la convexité . . . . . . . . . . . . . 62 5 Approche par le wronskien 65 1 Zéros des wronskiens . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 1.1 Borner les zéros des sommes par les zéros des wronskiens . . . 68 1.2 Seconde version de la borne supérieure . . . . . . . . . . . . . 70 2 Retour aux sommes de produits de polynômes . . . . . . . . . . . . . 71 2.1 Dérivées d’une puissance . . . . . . . . . . . . . . . . . . . . . 72 2.2 Application aux P Q VP Q . . . . . . . . . . . . . . . . . . 73 2.3 Applications à d’autres modèles . . . . . . . . . . . . . . . . . 76 3 Algorithmes pour le test d’identité polynomiale . . . . . . . . . . . . 78 3.1 Algorithmes PIT à boîte noire . . . . . . . . . . . . . . . . . . 79 3.2 Un algorithme PIT à boîte blanche . . . . . . . . . . . . . . . 80 3.3 Deux lemmes techniques . . . . . . . . . . . . . . . . . . . . . 81 4 Optimalité de la borne . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6 Problème de Sevostyanov 89 1 Outils techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 1.1 Les dérivées d’une puissance . . . . . . . . . . . . . . . . . . . 91 1.2 Les dérivées d’une fonction algébrique . . . . . . . . . . . . . . 92 1.3 Versions réelles pour le théorème de Bézout . . . . . . . . . . 94 1.4 Décomposition cylindrique algébrique pour un polynôme bivarié 96 2 Intersection d’une courbe creuse et d’une courbe dense . . . . . . . . 97 Bibliographie 103 4Introduction Commençons ce manuscrit par une simple question. Comment fait-on pour chercher un mot dans un dictionnaire ? On identifie la première lettre du mot et on la compare à la première lettre des mots sur la page où le dictionnaire est ouvert. Puis, selon leur position relative dans l’ordre alphabétique, on tourne les pages vers l’avant ou vers l’arrière jusqu’à ce que les premières lettres coïncident. Ensuite, on recommence avec la deuxième lettre, puis avec la troisième, et ainsi de suite... Ce que nous venons de décrire correspond à ce que l’on appelle un algorithme. Il s’agit d’un procédé systématique, applicable mécaniquement, sans réfléchir, en suivant simplement un mode d’emploi précis. En bref, c’est une recette de cuisine qui répond aux questions “Comment faire telle chose ?”, “Comment calculer telle opération ?”, “Comment résoudre tel problème ?”... À l’origine, pour les mathématiciens, les algorithmes servaient plutôt à effectuer des calculs sur les nombres. Ainsi, les méthodes pour calculer des additions, soustractions, multiplications ou divisions en les posant que l’on apprend en primaire sont des algorithmes. Il en est de même par exemple du crible d’Érathostène pour déterminer si un nombre est premier. Bien que cette notion d’algorithme soit très ancienne, sa formalisation mathé- matique provient des années 1930 et des travaux en particuliers de Kleene, Church, Gödel, Herbrand, Post et Turing. Différents modèles ont été introduits comme les fonctions récursives, le lambda-calcul, la machine de Turing ou la machine RAM. De façon assez surprenante, il a été prouvé que tous ces modèles permettent de ré- soudre exactement les mêmes problèmes, et qu’il existait d’autres problèmes que ces modèles ne pouvaient pas résoudre. Ainsi est née la calculabilité, l’étude de ce qui est calculable. L’équivalence de capacité de calculs des différents modèles a permis de conjecturer que ces modèles étaient capables de simuler tous les autres modèles mécaniques que l’on pourrait concevoir. Cette conjecture est connue sous le nom de “Thèse de Church” ou “Thèse de Church-Turing”. L’apparition de l’ordinateur (qui est une réalisation marérielle de la machine RAM) dès la seconde guerre mondiale fut un grand succès de ces travaux. Avec l’arrivée des premiers ordinateurs est apparue la notion d’efficacité des algorithmes. Ainsi, peut-on réllement dire qu’un algorithme nécessitant un temps de calcul de plusieurs milliers d’années soit “efficacement” calculable ? D’après Hartmanis et Stearn, l’efficacité d’un algorithme doit être mesurée comme une fonction de la taille de ses entrées. L’efficacité d’un algorithme se mesure alors par le nombre de ressources qu’il utilise (comme le nombre d’opérations ou le nombre de cases mémoires) en fonction de la taille des entrées. C’est le début de la théorie de la complexité. Ainsi, lorsqu’on pose une addition de deux entiers, le nombre de chiffres que l’on écrit est au plus grossièrement trois fois plus grand que le nombre de chiffres des entrées (on doit rajouter une ligne pour les retenues et une ligne pour la solu- 1INTRODUCTION tion). On dira que cet algorithme est linéaire en le nombre de chiffres à écrire. En comparaison, lorsqu’on pose une multiplication, le nombre de chiffres à écrire sera quadratique car le nombre de lignes de chiffres sera proportionnel en le nombre de chiffres des entrées. Quelques années plus tard, Cobham et Edmonds ont indépendamment proposé qu’un algorithme efficace est un algorithme qui n’effectue, dans le pire des cas, qu’un nombre d’opérations polynomial en la taille de son entrée. La classe P est ainsi défi- nie comme l’ensemble des problèmes qui admettent de tels algorithmes. On pourrait en fait se demander si la classe P, qui contient des problèmes qui ont leur meilleur algorithme en temps n 1000, correspond bien à l’ensemble des problèmes efficacement calculables. En pratique ce modèle semble aujourd’hui assez satisfaisant puisque la grande majorité des problèmes naturels de cette classe nécessite en fait un nombre d’opérations en n c avec c une constante relativement petite (disons c ≤ 5). Toutefois, d’autres classes peuvent aussi prétendre représenter les problèmes décidables efficacement. Par exemple, la classe P ne considère que les algorithmes déterministes, or de nombreux algorithmes aujourd’hui utilisent des bits aléatoires. Ainsi, la classe BPP est définie comme l’ensemble des problèmes que l’on peut résoudre en temps polynomial en la taille des entrées en utilisant des bits aléatoires. D’autres candidats pour la classe des problèmes résolubles efficacement viennent des modèles non uniformes. Un modèle uniforme est un modèle (comme pour P et BPP) où les algorithmes sont les mêmes quelque soit la taille des entrées. Dans le cas de la cryptographie, pourrait-on dire que le problème de la factorisation soit vraiment difficile s’il existait un algorithme très rapide capable de factoriser tous les nombres d’au plus 100 000 bits ? Un exemple naturel de modèle de calcul non uniforme est celui des circuits. L’ensemble des problèmes qui possèdent une suite de circuits (un pour chaque taille d’entrée) de taille polynomiale correspond à la classe P/poly. La question duale à celle de savoir quels problèmes peuvent être efficacement calculables est celle de déterminer pour quels problèmes ce n’est pas le cas. Ainsi, imaginons le problème du touriste qui arrive en France et aimerait visiter certaines villes (par exemple Angers, Bordeaux, Caen, Clermont-Ferrand, Grenoble, Lille, Lyon, Nancy, Nice, Paris et Rennes) mais qui n’a, à sa disposition, qu’une voiture de location avec un forfait de 1500 kilomètres. Peut-il trouver un itinéraire passant par toutes ces villes ne dépassant pas les 1500 kilomètres ? Ce problème, connu sous le nom du “Voyageur de Commerce” semble difficile à implémenter efficacement sur les ordinateurs. Aucun algorithme de complexité polynomiale résolvant ce problème n’est aujourd’hui connu. En fait, nous pensons qu’il n’en existe pas. Mais pourquoi cela ? Comment pourrait-on montrer la non-existence d’un tel algorithme ? Pour commencer, notons que pour ce problème, si un itinéraire est donné, il est facile (i.e. en temps polynomial) de vérifier s’il s’agit d’un itinéraire satisfaisant aux critères de départ. L’ensemble des problèmes ayant cette propriété forme une classe connue sous le nom de NP. Pourquoi pense-t-on alors qu’il n’existe pas d’algorithme polynomial qui décide l’existence d’un tel bon itinéraire ? En fait, il a été montré que ce problème était au moins aussi difficile que tous les autres problèmes de la classe NP (on dit que le problème du voyageur de commerce est NP-complet). Ce qui signifie que s’il existe un algorithme polynomial pour ce problème, alors il en existe aussi un pour tous les autres problèmes de cette classe NP. Or la classe NP comprend un très grand nombre de problèmes qui semblent difficiles. Depuis les premières preuves 2INTRODUCTION de NP-complétude par Cook et Karp il y a trente ans, les chercheurs n’ont cessé d’augmenter la liste de ces problèmes NP-complets (cf. par exemple le livre [34] pour une liste déjà conséquente). Comme l’existence d’un algorithme polynomial pour le problème du voyageur de commerce impliquerait l’existence d’un tel algorithme pour tous ces autres problèmes, la communauté scientifique doute de cette existence. Mais comment le prouver ? Résoudre cette question connue sous le nom “P 6= NP ?” (ou conjecture de Cook) est le plus grand défi de la recherche actuelle en informatique théorique. Cette conjecture fait partie des sept problèmes du millénaire exposés par l’Institut Clay. Très peu d’outils existent aujourd’hui pour trouver des bornes inférieures sur la complexité d’un problème, i.e. prouver que tel problème ne peut pas être résolu en moins de tant d’opérations. Un autre problème classique est celui des mariages parfaits (en anglais “perfect matching”). Anne, Bertrand, Charles et Daniel doivent se répartir quatre gâteaux, un au chocolat, un à la vanille, un au citron et un à la fraise. Anne et Bertrand n’aiment pas beaucoup les fruits, mais raffolent du chocolat et de la vanille. Charles est preneur des gâteaux au citron, à la fraise ou à la vanille, mais laisserait bien celui au chocolat. Quant à Daniel, gourmand, sera satisfait quelque soit le gâteau qu’il recevra. Le problème des mariages parfaits est celui de savoir s’il y a une affectation des gâteaux qui convient aux quatre amis. Ce problème est en fait dans P. Toutefois, la variante de ce problème qui consiste à compter le nombre de telles affectations valables est supposée difficile (ce problème est connu #P-complet). En fait compter ce nombre d’assignations revient à évaluer un polynôme particulier, le permanent, en un certain point. Cela signifie qu’il est possible de résoudre ce problème en effectuant seulement les opérations arithmétiques que sont l’addition, la soustraction ou la multiplication. Dans ce manuscrit, nous nous intéresserons essentiellement à de tels problèmes arithmétiques. Il est envisageable que l’utilisation d’autres opérations (comme modifier directement les bits des nombres considérés) permette d’évaluer ces polynômes plus rapidement, mais en pratique ce n’est généralement pas le cas des algorithmes connus actuellement. Nous considérerons ainsi des modèles de calcul arithmétiques, i.e. des modèles où seules les opérations arithmétiques sont utilisées. Le modèle arithmétique probablement le plus répandu de nos jours est celui des circuits arithmétiques. Ce modèle a été particulièrement étudié par Valiant dans les années 70, 80. Ce dernier a introduit des classes analogues aux classes booléennes. Ainsi, la classe VP correspond aux familles de polynômes calculables efficacement dans ce modèle, alors que la classe VNP est l’analogue de la classe VP. Valiant montra que le polynôme Permanent est en fait VNP-complet. La conjecture VP 6= VNP, connue sous le nom de conjecture de Valiant fait figure de version arithmétique de la conjecture de Cook. Toutefois, comme on se limite ici seulement aux opérations arithmétiques, la robustesse des objets algébriques sur lesquels on travaille (comme les anneaux ou les corps) et les nombreuses propriétés qu’ont les opérations associées permettent d’imaginer que cette version arithmétique de la conjecture P 6= NP soit beaucoup plus accessible. Dans le premier chapitre, nous rappelerons les définitions et premières propriétés autour de ces circuits arithmétiques dont nous aurons besoin dans la suite de ce manuscrit. Nous avons mentionné précédemment que le principal challenge en complexité informatique est de trouver des bornes inférieures. Agrawal et Vinay [4] ont mon- 3INTRODUCTION tré que trouver une borne inférieure en 2 o(d+d log(n/d)) pour la taille des circuits de profondeur 4 calculant une suite de polynômes Pn de degré d à n indéterminées est équivalent à trouver une borne inférieure (aussi en 2 o(d+d log(n/d))) pour les circuits généraux calculant cette suite de polynômes. Ce résultat traduit que le problème de trouver des bornes inférieures est aussi difficile dans le cas des circuits de profondeur 4 que dans le cas des circuits généraux. Depuis, beaucoup de travaux ont été réalisés sur les circuits arithmétiques de profondeur constante (en particulier de profondeur 3 et 4). Nous exposerons dans le deuxième chapitre les résultats sur ce sujet. Nous commencerons par donner les résultats récents sur des bornes inférieures non triviales pour les circuits de profondeur 4. Puis nous nous intéresserons plus particulièrement aux bornes supérieures correspondantes et verrons que dans un grand nombre de cas les bornes optimales ont été trouvées. En 2007, Bürgisser [21] a montré qu’une célèbre conjecture, la τ -conjecture introduite par Shub et Smale [92], implique une borne inférieure sur la taille des circuits arithmétiques calculant le permanent. Cette τ -conjecture suggère qu’un polynôme calculé par un petit circuit ne peut pas avoir beaucoup de racines entières. Cependant cette conjecture est fausse si on considère les racines réelles au lieu des racines entières. En effet les polynômes de Tchebychev possèdent un nombre de racines réelles exponentiellement plus grand que la taille des circuits les calculant. Koiran [61] a proposé une variante de cette τ -conjecture, nommée la τ -conjecture réelle. Cette dernière stipule qu’il existe un polynôme universel p tel que les polynômes univariés de la forme X k i=1 Ym j=1 fi,j (X) ont au plus p(ktm) racines réelles dès que les fi,j ont au plus t monômes. L’intérêt de cette conjecture est que, tout en impliquant encore la conjecture de Valiant, elle considère le nombre de racines réelles, et permet d’espérer que les outils d’analyse réelle puissent aider à la résoudre. Dans le troisième chapitre, nous étudierons cette τ -conjecture réelle ainsi que d’autres variantes ayant toutes la propriété d’impliquer des bornes inférieures pour le permanent. Le quatrième chapitre sera consacré à des premiers résultats concernant deux de ces variantes : la τ -conjecture réelle monotone ainsi que la version combinatoire. Nous nous attarderons ensuite sur nos travaux pour tenter de prouver la τ - conjecture réelle dans le chapitre cinq. Nous verrons alors pourquoi le wronskien est un outil très adapté pour borner le nombre de zéros de sommes de puissances. Même si nous sommes encore loin de prouver la τ -conjecture réelle, nous montrerons comment obtenir des bornes sur le nombre de racines pour des polynômes de la forme X k i=1 Ym j=1 (fi,j (X))αi,j où les fi,j ont au plus t monômes. Ces bornes améliorent à la fois les résultats de Khovanski˘ı [59] sur ce sujet et les résultats précédents de Grenet, Koiran, Portier et Strozecki [38]. Ces outils sont assez robustes et permettent d’améliorer les bornes supérieures connues sur le nombre de racines pour d’autres familles de polynômes. 4INTRODUCTION Enfin, au chapitre six, nous essaierons d’utiliser la pleine puissance des outils développés au chapitre cinq pour attaquer les variantes “creuses” du théorème de Bézout. Dans le corps des complexes, le nombre de racines d’un polynôme est borné par son degré. La règle des signes de Descartes assure, elle, que le nombre de racines réelles est aussi borné par le nombre de termes du polynôme. Par ailleurs, pour un système de plusieurs équations, le théorème de Bézout affirme que le nombre de solutions complexes, s’il est fini, est borné par le produit des degrés des diffé- rents polynômes. Qu’en est-il alors du cas d’un système de polynômes creux ? Cette question a été soulevée par Kushnirenko en 1977. Les résultats de Khovanski˘ı sur la théorie des “fewnomials” assurent que le nombre de solutions réelles est borné par une fonction du nombre de termes. Cependant cette fonction est exponentielle en le nombre de termes. La question de savoir s’il existe une borne supérieure polynomiale en le nombre de termes comme pour le théorème de Bézout est encore largement ouverte. Dans ce même chapitre nous examinerons un cas particulier, celui d’un système d’un polynôme de petit degré avec un polynôme creux. Nous montrerons que dans ce cas, il existe effectivement une borne supérieure polynomiale sur le nombre de composantes connexes des solutions. Notations Dans ce manuscrit nous utiliserons abondamment la notation de Landau pour apprécier le comportement asymptotique de nos mesures. Par comportement asymptotique, nous sous-entendons en fait le comportement des fonctions au voisinage de +∞. Si f et g sont des fonctions R → R, on dira que f = O(g) s’il existe deux réels positifs c et N tels que pour tout n ≥ N, on ait f(n) ≤ cg(n). De plus, on notera f = o(g) si pour tout réel positif ε, il existe un réel N tel que pour tout n ≥ N, on ait f(n) ≤ εg(n). Ces notations permettent de borner supérieurement le comportement asymptotique de f. Il existe des notations symétriques pour les bornes inférieures. Ainsi, on notera f = Ω(g), respectivement f = ω(g) si g = O(f), respectivement g = o(f). Enfin, la notation f = Θ(g) exprime que f = O(g) et g = O(f), i.e. que f et g sont de même ordre de grandeur. Finalement nous utiliserons la même notation dans le cas de fonctions de Z → R. 5INTRODUCTION 6Chapitre 1 Préliminaires : notations et introduction à la théorie de Valiant Dans ce chapitre, nous définirons les outils ainsi que les notations que nous allons utiliser dans la suite de ce manuscrit. Nous donnerons ensuite une brève introduction à la théorie des circuits arithmétiques (appelée généralement théorie de Valiant). Toutefois, nous considérerons ici seulement les bases et les résultats qui nous seront utiles pour la suite. Pour un aperçu plus complet de cette théorie, le lecteur interessé pourra se tourner vers les références suivantes [19, 23, 35, 91]. L’idée de cette théorie est de mesurer la complexité des polynômes en termes de nombres d’opérations arithmétiques à effectuer. Commençons par fixer quelques notations pour les polynômes. 1 Polynômes Un polynôme univarié f est défini comme une expression de la forme f = c0 + c1X + c2X 2 + . . . + cdX d = X d i=0 ciX i où les ci (pour 0 ≤ i ≤ d) sont des éléments d’un anneau commutatif A avec cd 6= 0 et où X est un symbole formel appelé indéterminée (ou même variable). La constante d est appelée le degré (notée aussi deg(f)) et les (ci)0≤i≤d les coefficients de f. Par convention, le degré du polynôme nul sera −∞. L’ensemble des polynômes à coefficients dans un anneau A est encore un anneau et sera noté A[X]. Remarque 1.1. Dans la suite du manuscrit, les anneaux seront toujours supposés unitaires et commutatifs. Un polynôme est donc une somme de termes où chaque terme est le produit d’un coefficient ci et d’un monôme Xi . Les coefficients cd (où d est le degré) et c0 sont traditionnellement appelés respectivement le coefficient dominant et le terme constant. Si A est un sous-anneau de B, alors, on associera à un polynôme f sa fonction 7CHAPITRE 1. PRÉLIMINAIRES polynomiale sur B. Il s’agit de la fonction : f : B → B x 7→ c0 + c1x + . . . + cdx d . En fait, nous nous intéresserons essentiellement dans la suite à des anneaux très simples. En particulier A correspondra généralement à Z ou Q et B sera R ou C. Les polynômes multivariés sont des polynômes en plusieurs indéterminées. Il s’agit d’expression de la forme f = c0,0,...,0 + c1,0,...,0X1 + . . . + c0,0,...,1Xn + . . . + ci1,i2,...,inX i1X i2 · · · X in = X α∈Nn cαXα où la somme est finie. Les coefficients ci1,i2,...,in sont encore des éléments d’un anneau A. Le coefficient c0,0,...,0 sera encore appelé le terme constant. Le degré d’un monôme m = Xα1 · · · Xαn sera alors défini par deg(m) = Pn i=1 αi . Le degré total du polynôme sera le maximum des degrés de ses monômes, c’est-à-dire deg(f) = maxα(α1 + . . . + αn). Un polynôme est dit homogène si tous les termes associés à un coefficient non nul ont même degré. Un polynôme est constant s’il est de degré au plus 1. 1.1 Propriétés élémentaires des polynômes Un outil pratique pour les polynômes est la décomposition en facteurs irréductibles. Plus formellement, si K est un corps commutatif, un polynôme f est dit irréductible s’il est de degré au moins 1 et si pour toute écriture de f comme un produit g · h alors, un des deux polynômes g ou h est constant. La décomposition en facteurs irréductibles assure que pour tout polynôme f sur un corps K, il existe des polynômes g1, . . . , gp irréductibles et une constante λ de K tels que : f = λg1 . . . gp. De plus, ces nouveaux polynômes sont uniques à constante multiplicative près. Un anneau qui possède cette propriété de décomposition unique en irréductible est appelé factoriel. La théorie sur ces anneaux est beaucoup plus générale que celle pré- sentée ici (en particulier, pour les anneaux de polynômes, l’anneau de base n’a pas besoin d’être un corps) et peut être trouvée dans tout livre d’algèbre. Une racine d’un polynôme f en n variables est un point (a1, . . . , an) de A n tel que f s’annule en ce point (i.e. f(a1, . . . , an) = 0). Dans le cas des polynômes univariés, le fait que a soit une racine de f(X) est équivalent au fait que (X −a) soit un facteur de f. Un corollaire direct de l’unicité de la décomposition en irréductibles est que si f(X) est un polynôme non identiquement nul, alors son nombre de racines est borné par son degré. 1.2 Fractions rationnelles On peut tout d’abord remarquer que l’ensemble des polynômes est le plus petit ensemble qui contient les constantes, les variables et qui est stable par les trois lois +, − et ×. Mais que se passe-t-il si on veut rajouter les divisions ? 81. POLYNÔMES Il est alors naturel de se placer dans le cas où l’anneau de base est un corps K (comme pour les anneaux, nos corps seront toujours commutatifs). On définit les fractions rationnelles comme les quotients de deux polynômes : f est fraction rationnelle si et seulement s’il existe deux polynômes g et h (avec h non identiquement nul) tels que f = g/h. On dira que g/h est sous forme simplifiée si g et h sont premiers entre eux (i.e. que si un polynôme φ divise g et h, alors φ est constant). De même que pour les polynômes, on peut associer à chaque écriture g/h la fonction rationnelle associée (où B est un sur-corps de K) : g/h : B → B x 7→ g(x)/h(x). Toute fraction rationnelle peut se mettre sous une forme simplifiée, la seule perturbation de cette transformation est que le domaine de la nouvelle fonction associée a potentiellement été étendu par continuité. Ces singularités qui ont disparu sont appelées singularités effaçables. Dans la suite, les fractions rationnelles (ainsi que les fonctions associées) seront par défaut sous forme simplifiée. On peut encore définir les racines d’une fonction rationelle comme les points où elle s’annule. On définira les pôles, comme les points où la fonction rationnelle est non définie. L’ensemble des fractions rationnelles sera noté K(X1, . . . , Xn). 1.3 Polynômes classiques Un premier exemple de polynôme est le produit itéré de matrices. Il s’agit du produit matriciel X (0)t X (1) · · · X (d−1) où X (0) = X (0) i 1≤i≤n et X (d−1) = X (d−1) i 1≤i≤n sont deux vecteurs colonnes, et pour 1 ≤ k ≤ d − 2 les X (k) = X (k) i,j 1≤i,j≤n sont des matrices n × n. Le polynôme obtenu, appelé IMMn,d (le nom vient de l’anglais “Iterated Matrix Multiplication”) est défini comme suit. Pour d, n des entiers tels que d ≥ 2 et n ≥ 1, on considère le polynôme suivant sur les (d − 2)n 2 + 2n indéterminées X (0) i , X(d−1) i , X(l) i,j pour 1 ≤ i, j ≤ n et l ∈ {1, . . . , d − 2} : IMMn,d = X (i0,...,id−2)∈{1,...,n} d−1 X (0) i0 X (1) i0,i1 · · · X (d−2) id−3,id−2X (d−1) id−2 . Un autre exemple classique de polynôme est celui du déterminant. Les bijections de l’ensemble {1, . . . , n} vers lui-même sont appelées permutations à n éléments. On notera leur ensemble Sn. Soient i < j deux éléments distincts compris entre 1 et n. On dit que la paire {i, j} est en inversion pour la permutation σ quand σ(i) > σ(j). Une permutation est dite paire quand elle présente un nombre pair d’inversions, impaire sinon. Par définition, la signature d’une permutation paire est 1, celle d’une permutation impaire est −1. La signature d’une permutation σ sera notée ε(σ). Nous 9CHAPITRE 1. PRÉLIMINAIRES pouvons enfin définir le polynôme déterminant. Soit X = (Xi,j )1≤i,j≤n la matrice de taille n×n où chaque case correspond à une indéterminée particulière. Le polynôme Detn = X σ∈Sn (−1)ε(σ)Yn i=1 Xi,σ(i) est alors défini comme le déterminant de la matrice X = (Xi,j )1≤i,j≤n. Il s’agit d’un polynôme homogène de degré n. Par exemple, Det2 = X1,1X2,2 − X1,2X2,1. Le déterminant ne se résume pas à la formule ci-dessous. Il s’agit d’un outil primordial en mathématiques, à la base par exemple de l’algèbre linéaire. Muir lui a consacré un livre [74]. On s’intéressera dans ce manuscrit plus particulièrement au permanent, un polynôme en partie similaire au déterminant. Il est défini par : Permn = X σ∈Sn Yn i=1 Xi,σ(i) . Il s’agit exactement de la formule du déterminant à laquelle on a retiré les “−1”. Permn est aussi un polynôme homogène de degré n en n 2 variables. Même s’il est loin d’avoir l’ampleur du déterminant en mathématiques, il a tout de même des significations combinatoires. En particulier, si G est un graphe orienté à n sommets où chaque arête e est pondérée par un poids π(e), alors le permanent de G compte le nombre de couvertures par cycles. Plus précisément, une couverture par cycle C est un sous-ensemble des arêtes couvrant G par des cycles, i.e. pour chaque sommet v de G, exactement une arête sortante et une arête entrante de v (possiblement la même) sont dans C. Graphe G Couverture par cycles (en rouge) Cycle hamiltonien (en rouge) Le poids de la couverture par cycle C est le produit des poids des arêtes de C. Si M = (mi,j )1≤i,j≤n est la matrice d’adjacence du graphe G (la case mi,j correspond au poids associé à l’arête allant du sommet i au sommet j, s’il n’y a pas d’arête, le poids est 0), alors le permanent de M vaut la somme des poids de C où C parcourt l’ensemble des couvertures par cycle de G : Permn(G) = X C couverture par cycles de G   Y e arête de C π(e)   . 102. CIRCUITS ARITHMÉTIQUES Le polynôme obtenu si on se restreint alors aux cycles hamiltoniens au lieu des couvertures par cycles est appelé le hamiltonien (un cycle hamiltonien est un cycle qui passe une et une seule fois par chaque sommet du graphe). Hamn(G) = X C cycle hamiltonien de G   Y e arête de C π(e)   . 2 Circuits arithmétiques 2.1 Les circuits La façon la plus naturelle de calculer un polynôme f(x1, . . . , xn) sur un anneau A est de commencer avec les variables x1, . . . , xn puis d’effectuer une succession d’opérations arithmétiques basiques telles que des additions, des soustractions, des multiplications ou des divisions (c.f. Remarque1.3) jusqu’à obtenir le polynôme dé- siré. Un tel calcul est appelé un SLP (de l’anglais “Straight-line program”). Nous représenterons ces SLP par des circuits arithmétiques. Définition 1.2. Un circuit arithmétique sur un anneau commutatif A de portes d’opération P est un graphe fini orienté acyclique avec les propriétés suivantes : les sommets d’un circuit sont habituellement nommés portes. Ceux de degré entrant 0 sont appelés les entrées et sont étiquetés par une constante de A ou une variable. Les autres sommets (de degré entrant > 0) sont étiquetés par des opérations de P et sont appelés les portes de calcul ou nœuds internes. Pour une porte de calcul, le degré entrant sera souvent noté arité. Les sommets de degré sortant 0 seront nommés les sorties. Enfin, nous appellerons formule, un circuit tel que le graphe sous-jacent est un arbre. Comme nous avons introduit les circuits comme une représentation des SLP, il est intéressant de remarquer que la taille d’un circuit n’est rien d’autre que la longueur du SLP correspondant. Comme nous l’avons mentionné à la remarque 1.1, nous nous limitons dans ce manuscrit au cas des anneaux commutatifs, mais il est aussi possible de définir les circuits pour des anneaux non-commutatifs (voir par exemple sur ce sujet le célèbre résultat de Nisan [75] ou la section consacrée dans [91]). Nous utiliserons aussi le vocabulaire classique successeur/arguments pour mettre en évidence les liens entre les portes. S’il existe une arête du graphe allant de la porte α vers la porte β, nous dirons que α est un argument de β ou que β est un successeur de α. Chaque porte d’un circuit calcule un polynôme (défini par récurrence). Les polynômes calculés par un circuit correspondent aux polynômes calculés par les sorties du circuit. Comme dans l’exemple ci-dessous, on considérera généralement des circuits avec une seule sortie (et donc calculant un unique polynôme). Pour une porte α, nous noterons [α] le polynôme calculé par cette porte. 11CHAPITRE 1. PRÉLIMINAIRES x -2 y × × × + Circuit calculant le polynôme f = 4x 2 − 2xy. Remarque 1.3. Quand rien n’est signalé, l’ensemble des portes d’opérations sera par défaut : P = {+, ×}. Rajouter des portes de soustraction ne changera pas grand chose, vu qu’il est possible de simuler le calcul a − b par le calcul a + ((−1) × b). Pour calculer des polynômes, Strassen a montré ( [95], cf. lemme 1.6) que l’on pouvait aussi facilement se passer des portes de division. Enfin, nous utiliserons aussi (au chapitre 2) les portes de multiplication par un scalaire . Remarque 1.4. Encore par défaut, l’arité des portes de calcul sera bornée par deux. On mentionnera dans la suite quand l’arité des portes (essentiellement + et ×) sera bornée par une autre valeur ou non bornée. Comme mentionné précédemment, nous nous intéresserons à la complexité des circuits arithmétiques. Pour cela, nous aurons besoin de “mesures” de la “taille” de tels circuits. Définition 1.5. La taille d’un circuit compte le nombre de portes. La profondeur du circuit mesure la longueur maximale d’un chemin orienté depuis une entrée jusqu’à une sortie. Nous avons déjà mentionné précédemment que l’on peut en général se passer des portes de division. Plus précisément, le résultat suivant a été démontré par Strassen [95]. Une preuve peut être trouvée au chapitre 7.1 du livre [22]. Lemme 1.6. Sur un corps infini, si un polynôme f de degré d est calculable par un circuit de portes {+, −, ×, ÷} et de taille s, alors il est aussi calculé par un circuit de portes {+, −, ×} et de taille O(d 2 s). Le résultat reste valide en fait pour tout corps assez grand. Hrubeš et Yehudayoff ont généralisé ce résultat à tout corps [49]. 2.2 Degré formel Définition 1.7. Pour un circuit de portes {+, ×}, on définit, par récursivité, le degré (formel) d’une porte : — Le degré d’une entrée étiquetée par 0 est −∞. — Le degré d’une entrée étiquetée par une constante non nulle est 0. — Le degré d’une entrée étiquetée par une variable est 1. 122. CIRCUITS ARITHMÉTIQUES — Le degré d’une porte + d’arguments α1, . . . , αp est le maximum des degrés des portes α1, . . . , αp. — Le degré d’une porte × d’arguments α1, . . . , αp est la somme des degrés des portes α1, . . . , αp. Un circuit est qualifié d’homogène si pour chacune de ses portes d’addition α, tous les arguments de α ont le même degré. Remarque 1.8. Dans la suite de ce manuscrit nous supposerons que les nœuds internes ne calculent jamais le polynôme identiquement nul. Si c’est le cas, il suffit de remplacer ces portes par des portes d’entrée étiquetées par la constante 0. Un premier résultat découle immédiatement de la définition par récurrence des circuits homogènes. Lemme 1.9. Dans un circuit homogène, toutes les portes calculent des polynômes homogènes. De plus le degré de la porte correspond au degré du polynôme homogène calculé par la porte. Démonstration. — Le lemme est avéré pour toutes les portes d’entrée. — Si α est une porte + d’arguments α1, . . . , αp, alors par homogénéité, ces arguments ont le même degré d. Par hypothèse de récurrence, les portes α1, . . . , αp calculent des polynômes homogènes de degré d. Donc [α] est un polynôme homogène de degré d ou −∞. Par la remarque 1.8, le degré de [α] est d. — Si α est une porte de multiplication d’arguments α1, . . . , αp, alors par hypothèse de récurrence les polynômes [α1], . . . , [αp] sont homogènes et leurs degrés correspondent au degré des portes correspondantes. Donc [α] est homogène et le degré de [α] égale le degré de α. Les portes correspondant à la multiplication par un scalaire sont donc des cas particuliers de portes de multiplication. On peut rajouter maintenant une restriction syntaxique pour que ces portes calculent bien des multiplications scalaires. Dans la suite, ces portes sont toujours d’arité deux et au moins l’un des arguments est de degré formel 0. 2.3 Arbres monomiaux Pour un circuit donné à une seule sortie, nous allons définir une famille de formules particulières que nous appellerons les arbres monomiaux. Dans l’esprit, un arbre monomial correspond au calcul d’un monôme particulier. Définition 1.10. L’ensemble des arbres monomiaux d’un circuit C qui a une seule sortie o est défini par récurrence sur sa taille : — Si C est de taille 1, il a seulement un arbre monomial, lui-même. — Si la sortie o de C est une porte + d’arguments α1, . . . , αp, alors les arbres monomiaux de C sont obtenus en choisissant un arbre monomial du souscircuit enraciné en αi et l’arc reliant αi à la sortie o pour une valeur de i dans l’ensemble {1, . . . , p}. 13CHAPITRE 1. PRÉLIMINAIRES — Si la porte de sortie o de C est une porte de multiplication (ou une porte ) dont les arguments sont α1, . . . , αp, les arbres monomiaux de C sont obtenus en prenant des copies disjointes pour chaque 1 ≤ i ≤ p d’un arbre monomial enraciné en αi , puis en prenant les p arcs reliant les portes αi à la sortie o. Par exemple, le circuit suivant x y z + + × possède six arbres monomiaux. x z + + × y z + + × x x + + + × x y + + + × y x + + + × y y + + + × On remarque ici qu’un arbre monomial peut avoir une taille (exponentiellement) plus grande que celle du circuit original. Cela ne posera pas de problème dans la suite de ce manuscrit. Toutefois, il est possible d’éviter cette explosion en travaillant avec des circuits multiplicativement disjoints comme dans [72]. À chaque arbre monomial, on peut associer un monôme correspondant au produit de ses feuilles. Le lemme suivant qui montre comment revenir au circuit à partir des arbres monomiaux provient de [72]. Lemme 1.11. Un polynôme f calculé par un circuit C correspond exactement à la somme des monômes des arbres monomiaux : f = X T arbre monomial m(T) où m(T) est le monôme associé à l’arbre T. 2.4 Notations en profondeur constante Dans le cas des circuits de profondeur constante de portes {+, ×}, l’arité des portes sera non bornée. En fait, pour un circuit de profondeur δ, si l’arité des portes est bornée par a, alors le polynôme calculé ne dépend que d’au plus a δ variables. Or comme dans le cas de la complexité booléenne, nous ne voulons pas que la taille des entrées du problème soient bornée par une constante. 143. CLASSES DE VALIANT Pour les circuits de profondeur constante, il est traditionnel (et très pratique) de les partitionner en niveaux. Le niveau 0 contient les entrées, puis pour tout i ≥ 1, le niveau i correspond à un unique opérateur et chaque porte de ce niveau a tous ses arguments dans le niveau i − 1. On peut remarquer que cette transformation est presque anodine pour les circuits à une seule sortie, de portes {+, ×} (plus précisément, elle n’augmente pas la profondeur p et multiplie la taille par au plus p). Nous utiliserons quelques notations pratiques qui sont définies dans l’article [45]. Un circuit, par exemple de profondeur 4, tel que les portes des niveaux 1 et 3 sont des portes de multiplication et les portes de niveau 2 et 4 sont des portes d’addition est noté : circuit P QP Q. De plus un circuit P Q[α] P[β] Q correspond à un circuit de type P QP Q où l’arité des portes de multiplication au niveau 3 est borné par α P Q et l’arité des portes d’addition du niveau 2 est borné par β. Par exemple, un circuit [α] P[β] Q calcule un polynôme de la forme : X t i=1 Yui j=1 Xvi,j k=1 wY i,j,k l=1 xi,j,k,l où ui ≤ α, vi,j ≤ β. De même, nous aurons besoin de portes d’exponentiation V . Nous ne les avons pas définies précédemment car elles ne serviront que dans le cas des circuits de profondeur bornée. Elles correspondent à l’opérateur “puissance”. Par exemple un circuit P V[γ] P calcule des polynômes de la forme : X t i=1 Xvi j=1 xi,j!ui où les exposants ui sont bornés par γ. 3 Classes de Valiant 3.1 Un soupçon de complexité booléenne Commençons ce chapitre par une petite digression sur la complexité booléenne. En fait, dans la suite, seul le chapitre 3 nécessitera quelques outils de cette théorie. L’intérêt ici est aussi de donner au lecteur une petite intuition des classes P et NP avant d’aller voir les classes VP et VNP qui en seront inspirées. De plus, on supposera connue la définition d’une machine de Turing (le lecteur pourra sinon, pour l’intuition, imaginer la machine de Turing comme un ordinateur ou un programme informatique). D’ailleurs, beaucoup plus d’informations sur la complexité booléenne (comme la définition des machines de Turing) pourront être trouvées dans les références [7, 37, 79, 82]. Définition 1.12. L’ensemble {0, 1} ? désigne l’ensemble des mots finis sur l’alphabet {0, 1}. Par exemple 011 et 00000 sont deux mots de {0, 1} ? . Le premier est un mot de longueur 3, le second, un mot de longueur 5. On utilisera la notation |x| pour désigner la taille du mot x. Un langage est une partie de {0, 1} ? . 15CHAPITRE 1. PRÉLIMINAIRES Nous pouvons maintenant définir la classe P constituée des langages supposés “facilement calculables”. Définition 1.13. La classe P contient l’ensemble des langages A tels qu’il existe une constante c et une machine de Turing M telles que — sur toute entrée x ∈ {0, 1} ? , M(x) fonctionne en temps ≤ |x| c + c, — M reconnaît le langage A, i.e. x ∈ A ⇔ M(x) = 1. Une des plus grandes réussites de cette théorie réside dans la classe NP. Dans l’idée, un langage A est dans cette classe, lorsque l’appartenance d’un mot à A est facilement vérifiable. Définition 1.14. On définit la classe NP comme l’ensemble des langages A tels qu’il existe un polynôme p et un langage B ∈ P où x ∈ A ⇔ ∃y ∈ {0, 1} p(|x|) ,(x, y) ∈ B. Le succès de la classe NP vient du fait que de nombreux langages ont été prouvés NP-complets (comprendre, au moins aussi difficiles que tous les autres de cette classe). Le livre référence sur le sujet est [34]. On conjecture que les deux classes précédentes sont distinctes, i.e. que les problèmes NP-complets n’ont pas d’algorithme de complexité polynomiale, mais cette question reste toujours ouverte. Cette conjecture figure dans la liste des sept problèmes du millénaire rédigée par l’Institut de mathématiques Clay. Conjecture 1.15. Les classes P et NP sont distinctes. 3.2 Classes VP, VNP Nous sommes en mesure de définir les classes de complexité du modèle de Valiant [99, 100]. Puisqu’on veut mesurer la complexité comme une fonction de la taille des entrées, on considérera en fait des suites infinies de polynômes comme (Detn)n∈N. Ces suites de polynômes (Pn) seront calculées par des suites de ciruits Cn si et seulement si pour tout n, le circuit Cn calcule le polynôme Pn. Au début, nous considérerons bien ces suites de polynômes, mais rapidement, par abus de notation, nous identifierons ces suites aux polynômes : ainsi, par exemple, on parlera du polynôme Detn pour parler de la suite (Detn)n∈N. Comme dans le modèle booléen, nous aurons besoin d’une notion de réduction. Définition 1.16. Un polynôme f est une projection d’un polynôme g si k ≤ l et si f(X1, . . . , Xk) = g(Y1, . . . , Yl) où les Yi sont soit des variables Xi , soit des constantes de A. La suite de polynômes (fn) est une projection polynomiale de la suite de polynômes (gn) s’il existe un polynôme p tel que pour tout n, le polynôme fn soit une projection du polynôme gp(n) . Les définitions des classes VP et VNP sont basées sur celles des classes booléennes P et NP (le V rajouté est pour Valiant). Intuitivement, nous voulons définir VP comme l’ensemble des suites de polynômes calculables par des circuits de taille 163. CLASSES DE VALIANT polynomiale. On va en fait rajouter une autre contrainte sur VP : nous voulons que le degré des polynômes de cette classe soit aussi polynomialement borné. Pourquoi rajouter une telle contrainte ? L’idée derrière est encore que l’on souhaite que VP ressemble à P. Les fonctions calculables polynomialement par une machine de Turing sont telles que la taille de leur sortie est polynomialement bornée par la taille de leur entrée. Ce n’est pas le cas des polynômes de degré exponentiel. Cependant dans le modèle des circuits, la multiplication et l’addition coûtent toujours un temps constant, quelque soit la taille des entrées. En particulier, il est possible de calculer des polynômes de degré exponentiel par des circuits de taille polynomiale, comme le montre le circuit suivant de taille n : X × . . . × n portes Circuit calculant le polynôme X2 n−1 . Commençons par la définition de la classe VP. Définition 1.17. Soit A un anneau commutatif. La suite Cn de polynômes (fn) est dans VPA s’il existe des polynômes p, q et r et une suite de circuits arithmétiques sur A de portes {+, ×} tels que pour tout n, les propriétés suivantes sont avérées : — le nombre de variables de fn est borné par p(n), — le degré de fn est borné par q(n), — le circuit Cn calcule fn — et la taille de Cn est bornée par r(n). Suivant la tradition, on pose VP = VPQ. Considérons par exemple la famille (Detn). Le nombre de variables ainsi que le degré de ces circuits est polynomialement borné. La méthode du pivot fournit directement un circuit de portes {+, ×, −, ÷} de taille O(n 3 ). D’après la remarque 1.1 et le lemme 1.6, il existe un circuit arithmétique de portes {+, ×} de taille O(n 5 ). En particulier, (Detn) ∈ VP. Un autre exemple de polynôme est le produit itéré de matrices IMMn,n. Comme le produit de deux matrices se fait directement en utilisant O(n 3 ) opérations, il est facile de vérifier que IMMn,n ∈ VP. La classe VNP correspond alors à la classe NP. L’idée de la définition est de partir de la définition par certificats de la classe booléenne NP et de remplacer le “∃y ∈ {0, 1} p(n) ” par une somme P y∈{0,1} p(n) . Définition 1.18. Soit A un anneau commutatif. La suite de polynômes (gn) est dans VNPA s’il existe une suite de polynômes (hn) ∈ VPA et un polynôme p tels que gn(x) = X ε∈{0,1} p(n) hn(x, ε) 17CHAPITRE 1. PRÉLIMINAIRES De même on note VNP la classe VNPQ. Les suites de polynômes (Permn) et (Hamn), définies à la section 1 sont des exemples d’éléments de la classe VNP (une preuve pourra être trouvée par exemple dans [19]) : Lemme 1.19. Pour tout anneau A, on a (Permn), (Hamn) ∈ VNPA. En fait, il est possible de se passer, a priori, de la borne sur le degré des polynômes fn en considérant que la “mesure” du circuit correspond à son nombre de sommets combiné à son degré formel. Ceci évite a posteriori les polynômes de degré exponentiel. Le prochain lemme (folklore) assure que l’on obtient les mêmes classes en contraignant le degré formel des circuits au lieu du degré des polynômes. Lemme 1.20. Si une suite de polynômes (fn) de degré (dn) est dans VP, alors il existe une suite de circuits (Cn) calculant fn de taille polynomiale telle que le degré de Cn est dn pour tout n. 3.3 Classes sans constantes L’importance du rôle des constantes est une question intéressante. Par exemple remarquons que pour calculer le produit itéré de matrices, aucune constante n’est utilisée. Pour mette en évidence leur rôle, Malod introduit des variantes sans constantes VP0 et VNP0 des classes de Valiant [71]. Par “sans constantes”, nous voulons en fait dire utilisant seulement la constante −1. Les constantes 0 et 1 s’obtiennent facilement à l’aide de −1 et vu que nous n’autorisons pas la soustraction, nous avons besoin d’une constante strictement négative. Ainsi, si un circuit a besoin d’une constante non triviale, il doit la calculer à partir de −1. En particulier, la notion de degré formel (qui ignore le calcul des constantes) devient alors un peu bancal. Malod [71] introduit ainsi le degré formel complet : Définition 1.21. Le degré formel complet d’un circuit est défini par induction : les constantes et les variables sont de degré 1 ; pour une porte d’addition on prend le sup des degrés arrivant et pour une porte de multiplication, on en prend la somme. Nous pouvons maintenant définir les classes VP0 et VNP0 . Définition 1.22. fn est dans VP0 s’il existe une suite de circuits arithmétiques — calculant fn, — utilisant comme seule constante −1 — et de taille et de degré formel complet polynomiaux. gn est dans VNP0 s’il existe un polynôme p tel que : gn(x) = X ε∈{0,1} p(n) hn(x, ε) avec hn ∈ VP0 . En fait les polynômes considérés précédemment ne nécessitent pas de constantes. En particulier : Detn ∈ VP0 et Permn, Hamn ∈ VNP0 . 183. CLASSES DE VALIANT La réduction définie précédemment (la projection polynomiale) utilise les constantes de l’anneau courant. Les classes VP0 et VNP0 ne sont donc pas stables pour cette réduction. Nous sommes alors amenés à considérer une variante sans constante de cette réduction [71]. Définition 1.23. Une suite de polynômes (fn) est une projection bornée d’une suite (gn) s’il existe deux polynômes p et q tels que pour tout n : fn(X1, . . . , Xk) = gn(Y1, . . . , Yl) où les Yi sont soit des variables Xi , soit des constantes calculables par des circuits de taille et degré formel bornés par q(n) utilisant seulement la constante −1. Une autre mesure classique quantifie la complexité des circuits sans constantes. Il s’agit de la mesure τ introduite dans [27]. Définition 1.24. La complexité τ (f) d’un polynôme f entier (i.e. de Z[X1, . . . , Xn]) est défini comme la taille minimale d’un circuit calculant f, de portes {+, −, ×} et utilisant seulement la constante 1. Remarquons que la définition (traditionnelle) donnée ici ne correspond pas exactement aux conventions actuelles. On utilise ici la constante 1, mais on autorise la porte de soustraction. Cette mesure est en particulier restée célèbre grâce à la τ - conjecture introduite par Shub et Smale [92]. On reviendra plus en détail sur cette conjecture au chapitre 3. 3.4 Polynômes complets Le problème est alors de trouver pour chaque polynôme la plus petite classe qui la contient. Comme dans le cas booléen, les bornes inférieures non conditionnelles sont généralement inconnues, mais on peut encore obtenir des “preuves de difficulté” grâce à la notion de complétude. Définition 1.25. Une suite de polynômes (fn) est VNP-complète si et seulement si la suite (fn) fait partie de la classe VNP et pour toute suite (gn) de VNP, gn est une projection polynomiale de fn. On peut de même obtenir une définition de VNP0 -complétude en utilisant la classe VNP0 au lieu de VNP et en n’autorisant que les projections polynomiales bornées. En particulier, bien qu’on ne soit pas capable de montrer qu’un polynôme f ∈ VNP n’est pas dans VP, il est possible pour un certain nombre de polynômes, de prouver qu’ils sont VNP-complets et donc, non supposés être dans VP. Si tel était le cas, VNP = VP. Valiant a montré [99] que sur tout corps K de caractéristique différente de 2, le permanent est VNP-complet. Théorème 1.26. Soit K un corps de caractéristique différente de 2. Alors la famille Permn est VNP-complète. 19CHAPITRE 1. PRÉLIMINAIRES On remarque qu’en caractéristique 2, le permanent correspond exactement au déterminant, il tombe donc dans la classe VPK. Plus précisément, la preuve du théorème précédent nécessite la constante 2 −1 . Ceci explique l’hypothèse du corps de caractéristique différente de 2. L’intérêt des classes sans constantes est justement de mettre en évidence le rôle particulier que certaines constantes peuvent avoir. En particulier la proposition suivante généralise le théorème 1.26 et vient de [62]. Intuitivement, il signifie que le permanent appartient à la classe VNP0 et est presque complet pour cette classe. Proposition 1.27. Supposons que Permn ∈ VP0 . Alors, pour toute famille (fn) dans VNP0 , il existe un polynôme p(n) tel que la famille 2 p(n) fn soit dans VP0 . Le permanent étant probablement le polynôme complet pour VNP le plus étudié, nous suivrons la tradition dans ce manuscrit et nous l’utiliserons systématiquement comme polynôme complet pour VNP. Toutefois, il est possible d’éviter les difficultés provoquées par la constante 2 −1 en choisissant un autre polynôme VNP-complet comme le hamiltonien (défini en section 1.3). Théorème 1.28. Dans tout anneau A, le polynôme Hamn est VNP0 -complet et donc aussi VNPA-complet. La grande conjecture classique du domaine est que les classes VP et VNP sont distinctes : Conjecture 1.29 (Hypothèse de Valiant). VP 6= VNP. La complétude du permanent assure que cette conjecture est équivalente au fait que le permanent n’appartient pas à la classe VP, i.e. ne possède pas de circuit arithmétique de taille polynomiale. Les implications sont moins simples dans le cas sans constantes. En fait, si VP0 = VNP0 alors on a Permn ∈ VP0 et si Permn ∈ VP0 alors τ (Permn) = n O(1), mais les réciproques ne sont pas connues. Pour la première réciproque, nous avons déjà vu que le permanent n’est que “presque complet” pour VNP0 . Le second cas est plus subtil. Si τ (Permn) = n O(1), il est possible que le circuit utilise des portes de très grand degré formel complet pour calculer des constantes. Cependant, l’astuce classique d’homogénéisation ne semble pas être efficace contre le calcul des constantes. Toutefois si τ (Permn) = n O(1), alors le permanent admet une suite de circuit de taille polynomiale et ainsi VP = VNP. La figure suivante (directement inspirée de l’article de Bürgisser [21]) tente de résumer les différentes implications connues. VP0 6= VNP0 Permn ∈/ VP0 τ (Permn) = n ω(1) VPQ 6= VNPQ ⇔ Permn ∈/ VPQ 20Chapitre 2 Circuits de profondeur bornée Valiant, Skyum, Berkowitz et Rackoff [101] ont prouvé que si un circuit de taille s et de profondeur p calcule un polynôme de degré d, alors ce polynôme peut aussi être calculé par un circuit de profondeur O(log(d)) et de taille bornée par un polynôme en s. Ce résultat est essentiellement à la base de toutes les avancées sur la parallélisation des circuits arithmétiques. Quelques années plus tard, Miller, Ramachandran et Kaltofen [73] puis Allender, Jiao, Mahajan et Vinay [6] ont étudié la complexité de cette méthode de parallélisation. À l’aide de ces résultats, Agrawal et Vinay [4] ont prouvé que si un polynôme f n-varié de degré d = O(n) possède un circuit de taille 2 o(d+d log(n/d)), alors f peut aussi être calculé par un circuit de profondeur quatre ( P QP Q) de taille 2 o(d+d log(n/d)). Ce résultat indique que pour prouver des bornes inférieures dans les circuits arithmétiques ou pour dérandomiser le test d’identité polynomial, le cas des circuits de profondeur quatre est dans un certain sens le cas général. L’hypothèse du résultat d’Agrawal et Vinay est assez faible : ils considèrent des circuits de taille 2 o(d+d log(n/d)) (nous pouvons remarquer au passage que tous les polynômes ont une formule de taille d n+d d = 2O(d log( n+d d ))). Mais, serait-il possible d’obtenir une conclusion plus forte si on demandait des hypothèses plus fortes ? Koiran [60] a montré que c’était effectivement le cas. Si le circuit de départ est de taille s, alors le polynôme peut être calculé par un circuit de profondeur quatre de taille 2 O( √ d log(d) log(s)). Par exemple, si la famille du permanent est calculée par des circuits de taille polynomiale (i.e. de taille n c ), alors elle est aussi calculée par des circuits de profondeur quatre et de taille 2 O( √ n log2 (n)). De plus, la transformation conserve l’homogénéité du circuit. La parallélisation semble être un outil intéressant pour obtenir des bornes inférieures pour les circuits généraux : une borne inférieure en 2 ω( √ n log2 (n)) sur la taille des circuits P Q[O( √ n)] P Q[ √ n] calculant le permanent implique qu’il n’y a pas de circuits de taille polynomiale pour le permanent. Et il paraît plus facile d’obtenir des bornes inférieures pour ces circuits particuliers que pour les circuits généraux. C’est d’ailleurs le cas. Bien qu’aucune borne inférieure superpolynomiale ne soit encore connue pour les circuits généraux, Gupta, Kamath, Kayal et Saptharishi [44] ont obtenu une borne inférieure superpolynomiale pour le permanent s’appliquant à des circuits de profondeur 4 particuliers. Plus précisément, ils ont montré que si un circuit homogène P QP Q[t] (i.e. un circuit de profondeur 4 dont le degré entrant des portes de multiplication du premier niveau est borné par t) calcule le permanent d’une matrice de taille n × n, alors sa taille est 2 Ω(n/t) . En 21CHAPITRE 2. PROFONDEUR BORNÉE particulier, un circuit homogène P QP Q[ √ n] calculant le permanent est de taille 2 Ω(√ n) . L’année suivante, les mêmes auteurs [45] ont trouvé comment réduire encore un peu la profondeur des circuits. Ils montrent comment transformer des circuits à n variables de taille s et de profondeur d (= n O(1)) en des circuits de profondeur 3 et de taille exp(O( √ d log s log n log d)). De plus, si l’entrée est un programme à branchements (et non un circuit), la borne supérieure devient exp(O( √ d log s log n)). Ce résultat implique l’existence d’un circuit de profondeur 3 et de taille 2 O( √ n log n) calculant le déterminant d’une matrice n×n. Toutefois, ce résultat n’est pas comparable aux réductions à la profondeur 4 car le circuit de profondeur 3 obtenu est non homogène, et utilise au milieu de son calcul des portes calculant des polynômes de très haut degré. En 2013, Fournier, Limaye, Malod et Srinivasan [31] ont obtenu une borne inférieure de 2 Ω(√ d/tlog n) pour la taille des circuits homogènes P QP Q[t] calculant le produit itéré de matrices. Tous ses résultats récents sur les circuits arithmétiques peuvent être trouvés dans l’article de synthèse [58]. Dans ce chapitre, nous allons commencer par étudier des bornes inférieures sur la taille des circuits de profondeur bornée. Nous allons voir deux résultats intermé- diaires sur les circuits de profondeur 4 et 3, avant d’évoquer les résultats récents relatifs à la profondeur 4. Puis dans la section suivante, nous allons nous attaquer aux ré- sultats de parallélisation (i.e. aux bornes supérieures). Nous [98] améliorons la borne de parallélisation de Koiran : un circuit de taille s peut être parallélisé de manière homogène à la profondeur 4 en un circuit de taille exp(O( p d log(ds) log(n))). De plus, le degré entrant de chaque porte de multiplication est borné par O q d log ds log n . Remarquons que comme n ≤ s, le résultat implique la borne de Koiran et est en général meilleur : dans le cas où d, s = n Θ(1), la borne de Koiran est 2 O( √ n log2 n) tandis que la nouvelle borne est 2 O( √ n log n) . En particulier, la nouvelle borne est optimale puisqu’elle correspond exactment à la borne inférieure obtenue par [31]. Cela implique aussi qu’une borne inférieure en 2 ω( √ n log(n)) pour les circuits homogènes de profondeur 4 calculant le permanent induit une borne inférieure super-polynomiale pour la taille des circuits généraux calculant le permanent. En fait, nous généralisons cette réduction au cas d’une profondeur bornée. Enfin, nous étudierons le cas des parallélisations non homogènes introduites par Gupta, Kamath, Kayal et Saptharishi [45]. Comme ils utilisent dans leur preuve la borne de Koiran, nous pourrons légèrement améliorer leur borne en utilisant à la place la borne décrite plus haut. Un circuit n-varié de taille s et de profondeur d peut être simulé par un circuit de profondeur 3 et de taille exp O( p d log(ds) log n) . Enfin, nous remarquons que cette parallélisation peut elle aussi être généralisée aux profondeurs constantes, ce qui nous donnera, en particulier, le résultat intéressant que les circuits de taille s et de degré d peuvent en fait être simulés par des circuits de profondeur 4 et de taille (ds) √3 d . Cette borne est bien en-dessous des bornes inférieures connues pour les circuits n’utilisant que des petits degrés. Cela montre bien que l’utilisation de portes intermédiaires de très haut degré s’avère très puissante. Aujourd’hui, on ne sait pas comment obtenir des bornes inférieures non triviales pour de tels circuits. 221. LES FORMULES DE RYSER, GLYNN ET FISCHER 1 Les formules de Ryser, Glynn et Fischer Les travaux autour de l’hypothèse de Valiant tendent à essayer de montrer que le permanent est difficile à calculer. Mais qu’est ce que cela veut dire plus précisé- ment ? On entend parfois que le calcul du permanent devrait nécessiter un nombre exponentiel d’opérations arithmétiques. Ce n’est pas encore un énoncé très précis. Souvent (vu que le terme est suffisamment vague, c’est loin d’être toujours vrai), on utilise le terme exponentiel pour désigner une fonction f(n) = 2θ(n c ) pour une constante c ≥ 1 (si c est une constante strictement inférieur à 1, on préfère habituellement le terme sous-exponentiel). Ensuite, il pourrait être tentant (et naturel) de paramétriser les polynômes par leur nombre de variables. Le polynôme Permn est un polynôme en n 2 variables. La conjecture émise plus haut pourrait être décrite plus formellement : Conjecture (Première conjecture sur la complexité du permanent). Si Cn est une suite de circuits de taille sn calculant Permn, alors sn = 2Ω(n 2 ) . Cependant, cette conjecture est trivialement fausse puisque le polynôme Permn est une somme de (n!) monômes. Il peut être calculé par une suite de circuits de taille n × (n!). En fait une meilleure borne existe depuis 1963 et les travaux de Ryser [88]. Il trouva une formule simple, de taille n 22 n pour le permanent d’une matrice A = (Ai,j )1≤i,j≤n : Proposition 2.1 (Formule de Ryser). Permn(A) = (−1)n X S⊆{1,...,n} (−1)|S|Yn i=1 X j∈S ai,j . On peut donc émettre une nouvelle conjecture. Celle-ci est encore ouverte : Conjecture 2.2 (Conjecture sur la complexité du permanent). Si Cn est une suite de circuits de taille sn calculant Permn, alors sn = 2Ω(n) . La formule de Ryser est assez étonnante car malgré sa grande simplicité, homogène et de profondeur 3, elle est une des formules connues les plus efficaces pour calculer le permanent. Une autre formule, devenue classique, mais trouvée beaucoup plus récemment par Glynn [36] possède ces mêmes propriétés : Proposition 2.3 (Formule de Glynn). Permn(A) = 1 2 n−1 X ε2,...,εn∈{±1} (−1)p(ε)Yn i=1 ai,1 + Xn j=2 εjai,j! où p(ε) = |{i | εi = −1}|. P Ces formules assurent que le permanent peut être calculé par des circuits de type [2n] Q[n] P[n] . Ce résultat est d’autant plus surprenant que le même résultat est inconnu et plutôt conjecturé faux pour le déterminant : 23CHAPITRE 2. PROFONDEUR BORNÉE Conjecture 2.4. Detn n’a pas de circuits de type P[2O(n) ] Q[n] P. La formule de Glynn ressemble particulièrement à une formule plus vieille d’une quinzaine d’années, la formule de Fischer [30] : Lemme 2.5 (Formule de Fisher). n! · x1x2 . . . xn = 1 2 n−1 X r2,...,rn∈{±1} (−1)p(r) x1 + Xn i=2 rixi !n où p(r) = |{i | ri = −1}||. Dans [86], les auteurs montrent que la taille de la somme (en 2 n−1 ) est exactement la taille optimale pour transformer des monômes en sommes de puissances de formes lineaires. En fait, comme Amir Shpilka me l’a fait remarquer lors d’une discussion, il est facile d’obtenir la formule de Fischer à partir de celle de Glynn. Il suffit pour cela de calculer le permanent de la matrice    x1 x2 . . . xn . . . . . . . . . . . . x1 x2 . . . xn    qui vaut n! · x1 . . . xn. Ainsi, on se dit que la même astuce devrait marcher en utilisant la vraie formule de Ryser. On obtient effectivement une nouvelle formule du type de celle de Fischer : Proposition 2.6. n! · x1x2 . . . xn = (−1)n X S⊆{1,...,n} (−1)|S| X j∈S xj !n . 2 Quelques bornes inférieures 2.1 Comptage de monômes Nous allons commencer cette section par une borne inférieure très simple mais relativement précise. On va montrer : Proposition 2.7. Si une suite de circuits P[s] Q[a] P[v] Q calcule Permn ou Detn, alors s · v a ≥ n!. En particulier, si une suite de circuits P[s] Q[O( √ n)] P[s] Q calcule Permn ou Detn, alors s ≥ 2 Ω(√ n log n) . Les bornes supérieures en a et v sur les degrés entrants des portes de multiplication du troisième niveau et les portes d’addition du second niveau s’avérent être cruciales. Une telle contrainte impliquera directement en général une bonne borne inférieure seulement grâce à un argument de comptage de monômes. On peut comparer ainsi ce résultat avec la proposition 2.10 plus loin. 242. QUELQUES BORNES INFÉRIEURES Nous ferons la preuve dans le cas du permanent. Le cas du déterminant est complètement identique. L’approche ici, est de transformer un tel circuit en un circuit de profondeur 2, puis d’obtenir une borne inférieure pour le circuit de profondeur 2. En fait, dans le cas des circuits de profondeur 2, l’écriture d’un polynôme comme une somme de produits est unique (une fois qu’on a effectué toutes les annulations possibles). Il s’agit de la forme développée du polynôme. La taille de la somme est alors simplement le nombre de monômes. Vu que Permn a n! monômes, on vient de prouver Lemme 2.8. Si un circuit P[s] Q calcule Permn, alors s ≥ n!. D’un autre côté, pour calculer dans un circuit P[s] Q[a] P[v] Q une porte du troisième niveau, il suffit de calculer un polynôme Q[a] P[v] qui a pour entrées les portes du premier niveau. En appellant V l’ensemble de ces entrées, les polynômes du troisième niveau sont donc de la forme g = Qa i=1 Pv j=1 zi,j avec zi,j ∈ V . Or si on développe g, on obtient g = P (j1,...,ja)∈{1,...,v} a z1,j1 . . . za,ja . Donc on peut transformer tout circuit P[s] Q[a] P[v] Q en un circuit P[s] P[v a] Q[a] Q , c’est-à-dire un circuit P[sva] Q . Ceci prouve la proposition 2.7. 2.2 Quasi-optimalité des formules de Ryser et de Glynn Dans toute la suite de cette section sur les bornes inférieures, nous utiliserons la dimension des espaces vectoriels engendrés par certaines familles de polynômes. Donc l’anneau de base des polynômes sera en fait un corps. Pour obtenir des bornes inférieures, un des outils principaux est l’espace engendré par les dérivées partielles. Nisan et Wigderson [76] ont trouvé des bornes inférieures pour la taille des circuits homogènes de profondeur 3 calculant les polynômes symétriques élémentaires ou le produit itéré de matrices. Ces techniques sont développées dans les articles de synthèse [91] et [23]. Depuis 2012, cet outil est au cœur des travaux relatifs aux bornes inférieures pour les circuits arithmétiques homogènes de profondeur 4. Pour ce dernier point, on y reviendra un peu plus tard. Un autre résultat, très proche de ceux de Nisan et Wigderson [76], peut être obtenu à l’aide de ces techniques : montrer que les formules de Ryser et de Glynn sont “presque optimales”. Après quelques discussions, ce résultat – qui découle de [76] – semble connu de certaines personnes, mais à la connaissance de l’auteur, il n’est écrit nulle part. Proposition 2.9. Soit Cn une suite de circuits de type P[s] Q[n] P calculant Permn (ou Detn), alors s ≥ n n/2 ≥ 2 n √ 2n . Pour les formules de Ryser et de Glynn, s vaut respectivement 2 n − 1 et 2 n−1 . Les résultats sont donc optimaux à un facteur multiplicatif près de √ 1 n . Nous allons donner maintenant une preuve de cette proposition. D’ailleurs, cette preuve illustre bien l’utilisation typique des dérivées partielles. 25CHAPITRE 2. PROFONDEUR BORNÉE Démonstration. Soit k un entier que l’on fixera plus tard. Posons X = {xi,j | 1 ≤ i, j ≤ n} l’ensemble des variables de Permn. Nous allons considérer l’espace vectoriel engendré par les dérivées partielles kièmes du polynôme Permn. Notons h∂ =k fi l’espace vectoriel engendré par l’ensemble ∂ k ∂y1 . . . ∂yk f | (y1, . . . , yk) ∈ X k . La preuve se fait en deux parties. Nous allons commencer par borner inférieurement la dimension de h∂ =kPermni, puis nous allons borner supérieurement la dimension de tout espace h∂ =k gi où g est un polynôme calculé par un circuit P[s] Q[n] P. Définissons les p-mineurs (mineurs permanentaux) de taille s × s d’une matrice M de taille n×n comme les permanents de N où N parcourt les sous-matrices de M obtenues en supprimant (n−s) lignes et (n−s) colonnes. Si k < n, alors les dérivées partielles d’ordre k de Permn sont soit le polynôme nul (si on dérive deux fois dans la même ligne ou la même colonne), soit les p-mineurs de tailles (n − k) × (n − k). Il est facile de vérifier que chacun de ces p-mineurs de taille (n − k) × (n − k) peut être obtenu comme une dérivée kième de Permn. De plus comme un même monôme ne peut pas apparaître dans deux p-mineurs différents, cela signifie que la famille des p-mineurs est une famille libre. La dimension de l’espace est donc exactement le nombre de p-mineurs distincts. Vu qu’un p-mineur de taille (n − k) × (n − k) est obtenu de manière unique en choisissant k lignes et k colonnes, on obtient : dim(h∂ =kPermni) = n k 2 . De l’autre côté, si g est un polynôme de degré n pouvant être exprimé de la forme P[s] Q[n] P, alors g(x) = Ps i=1 hi(x) où chaque hi est un produit de n formes linéaires. De plus, notre mesure de complexité (la dimension des sous-espaces engendrés par le dérivées partielles) est une mesure sous-additive. En effet, comme ∂g = Pt i=1 ∂hi , on a h∂ =k gi ⊆ ev [s i=1 h∂ =k hii ! où ev(A) correspond à l’espace engendré par A. D’où dim h∂ =k i ≤ s · max h dim h∂ =k hi où h parcourt les produits de taille n de formes linéaires. Posons h = l1 . . . ln avec les li des formes linéaires. Toute dérivée kième de h est engendrée par des polynômes li1 . . . lin−k (où 1 ≤ i1 < . . . < in−k ≤ n). Cette famille est de taille n k . D’où dimh∂ =k gi ≤ s n k . P En remettant tout ensemble, on en déduit que si Permn peut être écrit comme [s] Q[n] P, alors n k 2 ≤ s n k . En choisissant k = n 2 , on en déduit la proposition. 262. QUELQUES BORNES INFÉRIEURES 2.3 Quelques résultats récents de bornes inférieures Avant d’attaquer, dans la prochaine partie, les bornes supérieures pour les circuits de profondeur bornée, nous allons juste évoquer les bornes inférieures connues qui vont leur faire écho. La technique des dérivées partielles a été vraiment remise au goût du jour depuis l’article de Gupta, Kamath, Kayal et Saptharishi [44]. Ils considèrent en fait l’espace engendré par les dérivées partielles décalées : h∂ =k fi≤l = x1 . . . xl ∂ k ∂y1 . . . ∂yk f | (x1, . . . , xl , y1, . . . , yk) ∈ X k+l . Dans leur article, ils prouvent que : Proposition 2.10. Tout circuit homgène P[s] QP Q[t] qui calcule Detn (ou Permn) doit être tel que s ≥ 2 Ω( n t ) . En particulier, tout circuit homogène P[s] QP Q[ √ n] qui calcule Detn (ou Permn) est tel que s ≥ 2 Ω(√ n) . Le résultat fut d’autant bien accueilli que c’est la première borne inférieure superpolynomiale pour les circuits de profondeur 4. De plus, on verra dans la prochaine section que ce résultat est presque optimal, on peut donner une borne supérieure en n √ d (où d est le degré du polynôme). La technique a alors été adaptée à d’autres familles de polynômes. Peu après, Kayal, Saha et Saptharishi obtinrent la borne inférieure n √ d pour les polynômes de Nisan-Wigderson définis dans [57]. Définition 2.11. Soient n une puissance de 2 et Fn le corps fini où les n éléments sont identifiés avec l’ensemble {1, . . . , n}. Pour tout 0 ≤ k ≤ n, le polynôme NWk est un polynôme à n 2 inconnues de degré n défini comme suit : NWk(x1,1, . . . , xn,n) = X p∈Fn[t] deg(p) 0 suffisamment petit, alors s ≥ 2 Ω(√ n log(n)) . 27CHAPITRE 2. PROFONDEUR BORNÉE Cette famille de polynôme fait partie de la classe VNP. Toutefois, une borne inférieure similaire (en n √ d ) a été trouvée pour le produit itéré de matrices. Fournier, Limaye, Malod et Srinivasan [31] ont montré que : Proposition 2.13. Si un circuit P[s] Q[O(D)] P Q[ √ d] calcule le polynôme IMMn,d, alors s ≥ 2 Ω(√ d log(n/D)) . Les techniques de preuve pour cette proposition ainsi que pour la proposition 2.12 ont été unifiés dans l’article [24]. Nous finirons cette présentation de l’état de l’art sur les bornes inférieures par deux résultats tout récents. Jusqu’à présent, toutes les bornes inférieures requièrent des bornes supérieures sur le degré entrant de certaines portes de multiplication. Peut-on s’affranchir de telles contraintes ? On verra à la section 4 que si on s’autorise à ce que les portes intermédiaires calculent des polynômes de très hauts degrés, alors les bornes en n √ d ne marchent plus du tout. Toutefois, une contrainte intermédiaire, naturelle, pourrait être que le circuit soit homogène, sans donner de conditions supplémentaires sur les degrés. On peut remarquer qu’une telle contrainte implique en particulier que les portes ne calculent pas des polynômes de degré strictement plus grand que d. Des bornes inférieures superpolynomiales ont été trouvées par Kumar et Saraf [67], puis indépendamment par Kayal, Limaye, Saha et Srinivasan [56]. Ainsi, Proposition 2.14. Soit Cn une famille de circuits homogènes P[s] QP Q. — Si Cn calcule NWd r alors s ≥ 2 Ω(√ d log d) . — Si Cn calcule IMMn,d avec d = Ω(log2 n), alors s ≥ n Ω(log n) . — Si Cn calcule Detn, alors s ≥ n Ω(log n) . 3 Bornes supérieures pour circuits homogènes Comme on l’a mentionné précédemment, il existe une borne supérieure sur la taille des circuits de profondeur 4 calculant des polynômes de VP en n √ d où d est le degré. Nous allons en fait montrer un résultat un peu plus général qui traite toutes les profondeurs constantes paires. L’idée étant que les circuits de profondeur 6 nous permettront par exemple d’obtenir une borne supérieure pour les circuits non homogènes de profondeur 4 dans la prochaine section. On rappelle (Remarque 1.4) que si rien n’est mentionné l’arité des portes + et × est deux. Théorème 2.15. Soient p un entier supérieur à 2 et f un polynôme à n variables calculé par un circuit de taille P Q s et de degré d. Alors f est calculé par C, un circuit [O(α)] · · ·P Q[O(α)] P Q[β] de profondeur 2p et de taille 2 O(d 1/p log(p−1)/p(ds) log1/p n) où : α = d log n log ds1 p et β = d 1 p log ds log n p−1 p . De plus, si f est homogène, ce sera aussi le cas pour C. 283. BORNES SUPÉRIEURES POUR CIRCUITS HOMOGÈNES Nous donnerons une preuve de cette parallélisation un peu plus loin, à la soussection 3.3. Le cas de la profondeur 4 est largement le plus étudié de nos jours. Le théorème précédent donne alors : Théorème 2.16. Soit f un circuit à n variables calculé par un circuit de taille s et de degré d. Alors f est calculé par un circuit P Q[O(α)] P Q[β] de taille 2 O( √ d log(ds) log n) où : α = s d log n log ds et β = s d log ds log n . De plus si f est homogène ce sera aussi le cas pour le nouveau circuit. D’ailleurs le théorème précédent peut être directement appliqué dans le cas du permanent. Théorème 2.17. Si le permanent n × n est calculé par un circuit de taille polynomiale en n, alors il est aussi calculé par un circuit homogène P Q[O( √ n)] P Q[O( √ n)] de taille 2 O( √ n log(n)) . 3.1 Propositions sur les circuits arithmétiques Pour prouver le théorème 2.15, nous aurons besoin de quelques résultats préalables. Le résultat suivant est considéré comme du folklore. Toutefois on peut trouver une preuve dans le livre de Bürgisser [19] (Lemma 2.14). Proposition 2.18. Si f est un polynôme de degré d calculé par un circuit C de portes {+, ×} de taille s tel que le degré entrant des portes × est borné par 2 (on ne met pas de borne sur celui des portes +), alors il existe un circuit C˜ de taille s(d + 1)2 avec d + 1 sorties O0, O1, . . . , Od tel que : — le degré entrant des portes + n’est pas borné, — le degré entrant de chaque porte × est borné par 2, — pour tout i, la porte Oi calcule la composante homogène de f de degré i, — C˜ est homogène. On rappelle le lemme 1.9 montré au chapitre 1. Lemme (Rappel du lemme 1.9). Dans un circuit homogène, toutes les portes calculent des polynômes homogènes. De plus le degré de la porte correspond au degré du polynôme homogène calculé par la porte. Enfin, nous avons déjà mentionné le fait que les preuves de parallélisation sont presque toujous basées sur la réduction de Valiant, Skyum, Berkowitz et Rackoff [101]. Celle-ci ne déroge pas à la règle. Toutefois, nous aurons besoin d’un résultat légèrement plus fort. En effet leur résultat est complètement global : leur circuit d’arrivée est de profondeur O(log d). Nous aurons besoin ici, d’un résultat local sur le comportement de chacune des portes de multiplication. 29CHAPITRE 2. PROFONDEUR BORNÉE Définition 2.19. Un circuit C de portes {×, +, } sera dit équilibré pour les portes × si et seulement si toutes les propriétés suivantes sont vérifiées : — le degré entrant de chaque porte × est au plus 5, — le degré entrant de chaque porte + est non borné, — le degré entrant de chaque porte est au plus 2, — pour chaque porte × (appelée α), chacune de ses entrées est de degré au plus la moitié du degré de α, — le degré de chaque porte égale le degré du polynôme calculé par la porte (obtenu grâce au lemme 1.9). La dernière condition ne peut pas être vraie pour la multiplication par un scalaire. C’est la raison pour laquelle nous avons introduit l’opérateur . La proposition suivante a été trouvée par Agrawal et Vinay [4]. Elle généralise légèrement le célèbre résultat de Valiant, Skyum, Berkowitz et Rackoff [101] en rajoutant une contrainte sur toutes les portes ×. Proposition 2.20. Soit f un polynôme homogène de degré d calculé par un circuit C˜ de taille s et défini comme dans la conclusion de la proposition 2.18. Alors f est calculé par un circuit {×, +, } homogène équilibré pour les portes ×, de taille s 6 + s 4 + 1 et de degré d. Nous présentons une preuve de ce résultat à la sous-section 3.2 vu que l’énoncé ci-dessus est légèrement différent de ceux que l’on peut trouver dans [4] ou dans [91] (les constantes sont un peu améliorées). En particulier, le circuit obtenu vérifie le résultat classique de VSBR. Corollaire 2.21 (VSBR). Soit f un polynôme de degré d calculé par un circuit de taille s. Alors f est calculé par un circuit {+, ×} de taille (sd) O(1) et de profondeur O(log(d)) où chaque porte × est de degré entrant 2 et où le degré entrant des portes + n’est pas borné. 3.2 Réduction à la VSBR Nous allons prouver ici la proposition 2.20. Soit f un polynôme homogène calculé par un circuit C˜ de taille s tel que : — le degré entrant de chaque porte + est non borné, — le degré entrant de chaque porte × est borné par 2, — C˜ est homogène. Pour commencer, nous supprimons le “calcul de constantes” (cela signifie que l’on peut supposer que toutes les portes de calculs calculent un polynôme de degré non nul). Pour faire cela, il suffit de remplacer chaque porte calculant un polynôme de degré 0 par une entrée étiquetée par la valeur constante de cette porte. Nous pouvons remarquer que par homogénéité, les entrées constantes ne peuvent être des arguments d’une porte +. De plus, pour chaque porte × dont une entrée est une constante, nous remplaçons l’étiquette de cette porte par l’étiquette . Nous remarquons que jusque là, nous n’avons pas augmenté la taille du circuit. Ensuite, nous pouvons réordonner les entrées de chaque porte × et de façon que pour chacune de ces portes, le degré de l’argument de droite soit plus grand que le degré de l’autre argument. Après ces préparations, nous obtenons alors un circuit C1 de taille au plus s. 303. BORNES SUPÉRIEURES POUR CIRCUITS HOMOGÈNES Nous rappellons que la définition des arbres monomiaux (en anglais “parse tree”) a été donnée dans l’introduction. Définissons maintenant un nouveau circuit C2 qui satisfait aux critères de la proposition. Pour chaque paire de portes α et β dans C1, nous définissons la porte (α; β) dans C2 comme suit (nous verrons dans la suite comment les calculer) : — Si β est une feuille, alors [(α; β)] équivaut à la somme des arbres monomiaux enracinés en α tels que β apparaît dans le chemin le plus à droite (i.e., la feuille du chemin le plus à droite correspond au sommet β). — Si β n’est pas une feuille, alors [(α; β)] equivaut à la somme des arbres monomiaux enracinés en α tels que la porte β apparaît dans le chemin le plus à droite et tels que le sous-arbre au dessus de cette porte β la plus à droite est supprimé. C’est comme si nous remplacions l’occurence la plus à droite de la porte β par l’entrée 1 et que nous calculions [(α; β)] avec β = 1 une feuille. Notons ici qu’il est facile de récupérer le polynôme calculé par la porte α : [α] = X Tα arbre monomial valeur(Tα) = X l feuille de C1 X Tα arbre monomial tq la feuille du chemin le plus à droite de Tα est une copie de l valeur(Tα) = X l feuille de C1 [(α; l)]. Nous remarquons que le nombre d’arbres monomiaux peut être exponentiel mais que la somme extérieure est toujours de taille polynomiale. Montrons maintenant comment calculer les portes (α; β). — Si β n’apparait pas dans un chemin le plus à droite d’un arbre monomial enraciné en α, alors (α; β) = 0. — Dans le cas où α = β, si α est une feuille, alors (α; β) = α et sinon (α; β) = 1. — Autrement α et β sont deux portes différentes et α n’est pas une feuille. Si α est une porte +, alors [(α; β)] est simplement la somme de tous les [(α 0 ; β)], où α 0 est un fils de α. — Si α est une porte , alors un fils est une constante c et l’autre fils est une porte α 0 . Alors, (α; β) est simplement l’opération multiplication par un scalaire [(α; β)] = [(c; c)] [(α 0 ; β)]. — Si α est une porte ×. Il y a deux cas. — Premier cas : β est une feuille. Alors deg(α) > deg(β) et deg(β) ≤ 1. Sur le chemin le plus à droite finissant en β de chaque arbre monomial enraciné en α, il existe exactement une porte ×, que l’on notera γ, et son fils droit sur ce chemin γr tels que : deg(γ) > deg(α)/2 ≥ deg(γr). (2.1) Remarquons que γ n’est unique que pour un arbre monomial fixé. Réciproquement, on peut remarquer que pour chaque porte γ satisfaisant (2.1), si [(α; γ)] et [(γr; β)] ne sont pas les polynômes nuls, alors γ est sur un 31CHAPITRE 2. PROFONDEUR BORNÉE chemin le plus à droite allant de α vers β. Alors, [(α; β)] = X l feuille de C1, γ porte × vérifiant (2.1) [(α; γ)][(γl ; l)][(γr; β)]. Comme β est une feuille, deg(α; β) = deg(α). Utilisant (2.1) et le fait que nous avons préalablement réordonné les entrées des portes de multiplication de façon à ce que le degré des fils droits soit au moins aussi grand que celui des fils gauches : deg(α; γ) = deg(α) − deg(γ) < deg(α)/2 deg(γr; β) = deg(γr) ≤ deg(α)/2 deg(γl ; l) = deg(γl) ≤ deg(γr) ≤ deg(α)/2. Par conséquent, [(α; β)] est calculé par un circuit de profondeur 2 de taille au plus s 2 + 1 : une porte +, d’arité s 2 , où chaque fils est une porte × de degré entrant 3. Chaque fils de ces portes × est de degré au plus la moitié du degré de la porte ×. — Second cas : β n’est pas une feuille. Alors il existe, sur le chemin le plus à droite de chaque arbre monomial enraciné en α, une porte ×, dénoté γ, et son fils sur ce chemin γr tels que : deg(γ) ≥ (deg(α) + deg(β))/2 > deg(γr). (2.2) De même par un argument similaire : [(α; β)] = X l feuille de C1 γ porte × vérifiant (2.2) [(α; γ)][(γl ; l)][(γr; β)]. (2.3) On utilise alors (2.2) : deg(α; β) = deg(α) − deg(β) deg(α; γ) = deg(α) − deg(γ) ≤(deg(α) − deg(β))/2 deg(γr; β) = deg(γr) − deg(β) <(deg(α) − deg(β))/2. Le problème est ici que le degré de (γl ; l) pourrait être plus grand que (deg(α) − deg(β))/2. La porte α est une porte × et son fils gauche est de degré non constant (sinon α serait une porte ). Donc, deg(α; β) > deg(γl ; l). Si γl est de degré au plus 1 (et donc exactement 1 car γ n’est pas une porte ), alors (α; β) est de degré au moins 2. Le calcul de la porte (α; β) par la formule (2.3) marche (i.e., le degré de (γl ; l) est plus petit que la moitié du degré de (α; β)). Enfin sinon, le degré de γl est au moins 2 et au plus deg(α; β). Comme l est une feuille, nous pouvons appliquer le premier cas à la porte γl (même si γl n’est pas une porte ×). Il existe encore sur chaque chemin le plus à droite finissant en l et enracinés en γl une porte ×, notée µ, et son fils µr sur ce chemin tels : deg(µ) > deg(γl)/2 ≥ deg(µr). (2.4) 323. BORNES SUPÉRIEURES POUR CIRCUITS HOMOGÈNES Alors, [(γl ; l)] = X l2 feuille de C1 µ porte × vérifiant (2.4) [(γl ; µ)][(µl ; l2)][(µr; l)]. Ainsi, [(α; β)] = X l,l2,γ,µ [(α; γ)][(γr; β)][(γl ; µ)][(µl ; l2)][(µr; l)] (2.5) où la somme est prise sur toutes les feuilles l, l2 de C1, toutes les portes ×, notées γ, vérifiant (2.2) et toutes les portes ×, notées µ vérifiant (2.4). Les degrés des portes (γl ; µ), (µl ; l2) et (µr; l1) sont bornés par la moitié du degré de γl . Donc, [(α; β)] est calculé par un circuit de profondeur 2 de taille s 4 + 1. Les portes × sont de degré entrant borné par 5 et le degré de leurs enfants est borné par la moitié de leur degré. En conclusion, pour chaque couple de portes α et β dans C1, la porte (α; β) est calculée dans C2 par un sous-circuit de taille au plus s 4 + 1. À la fin, nous obtenons un circuit de taille au plus s 6 + s 2 qui calcule toutes les portes (α; β). Finalement, f est calculé par un circuit de taille s 6 + s 2 + 1. Cela prouve la proposition. 3.3 Réduction à une profondeur bornée constante Nous allons prouver ici le théorème 2.15. Pour réaliser la réduction à la profondeur quatre, Koiran [60] commence par transformer le circuit considéré en un programme à branchements équivalent. Ensuite, il parallélise ce programme à branchements, et finalement revient à un circuit. Le problème avec cette stratégie est que la transformation des circuits aux programmes à branchements nécessite une augmentation de la taille de notre objet. Si le circuit est de taille s, le nouveau programme à branchements sera de taille s log(d) . L’approche, ici, est de directement paralléliser le circuit, et d’éviter ainsi l’augmentation de la taille due au passage aux programmes à branchements. L’idée de la preuve pour paralléliser un circuit à la profondeur 4 est de diviser le circuit en deux parties : les portes de degré moins que √ d et les portes de degré plus grand. Un circuit tel que le degré de chacune de ses portes est borné par √ d calcule un polynôme de degré √ d et peut donc être écrit comme une somme d’au plus s O( √ d) monômes. Ainsi, si chaque partie de notre circuit calcule des polynômes de degré borné par √ d, il suffit d’obtenir les circuits de profondeur 2 pour chacune des parties, et de les reconnecter ensemble. La principale difficulté vient du fait qu’il n’est toujours vrai que le sous-circuit obtenu par les portes de degré plus grand que √ d est de degré inférieur à √ d. Par exemple, dans le cas du graphe “peigne” avec n − 1 portes × et n variables d’entrée : x1 · (x2 · (x3 · (. . .))) le degré de la première partie est √ n, alors que le degré de la seconde est n − √ n. En fait, nous montrerons que ce problème ne peut pas se présenter si on travaille 33CHAPITRE 2. PROFONDEUR BORNÉE avec des circuits équilibrés pour les portes ×. Dans ce cas, les deux parties auront un degré borné par √ d. Bien que la profondeur quatre soit probablement le cas le plus important de notre réduction, nous allons directement traiter un cas plus général, celui de la profondeur 2p. Lemme 2.22. Soient p ≥ 2 un entier et f un polynôme homogène n-varié, de degré d et calculé par un circuit de portes {×, +, } noté C, homogène, équilibré pour les portes × et de taille σ. Si d1, d2, . . . , dp sont p réels strictement positifs tels que d = d1d2 . . . dp, alors f est calculé par un circuit de profondeur 2p de la forme X [15 Y X dp] [15 Y dp−1] · · ·X [15 Y X d2] Y [d1] homogène de taille σ + σ n+d1 d1 + σ+15dp 15dp + σ Pp−1 i=2 σ+15di 15di . Pour obtenir des expressions plus agréables, nous utiliserons l’approximation suivante, conséquence de la formule de Stirling : (On peut trouver une preuve dans [4]) Lemme 2.23. k + l l = 2O(l+l log k l ) Voyons pour commencer comment le lemme 2.22 implique le théorème 2.15. Preuve du théorème 2.15. Soit f un polynôme n-varié de degré d calculé par un circuit de taille s. Soit C˜ le circuit homogène obtenu alors pour le polynôme f par la proposition 2.18. Le circuit C˜ est de taille t = s(d + 1)2 et calcule tous les polynômes f0, . . . , fd où fi est la composante homogène de f de degré i. Ainsi, grâce à la proposition 2.20, pour chaque i ≤ d, il existe un circuit C1 de portes {+, ×, } équilibré pour les portes × de taille σ = t 6+t 4+1 calculant fi . Utilisons maintenant le lemme 2.22 pour le circuit C1 avec d1 = d 1/p log(p−1)/p σ log(p−1)/p n et d2 = . . . = dp = d 1/p log1/p n log1/p σ . Ces valeurs satisfient bien que d1d2 . . . dp = d. Ainsi, le lemme 2.23 fournit un circuit P Q[O(α)] · · ·P Q[O(α)] P Q[β] homogène, de profondeur 2p et de taille σ + σ n + d1 d1 + σ + 15dp 15dp + σ X p−1 i=2 σ + 15di 15di = 2O(d 1/p log(p−1)/p σ log1/p n) en choisissant α = d 1/p log1/p n log1/p σ et β = d 1/p log(p−1)/p σ log(p−1)/p n . À la fin, il suffit d’additionner ensemble les différentes composantes homogènes fi . Comme σ = O(s 6d 12), cela donne une borne supérieure de 2 O(d 1/p log(p−1)/p(ds) log1/p n) pour la taille. Il suffit alors de prouver le lemme 2.22 pour achever la preuve. 343. BORNES SUPÉRIEURES POUR CIRCUITS HOMOGÈNES Preuve du lemme 2.22. Posons (Di)1≤i≤p la suite des produits partiels des (di). Plus précisément, pour i ≤ p, nous posons Di = Qi j=1 dj . En outre, Dp = d. Définissons C1, C2, . . . , Cp, p sous-circuits de C, comme suit. C1 est le sous-circuit de C que nous obtenons en gardant seulement les portes de C de degré ≤ d1. Puis pour i entre 2 et p, le circuit Ci est constitué non seulement des portes dont le degré est strictement supérieur à Di−1 et inférieur à Di mais aussi des entrées de ces portes. Ces entrées sont les seules portes qui appartiennent à la fois à plusieurs Ci . Chaque porte α de C1 a degré au plus d1, donc calcule un polynôme de degré au plus d1. Par homogénéité de C, le polynôme calculé en α est homogène. Par conséquent, α est une somme homogène d’au plus n+d1 d1 monômes, et ainsi, peut être calculé par un circuit de profondeur deux homogène et de taille 1 + n+d1 d1 + n (le “1” encode la porte +, le “n” les portes d’entrées, et le reste tient pour les portes ×). Nous allons montrer que pour i ≥ 2, le degré de Ci est borné par 15di . Fixons ainsi un tel i. Soit δ le degré de Ci (défini par rapport aux entrées de Ci ). Il existe un monôme m de degré δ dans Ci . Soit T un arbre monomial calculant m. Remarquons qu’une porte de Ci peut à la fois apparaître dans beaucoup d’arbres monomiaux, mais aussi apparaître plusieurs fois dans un même arbre monomial. Nous partitionnons l’ensemble des portes × de T en 3 ensembles : — G0 = {α ∈ T | α est une porte × et tous les fils de α sont des feuilles de T} — G1 = {α ∈ T | α porte × et exactement un fils de α n’est pas une feuille} — G2 = {α ∈ T | α porte × et au moins deux fils de α ne sont pas des feuilles}. Alors, si nous considérons le sous-arbre S de T où toutes les portes de S sont exactement les portes de T qui n’apparaissent dans aucun des Cj avec j < i, alors G0 correspond exactement aux feuilles de S, G1 correspond aux sommets internes de degré entrant 1 et G2 aux sommets internes de degré entrant au moins 2. La preuve se fait en deux parties. Nous allons commencer par borner supérieurement la taille des ensembles G0, G1 et G2. Puis, nous bornerons le degré de m. Dans C, d’après le lemme 1.9, le degré de m est au moins la somme des degrés des portes de G0 (car deux de ces portes ne peuvent pas appartenir à un même chemin). Chacune de ces portes est dans Ci , donc est de degré au moins Di−1 dans C. Comme m est de degré au plus Di dans C, cela signifie que le nombre de portes dans G0 est au plus Di Di−1 = di . Dans C, nous savons encore grâce au lemme 1.9 que le degré de m est au moins la somme des degrés des feuilles de Ci qui sont directement reliées à une porte de G1. Pour chaque porte α de G1, exactement une de ses entrées β est dans Ci , donc de degré au moins Di−1 dans C. Par la proposition 2.20, le degré de α est au moins deux fois le degré de β, cela implique que la somme des degrés dans C des fils de α qui sont des feuilles de T est aussi au moins Di−1. Ainsi, le nombre de sommets de G1 est au plus di . Enfin, dans un arbre, le nombre de feuilles étant plus grand que le nombre de sommets de degré entrant au moins 2, nous pouvons en déduire que dans S : |G2| ≤ |G0| ≤ di . Dans Ci , le degré du monôme m est le nombre de feuilles non étiquetées par une constante dans l’arbre T. Il suffit de mettre en correspondance chaque feuille 35CHAPITRE 2. PROFONDEUR BORNÉE avec la plus proche porte × qui lui est reliée. Comme dans T, le degré entrant des portes × est borné par 5, celui des portes + est borné par 1 et chaque porte ne rajoute qu’une entrée constante, nous en déduisons que le nombre de feuilles, non constantes, relié à une même porte × est au plus 5. D’où le nombre de feuilles dans T est au plus 5 × (|G0| + |G1| + |G2|) ≤ 15di . Ceci prouve que le degré de Ci est au plus 15di . Le nombre d’entrées de Ci est borné par le nombre de portes de C (qui est σ). Ainsi pour chaque porte α de Ci , il existe un circuit de profondeur 2 de type P Q qui calcule [α], avec pour entrées des portes dans Cj (avec j < i) et utilisant σ+15di 15di portes de multiplication. Posons σi le nombre de portes internes dans Ci . En particulier, σ = n + Pp i=1 σi . Ainsi, le polynôme f peut être calculé par un circuit homogène X [15 Y X dp] [15 Y dp−1] · · ·X [15 Y X d2] Y [d1] de profondeur 2p et de taille 1 + σ + 15dp 15dp + "X p−1 i=2 σi 1 + σ + 15di 15di # + σ1 + σ1 n + d1 d1 + n ≤ σ + σ n + d1 d1 + σ + 15dp 15dp + σ X p−1 i=2 σ + 15di 15di . 4 Bornes supérieures pour circuits non homogènes Koiran [60] prouve une borne en 2 √ d log2 (s) pour la réduction des circuits à la profondeur 4. Dans leur article [45], Gupta, Kamath, Kayal et Saptharishi affinent cette borne et obtiennent 2 O( √ d log n log s log d) . De plus, ils utilisent cette borne pour montrer que : Proposition 2.24 (Théorème 1.1 dans [45]). Soit f(x) ∈ Q[x1, . . . , xn] un polynôme à n variables, de degré d = n O(1) calculé par un circuit arithmétique de taille s. Alors, il peut aussi être calculé par un circuit P QP de taille 2 O( √ d log n log s log d) où les coefficients sont des éléments de Q. En fait leur preuve est divisée en trois parties. Premièrement, ils transforment les ciruits généraux en circuits homogènes de profondeur 4. Puis ils transforment ces circuits de profondeur 4 en circuits de profondeur 5 utilisant seulement des portes d’addition et d’exponentiation. Pour faire cela, ils utilisent la formule de Fisher [30]. Lemme 2.25 (Rappel de la formule de Fischer, lemme 2.5). Pour tout n, le monôme x1 . . . xn peut être exprimé comme une combinaison linéaire de 2 n−1 puissances de formes linéaires. x1x2 . . . xn = 1 2 n−1n! X r2,...,rn∈{±1}n−1 x1 + Xn i=2 rixi !n · (−1)p(r) 364. BORNES SUPÉRIEURES POUR CIRCUITS NON HOMOGÈNES où p(r) = |{i | ri = −1}|. Ainsi, un produit Qn i=1 xi peut être transformé en une somme de puissances de sommes : 2 Xn−1 i=1 ^ [n] Xn j=1 yi,j où les yi,j valent ±xj . L’idée d’utiliser la formule de Fisher pour transformer un produit en somme de puissances provient de [45]. D’autres utilisations récentes de cette formule dans le cas de la complexité des circuits arithmétiques peuvent être trouvées dans [45, 55]. Enfin, ils transforment ces derniers circuits en circuits de profondeur 3. L’outil principal ici est l’astuce de dualité de Saxena [89]. Reformulant cette astuce combinée aux lemmes 4.7 à 4.9 de [45], on obtient : Lemme 2.26. Soit f un polynôme de la forme V[d] P[m] P[b] dans Q[X]. Alors f peut être écrit de la forme [O(m2 b 2d 4 X )] [mbd Y ] (Xi,j + Ci,j ) où Xi,j est une coordonnée de X et Ci,j est une constante dans Q. Utiliser le théorème 2.16 au lieu du théorème 4.1 dans leur article améliore la première partie de leur preuve. Cela donne une petite amélioration au théorème 1.1 de [45] : Corollaire 2.27. Soit f(x) ∈ Q[x1, . . . , xn] un polynôme à n variables de degré d = n O(1) calculé par un circuit arithmétique de taille s. Alors il peut aussi être calculé par un circuit P QP de taille 2 O( √ d log n log s) où les coefficients sont dans Q. En fait, de même que lors de la section précédente, ces résultats se généralisent facilement à toute profondeur bornée. Théorème 2.28. Soient p ≥ 2 et f(x) ∈ Q[x1, . . . , xn] un polynôme à n variables de degré d calculé par un circuit arithmétique de taille s. Alors f est calculable par un circuit de profondeur p de taille 2 O(d 1/(p−1) log ds) où les coefficients sont dans Q. Démonstration. Si p = 2, alors il va être suffisant de réécrire ce polynôme comme une somme de monômes. Vu qu’il est de degré au plus d, il a au plus n+d n monômes, ce qui est plus petit que s d . Si p est impair et supérieur à deux. Posons p = 2q + 1. Si q = 1, il s’agit du cas de la profondeur 3. Réduisons f à un circuit de profondeur 4q grâce au théorème 2.16. Nous obtenons C un circuit P Q[O(α)] · · ·P Q[O(α)] P Q[α] de profondeur 4q et de taille t = 2O(d 1/2q log(ds)) avec α = d 1/(2q) . Appliquons le lemme 2.25 relatif à la formule de Fischer pour chaque niveau de multiplications pour obtenir un circuit P V[O(α)] · · ·P V[O(α)] P V[α] P de profondeur 4q+1 et de taille au plus t 2 . Il y a en fait, intercalés, 2q + 1 niveaux de portes d’addition et 2q niveaux de portes d’exponentiation. Groupons les niveaux d’exponentiation deux par deux, nous obtenons un 37CHAPITRE 2. PROFONDEUR BORNÉE circuit de la forme P( VP V) P· · ·P( VP V) P avec q parenthèses. Remplaçons finalement ces parenthèses par des sommes de produits de sommes comme dans le lemme 2.26. Nous obtenons un circuit P Q · · · QP de profondeur 2q + 1 de taille polynomiale en t = 2O(d 1/(p−1) log(ds)) et où les portes de multiplication sont aussi de degré polynomial en t. Si p = 2q est un entier pair plus grand que trois, nous allons faire la même chose à part que nous n’allons pas toucher au dernier niveau de multiplication. Nous ré- duisons le circuit à la profondeur 4q − 2. Le circuit est de la forme P Q · · ·P Q avec 2q − 1 niveaux de portes d’addition ainsi que 2q − 1 niveaux de multiplication. Nous allons transformer les 2q − 2 derniers niveaux de multiplications (i.e. du côté de la sortie du circuit) en niveaux d’exponentiation. On obtient un circuit de la forme P V · · ·P VP Q avec 2q − 2 niveaux d’exponentiations. De même que pour le cas impair, il suffit alors de grouper les niveaux d’exponentiations par deux et de transformer les VP V en P QP pour obtenir un circuit P Q · · ·P Q de profondeur 2q et de taille 2 O(d 1/(2q−1) log(ds)). Ce qui prouve le résultat. On peut ainsi découvrir une autre réduction à la profondeur quatre, utilisant des portes intermédiaires calculant de très hauts degrés. Ce résultat met en évidence la nécessité des contraintes d’homogénéité des polynômes ou de bornes sur les degrés entrants des portes de multiplication dans les propositions 2.10, 2.12 et 2.13. Corollaire 2.29. Soit f(x) ∈ Q[x1, . . . , xn] un polynôme à n variables de degré d calculé par un circuit arithmétique de taille s. Alors il peut aussi être calculé par un circuit P QP Q de taille 2 O(d 1/3 log s) où les coefficients sont dans Q. Par conséquent les polynômes Detn et IMMn,d possèdent des circuits P QP Q de taille respective n O( √3 n) et n O( √3 d) . De plus, si tout circuit de type P QP Q pour le langage Permn nécéssite une taille d’au moins n ω( √3 n) , alors VP 6= VNP. 38Chapitre 3 De l’hypothèse de Valiant aux τ -conjectures En 1995, Shub et Smale [92] ont trouvé un lien entre la complexité des polynômes univariés à coefficients entiers et la question PC vs. NPC dans le modèle de BlumShub-Smale sur C. Nous ne détaillerons pas ici les classes citées ci-dessus vu que nous ne les utiliserons pas. Le lecteur intéressé pourra se référer par exemple à l’article où elles sont introduites [15] ou à la référence [13]. Pour un polynôme à coefficients entiers f ∈ Z[X1, . . . , Xn], nous rappellons que la τ -complexité de f notée τ (f) correspond à la taille du plus petit circuit calculant f, de portes {+, ×, −} et utilisant seulement la constante 1. La τ -conjecture, introduite par Shub et Smale [92] est : Conjecture 3.1 (τ -conjecture). Il existe une constante universelle c > 0 telle que pour tout polynôme univarié f ∈ Z[X], ZZ(f) ≤ (1 + τ (f))c où ZZ(f) correspond au nombre de racines entières distinctes de f. Shub et Smale ont prouvé dans le même article que cette conjecture impliquait PC 6= NPC. La résolution de la τ -conjecture apparaît sous le titre “Integer zeros of a polynomial of one variable” comme le quatrième problème de la liste de Smale [93] des plus importants problèmes pour les mathématiciens du XXIème siècle. Toutefois, cette conjecture reste complètement ouverte. Une autre implication importante de cette conjecture a été mise en évidence par Bürgisser [21]. Il montre que la τ -conjecture implique aussi que le permanent n’admet pas de circuits arithmétiques sans constantes de taille polynomiale, et donc en particulier que VP0 6= VNP0 . Un des obstacles aux avancées sur cette conjecture vient du fait que l’on cherche des racines entières. Cependant cette contrainte est nécessaire car la conjecture devient fausse dans le cas des racines réelles. C’est le cas pour les polynômes de Tchebychev. Ces polynômes Tn de degré n sont définis sur l’intervalle [−1, 1] par la relation Tn(cos θ) = cos(nθ). Le polynôme Tn a n racines réelles simples, mais est calculé par un circuit de taille O(log n). Un autre exemple de polynômes avec beaucoup de racines réelles a été trouvé plus tôt par Borodin et Cook [18]. Certains rapprochements entre des bornes inférieurs en complexité et des bornes supérieures sur le nombre de racines réelles avaient déjà été trouvés dans [18, 39, 87]. 39CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE Toutefois, Koiran [61] réussit à renforcer l’hypothèse pour que la borne tienne pour les racines réelles tout en conservant l’implication de VP0 6= VNP0 . Il définit la conjecture suivante : Conjecture 3.2 (τ -conjecture réelle). Il existe une constante universelle c > 0 telle que pour tous paramètres entiers positifs k, m et t et tout polynôme univarié f ∈ Z[X] de la forme f(X) = X k i=1 Ym j=1 fi,j (X) avec fi,j des polynômes t-creux, on a ZR(f) ≤ (1 + k + m + t) c où ZR(f) correspond au nombre de racines réelles distinctes de f. On rappelle que les polynômes t-creux, introduits au chapitre 1 désignent les polynômes ayant au plus t monômes dans leur forme développée. Koiran montre [61] : Théorème 3.3. Si la τ -conjecture réelle est avérée, alors le permanent n’admet pas de circuits arithmétiques sans constantes de taille polynomiale, c’est-à-dire τ (Permn) = n omega(1) . Un des arguments en faveur de cette version réelle de la τ -conjecture est sa similarité avec l’estimation de Descartes. Lemme 3.4 (Estimation de Descartes). Soit f = Pt i=1 aix αi un polynôme tel que α1 < α2 < . . . < αt et ai sont des réels non nuls. Alors le nombre de racines réelles strictement positives de f, compté avec multiplicité, est borné par t − 1. De plus, le résultat tient encore dans le cas où les exposants sont réels. Cette estimation découle directement d’un résultat classique, la règle des signes de Descartes : Lemme 3.5 (Règle des signes). Soit f = Pt i=1 aix αi un polynôme tel que α1 < α2 < . . . < αt et ai sont des réels non nuls. Soit N le nombre de changements de signes dans la suite (a1, . . . , at). Alors le nombre de racines réelles strictement positives de f, compté avec multiplicité, est borné par N. En particulier, le cas k = 1 de la τ -conjecture réelle est vérifié. Comme chaque fi,j (X) a au plus 2t − 1 racines réelles, on obtient si k = 1 : ZR(f) ≤ 2(t − 1)m + 1. A contrario, la meilleure borne supérieure connue pour la conjecture 3.2 est (2ktm − 1). Pour obtenir cette borne, il suffit de développer f en somme de ktm monômes et d’utiliser encore l’estimation de Descartes. Dans ce chapitre, nous étudierons premièrement comment obtenir des bornes inférieures à partir d’une variante de la τ -conjecture. Ainsi, nous pourrons alors dériver de nouvelles variantes de cette conjecture impliquant encore des bornes inférieures pour les circuits arithmétiques. 401. TRANSFERT DE BORNES INFÉRIEURES 1 Des bornes sur la taille du permanent aux bornes sur le nombre de racines Nous montrons dans cette section la preuve du théorème 3.3. La raison étant que nous cherchons à comprendre ce transfert de bornes inférieures dans le but d’énoncer d’autres variantes de cette τ -conjecture réelle. Nous allons devoir commencer par présenter quelques outils. La plupart viennent de l’article [21]. 1.1 Quelques définitions de classes booléennes Dans la suite, nous voudrons considérer des polynômes de la classe VNP0 . Or pour trouver de tels polynômes, le critère de Valiant (proposition 3.10) – exposé un peu plus loin – nécessite que les coefficients des polynômes considérés soient calculables dans la classe GapP/poly. Ainsi, nous commençons par exposer ici quelques définitions classiques de classes booléennes. Il va s’agir essentiellement de classes de comptage. Rappelons la définition des deux classes de comptage #P et GapP. Définition 3.6. La classe #P est l’ensemble de fonctions f : {0, 1} ? → N tel qu’il existe un langage A ∈ P et un polynôme p(n) satisfiant : f(x) = |{y ∈ {0, 1} p(|x|) | (x, y) ∈ A}|. Une fonction f : {0, 1} ? → Z est dans GapP si elle correspond à une différence de deux fonctions dans #P. Définissons maintenant la hiérarchie de comptage. Un lien entre la hiérarchie de comptage et la théorie de la complexité algébrique a été mis en évidence dans [5]. Ce lien a été approfondi dans [21] et [63]. Par exemple, dans [21], Bürgisser montre que les polynômes Q2 n i=1(X − i) ont des circuits de taille polynomiale s’il en est de même pour la famille du permanent. La hiérarchie de comptage définie dans [103] est une classe de langages plutôt que de fonctions. Elle est définie à partir de l’opérateur de majorité C comme suit. Définition 3.7. Si K est une classe de complexité, alors la classe C · K correspond à l’ensemble de langages A tels qu’il existe un langage B ∈ K et un polynôme p(n) satisfiant x ∈ A ⇔ |{y ∈ {0, 1} p(|x|) | (x, y) ∈ B}| ≥ 2 p(|x|)−1 . Le i ème niveau CiP de la hiérarchie de comptage est défimi récursivement par C0P = P et Ci+1P = C · CiP. La hiérarchie de comptage CH est l’union de tous les CiP pour i ≥ 0. Situons la hiérarchie de comptage parmi les autres classes booléennes classiques. Elle contient toute la hiérarchie polynomiale PH et est contenue dans PSPACE (des définitions et beaucoup d’informations sur ces dernières classes peuvent être trouvées dans [7, 37, 79, 82]). Les classes de circuits arithmétiques que nous considérons sont non uniformes. Par conséquent nous travaillerons en fait avec des versions non uniformes des classes de comptage définies ci-dessus. Nous utilisons la notation standard de Karp et Lipton [54] : 41CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE Définition 3.8. Si K est une classe de complexité, la classe K/poly est l’ensemble des langages A tels qu’il existe un langage B ∈ K, un polynôme p(n) et une famille (an)n≥0 de mots (les conseils) satisfiant — pour tout n ≥ 0, |an| ≤ p(n) — et pour tout mot x, x ∈ A ⇔ (x, a|x|) ∈ B. Remarquons que les conseils an dépendent seulement de la taille de x. 1.2 Les polynômes définissables Comme mentionné en début de ce chapitre, nous aurons besoin de manipuler ici les classes de la théorie de Valiant. Nous renvoyons le lecteur au premier chapitre pour les définitions des différentes classes de complexité ou au livre de Bürgisser [19]. Dans le prochain lemme, prouvé dans [21], l’auteur montre un premier lien entre la complexité arithmétique et la hiérarchie de comptage. Lemme 3.9. Si Permn est dans VP0 alors CH/poly = P/poly. En particulier, ce lemme a été utilisé dans le même article pour montrer que les sommes et produits exponentiels sont calculables dans la hiérarchie de comptage. Le résultat suivant a été démontré par Valiant [99]. La formulation provient en fait de l’article de Koiran [62]. Proposition 3.10 (Critère de Valiant). Supposons que n 7→ p(n) soit une fonction polynomialement bornée et que f : N × N → Z est telle que la fonction 1 n#j 7→ f(j, n) soit dans la classe de complexité GapP/poly (où 1 n#j correspond à la concaténation du mot “n” écrit en unaire, du caractère # et du mot “j” écrit en binaire). Alors la famille (fn) de polynômes multilinéaires définie par fn(X1, . . . , Xp(n)) = X j∈{0,1} p(n) f(j, n)X j1 1 · · · X jp(n) p(n) est dans VNP0 . L’exposant jk correspond au bit de j de poids 2 k−1 . Remarquons que n est codé en unaire alors que j est codé en binaire. Remarquons aussi que dans la proposition précédente, la classe booléenne utilisée est GapP/poly une classe de fonctions. Or il est souvent plus aisé de travailler avec des langages. C’est pourquoi, nous allons définir maintenant la notion de définissabilité d’un polynôme. Les paragraphes suivants sont directement tirés de l’article de Koiran et Périfel [63] qui est lui-même basé sur [21]. On va être amené à introduire une notion de complexité des suites d’entiers. Dans le but d’éviter de traiter les signes séparément, nous suivons ce qui est fait dans [63], ie. nous supposons que nous pouvons retrouver le signe dans l’encodage des entiers. Par exemple, le premier bit code le signe et les suivants, la valeur absolue de l’entier considéré. Définition 3.11. Une suite d’entiers de taille exponentielle est une suite d’entiers a(n, α1, . . . , αk) telle qu’il existe deux polynômes p(n) et q(n) satisfaisant : — le paramètre k, dépendant de n, vérifie k ≤ p(n), 421. TRANSFERT DE BORNES INFÉRIEURES — a(n, α1, . . . , αk) est défini pour n, α1, . . . , αk ∈ N avec 0 ≤ αi < 2 p(n) pour tout 1 ≤ i ≤ k, — pour tout n ≥ 1 et tous α1, . . . , αk < 2 p(n) , la taille de l’encodage binaire de a(n, α1, . . . , αk) est inférieure à 2 q(n) . On définit à partir de a(n, α1, . . . , αk) le langage suivant : Bit(a) = {(1n#α1, . . . , αk, j) | le j ème bit de a(n, α) est 1}. Attention, dans la définition analogue de Bürgisser [21], l’entier n est codé en binaire. Définition 3.12. Une suite d’entiers a(n, α) de taille exponentielle est dite définissable dans la classe K si le langage Bit(a) est dans K. Une suite de polynômes fn(X1, . . . , Xk) = P α a(n, α)Xα est dite définissable dans K si sa suite de coefficient a est de taille exponentielle et définissable dans K. Dans la suite, nous considérerons essentiellement des polynômes définissables dans P/poly ou dans CH/poly. La seconde classe est assez large et englobe de nombreux polynômes classiques, comme par exemple, le polynôme de PochhammerWilkinson. Le résultat suivant, prouvé dans [21] est très utile pour montrer qu’une suite est dans cette classe. Théorème 3.13. Soient p(n) un polynôme et (a(n, α))αi<2 p(n) une suite définissable dans CH/poly. Considérons les suites b(n) = X α a(n, α) et d(n) = Y α a(n, α). Alors (b(n)) et (d(n)) sont définissables dans CH/poly. Supposons que (s(n)) et (t(n)) soient définissables dans CH/poly. Alors la suite des produits (s(n)t(n)), ainsi que si t(n) > 0 la suite des quotients ds(n)/t(n)e, sont définissables dans CH/poly. En fait, comme mentionné précédemment, Bürgisser utilise une notation binaire pour n. Le résultat précédent est une simple “mise à l’échelle” du résultat qui peut être trouvé dans [21] (poser a 0 (2p(n) , α) = a(n, α)). Dans [63], les auteurs définissent une autre caractérisation des polynômes : Définition 3.14. Soit (fn(X1, . . . , Xk)) une famille de polynômes à coefficients entiers. Nous disons que (fn) peut être évaluée dans K aux points entiers si les conditions suivantes sont vérifiées pour un certain polynôme p : — le paramètre k est polynomialement borné en n, — le degré de fn ainsi que la taille binaire de ses coefficients sont bornés par 2 p(n) , — le langage {(1n#i1, . . . , ik, j) | 0 ≤ i1, . . . , ik ≤ 2 p(n) et le j ème bit de fn(i1, . . . , ik) est 1} est dans K, où les entiers i1, . . . , ik, j sont donnés en binaire. Le résultat suivant est énoncé (et prouvé) dans le théorème principal (Theorem 3.5) de [63] : 43CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE Théorème 3.15. Si (fn) est une suite de polynômes qui peut être évaluée dans CH/poly aux points entiers, alors (fn) est définissable dans CH/poly. Nous avons tous les résultats pour montrer, par exemple, que la suite des polynômes Un(X, Y ) = Q2 n i=1(Xi + Y ) est définissable dans CH/poly. Les suites s1(n, x, y, i, j) = y et s2(n, x, y, i, j) = (σi,j )1≤x,y,i,j≤2n où σi,j = ( x si j ≤ i 1 sinon, sont par définition définissables dans CH/poly. Par le théorème 3.13, c’est aussi le cas pour la suite t(n, x, y, i) = (x i + y)1≤x,y,i≤2n = y + 2 Yn j=1 σi,j! , ainsi que pour la suite u(n, x, y) = 2 Yn i=1 (x i + y) ! 1≤x,y≤2n . Donc Un(X, Y ) peut être évalué dans CH/poly aux points entiers, ce qui par le théorème 3.15, montre que les polynômes Un sont définissables dans CH/poly. La même preuve marche pour les autres polynômes suivants : Lemme 3.16. Les polynômes suivants PWn(X) = 2 Yn i=1 (X − i), PW− n (X) = 2 Yn i=1 (X + i), Tn(X) = 2 Yn i=1 (X − 1), et Un(X, Y ) = 2 Yn i=1 (X i + Y ) sont tous définissables dans CH/poly. Le cas des polynômes de Pochhammer-Wilkinson (PWn) était déjà établi dans l’article de Bürgisser [21]. Il prouve même que ces polynômes sont en fait définissables dans CH. 1.3 Preuve du théorème 3.3 Dans la suite de ce chapitre, nous utiliserons le résultat de complétude du permanent (théorème 1.26). C’est pourquoi, nous fixons un corps K de caractéristique nulle dans lequel travailler. Les circuits utiliseront comme constantes les éléments de K. En particulier, les résultats sont souvent utilisés et cités dans le cas où K = Q. Nous allons prouver dans cette sous-section le théorème 3.3 mentionné en début de ce chapitre. L’idée de la preuve est similaire à celle que l’on peut trouver dans l’article original [61] sauf que le découpage de la preuve est différent. En fait, nous avons voulu extraire ici la proposition 3.17 implicite dans la preuve originale, pour 441. TRANSFERT DE BORNES INFÉRIEURES pouvoir dans la suite, obtenir des variantes du théorème 3.3. Cette sous-section correspond donc aux lemme 3, théorèmes 6 et 7 et proposition 2 de l’article [61], bien que le découpage ainsi que les notations aient changés. Nous voulons extraire la proposition suivante : Proposition 3.17. Soit p un polynôme et soit (fn) une suite de polynômes entiers de Z[X1, . . . , Xp(n) ] définissables dans P/poly, de degré maximal en chaque variable 2 d − 1 et tels que la valeur absolue des coefficients soit bornée par 2 2 r − 1 avec r, d = n O(1) . Si Permn est calculé par une suite de circuits Cn, alors il existe un polynôme q et une projection Dn du circuit Cq(n) tel que fn peut être calculé par un circuit Dn(Y1, . . . , Yk) où les Yi sont des puissances de Xji d’exposants au plus 2 d−1 et où k est un entier tel que k ≤ dp(n) + r. De plus, les circuits Dn calculent des polynômes homogènes en les Yk. Enfin, le polynôme q ne dépend que du choix de la famille de polynômes (fn). Un corollaire immédiat dans le cas où les Cn sont des circuits de taille polynomialement bornée est le suivant : Corollaire 3.18. Soit p et fn définis comme dans la proposition 3.17. Si Permn admet une suite (Cn) de circuits de taille polynomiale, alors c’est aussi le cas pour fn. Preuve du corollaire 3.18. D’après la proposition 3.17, fn est calculé par un circuit Dn(Y1, . . . , Yk) où les Yj = X αj ij pour des valeurs 1 ≤ ij ≤ p(n) et 1 ≤ αj ≤ 2 d−1 et où le circuit Dn est la projection d’un circuit Cq(n) pour un polynôme q. Donc (Dn) est une suite de circuits de taille polynomiale. De plus, les puissances X αj ij avec αj ≤ 2 d−1 peuvent être calculées par exponentiation rapide par des circuits de taille au plus 2d = n O(1). On obtient ainsi, en rebranchant les circuits, un circuit de taille polynomiale pour la famille (fn). La preuve de la proposition 3.17 est similaire à celle que l’on peut trouver dans l’article de Koiran [61]. Le fait que le nombre de variables soit p(n) et non 1 n’introduit aucune complication. Preuve de la proposition 3.17. Nous travaillerons à n fixé. Posons de plus p = p(n). Commençons par exprimer le polynôme fn sous sa forme développée (somme d’au plus 2 dp monômes) : fn(X1, . . . , Xp) = X α1,...,αp a(n, α1, . . . , αp)X α1 1 · · · X αp p . Alors développons les coefficients entiers a(n, α) en base 2 : a(n, α) = 2 Xr−1 i=0 ai(n, α)2i où ai(n, α) ∈ {0, 1}. Grâce à ces deux développements, nous obtenons fn(X) = X i,α ai(n, α)2iXα . 45CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE Ce qui mène à l’égalité fn(X) = hn(X 2 0 1 , X2 1 1 , . . . , X2 d−1 1 , X2 0 2 , . . . , X2 d−1 p , 2 2 0 , 2 2 1 , . . . , 2 2 r−1 ) (3.1) où hn(x1,0, x1,1, . . . , x1,d−1, x2,0, . . . , xp,d−1, z0, z1, z2, . . . , zr−1) est le polynôme multilinéaire X i,α ai(n, α)x α1,0 1,0 x α1,1 1,1 . . . x α1,d−1 1,d−1 x α2,0 2,0 . . . x αp,d−1 p,d−1 z i0 0 z i1 1 z i2 2 . . . z ir−1 r−1 . Ici les exposants ij , αh,j correspondent aux bits des entiers i,(αh)1≤h≤p. Remarquons que hn est un polynôme multilinéaire en (dp + r) = n O(1) variables. La fonction φ : 1n#α, i 7→ ai(n, α) est une fonction à valeurs dans {0, 1} ? qui est la fonction indicatrice du langage Bit(a). Par hypothèse, ce langage est dans P/poly, donc φ ∈ GapP/poly. Par le critère de Valiant [19] (proposition 3.10), cela implique que la famille polynomiale (hn) appartient à la classe de complexité VNP0 . Comme la famille du permanent est VNP-complète et est calculée par les circuits (Cn), il existe un polynôme q tel que pour tout n, la fonction hn est calculée par Dn une projection de Cq(n) . Il suffit alors de brancher en entrée les constantes et les puissances de variables correspondantes pour obtenir un circuit pour fn du type Dn(Y1, . . . , Yk). Remarque 3.19. Nous pouvons noter que nous n’utilisons pas réellement dans la preuve le fait que les polynômes soient définissables dans P/poly. Nous avons seulement besoin que la fonction indicatrice du langage Bit(a) soit dans GapP/poly. Remarque 3.20. Notons aussi que nous autorisons les constantes du corps K pour fn comme pour le permanent. Toutefois, il est possible d’obtenir un résultat plus fin pour les constantes. Remarquons que le seul moment où des nouvelles constantes peuvent apparaître est lors de l’utilisation de la VNP-complétude du permanent. En particulier, en utilisant la proposition 1.27 du chapitre 1, on peut aussi obtenir un circuit utilisant juste les constantes de (Cn) mais calculant 2 q(n) fn pour un certain polynôme q. L’idée de Koiran est alors d’appliquer les résultats de réduction à la profondeur 4 aux circuits Dn. Proposition 3.21. Soit c un entier strictement positif fixé et soit (fn) une suite de polynômes dans Z[X1, . . . , Xc] définissables dans P/poly, de degré maximal en chaque variable 2 d − 1 et tels que la valeur absolue des coefficients soit bornée par 2 2 r−1 avec r ≤ d = n O(1) . Si Permn admet une suite de circuits Cn de taille n O(1), alors (fn) est calculé par des circuits n O( √ Xd) i=1 O( √ Y d) j=1 fi,j (X1, . . . , Xc) où les fi,j sont des polynômes n O( √ d) -creux. 462. VARIATIONS Démonstration. D’après la proposition 3.17, la famille de polynômes (fn) est calculée par des circuits de type Dn(Y1, . . . , Yk) où Dn de taille n O(1), calcule un polynôme hn multivarié d’au plus (c + 1)d = O(d) variables. D’après le théorème 2.16, il suit que les polynômes hn sont calculables par des circuits de profondeur 4 de taille 2 O( √ d log n) avec des portes de multiplication de degré entrant O( √ d). D’où (fn) est calculé par des circuits [n O( √ d) X ] [O( √ Y d)] [n O( √ d) X ] [2d √ Y d] , ie. par des circuits n O( √ Xd) i=1 O( √ Y d) j=1 fi,j (X1, . . . , Xc) où les fi,j sont des polynômes n O( √ d) -creux. On a tout ce qu’il faut pour prouver le théorème 3.3 énoncé au début du chapitre : la τ -conjecture réelle (conjecture 3.2) implique que le permanent n’admet pas de circuits sans constantes de taille polynomiale. Preuve du théorème 3.3. Montrons ce résultat par l’absurde. Supposons que le permanent est calculé par des circuits sans constantes de taille polynomiale, ie. Permn ∈ VP0 . D’après le lemme 3.9, on a CH/poly = P/poly. Donc d’après le lemme 3.16, le polynôme univarié PW(X) = Q2 n i=1(X − i) est définissable dans P/poly. Par la proposition 3.21, PW est calculé par des circuits n O( √ Xn) i=1 O( √ Yn) j=1 fi,j (X) où les fi,j sont des polynômes n O √ n) -creux. La conjecture 3.2 implique qu’il existe une constante c telle que ZR(PW) ≤ (1 + n O( √ n) ) c = 2O( √ n log(n)). Ce qui contredit le fait que ZR(PW) = 2n . Remarque 3.22. Notons qu’avec la conditon légèrement plus faible Permn ∈ VP, l’effondrement de la hiérarchie de comptage n’est connu qu’en supposant l’hypothèse de Riemann généralisée [20]. Nous verrons plus loin (théorème 3.38) comment l’éviter pour la τ -conjecture réelle. 2 Variations 2.1 Raffinement de la τ -conjecture réelle Nous pouvons déjà remarquer dans la preuve précédente (preuve du théorème 3.3) que nous avons un peu de marge sur le paramètre m. Plus précisément, en utilisant la conjecture 3.23 suivante, au lieu de la conjecture 3.2, on a encore l’inégalité ZR(PW) ≤ (1 + n O( √ n) ) c = 2O( √ n log(n)) . 47CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE Conjecture 3.23 (τ -conjecture réelle). Il existe un polynôme p tel que si f(x) ∈ R[x] est un polynôme de la forme Pk i=1 Qm j=1 fi,j (x) où les polynômes fi,j sont des polynômes t-creux, alors le nombre de racines réelles distinctes de f est au plus p(kt2 m). Nous pouvons au passage noter que la borne supérieure ici ne semble plus très loin de la borne ktm que nous avons obtenue en développant le polynôme. Une autre idée pour renforcer cette conjecture est d’utiliser, comme au chapitre 2 la formule de Fisher (lemme 2.5) pour remplacer les produits par des puissances. Conjecture 3.24 (τ -conjecture réelle avec puissances). Il existe un polynôme p tel que si f(x) ∈ R[x] est un polynôme de la forme Pk i=1 f αi i (x) où les polynômes fi sont des polynômes t-creux et les puissances αi sont des entiers tels que 0 ≤ αi ≤ m, alors le nombre de racines réelles distinctes de f est au plus p(kt2 m). Ainsi, Théorème 3.25. Si la τ -conjecture réelle avec puissances est avérée, alors le permanent n’admet pas de circuits arithmétiques sans constantes de taille polynomiale, c’est-à-dire τ (Permn) = n ω(1) . En fait, pour montrer ce théorème, il est suffisant de montrer que la conjecture 3.24 implique la conjecture 3.23. Lemme 3.26. Les conjectures 3.23 et 3.24 sont équivalentes. Démonstration. La conjecture 3.23 implique directement la conjecture 3.24. Réciproquement choisissons un polynôme p qui vérifie la conjecture 3.24. Soit f un polynôme de la forme Pk i=1 Qm j=1 fi,j (x) où les polynômes fi,j sont des polynômes t-creux. Alors d’après la formule de Fisher, f peut être écrit de la forme X k i=1 2 Xm−1 j=1 Xm l=1 ˜fi,j,l!m où les ˜fi,j,l sont des polynômes t-creux. Par hypothèse, ZR(f) ≤ p(k2 m2 mmt) = (kt2 m) O(1). Ce qui prouve le lemme. 2.2 Différentes τ -conjectures Nous donnons dans la suite différentes variantes de la τ -conjecture réelle. Version adélique La pemière remarque est que nous bornons le nombre de racines réelles alors que les racines du polynôme de Pochhammer-Wilkinson sont en fait entières. En particulier, ils suffit de borner le nombre de racines sur un ensemble qui étend N. L’idée de la τ -conjecture réelle est de pouvoir utiliser le fait que R soit complet. Toutefois, R n’est pas la seule complétion de Q. Ainsi, Kaitlyn Phillipson et Maurice Rojas [83] ont introduit la τ -conjecture adélique (par rapport à la version de [83], nous lui faisons bénéficier ici des améliorations de la sous-section 2.1). 482. VARIATIONS Conjecture 3.27 (τ -conjecture adélique avec puissances). Soit L un des corps de {R, Q2, Q3, Q5, . . .} où p est premier est Qp est le corps des nombres p-adiques. Il existe un polynôme p tel que pour tout polynôme f(x) ∈ R[x] univarié, si f est de la forme Pk i=1 Vm j=1 fi,j (x) où les polynômes fi,j sont des polynômes t-creux, alors le nombre de racines distinctes de f dans L est au plus p(kt2 m). Version monotone Une autre remarque simple est que l’on aurait pu tout aussi bien utiliser dans les preuves le polynôme PW− n = Q2 n i=1(X +i) au lieu du polynôme PWn. En particulier les conjectures peuvent être reformulées dans le cas où on ne considère que des polynômes dont tous les coefficients sont positifs. On appellera de tels polynômes des polynômes à coefficients positifs. On propose alors la conjecture : Conjecture 3.28. Les propriétés suivantes sont vérifiées : — Il existe un polynôme P p tel que si f(x) ∈ R[x] est un polynôme de la forme k i=1 Qm j=1 fi,j (x) où les polynômes fi,j sont des polynômes t-creux à coeffi- cients positifs, alors le nombre de racines réelles distinctes de f est au plus p(kt2 m). — Il existe un polynôme P p tel que si f(x) ∈ R[x] est un polynôme de la forme k i=1 f αi i (x) où les polynômes fi sont des polynômes t-creux à coefficients positifs et les puissances αi sont des entiers tels que 0 ≤ αi ≤ m, alors le nombre de racines réelles distinctes de f est au plus p(kt2 m). On remarque que les deux énoncés sont en fait équivalents et que cela peut être prouvé de la même manière que pour le lemme 3.26. On montrera au chapitre 4 que cette version de la conjecture est en faite équivalente aux conjectures 3.23 et 3.24. Version avec multiplicités La τ -conjecture réelle s’appuie sur l’idée qu’une somme de produits de polynômes creux ne pourrait pas avoir un nombre exponentiel de racines distinctes. Nous pouvons cependant imaginer d’autres caractéristiques. Par exemple, considérons la multiplicité des racines non nulles au lieu du nombre de racines. La conjecture suivante a été introduite dans [48]. Conjecture 3.29. Il existe un polynôme p tel que pour tout polynôme f(x) ∈ R[x] univarié, si f est de la forme Pk i=1 Vm fi(x) où les polynômes fi sont des polynômes t-creux, alors pour toute racine complexe non nulle r de f, la multiplicité de r est bornée par p(kt2 m). La preuve que cette conjecture implique que Permn ∈/ VP0 est similaire à celle de la conjecture 3.24 mais en remplaçant les polynômes PWn par les polynômes Tn du lemme 3.16. Version combinatoire Nous pouvons même définir une version combinatoire de cette conjecture. Nous introduisons ici la notion de polygone de Newton. Plus d’informations sur le sujet pourront par exemple être trouvées dans l’article de synthèse de Sturmfels [96]. 49CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE Les polytopes de Newton sont une façon géométrique de représenter la structure d’un polynôme. Par structure, il faut comprendre qu’ici seul l’ensemble des monômes présents (ie. où le coefficients correspondant est non nul) sera considéré et qu’on ne se préoccupera pas des valeurs prises par les coefficients. En particulier, les polynômes Detn et Permn correspondent au même polytope. Vis à vis des polytopes de Newton, on s’intéressera dans la suite seulement au cas particulier où les polynômes sont bivariés. On parle alors de polygone de Newton. Nous allons ainsi définir nos objets dans ce cadre là, bien que la plupart des définitions pourraient, sans difficultés, être généralisées à “n” variables. Si E est un ensemble du plan R 2 , cet ensemble est appelé convexe, si pour tout couple de points (a, b) de E 2 , le segment réel [a, b] est inclus dans E. Si C est un ensemble convexe, un point e de C est dit extrémal s’il n’appartient à aucun segment strict ]a, b[ inclus dans C. Si P est un ensemble de points du plan, l’enveloppe convexe est définie comme le plus petit ensemble convexe (au sens de l’inclusion) contenant P. On la notera conv(P). Les polygones sont les enveloppes convexes des ensembles finis de points, en particulier, ils sont convexes et exactement cactérisés par l’ensemble de leurs points extrémaux. Enfin, si E et F sont deux sous-ensembles du plan euclidien, la somme de Minkowski de E et de F désigne l’ensemble {p + q ∈ R 2 | p ∈ E ∧ q ∈ F}. Considérons un polynôme bivarié f ∈ A[X, Y ] où A est un anneau. À chacun des monômes XiY j apparaissant dans f avec un coefficient non nul, nous pouvons lui associer le point de coordonnées (i, j) du plan euclidien. Nous noterons Mon(f) cet ensemble fini de points. Par définition, le polytope de Newton de f, noté Newt(f), est l’enveloppe convexe de Mon(f) (en particulier, Newt(f) = conv(Mon(f))). Remarquons que Newt(f) a au plus t points extrémaux si f a t monômes, et donc au plus t arêtes. En 1921, Ostrowski a montré [78] que le polygone de Newton d’un produit de polynômes est la somme de Minkowski de leurs polygones de Newton (une preuve simple peut être trouvée dans [33], lemme 2.1) : Proposition 3.30 (Ostrowski). Newt(fg) = Newt(f) + Newt(g) = {p + q | p ∈ Newt(f), q ∈ Newt(g)}. Il en résulte que si f a s monômes et g a t monômes, alors Newt(fg) a au plus s P + t arêtes. Plus généralement, pour un produit f = g1g2 . . . gm, Newt(f) a au plus m i=1 ti arêtes où ti est le nombre de monômes de gi ; mais f peut bien sûr avoir jusqu’à Qm i=1 ti monômes. Le nombre d’arêtes d’un polygone de Newton est donc facilement controlable dans le cas d’un produit de polynômes. En comparaison, la situation n’est plus du tout claire pour une somme de produits. Nous proposons dans l’article [66] la conjecture suivante. Conjecture 3.31. Soit p un polynôme, si f est un polynôme de la forme f(X, Y ) = X k i=1 aifi(X, Y ) m (3.2) où ai ∈ C et les fi ont au plus t monômes, alors le nombre d’arêtes de Newt(f) est borné supérieurement par p(kt2 m). 502. VARIATIONS En développant les produits dans (3.2) nous observons que f a au plus ktm monômes, et ceci est une borne supérieure sur le nombre d’arêtes de son polygone de Newton. Dans le but d’améliorer cette borne si grossière, la principale difficulté que l’on rencontre vient du fait que la somme de taille k dans la définition de f peut créer des annulations de monômes. Ainsi, il se peut que certains sommets de Newt(f) ne correspondent à aucun des sommets des polygones de Newton des produits m j=1 fi,j (X, Y ) pour 1 ≤ j ≤ k. Nous donnons deux exemples de telles annulations ci-dessous. Nous pouvons remarquer que contrairement aux versions considérant le nombre de racines réelles (conjecture 3.28), la question ici devient très simple si tous les coefficients sont positifs. S’il n’y a pas d’annulations (par exemple, si les fi,j ont seulement des coefficients positifs) alors nous avons effectivement une borne supérieure polynomiale. Dans ce cas, Newt(f) est l’enveloppe convexe de l’union des polygones de Newton des k produits. Chacun de ces k polygones de Newton a au plus mt sommets, donc Newt(f) a au plus kmt sommets et autant d’arêtes. Exemple 3.32. Considérons les polynômes A(X, Y ) = XY + X2 + X2Y 2 + X3Y + X5Y , B(X, Y )=1+ XY 2, C(X, Y ) = −X − XY − X2Y 2 et D(X, Y ) = Y + X + X2Y + X4Y . AB point de Mon(AB) CD point de Mon(CD) Alors, AB + CD =(XY + X2 + X2 Y 2 + X3 Y + X5 Y + X2 Y 3 + X3 Y 2 + X3 Y 4 + X4 Y 3 + X6 Y 3 ) − (XY + X2 + X3 Y + X5 Y + XY 2 + X2 Y + 2X3 Y 2 + X5 Y 2 + X2 Y 3 + X4 Y 3 + X6 Y 3 ) =X2 Y 2 + X3 Y 4 − XY 2 − X2 Y − X3 Y 2 − X5 Y 2 AB + CD AB AB + CD CD point de Mon(AB + CD) Les deux points bleus (“rectangles”) apparaissent dans l’enveloppe convexe de Mon(AB+ CD), mais ni dans celle de Mon(AB), ni dans celle de Mon(CD). Exemple 3.33. Posons f(X, Y )=1+ X2Y + Y 2X, g(X, Y )=1+ X4Y + XY 4 et considérons Mon(fg − 1). 51 Positionnement robuste et pr´ecis de r´eseaux dimages. Pierre Moulon To cite this version: Pierre Moulon. Positionnement robuste et pr´ecis de r´eseaux dimages.. Signal and Image Processing. Universit´e Paris-Est, 2014. French. HAL Id: tel-00996935 https://tel.archives-ouvertes.fr/tel-00996935 Submitted on 27 May 2014 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destin´ee au d´epˆot et `a la diffusion de documents scientifiques de niveau recherche, publi´es ou non, ´emanant des ´etablissements d’enseignement et de recherche fran¸cais ou ´etrangers, des laboratoires publics ou priv´es.École Doctorale Paris-Est Mathématiques & Sciences et Technologies de l’Information et de la Communication THÈSE DE DOCTORAT DE L’UNIVERSITÉ PARIS EST Domaine : Traitement du Signal et des Images présentée par Pierre MOULON pour obtenir le grade de DOCTEUR DE L’UNIVERSITÉ PARIS EST Positionnement robuste et précis de réseaux d’images. Soutenue publiquement le 10 janvier 2014 devant le jury composé de : Adrien BARTOLI Université d’Auvergne Clermont1 Rapporteur Julie DELON Université Paris Descartes Examinateur David FOFI Université de Bourgogne Rapporteur Marc PIERROT-DESEILLIGNY École Nationale des Sciences Géographiques Examinateur Renaud MARLET École des Ponts ParisTech Directeur de Thèse Benoît MAUJEAN Mikros Image Encadrant industriel Pascal MONASSE École des Ponts ParisTech Co-Directeur de Thèse Luc ROBERT Autodesk ExaminateurÉcole des Ponts ParisTech LIGM-IMAGINE 6, Av Blaise Pascal - Cité Descartes Champs-sur-Marne 77455 Marne-la-Vallée cedex 2 France Université Paris-Est Marne-la-Vallée École Doctorale Paris-Est MSTIC Département Études Doctorales 6, Av Blaise Pascal - Cité Descartes Champs-sur-Marne 77454 Marne-la-Vallée cedex 2 FranceIci, mon cher, c’est adorable, et je découvre tous les jours des choses toujours plus belles. C’est à en devenir fou, tellement j’ai envie de tout faire, la tête m’en pète. [...] Eh bien, mon cher, je veux lutter, gratter, recommencer, car on peut faire ce que l’on voit et que l’on comprend, et il me semble, quand je vois la nature, que je vais tout faire, tout écrire, [...] quand on est à l’ouvrage [...] Tout cela prouve qu’il ne faut penser qu’à cela. C’est à force d’observation, de réflexion que l’on trouve. Ainsi piochons et piochons continuellement [...]. Extrait d’une lettre de Claude Monet à Frédéric Bazille écrite en 1864.45 Remerciements Mes encadrants. Je remercie tout d’abord Benoît Maujean et Renaud Keriven pour m’avoir offert l’opportunité de réaliser ce travail de recherche au sein du laboratoire IMAGINE et de l’entreprise Mikros Image. C’est avec un immense plaisir que j’ai pu travailler sous la direction de Renaud Marlet, Benoît Maujean et Pascal Monasse pour leurs qualités pédagogiques, scientifiques et humaines. Profitant de leur infaillible soutien j’ai pu découvrir le monde de la recherche, de l’application de la recherche en industrie et en apprendre toujours plus sur la vision par ordinateur. Je les remercie pour leur disponibilité ainsi que leur patience face à mes nombreuses questions, ce qui m’a permis de réaliser avec confiance ce doctorat. Comité de thèse. Je remercie Julie Delon, Marc Pierrot-Deseilligny et Luc Robert d’avoir accepté de faire partie du jury et je remercie tout particulièrement Adrien Bartoli et David Fofi pour avoir accepté d’être mes rapporteurs, en dépit du travail important que cela représente. Mes collègues d’entreprise. Je remercie mes collègues pour les discussions techniques, les sujets aléatoires abordés, la passion partagée pour la technologie informatique et les langages de programmation : Lauren Agopian, Marc-Antoine Arnaud, Arnaud Chassagne, Guillaume Chatelet, Laurent Clavier, Julien Dubuisson, Adrien Dutertre, Michael Etienne, Thomas Eskenazi, Marie Fétiveau, Antonio Fiestas, Alexandra Lefève-Gourmelon, Guillaume Maucomble, Valentin Noël, Jules Pajot, Nicolas Provost, Michael Guiral, Nicolas Rondaud, Élodie Souton. Je remercie les personnes qui se reconnaîtront pour les nombreux traits d’humour partagés avec plus ou moins de succès. Je remercie tout particulièrement Bruno Duisit, Christophe Courgeau , Benoît Maujean et Guillaume Provôt pour avoir participé au projet MiMatte3D de sa genèse à sa réalisation concrète. Mes collègues du laboratoire. Je remercie les membres permanents pour tous leurs conseils et suggestions qu’ils m’ont prodigués : Arnak Dalalyan et Guillaume Obozinski pour les discussions sur les optimisations convexes, Nikos Paragios pour ses précieux conseils pour l’écriture de ’rebuttal’, Bertrand Neveu pour toutes les références que tu as récupérées plus vite que l’éclair. Je remercie également les post-doctorants, doctorants, futur doctorants et chercheurs du laboratoire pour la bonne humeur apportée au laboratoire : Martin De La Gorce, Alexandre Boulc’h, Amine Bourki, Raghudeep Gadde, Mateusz Kozinski, Zhe Liu, Francisco Vitor Suzano Massa, Yohann Salaün, Olivier Tournaire, Marina Vinyes, Zhongwei Tang. Je souhaite bonne continuation aux stagiaires que j’ai encadrés. Badis Djellab, Emmanuel Habbets, Tristan Faure, Luc Girod, Rafaël Marini Silva et Lucas Plaetevoet : Vous m’avez ouvert l’esprit sur de nouvelles problématiques. Je remercie aussi ceux qui sont partis vers d’autres horizons avant moi : Achraf Ben-Hamadou, Olivier Collier, Jamil Drareni, Ferran Espuny et Hoang-Hiep Vu. Je remercie David Ok, Victoria Rudakova et Pascal Monasse pour avoir fait de l’aventure PRoVisG Mars 3D Challenge un succès et une expérience inoubliable au Jet Propulsion Laboratory de la NASA. Enfinje remercie Brigitte Mondou et Sylvie Cach pour leur disponibilité et réactivité qui nous facilitent le quotidien lors des missions et dossiers administratifs. Mes anciens professeurs. Une pensée à tous mes professeurs qui grâce à leur pédagogie m’ont insufflé la passion du développement logiciel et de l’imagerie numérique. Mes amis. Pour leur soutien et encouragements : Antonin P., Cyril L., Nicolas N., Philippe M., Michel T., Elvire et Ludovic T.. Ma famille. Je souhaite enfin exprimer ma gratitude envers mes proches qui m’ont toujours encouragé et mes parents pour m’avoir donné les moyens de réaliser mes études en adéquation avec mes passions. Enfin, mes plus profonds remerciements vont vers Fanny, ma chère et tendre, pour la patience et la compréhension dont elle a fait part durant ces trois dernières années et plus encore pour le bonheur que j’ai de vivre à ses côtés depuis notre rencontre. 67 Résumé Calculer une représentation 3D d’une scène rigide à partir d’une collection d’images est aujourd’hui possible grâce aux progrès réalisés par les méthodes de stéréo-vision multi-vues, et ce avec un simple appareil photographique. Le principe de reconstruction, découlant de travaux de photogrammétrie, consiste à recouper les informations provenant de plusieurs images, prises de points de vue différents, pour identifier les positions et orientations relatives de chaque cliché. Une fois les positions et orientations de caméras déterminées (calibration externe), la structure de la scène peut être reconstruite. Afin de résoudre le problème de calcul de la structure à partir du mouvement des caméras (Structure-from-Motion), des méthodes séquentielles et globales ont été proposées. Par nature, les méthodes séquentielles ont tendance à accumuler les erreurs. Cela donne lieu le plus souvent à des trajectoires de caméras qui dérivent et, lorsque les photos sont acquises autour d’un objet, à des reconstructions où les boucles ne se referment pas. Au contraire, les méthodes globales considèrent le réseau de caméras dans son ensemble. La configuration de caméras est recherchée et optimisée pour conserver au mieux l’ensemble des contraintes de cyclicité du réseau. Des reconstructions de meilleure qualité peuvent être obtenues, au détriment toutefois du temps de calcul. Cette thèse propose d’analyser des problèmes critiques au cœur de ces méthodes de calibration externe et de fournir des solutions pour améliorer leur performance (précision, robustesse, vitesse) et leur facilité d’utilisation (paramétrisation restreinte). Nous proposons tout d’abord un algorithme de suivi de points rapide et efficace. Nous montrons ensuite que l’utilisation généralisée de l’estimation robuste de modèles paramétriques a contrario permet de libérer l’utilisateur du réglage de seuils de détection, et d’obtenir une chaîne de reconstruction qui s’adapte automatiquement aux données. Dans un second temps, nous utilisons ces estimations robustes adaptatives et une formulation du problème qui permet des optimisations convexes pour construire une chaîne de calibration globale capable de passer à l’échelle. Nos expériences démontrent que les estimations identifiées a contrario améliorent de manière notable la qualité d’estimation de la position et de l’orientation des clichés, tout en étant automatiques et sans paramètres, et ce même sur des réseaux de caméras complexes. Nous proposons enfin d’améliorer le rendu visuel des reconstructions en proposant une optimisation convexe de la consistance colorée entre images. Mots-clefs calibration ; stéréovision multi-vue ; stéréovision ; estimation robuste ; programmation linéaire ; vision par ordinateur.89 Abstract To compute a 3D representation of a rigid scene from a collection of pictures is now possible thanks to the progress made by the multiple-view stereovision methods, even with a simple camera. The reconstruction process, arising from the photogrammetry consist in integrating information from multiple images taken from different viewpoints in order to identify the relative positions and orientations of each shot. Once the positions and orientations (external calibration) of the cameras are retrieved, the structure of the scene can be reconstructed. To solve the problem of calculating the Structure from Motion (SfM), sequential and global methods have been proposed. By nature, sequential methods tend to accumulate errors. This provides most often trajectories of cameras that are subject to drift error. When pictures are acquired around an object it leads to reconstructions where the loops do not close. In contrast, global methods consider the network of cameras as a whole. The configuration of cameras is searched and optimized in order to to best preserve the constraints of the cyclical network. Reconstructions of better quality can be obtained, but at the expense of computation time. This thesis aims to analyse critical issues at the heart of these methods of external calibration and provide solutions to improve their performance (accuracy , robustness and speed) and their ease of use (restricted parametrization). We first propose a fast and efficient feature tracking algorithm. We then show that the widespread use of a contrario robust estimation of parametric models frees the user about choosing detection thresholds, and allows obtaining a chain of reconstruction that automatically adapts to the data. Then in a second step, we use the adaptive robust estimation and a series of convex optimization to build a scalable global calibration chain. Our experiments show that the a contrario identified estimates improve signifi- cantly the quality of the pictures’s positions and orientations, while being automatic and without parameters , even on complex camera networks. Finally, we propose to improve the visual appearance of the reconstruction by providing a convex optimization of the color consistency between images. Keywords calibration ; multi-view stereovision ; stereovision ; robust estimation ; linear programming ; computer vision.10SOMMAIRE 11 Sommaire 1 Avant propos 13 1.1 La photogrammétrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2 La photogrammétrie et les effets spéciaux . . . . . . . . . . . . . . . . . . 19 1.2.1 Le Match-moving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2.2 La PhotoModélisation/Image-Based-Modeling . . . . . . . . . . . . 21 1.3 Contexte de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2 Introduction 29 2.1 Organisation et contributions du manuscrit . . . . . . . . . . . . . . . . . 30 2.1.1 Contributions théoriques . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.2 Contributions appliquées . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.3 Contributions logicielles . . . . . . . . . . . . . . . . . . . . . . . . 33 2.1.4 Participation à la vie scientifique . . . . . . . . . . . . . . . . . . . 33 2.1.5 Publications de l’auteur . . . . . . . . . . . . . . . . . . . . . . . . 35 3 La géométrie multiples vues et l’estimation de mouvements 37 3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2 La géométrie caméra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.3 La géométrie à 2 vues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.4 La géométrie à 3 vues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.5 La triangulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.6 L’estimation de pose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.7 L’ajustement de faisceaux . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.8 La géométrie multiples-vues et l’estimation de mouvements . . . . . . . 49 3.9 La mise en correspondances de points saillants . . . . . . . . . . . . . . . 51 3.9.1 La détection de points saillants . . . . . . . . . . . . . . . . . . . . 52 3.9.2 La description de point saillants . . . . . . . . . . . . . . . . . . . 53 3.9.3 L’appariement de point saillants . . . . . . . . . . . . . . . . . . . 54 3.10 Méthode de fusion rapide de paires de correspondances de points saillants entre images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.10.1 Une solution ensembliste pour la construction de traces de points saillants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.11 Contributions de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4 L’estimation robuste de modèles paramétriques 65 4.1 MAX-CONSENSUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.2 RANSAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.2.1 Limitations et variantes . . . . . . . . . . . . . . . . . . . . . . . . 68 4.3 A Contrario-RANSAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.3.1 Le principe de la détection a contrario . . . . . . . . . . . . . . . . 7212 SOMMAIRE 4.3.2 Mise en correspondance a contrario pour l’estimation de la géométrie épipolaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.4 Généralisation de la mise en correspondance a contrario pour l’estimation de modèles paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.4.1 Généralisation du calcul du NFA et utilisations . . . . . . . . . . . 78 4.4.2 Application pour l’estimation de la géométrie relative entre deux images sphériques . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.4.3 Évaluation expérimentale . . . . . . . . . . . . . . . . . . . . . . . 84 4.5 Contributions de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5 Une chaîne de calibration séquentielle 91 5.1 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.1.1 Analyse du point clef des méthodes de reconstructions séquentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.2 Impact de l’estimation robuste contrainte sur une chaîne de calibration séquentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.3 Une chaîne de calibration séquentielle a contrario . . . . . . . . . . . . . . 98 5.3.1 Une chaîne adaptative aux bruits des données . . . . . . . . . . . 99 5.4 Résultats et évaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.5 Contributions de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . 109 5.6 Les problématiques posées par les méthodes de calibrations séquentielles 109 6 Une chaîne de calibration globale 113 6.1 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 6.2 Une approche pour le passage à l’échelle basée sur des triplets . . . . . . 122 6.2.1 Inférence de graphes de rotations relatives . . . . . . . . . . . . . 123 6.2.2 Calcul de translations relatives stables par l’utilisation de tenseurs tri-focaux réduits . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.2.3 Fusion de translations relatives sous la norme l∞ pour le positionnement global rapide d’un réseau de caméras . . . . . . . . . . . 133 6.3 Mise en place de la chaîne de reconstruction . . . . . . . . . . . . . . . . 137 6.3.1 Optimisation pour le passage à l’échelle . . . . . . . . . . . . . . . 140 6.4 Résultats et évaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 6.5 Contributions de ce chapitre et perspectives . . . . . . . . . . . . . . . . . 156 7 Amélioration de la consistance colorée 159 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7.2 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 7.3 Une approche d’optimisation convexe pour améliorer la consistance colorée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.3.1 Évaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 7.4 Contributions et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . 176 8 Conclusion et perspectives 17913 Chapitre 1 Avant propos La reconstruction de l’espace tridimensionnel qui nous entoure à partir d’images est un des défis posés à la vision par ordinateur. Parmi les techniques possibles, la stéréovision est celle qui est la plus explorée. Son principe, découlant de travaux de photogrammétrie, est de recouper les informations provenant de plusieurs images prises de points de vue différents. Autrefois binoculaire et fournissant des informations partielles, la stéréo-vision est maintenant multi-vues et permet l’obtention de modèles complets de ce qui est observé. Des méthodes de reconstruction de structure à partir du mouvement (Structure-from-Motion) ont fait naître des nouvelles perspectives pour la photographie 3D. Ainsi avec un simple appareil photographique on peut désormais reconstruire un environnement en trois dimensions. Ce domaine porteur de la vision par ordinateur ouvre de nouveaux horizons et un champ d’application qui va bien au delà des besoins initiaux suscités par la robotique. Les applications possibles sont nombreuses : architecture et urbanisme (DE LUCA 2009), archéologie, métrologie, cartographie, divertissement (panoramas, visites virtuelles, jeux vidéo interactifs). Les retombées pour la production cinématographique et les effets spéciaux sont évidemment multiples. Les travaux de cette thèse concernent l’application de la stéréo-vision pour la reconstruction la plus précise possible de décors à partir de photographies pour l’industrie audio-visuelle.14 1–Avant propos La captation du réel Réaliser l’acquisition d’un environnement réel sur un support numérique comporte trois étapes principales (DE LUCA 2006) : L’acquisition des données spatiales met en œuvre le relevé de la morphologie, des dimensions et des aspects de surface de l’environnement étudié. Cette phase peut utiliser différents dispositifs basés sur le principe de mesure avec ou sans contact sous différentes configurations. Dans le cas de la photogrammétrie le résultat de cette phase consiste en un nuage de points (la structure) représentant avec plus ou moins de densité l’environnement et une série d’images orientées et positionnées dans l’espace. La reconstruction tridimensionnelle des surfaces est l’étape de modélisation qui permet de construire le modèle géométrique de l’édifice en s’appuyant sur les mesures issues de la phase de relevé. Plusieurs techniques permettent une reconstruction automatique, semi-automatique ou manuelle des surfaces à partir des nuages de points. Ces techniques diffèrent en fonction des données d’entrées qu’elles peuvent traiter et du type de représentations géométriques qu’elles peuvent générer. La restitution de l’apparence visuelle s’intéresse à l’enrichissement de la géométrie issue de la phase de reconstruction. Des attributs capables de décrire les aspects de surface sont ajoutés sur la reconstruction. Il s’agit principalement d’associer au modèle 3D les informations photométriques acquises au moment du relevé.15 L’acquisition des données spatiales sous une forme numérique est généralement réalisée par des méthodes dites de métrologie. Bien que cette thèse se concentre sur des méthodes de photogrammétrie il est important de citer les différentes méthodes de numérisation existantes. Il sera ainsi plus facile pour le lecteur de comprendre que la photogrammétrie est un choix privilégié dans le cadre de ce travail. Les méthodes d’acquisition du réel peuvent être classifiées en deux catégories : les méthodes dites avec ou sans contact. Avec contact. Les méthodes avec contact réalisent la numérisation d’un objet 3D grâce à un contact physique avec l’objet. Palpeur La numérisation est réalisée par le biais d’un palpeur et d’un bras articulé. Les mesures angulaires sur les articulations de l’arbre permettent de connaître précisément la position du palpeur et permettent ainsi de numériser des points de l’espace. Son usage intrusif envers les objets rend la numérisation d’objets fragiles pé- rilleuse et l’acquisition d’objets de large dimension impossible. Un autre désavantage est la fréquence d’acquisition qui est limitée par l’opérateur lui-même, contraint par la vitesse de déplacement du bras mécanique. L’acquisition d’une surface dense n’est donc pas envisageable par un opérateur. Ce type d’acquisition est le plus souvent limité au milieu industriel et à la vérification de cotes sur des chaînes de production. Sans contact. Les méthodes sans contact sont réalisées avec des appareils d’acquisition distants. On distingue deux méthodes d’acquisition, les méthodes actives et les méthodes passives. Méthodes actives : Télémétrie Les scanners actifs émettent un rayonnement et détectent sa ré- flexion afin de sonder un objet ou une scène. Différents types de source de rayonnement sont utilisés : lumière, ultrason ou rayon X. Les appareils de mesures les plus connus de cette catégorie sont les scanners LIDAR (dits à temps de vol) et les scanners 3D (dits à décalage de phase). Les scanners LIDAR ont une portée plus grande et une fréquence d’acquisition plus élevée (10 000 à 100 000 points par seconde) que les scanners à décalage de phase. Ces technologies ont un coût élevé et demandent une formation pour être utilisées. L’acquisition de larges volumes requiert plusieurs acquisitions avec la présence de marqueurs cibles à position fixe pour faciliter les recalages. Ils sont donc assez complexes à réaliser.16 1–Avant propos Photogrammétrie et triangulation Les scanners dits à lumière structurée utilisent un appareil photo et une source de lumière contrôlée (un vidéo-projecteur). L’analyse de la déformation d’un motif lumineux projeté sur l’objet permet de déterminer le relief de la surface imagée. Selon le temps et la précision de la reconstruction souhaitées on utilise un ou plusieurs motifs (lignes, points). La démocratisation de ce type de scanner a été réalisée avec brio par Microsoft et son produit Kinect. La Kinect est un scanner 3D qui réalise l’analyse des déformations en temps réel d’un motif projeté en infrarouge afin de calculer une carte de profondeur et localiser les positions du squelette d’un ou plusieurs joueurs. Un inconvénient de ces scanners est que leur précision est limitée à la zone de netteté de la caméra et donc seuls de petits espaces peuvent être reconstruits. Ces méthodes utilisant une source de lumière infrarouge, les acquisitions se limitent à des espaces intérieurs dans un espace contrôlé afin de ne pas être perturbées par une source externe de lumière (soleil). StéréoPhotométrie Ici on se place dans un cas similaire au précédent, on considère toujours un appareil photographique fixe, mais on considère désormais une source de lumière unique en mouvement. Le fait d’avoir différentes images avec des conditions d’illumination différentes permet de déterminer l’état de la surface de l’objet considéré. Des normales à la surface sont ainsi calculées et une phase d’intégration permet de déterminer une surface représentant l’objet observé. Image extraite de WU et al. (2011b). Méthode passive : Photogrammétrie et triangulation Des images sont capturées autour de l’objet à mesurer. Connaissant des points en correspondance entre les images, on peut identifier les positions des caméras et des points 3D correspondants par triangulation. On identifie ainsi le mouvement des caméras (orientation et translation) ainsi que la structure (points 3D) de la scène. Ce problème d’optimisation est résolu par des algorithmes de calcul de structure à partir du mouvement. Ces points peuvent être soit des points naturels détectés soit des points identifiés par des marqueurs cibles posés sur la scène imagée. La photogrammétrie passive apparaît comme une solution particulièrement intéressante : • Le pré requis matériel est faible, seul un appareil photographique est nécessaire, • Le prix d’un appareil photographique numérique de bonne qualité est moindre que le prix d’un scanner de type LIDAR, • Aucune formation particulière n’est nécessaire pour manipuler le matériel, • La scène observée n’est pas manipulée ou détériorée, • Aucune source de lumière projetée et aucuns contacts aux objets ne sont nécessaires.1.1–La photogrammétrie 17 1.1 La photogrammétrie Le mot photogrammétrie apparaît comme une évolution du mot, «métrophotographie», apparu en 1850 par le biais d’Aimé Laussedat. Le terme se popularise ensuite à l’échelle européenne puis internationale en photogrammétrie sous l’impulsion allemande du photographe Otto Kersten et de l’ingénieur civil Albrecht Meydenbaeuer (WOCHENBLATT 1867) comme illustré sur la figure 1.1. L’idée originale est de réaliser des relevés métriques de bâtiments ou terrains à partir de photographies. La photogrammétrie a ensuite évoluée en commençant sur des travaux basées sur de la stéréovision (stereoscopic viewing) et les travaux de Carl Pulfrich sur le stereocomparator créé en 1901 (cf. FRITSCH (2006)). L’acquisition de données topographiques a été initiée par des pionniers comme Nadar en 1858 avec l’acquisition d’images aé- riennes en ballon à des fins militaires. Par la suite, d’autres techniques d’acquisitions ont suivi. Durant la première guerre mondiale, des cerf-volants, avions et même des pigeons (PHOTOGRAPHIQUES 1910) ont servi de moyens de transport pour l’acquisition et la reconnaissance de terrains. Cette période a permis de découvrir et de proposer des solutions de correction pour la rectification et l’utilisation d’images stéréographiques. Dans une seconde phase, le développement de la géométrie algorithmique projective, la connaissance avancée du calcul matriciel et de l’algèbre linéaire ont donné naissance à la photogrammétrie analytique (KRUPPA 1913) et à la théorie de l’ajustement de faisceaux (BROWN 1976 ; SLAMA et al. 1980 ; TRIGGS et al. 2000). L’ajustement de faisceaux est le processus qui consiste à optimiser simultanément la trajectoire de la caméra et la structure de la scène. La photogrammétrie étant gourmande en calculs numériques son utilisation a été grandement facilitée par l’arrivée de l’ordinateur. Le troisième fait marquant dans l’histoire de la photogrammétrie est l’apparition de la version moderne de la camera obscura (Aristote) : l’appareil photographique numérique (GARETH A. LLOYD et STEVEN J. SASSON 1978). L’acquisition numérique et l’accessibilité à des solutions de stockage de plus en plus grandes se sont tellement dé- mocratisées que l’on a observé une scission des communautés de recherche en fonction du style d’acquisition et d’application (cf. figure 1.1). On note après 1970 la pleine croissance de la photogrammétrie aérienne et la télé-détection : (remote sensing), puis plus tard l’apparition du terme Structure from Motion (SfM) et digital photogrammetry dans les années 1980-90. Cette disparité temporelle a été observée car au début les appareils photographiques numériques n’étaient accessibles qu’à la communauté acquisition aé- rienne. Dans un second temps l’appareil photographique numérique est devenu grand public et la photogrammétrie au sol (SfM, close-range photogrammetry) alors a pu se dé- mocratiser. photogrammetry structure from motion remote - sensing 1870 1875 1880 1885 1890 1895 1900 1905 1910 1915 1920 1925 1930 1935 1940 1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 0.00% 0.000004% 0.000008% 0.000012% 0.000016% 0.00002% digital photogrammetry FIGURE 1.1 – Nombre d’occurrences des mots photogrammetry, structure-from-motion et remote-sensing dans les ouvrages référencés par Google© entre les années 1860 à 2000. Nous sommes actuellement dans une quatrième phase de la photogrammétrie : une phase applicative. Nous pouvons observer que la communauté de la vision par ordinateur à fait mûrir des techniques et des applications qui sont désormais utilisables de18 1–Avant propos manière stable par tout un chacun. On notera que certaines applications permettent de nos jours : De créer une image panoramique depuis nos téléphones mobiles, De chercher de l’information en photographiant une pochette de disque ou une af- fiche : LTU Technologies 1 , Kooaba 2 , De jouer de manière interactive avec un avatar virtuel imitant nos mouvements sur notre télévision (Microsoft Kinect). Une utilisation concrète de la photogrammétrie et de la vision par ordinateur à très large échelle est le logiciel Google Maps. Cette application permet de visualiser la surface de notre planète à travers notre navigateur Internet (une couverture intégrale du globe en basse définition est disponible depuis 2005). La résolution en mode de visualisation aérienne est telle que l’on peut observer sa propre maison ou compter les piétons sur une place. L’inclusion récente des rues avec StreetView en 2007 permet de naviguer dans les rues d’une ville, de visualiser concrètement la situation d’un monument ou d’un magasin comme si on y était. Même si les informations actuellement proposées sont en majorité seulement en 2 dimensions, des représentations 3D sont d’ores et déjà en préparation ou visibles pour certaines villes du globe. La technologie de numérisation 3D de villes est en passe d’être mûre pour des applications concrètes comme l’ont montrés les sociétés "C3 Technologies" et Acute3D 3 . Le futur laisse entrevoir des solutions libres de partage et création de carte 3D à l’instar d’OpenStreetMap auxquelles des utilisateurs ordinaires peuvent contribuer pour apporter de l’information. Le fait que l’acquisition humaine soit limitée au sol est aussi en phase de changement. Les moyens de transport suivant l’évolution aé- ronautique au plus proche (ballons radiocommandés dirigeables, drones et UAV), le futur laisse imaginer que l’acquisition aérienne sera réalisable par tout un chacun dans quelques années avec un simple drone tel que le "Teeny, Tiny Crazyflie Nano Quadcopter" développé en 2012 (cf. figure 1.2). FIGURE 1.2 – De gauche à droite : Nadar et son ballon 1858, un pigeon photographe 1910, un drone Parrot 2010, un micro UAV 2012. Cette obsession de recréer le réel pour en redéfinir l’usage est le but principal visé par l’industrie audiovisuelle. Voyons les usages de la photogrammétrie pour la création d’effets spéciaux. 1. LTU Technologies http://www.ltutech.com/fr/ 2. Kooaba http://www.kooaba.com/ 3. Acute3D http://www.acute3d.com1.2–La photogrammétrie et les effets spéciaux 19 1.2 La photogrammétrie et les effets spéciaux Pour le domaine des effets spéciaux, le terme photogrammétrie est interprété comme : une méthode pour acquérir une représentation manipulable d’un environnement. On cherche à acquérir le réel pour en détourner l’usage. L’intérêt est d’obtenir des copies numériques pour réaliser des trucages. Une collection de bâtiments (DE LUCA 2006) ou d’objets et personnages (BHAT et BURKE 2011) peut être ainsi créée et détournée (cf. figure 1.3). Les budgets étant souvent serrés la photogrammétrie s’impose comme un choix avant tout financier. Le prix d’un appareil photo numérique est bien moins élevé que celui d’un laser 3D d’acquisition LIDAR. Un autre avantage technique est le fait que le support photographique apporte la représentation photo-réaliste tandis que les LIDARs ne possèdent pas tous une caméra coaxiale pour acquérir avec précision la couleur de chaque point 3D numérisé. Cependant malgré le fait que les techniques de photogrammétrie semblent relativement mûres on réalise que l’usage de la technologie n’est pas encore aisée pour les besoins spécifiques des effets spéciaux. (a) (b) FIGURE 1.3 – (a) La structure d’un bâtiment re-créée à partir de photographies (DE LUCA 2006). (b) Copie numérique d’un acteur par la société Agence de Doublure Numérique (image du Figaro). Les objectifs principaux liés aux effets spéciaux mêlant réel et virtuel sont les suivants : – l’estimation du mouvement d’une caméra vidéo, Match-moving : insertion d’éléments virtuels de manière réaliste sur une vidéo de tournage. – La photo-modélisation, Image-Based-Modeling IBM : la création d’une copie numérique d’un environnement à partir de photographies.20 1–Avant propos 1.2.1 Le Match-moving Le match-moving/motion-tracking est une technique utilisée pour identifier la trajectoire d’une caméra à partir d’une séquence vidéo. Ayant la connaissance d’une caméra virtuelle il est possible de faire bouger des objets 3D qui auront un mouvement en cohérence avec la vidéo. La fusion de la scène réelle avec la scène virtuelle (compositing) donne alors l’impression qu’elles ont été filmées du même point de vue. On notera deux catégories de match-moving en fonction des dégrés de liberté du mouvement recherché : le suivi 2D dit bidimensionnel et le suivi 3D dit tridimensionnel. Le suivi de mouvement bidimensionnel est disponible dans des logiciels tels que Adobe After Effects, Discreet Combustion et Shake. Cette technique se limite au suivi du mouvement de points particuliers choisis par l’utilisateur dans les images de la séquence. Une fois le mouvement de ces points identifié il est appliqué à de nouveaux objets venant occulter la vidéo avec un nouveau contenu. Cette technique est suffisante pour des surfaces planes, des mouvements de caméras simples et si il n’y a pas eu de changements importants des paramètres de la caméra. L’usage le plus classique est le remplacement d’un panneau publicitaire placé en arrière-plan d’une séquence vidéo par une autre image. Le suivi de mouvement tridimensionnel va quant à lui extrapoler les informations tridimensionnelles (le mouvement de caméra) à partir de photographies bidimensionnelles (la séquence vidéo). Le processus d’estimation de la trajectoire de la caméra requiert l’estimation de contraintes de géométrie projective et l’application du processus d’ajustement de faisceaux. Les points suivis sont la plupart du temps précisés par l’opé- rateur. Des méthodes automatiques existent pour identifier certains points saillants, mais dans la plupart des cas des retouches manuelles sont nécessaires si la séquence vidéo présente des éléments en désaccord de mouvement. En effet les méthodes couramment utilisées considèrent en pré-requis que la scène observée est statique. L’opérateur vient alors supprimer les points qui ne sont pas sur la scène rigide : objets ou acteurs en mouvement. Parmi les logiciels capables d’effectuer un match moving tridimensionnel on peut citer : • 2d3 Boujou, • Blender (depuis la version 2.61), • Icarus (logiciel gratuit), • Maya Live (Module de Maya Unlimited), • PixelFarm PFTrack (réincarnation commerciale d’Icarus), • Realviz MatchMover (racheté par Autodesk), • Ssontech SynthEyes, • Science.D.Visions 3DEqualizer, • Voodoo (logiciel gratuit), • VooCAT (logiciel commercial, réincarnation commerciale de Voodoo), • VideoTrace. Le marché du logiciel est assez diversifié. Des alternatives (commerciales, gratuites et open-source) existent et montrent que le marché est large et demandeur. Le suivi de mouvement de scène non rigide est quant à lui un domaine encore en évolution et de ce fait aucune solution logicielle commerciale n’est présente sur le marché.1.2–La photogrammétrie et les effets spéciaux 21 1.2.2 La PhotoModélisation/Image-Based-Modeling Dans le cas de l’Image-Based-Modeling on recherche à créer une représentation photoréaliste 3D des éléments photographiés. Une solution logicielle doit être identifiée pour les trois étapes évoquées au début de ce chapitre : l’acquisition des données spatiales, la reconstruction tridimensionnelle des surfaces, la restitution de l’apparence visuelle (cf. figure 1.4). FIGURE 1.4 – Les étapes nécessaires pour la photo-modélisation : la calibration pour acquérir les données spatiales, la photo-modélisation pour reconstruire une surface et enfin le calcul de la restitution visuelle colorée. L’application de la photogrammétrie pour la reconstruction de bâtiment comme élé- ment de décor 3D pour le domaine des effets spéciaux a été initiée par DEBEVEC et al. (1996) avec son logiciel FAÇADE. Les auteurs proposent d’optimiser simultanément la reconstruction tridimensionnelle de surfaces planes et le placement des caméras dans l’espace. Les entrées de l’algorithme sont des primitives géométriques, comme des parallélépipèdes, placées manuellement par l’utilisateur dans les images sur les formes d’un bâtiment. En connaissant la projection d’une série de plan et de contraintes orthogonales, des blocs 3D et images sont ainsi orientés et placés dans l’espace. Dans un second temps, un raffinement manuel de la géométrie et une projection de texture permet d’enrichir le détail du modèle 3D (cf. figure 1.5). FIGURE 1.5 – Le logiciel FAÇADE (de gauche à droite) : les arêtes des parallélépipèdes utilisées, la reconstruction 3D obtenue et le rendu photo-réaliste.22 1–Avant propos A la suite de ce projet, trois classes de solutions ont émergé : 1. des solutions de reconstruction 3D par saisie manuelle, 2. des solutions automatiques avec le mûrissement des techniques de photogrammétrie, 3. des solutions semi-automatiques permettant d’intéragir avec les résultats obtenus de manière automatique. 1.Les solutions par saisie manuelle Quatre solutions logicielles de reconstruction 3D par saisie manuelle ont émergé sur le marché : – Canoma 1999 Évolution commerciale de FAÇADE (DEBEVEC et al. 1996). Cette solution a disparu du marché suite au rachat mené par MetaCreations puis par Adobe Systems en 2000. – Eossystems PhotoModeler 1993 Précurseur sur le marché, le logiciel ne cesse d’évoluer depuis. – RealViz Image Modeler 2000 Transfert technologique issu de l’INRIA (Projet Robotvis). Racheté par Autodesk en 2009. – Banzai Pipeline Ltd Enwaii 2008 Conception d’un logiciel dédié pour les contraintes liées à la production des effets spéciaux. La solution s’intègre à un outil métier de la production visuelle : Autodesk Maya. Ces solutions requièrent que l’utilisateur saisisse des informations en correspondance entre images (le plus souvent des points). Ces points sont utilisés pour la phase de calibration, des caméras sont ainsi positionnées dans l’espace et des points 3D très éparses sont reconstruits. Dans un deuxième temps, l’utilisateur peut réaliser à la main la photo-modélisation. Des faces sont ainsi saisies entre les points 3D (amers). Cette tâche reste un travail de longue haleine mais permet un contrôle précis sur les amers 3D utilisés et permet de guider la modélisation à faible nombre de polygones. FIGURE 1.6 – ImageModeler : De gauche à droite, les images sources, les points et la géométrie saisies manuellement, la restitution colorée.1.2–La photogrammétrie et les effets spéciaux 23 2.Les solutions automatiques Par la suite, le développement des techniques de photogrammétrie a permis l’émergence de solutions automatiques. Ces solutions ont vu le jour grâce à : – une évolution marquante de la stabilité de la recherche de points saillants communs entre images (SIFT : LOWE (1999)). – l’évolution des algorithmes de structure à partir du mouvement (POLLEFEYS et al. 2000 ; BROWN et LOWE 2005a ; SNAVELY et al. 2006). Ces améliorations notables ont permis de réaliser automatiquement : – le calcul de la pose d’images dans l’espace, – la création d’un nuage de points dense représentant la scène, – la création d’une surface représentant la scène, – la projection des images sources sur une surface pour une représentation photoréaliste. Des résultats très réalistes peuvent être obtenus si les photographies acquises sont en adéquation en résolution et netteté pour les détails que l’on souhaite obtenir (cf. figure 1.7). FIGURE 1.7 – Création d’une copie numérique d’un visage à partir de 20 images, merci à Cédric Guiard, Gilles Gambier et Pierre Lelièvre de ADN (Agence de Doublure Numérique) pour l’acquisition de ces images.24 1–Avant propos Les logiciels suivants sont apparus par la suite (liste non exhaustive) : Société Produit lancement Pays Transfert de technologie Metria Orthoware 2007 Espagne Université de Valence Microsoft Photosynth 2008 USA Université de Washington Agisoft Photoscan 2010 Russie ? Eossystems Photomodeler 2010* Canada ? Autodesk PhotoFly 2011 France Realviz Acute3D SmartCapture 2011 France ENPC (IMAGINE) Pix4D PixelScanner 2011 Suisse EPFL (Cvlab) 3DFlow 3DFZephyr 2012 Italie Université de Vérone Aurvis PixelScanner 2013 Turquie Doctorant EPFL (Cvlab) TABLE 1.1 – Listes des solutions commerciales pour la photogrammétrie automatique. *Intégration de composants automatiques depuis 2010. On remarque que les 3/4 des solutions sont issues de savoir-faire académique et d’universités et que ces solutions automatiques émergent toutes dans les deux premières décennies des années 2000. Les ruptures significatives des dernières années citées au début de cette section montrent que la photogrammétrie est stable pour la réalisation d’applications concrètes et que le calcul de structure à partir du mouvement est donc en passe de devenir accessible pour le plus grand nombre. Le fait le plus marquant qui démontre que la technologie est attractive est le projet Photosynth. Ce projet, basé sur une collaboration de Microsoft avec l’université de Washington et les travaux de SNAVELY et al. (2006) : "Photo tourism, exploring photo collections in 3D", permet d’explorer de manière interactive ses collections de photos personnelles en 3D. Le navigateur web est alors transformé en interface de navigation où l’on se promène en 3 dimensions d’image à image (cf figure 1.8). Microsoft a su mettre la technologie en accès libre via une plateforme de démonstration Internet pour la visualisation et un logiciel client pour réaliser les calculs de photogrammétrie. Malgré le fait que le résultat du calcul ne soit utilisable qu’à travers une interface Internet et non téléchargeable, cette application a fortement démocratisé la reconstruction 3D à partir de photographies. FIGURE 1.8 – Photosynth : une interface de navigation sur une collection d’images positionnée en 3 dimensions.1.2–La photogrammétrie et les effets spéciaux 25 3.Les solutions semi-automatiques Quelques solutions semi-automatiques ont été proposées par le milieu académique mais elles ne sont pas encore apparues dans des logiciels commerciaux. Elles proposent de faciliter les étapes de photo-modélisation en proposant des amers initiaux afin de faciliter la création de primitives géométriques. Deux solutions sont illustrées ici : PhotoModel et O-Snap. PhotoModel. (SINHA et al. 2008) considère une scène calibrée. Le logiciel utilise les données suivantes : – des caméras positionnées et orientées dans l’espace, – un nuage de point initial, – des lignes reconstruites en 3D (lignes de fuite détectées dans les images). Lorsque l’utilisateur souhaite dessiner une facette 3D, il dessine les contours de cette face sur l’image de son choix. La position 3D de la face est alors interprétée automatiquement en fonction des données 3D visibles projetées à l’intérieur du polygone utilisateur. Une équation de plan 3D est ainsi déterminée automatiquement en ayant utilisé que peu d’interactions utilisateur, saisie dans une seule image (contrairement aux mé- thodes manuelles vues précédemment). (a)Images (b) Saisie 2D (c) Modèle 3D (d) Modèle 3D texturé FIGURE 1.9 – PhotoModel : une interface de photo-modélisation qui se base sur des interactions utilisateur et le support 3D de points et lignes de fuite. O-Snap. (ARIKAN et al. 2013) propose une interface de modélisation qui utilise seulement le nuage de point 3D. La reconstruction 3D polygonale peut être interactivement raffinée par l’utilisateur. Un modèle initial est automatiquement créé via la génération d’hypothèses de polygones plans les plus probables. L’utilisateur guide ensuite la méthode automatique, vers le résultat qu’il souhaite, en indiquant des relations d’adjacences entre polygones pour former la géométrie désirée (exemple : les connections entre les murs et toits de la figure 1.10). FIGURE 1.10 – Un aperçu de la chaîne semi-automatique de modélisation O-Snap. De gauche à droite : Un nuage de point bruité et incomplet est décomposé en une sélection de plans. Des relations d’adjacences de polygones proches sont identifiées afin de les connecter et de raffiner le modèle. L’utilisateur guide ensuite le processus automatique en rajoutant manuellement des relations d’adjacences. Un modèle à faible nombre de polygones représentant le nuage de points 3D peut ainsi être reconstruit.26 1–Avant propos La photogrammétrie et la photo-modélisation pour les effets spéciaux Lorsque l’on regarde les solutions existantes, on constate qu’une seule solution est pour l’instant dédiée au monde des effets spéciaux audiovisuels. Il s’agit de la solution «Enwaii» proposée par «Banzai Pipeline Ltd.». Bien que la solution soit entièrement manuelle, elle présente l’avantage de s’intégrer directement à un outil métier utilisé dans le domaine : Autodesk Maya. Cette solution propose une alternative pour prendre en compte les contraintes liées à la production de contenus multimédias pour l’industrie. Cependant les solutions manuelles présentent un défaut majeur : c’est le niveau d’implication de l’utilisateur qui conditionne la précision de saisie des correspondances et donc la qualité du résultat obtenu. Les étapes de calibration et modélisation étant manuelles, l’utilisateur doit être formé afin de produire de bons résultats. Un utilisateur avisé sera à même d’obtenir de bien meilleurs résultats qu’un novice. Les solutions automatiques, comme Agisoft Photoscan, demandent quant à elles peu de formation, mais en contre partie ne donnent pas de contrôle à l’utilisateur sur la chaîne de traitement. Lorsqu’un jeu de photographies ne permet pas l’obtention de modèle 3D automatique, l’utilisateur ne peut obtenir aucun résultat. L’idéal pour le marché de la postproduction audioviselle serait une solution semiautomatique fonctionnant de l’acquisition photographique sur site à la production du contenu 3D final. L’utilisateur pourrait alors guider le processus automatique sur des jeux d’images restreint ou au contraire être guidé sur des jeux de données comportant de nombreuses images. 1.3 Contexte de la thèse Cette thèse CIFRE commencée en octobre 2010 a été effectuée au sein du groupe de recherche IMAGINE pour la tutelle laboratoire et de l’équipe recherche et développement de MIKROS IMAGE pour la tutelle entreprise. IMAGINE. Le groupe de recherche IMAGINE est un projet collaboratif entre l’École des Ponts Paristech et Chaussée (ENPC) et du Centre Scientifique et Technique du Bâtiment (CSTB). Ce groupe de recherche appartient au Laboratoire Informatique Gaspard Monge (LIGM) de l’Université Paris-Est Marne-la-Vallée (UPEM). L’expertise d’IMAGINE se situe en vision par ordinateur, en traitement de maillage, en apprentissage statistique, en optimisation, et en programmation par contraintes. Une partie des travaux actuels concerne les thématiques suivantes : – La reconstruction haute précision de surfaces 3D à partir de grandes quantités d’images acquises sous des conditions non contrôlées. Expertise transférée en 2011 au sein de l’entreprise Acute3D par Renaud Keriven et Jean-Philippe Pons. – L’amélioration des méthodes de calibration de caméra par le biais de l’utilisation de méthodes statistiques avec le projet ANR Callisto. Ce projet, en collaboration avec le CNES est réalisé dans le cadre du projet MISS (Mathématiques de l’Imagerie Satellitaire Spatiale). – L’interprétation des images et leur sémantisation pour reconstruire des façades de bâtiments riches d’informations (fenêtres, portes, ...). Le travail de l’équipe IMAGINE a été notamment remarqué à l’échelle internationale grâce à des résultats en reconstruction de surface et d’algorithmes de stéréo-vision multiple-vues denses (HIEP et al. 2009). Les reconstructions les plus précises et les plus1.3–Contexte de la thèse 27 complètes ont été obtenues sur le jeux de données de référence mise en place par le CVLAB de l’EPFL (STRECHA et al. 2008). L’équipe a également obtenu en 2011 le premier prix au challenge ”PRoVisG Mars 3D Challenge” consistant à évaluer la précision de reconstruction de la trajectoire d’un robot terrestre et martien. Mikros Image. Créé en 1985, Mikros Image est un prestataire de services spécialisé dans les effets numériques visuels. Mikros Image gère pour ses clients plus de 300 projets par an tous domaines confondus, depuis la supervision de tournage, jusqu’à la finalisation de films de cinéma, de spots de publicité, de programmes de télévision ou de contenus pour Internet et la téléphonie mobile. La gamme de services proposée comprend : – Effets spéciaux et images de synthèse 2D & 3D, – Animation, – Montage et conformation, – Étalonnage, transferts de support numériques/argentiques et argentiques/numériques, masterisation, – Laboratoires vidéo, film & compression, – Gestion d’actifs et outils de transmission numérique. Mikros Image est une filiale à 100% de la société MTC (Multimédia Télévision Cinéma), dont le capital est majoritairement détenu depuis octobre 2006 par la société italienne Mediacontech, cotée à Milan. Son effectif compte plus de 100 salariés fixes et environ 50 intermittents free-lances. Mikros Image possède des antennes dans quatre pays : France, Belgique, Luxembourg, Canada. Depuis 1999, Mikros Image possède une activité de recherche et développement qui mobilise environ 10% de l’effectif de la société. Ses outils «maison» permettent d’augmenter ses capacités de production, d’optimiser la qualité de ses réalisations et d’offrir de nouveaux services, notamment pour son développement stratégique et commercial. Certaines de ses applications sont développées avec des partenaires industriels ou universitaires, dans le cadre de projets collaboratifs. Le financement de ses outils est en partie assuré par des organismes de soutien public à l’innovation. Mikros Image se trouve sur un marché en pleine expansion. En effet, les films et les publicités utilisent de plus en plus d’effets visuels. De plus, compte tenu de la variation du degré d’exigence au niveau du rendu final en raison de budgets variables, de jeunes entreprises émergent sur ce climat concurrentiel tendu. La valeur ajoutée de Mikros Image reste sa capacité à mener à bien des projets complexes, dans un temps imparti et avec un budget donné.28 1–Avant propos29 Chapitre 2 Introduction Le problème de la reconstruction 3D par stéréo-vision à partir de caméras multiples calibrées capturant une scène fixe est étudié depuis plusieurs décennies. Les travaux initiés par (BEARDSLEY et al. 1996) puis étendus par (POLLEFEYS et al. 2000 ; BROWN et LOWE 2005a ; SNAVELY et al. 2006) ont démontré qu’il est possible d’estimer de manière séquentielle la structure à partir du mouvement d’une ou plusieurs caméras. Le principe de reconstruction, découlant de travaux de photogrammétrie, consiste à comparer les informations provenant de plusieurs images, prises de points de vue différents, pour identifier les positions et orientations de chaque cliché (le mouvement) puis la géomé- trie de la scène (la structure). Il a été démontré sur des jeux de données comportant une vérité terrain (STRECHA et al. 2008) que les résultats de reconstruction sont quantitativement comparables à des acquisitions lasers. Des erreurs de localisation de caméras de l’ordre du centimètre ou millimètre ont été mesurées. Cependant l’application de ces mêmes méthodes séquentielles sur de larges jeux d’images n’est pas simple. Le passage à l’échelle n’est alors atteignable qu’en ayant recours à diverses approximations. Des implémentations massivement parallèles sont utilisées pour accélérer la recherche de correspondances entre images (AGARWAL et al. 2009). Des solutions dédiées pour l’ajustement non linéaire de paramètres sur GPU sont utilisées (WU et al. 2011a). Des localisations GPS approximatives peuvent être utilisées pour certaines images (CRANDALL et al. 2011) ou bien des informations GPS sont combinées avec des plans de cadastre issus de bases de données GIS (système d’information géographique) (STRECHA et al. 2010). Toutes ces approximations permettent effectivement de traiter des jeux de données de plus en plus grands, mais ce passage à l’échelle est réalisé au détriment de l’estimation de la position des caméras. Une pré- cision moyenne de l’ordre du mètre est alors obtenue sur de larges jeux de données (CRANDALL et al. 2011 ; WU 2013). Le principal défaut de ces méthodes séquentielles est l’accumulation d’erreurs due à la nature du processus. On observe des dérives lors de l’estimation des poses. Une trajectoire circulaire est ainsi souvent identifiée en spirale. Des méthodes considérant les poses de caméras de manière globale ont été développées (OLSSON et ENQVIST 2011 ; MARTINEC et PAJDLA 2007) pour supprimer ce phénomène de dérive, mais une fois de plus le passage à l’échelle n’est pas aisé. Ces méthodes d’estimation de pose et orientation de caméras possèdent des limitations sur les points suivants : • la robustesse, • la précision, • le passage à l’échelle.30 2–Introduction Nous proposons dans cette thèse des solutions alternatives pour chacune de ces limitations. Nous démontrerons l’impact positif des solutions proposées, en termes de performances quantitatives et de temps de calcul. 2.1 Organisation et contributions du manuscrit Cette thèse concentre son étude sur l’estimation de structure à partir du mouvement (SfM) dans le cadre d’une application pour la postproduction audiovisuelle et plus particulièrement la reconstruction de décors. Elle se focalise sur l’estimation pré- cise de poses des caméras afin d’obtenir la meilleure représentation 3D possible de l’environnement photographié. La thèse s’articule autour de contributions sur les axes suivants : • le suivi de points saillants dans des images non ordonnées, • la généralisation de l’utilisation d’un estimateur robuste statistique de modèles paramétriques, • la vérification de l’impact, à large échelle, d’estimateurs robustes adaptatifs dans les méthodes de calibration séquentielles, • la robustesse et le passage à l’échelle pour l’estimation globale de la position d’un réseau de caméras, • l’harmonisation colorée d’un ensemble d’images multiple-vues. 2.1.1 Contributions théoriques Les contributions théoriques sont axées sur : 1. Une généralisation des travaux de MOISAN et STIVAL (2004) et RABIN (2009) : Nous proposons de généraliser le cadre d’estimation robuste de modèle paramétrique défini par MOISAN et STIVAL (2004) afin de pouvoir utiliser cette estimation robuste adaptative à la reconstruction 3D. Nous montrerons que la formulation générique permet de réaliser des estimations de poses relatives, de matrices de projection, de tenseurs tri-focaux. Nous proposerons des travaux préliminaires pour explorer une paramétrisation a contrario d’erreurs angulaires appliquée à l’estimation de pose relative d’images sphériques. 2. L’utilisation d’optimisation convexe pour garantir l’obtention d’un minima global : Nous proposons de réaliser par minimisation convexe la fusion de translations relatives dans un repère global commun sous norme l∞ afin de calibrer globalement en position un réseau de caméras. Nous présenterons finalement un ajustement d’histogrammes via une déformation linéaire sous norme l∞ pour l’harmonisation colorée d’une séquence d’images. 2.1.2 Contributions appliquées Dans le cadre d’un projet de recherche et innovation, «Mimatte3D», nous avons dé- veloppé une chaîne de reconstruction 3D prenant en compte les besoins métiers liés à la postproduction audiovisuelle. Des outils permettant à l’utilisateur de guider le processus automatique de reconstruction ont été réalisés (cf. figure 2.1). Ce projet subventionné, OSEO-CNC-RIAM - 2012, a été réalisé par Benoit MAUJEAN, Bruno DUISIT,2.1–Organisation et contributions du manuscrit 31 Pierre MOULON et Christophe COURGEAU. Ce projet s’implique dans la vision industrielle liée à cette thèse CIFRE. Contributions FIGURE 2.1 – Chaîne de traitement MiMatte3D pour l’aide à la construction de décors. La chaîne «Mimatte3D» propose une suite d’outils pour l’aide à la reconstruction de décor virtuel photo-réaliste à partir de photos s’intégrant le plus facilement aux outils métiers des mattes-painters, les créateurs de décors. Le projet débouche sur les outils suivants : • MILINK : un outil de visualisation et édition de réseau de connections d’images pour l’aide à la suppression de mises en correspondances d’images aberrantes, • MICALIB : une chaîne de calibration externe séquentielle et une chaîne de calibration globale, • MIMODE : une interface d’aide à la photo-modélisation, • MIMATTEIMPORTER : une interface de la géométrie de calibration pour le logiciel d’édition 3D Autodesk Maya (caméras, nuages de points, plan images), • MIPROJCAM : un outil de projection de texture sur de la géométrie pour le logiciel d’édition 3D Autodesk Maya. FIGURE 2.2 – Haut : une partie des images utilisées pour la reconstruction photoréaliste. Bas : la calibration externe, la photo-modélisation et la restitution visuelle.32 2–Introduction Cette chaîne réalisée pour le compte de Mikros Image est basée sur la librairie open source OpenMVG réalisée pendant cette thèse. Les figures 2.3, 2.4 illustrent des exemples de reconstruction de décors réalisés à partir de collections d’images dans la phase finale du projet OSEO-CNC-RIAM - 2012 : FIGURE 2.3 – Modélisation de la Mairie de Montrouge réalisée à partir de 20 images acquises à partir d’un téléphone mobile. FIGURE 2.4 – Modélisation de l’église du village de Ault réalisée à partir de 109 images.2.1–Organisation et contributions du manuscrit 33 2.1.3 Contributions logicielles – PPT-GUI (Python Photogrammetry Toolbox) Ce projet co-développé en collaboration avec Alessandro Bezzi et Luca Bezzi d’ARC-TEAM permet un accès simplifié à des outils open-source de photogrammétrie (Bundler (SNAVELY et al. 2006), CMVS (FURUKAWA et al. 2010), PMVS (FURUKAWA et PONCE 2010)) sous les systèmes d’exploitation Linux et Windows. Ce projet est intégré à la distribution Linux ArcheOS dédiée aux archéologues et utilisé avec succès pour de nombreux projets de reconstitution faciale (cf. figure 2.5). FIGURE 2.5 – Projets de reconstitution faciale menés par Cicero Moraes à partir de photographies de crânes reconstitués en 3D via l’utilisation de PPT-GUI et Blender. – VG VG VG openMVG (Open-source MultipleViewGeometry) est une bibliothèque C++ open-source conçue pour la recherche reproductible en vision par ordinateur. Elle fournit une implémentation de l’état de l’art et un accès facilité aux outils communs utilisés en géométrie multi-vues. La bibliothèque est multiplateforme, peut être compilée sous Windows, Linux, MacOS et est utilisable sur des architectures de type ARM (Apple Iphone iOS). Cette bibliothèque contient le code relatif aux publications CVMP2012, ACCV 2012 et IPOL 2012. La qualité de ce projet est évaluée dans le temps par une machine d’intégration continue et une série de tests unitaires garantissant la non régression des fonctionnalités délivrées. 2.1.4 Participation à la vie scientifique Récompenses : • Le 31/10/2011 le groupe Imagine remporte le premier prix du PROVISG Mars 3D Challenge. La compétition portant sur 3 thématiques : 1. la reconstruction de cartes de disparité, 2. la reconstruction de trajectoires de caméras à partir d’images acquises par un robot, 3. la reconstruction 3D de la géométrie de la scène observée par le robot (cf. figure 2.6), nous a désignés vainqueurs parmis les 6 équipes participantes. Les évaluations ont été réalisées sur des images du CNES et du robot martien «MER Mars Exploration Rovers», fournies par le comité organisateur (le CMP (Center for Machine Perception) de l’université CTU de Prague).34 2–Introduction FIGURE 2.6 – Exemple de la reconstruction 3D d’un artefact de la planète Mars que nous avons pu réaliser à partir d’images du robot MER fournies par le comité organisateur. Les résultats ont été présentés à la conférence ICCV en 2011 au groupe de travail «CVVT :E2M – Computer Vision in Vehicle Technology : From Earth to Mars» et publié dans le journal de la conférence. Je tiens à remercier David Ok, Victoria Rudakova et Pascal Monasse sans qui cette aventure n’aurait pas été couronnée de succès et aussi Gerhard Paar, Rongxing (Ron) Li et Tomas Pajdla pour leur accueil à l’université de Columbus et au JPL Nasa pour la présentation des résultats. • Vainqueur du prix NVIDIA pour le meilleur papier court à la conférence CVMP 2013 pour le travail intitulé ’Global Multiple View Color Consistency’. Encadrement de stages : • Badis Djellab étudiant ENPC : Stage réalisé au laboratoire Imagine sur l’estimation multi-modèle en utilisant les méthodes de J-Linkage (TOLDO et FUSIELLO 2008). Étude de l’impact de la suppression a contrario de modèle non-significatif pour accélérer et estimer avec plus de précision le nombre de modèles à identifier. • Bruno Duisit étudiant Polytech Paris Sud (Université Paris XI) : Stage réalisé au sein de l’entreprise Mikros Image sur la modélisation 3D à partir d’une image dans le logiciel Maya et la réalisation d’une interface de visualisation et édition de graphes d’images. • Tristan Faure et Luc Girod étudiants ENSG : Stage réalisé au laboratoire Imagine sur la mise en place d’un protocole d’acquisition de vérité terrain pour une évaluation des méthodes de photogrammé- trie. • Emmanuel Habbets étudiant ENSG : Stage réalisé au laboratoire Imagine sur le calcul et la fusion de cartes de disparité. Implémentation partielle d’une chaîne de traitement similaire aux travaux de TOLA et al. (2012). • Rafaël Marini Silva étudiant de l’école polytechnique : Stage réalisé sur les méthodes de recherche de plus proches voisins parmi de larges collections d’images. Implémentation d’un moteur de recherche basé sur la quantification d’espace descriptif (JEGOU et al. 2011). • Lucas Plaetevoet étudiant ENPC : Stage réalisé au laboratoire Imagine sur la fusion d’acquisition de nuage de points issus de capteur de type Kinect (lumière structurée).2.1–Organisation et contributions du manuscrit 35 Encadrement salarié : • Bruno Duisit (Mikros Image) : Encadrement de Bruno sur la thématique du projet MiMatte3D (cf. section 2.1.2). Relecteur : Relecteur pour le journal en ligne IPOL http://www.ipol.im. 2.1.5 Publications de l’auteur • Revue internationale : Automatic Homographic Registration of a Pair of Images, with A Contrario Elimination of Outliers. L Moisan, P Moulon, P Monasse. IPOL 2012. • Conférence internationale avec actes : Global Fusion of Relative Motions for Robust, Accurate and Scalable Structure from Motion. P Moulon, P Monasse, R Marlet. ICCV 2013. Adaptive Structure from Motion with a contrario model estimation. P Moulon, P Monasse, R Marlet. ACCV 2012. • Démonstration en conférence internationale : Adaptive model estimation, a real time demonstration. P Moulon, P Monasse, R Marlet. ACCV 2012. • Conférence internationale avec comité de relecture : Global Multiple-View Color Consistency. P Moulon, D Bruno, P Monasse. CVMP 2013. (Vainqueur du prix NVIDIA pour le meilleur papier court). Unordered feature tracking made fast and easy. P Moulon, P Monasse. CVMP 2012. • Conférence nationale avec comité de relecture : La bibliothèque openMVG : open source Multiple View Geometry. P Moulon, P Monasse, R Marlet. Orasis, Congrès des jeunes chercheurs en vision par ordinateur 2013. Estimation robuste de modèles a contrario, impact sur la précision en structure from motion. Présentation orale. P Moulon, P Monasse, R Marlet. ISS France 2013. • Groupe de travail : L’utilizzo di tecniche structure from motion e imagebased modelling in ambienti estremi. P Moulon, Nicolò Dell’Unto, A Bezzi, L Bezzi, Rupert Gietl. Low Cost 3D 2012. Python Photogrammetry Toolbox : A free solution for Three-Dimensional Documentation. P Moulon, A Bezzi. ArchoFoss 2011. • Bibliothèque open source : OpenMVG Open-source MultipleViewGeometry 2012. https://github.com/ openMVG/openMVG.36 2–Introduction37 Chapitre 3 La géométrie multiples vues et l’estimation de mouvements Lorsqu’une scène est photographiée sous plusieurs points de vue, la connaissance du déplacement apparent des éléments de la scène à travers la série d’images permet de retrouver le déplacement de l’appareil photographique et d’obtenir une représentation 3D de la scène observée : on parle alors de SfM Structure from Motion. Ce chapitre présente : 1. le modèle projectif classique de caméra, 2. une série de relations géométriques formulées à partir de correspondances de points homologues entre photographies, 3. comment détecter et suivre des éléments à travers une série d’images. Sommaire 3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2 La géométrie caméra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.3 La géométrie à 2 vues . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.4 La géométrie à 3 vues . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.5 La triangulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.6 L’estimation de pose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.7 L’ajustement de faisceaux . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.8 La géométrie multiples-vues et l’estimation de mouvements . . . . . 49 3.9 La mise en correspondances de points saillants . . . . . . . . . . . . . 51 3.9.1 La détection de points saillants . . . . . . . . . . . . . . . . . . . 52 3.9.2 La description de point saillants . . . . . . . . . . . . . . . . . . 53 3.9.3 L’appariement de point saillants . . . . . . . . . . . . . . . . . . 54 3.10 Méthode de fusion rapide de paires de correspondances de points saillants entre images . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.10.1 Une solution ensembliste pour la construction de traces de points saillants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.11 Contributions de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . 6338 3–La géométrie multiples vues et l’estimation de mouvements 3.1 Notations Dans les sections suivantes nous allons travailler avec des coordonnées définies dans un espace cartésien ou projectif. En géométrie projective, les coordonnées homogènes rendent les calculs possibles dans l’espace projectif comme les coordonnées cartésiennes le permettent dans l’espace euclidien. Les coordonnées homogènes d’un point de l’espace projectif de dimension n (x,y,z,...) sont écrites habituellement comme un vecteur de longueur n + 1 (x,y,z, ... , w). Deux ensembles de coordonnées qui sont proportionnels dénotent le même point d’espace projectif : pour tout scalaire non-nul c, (cx, cy, cz,..., cw) est équivalent à (x, y,z,w). La coordonnée w = 0 permet de représenter un élément à l’infini. Le passage de coordonnées homogènes à des cordonnées carté- siennes est réalisé en divisant les n premiers éléments par le n+1 e , soit w. Un point 3D en coordonnées homogènes X4×1 = {X(1),X(2),X(3),X(4)} est repré- senté en coordonnées cartésiennes X3×1. Pour tout W différent de 0, on obtient l’équation : X = (X(1)/W,X(2)/W,X(3)/W) T X ∼ ( ∼ X, ∼ Y, ∼ Z,1) T , (3.1) avec ∼ définissant l’égalité à une échelle 1 W près avec W = X(4). De la même manière, un point 2D en coordonnées homogènes x3×1 = {x(1),x(2),x(3)}, est en relation avec son équivalent en coordonnées cartésiennes x2×1 : x = (x(1)/w,x(2)/w) T x ∼ ( ∼ x, ∼ y,1) T (3.2) avec ∼ définissant l’égalité à une échelle 1 w près avec w = x(3). Notations complémentaires x Un point en coordonnées cartésiennes x Un point en coordonnées homogènes {A} Une liste d’éléments de type A [A] Une liste ordonnée d’éléments de type A (A,B) Couple d’éléments associés, ici un 2-uplet R Matrice de rotation t Vecteur de translation C Position du centre de projection d’une caméra K Matrice des paramètres intrinsèques d’une caméra Xj Point 3D d’index j x i j Projection du point 3D Xj dans l’image i tr Déplacements apparents des projections des points {Xj}j dans une série d’images GA Graphe entre élements de type A R k i k e ligne de la matrice de rotation de l’image i t k i k e composante du vecteur de translation de l’image i x i j (k) k e composante du point x i j3.2–La géométrie caméra 39 3.2 La géométrie caméra Un sténopé modélise un appareil photographique comme un système réalisant la projection centrale d’une scène en 3 dimensions en 2 dimensions. Une image est le ré- sultat d’une intégration de rayons lumineux observés sur une surface sensible durant un court intervalle de temps à travers une série de lentilles. Lorsque ce système optique est approximé par une seule lentille, on obtient un modèle simple de projection perspective, le modèle sténopé. Dû au fait que l’ensemble des rayons lumineux observés passe par un seul et unique point (le centre de projection) ces caméras sont souvent appelées pinhole. FIGURE 3.1 – Illustration d’une caméra sténopé. Un point 3D X est projeté en x sur un plan image par une projection centrale. On appelle paramètres extrinsèques, la transformation rigide [R|t] entre le repère monde O et la position de la caméra C. Pour simplifier le plan image est ici montré en avant du centre optique C. Sur une caméra réelle ce plan image est situé derrière le centre optique et tourné à 180◦ . Ce système d’acquisition peut être réduit à deux composantes principales : – un système optique permettant de réaliser la projection de la scène observée sur un plan focal : R 3 → R 2 . – une surface photo-sensible qui capte les densités de photons par pixels pour former une image. Une caméra sténopé transforme un point X de R 3 en un point image x de R 2 à travers deux opérations : Un changement de repère. Soit Xc un point monde défini dans le repère de la caméra : Xc = R t 0 1 X (3.3) Cette relation de passage entre le repère monde et le repère local caméra dépend de 6 degrés de liberté que l’on appelle les paramètres extrinsèques : – 3 degrés de liberté pour l’orientation de la caméra : une matrice de rotation R3×3, – 3 degrés de liberté pour la translation, décrite par le vecteur t3×1, t représente la position de l’origine monde O dans le repère caméra. La position C du centre optique de la caméra est donc C = −R T t.40 3–La géométrie multiples vues et l’estimation de mouvements Une projection et une mise à l’échelle. La transformation réalisée par l’optique et la géométrie du capteur est modélisée par les paramètres intrinsèques définis par le biais de 6 paramètres par une matrice K×3. Cette matrice dite de calibration ou bien calibrage, peut s’écrire comme suit : K =   f ku s cu f kv cv 1   (3.4) Soit : – f la distance focale, distance du centre optique au plan focal, – s, ku et kv des facteurs d’échelles, – c : (cu, cv) le point principal modélise le décalage de l’origine, Un point 3D en repère caméra Xc a pour correspondant x image : x = [K|0]Xc = K R t 0 1 X (3.5) Ainsi un point x en repère image est transformé en un rayon en repère caméra xˆ comme suit : xˆ = K −1 x (3.6) Pour simplifier nous utiliserons c au centre de l’image de taille w×h et des pixels carrés sur la surface photo sensible (ku = kv = 1 et s = 0) : K =   f w/2 f h/2 1   (3.7) Finalement ces deux transformations peuvent être combinées en une seule opération matricielle. Un point X exprimé dans le repère monde est donc relié à sa projection image x par la formule suivante : x = PX (3.8) Avec P = K[R|t] une matrice de projection de taille 3×4. On néglige ici la distorsion causée par l’optique. Nous invitons le lecteur à consulter les travaux de (BROWN 1966) pour plus de détails.3.3–La géométrie à 2 vues 41 3.3 La géométrie à 2 vues Homographie Lorsqu’un objet est plan, il est possible de définir une transformation exacte entre les points homologues x et x ′ . La transformation la plus générale pour ce couple de points (x, x ′ ) est appelée homographie. L’homographie désigne une classe de transformations projectives qui conservent les alignements. Si tous les points appartiennent à un même plan, alors les projections obtenues dans les images conservent leur alignement (cf. figure 3.2). L’image d’une ligne reste donc une ligne. La fonction de passage entre les coordonnées de l’observation dans l’image gauche et droite (x, x ′ ), est définie par une transformation homographique H. x ′ = Hx (3.9) H est une matrice de transformation : – projective 2D linéaire conservant les alignements, – inversible entre les plans projectifs. On peut donc écrire : x = H −1 x ′ . (3.10) – de taille 3×3 définie à un facteur près qui lui confère 8 degrés de liberté. La matrice H étant définie à un facteur d’échelle près et chaque couple de points homologues fournissant 2 équations indépendantes sur H, quatre points homologues sont nécessaires pour définir de manière unique les huit paramètres indépendants de l’homographie. Certaines configurations de points peuvent mener à des cas dégénérés, nous invitons le lecteur à lire MOISAN et al. (2012) pour les détecter. FIGURE 3.2 – La relation homographique établit une relation point à point entre les images d’une surface plane dans plans images. Note : Lorsqu’une caméra effectue un mouvement de rotation autour de son centre optique (le point nodal), les images acquises sont reliées par des homographies. Ce mouvement particulier de caméra permet la construction d’images panoramiques.42 3–La géométrie multiples vues et l’estimation de mouvements La matrice essentielle et la géométrie épipolaire La notion de matrice essentielle E a été proposée par LONGUET HIGGINS (1981). La matrice E modélise le changement de repère entre deux caméras : une rotation R et une translation t. Cette géométrie repose sur la géométrie épipolaire qui associe à un point x une droite l ′ (x), notée l ′ pour simplification. Cette droite, dite ligne épipolaire, est située à l’intersection du plan image droit et du plan épipolaire défini par les points C, C ′ et x. l ′ est ainsi l’observation du rayon −→CX par la caméra C ′ . Toutes les lignes épipolaires ont un point commun, la projection du centre optique de l’autre caméra. Ces points sont appelés épipôles et sont notés e, e ′ respectivement pour la caméra gauche et droite. FIGURE 3.3 – Relation épipolaire entre deux images. Étant donné une projection x d’un point 3D X, sa projection x ′ dans l’image droite est restreinte à la ligne épipolaire correspondante l ′ . La contrainte épipolaire est traduite par l’utilisation de la matrice essentielle E. Cette matrice permet de mettre en relation une correspondance de point entre deux images. Soit deux caméras P = [I|0] et P ′ = [R|t]. Étant donné un point X en coordonnée euclidienne dans le repère de la caméra gauche, sa position dans le repère de la caméra droite est : X ′ = RX +t (3.11) Une pré-multiplication par X T [t]× permet d’obtenir : X T [t]×RX′ = X TEX′ (3.12) ou E ∼ [t]×R est une matrice 3×3 et t est un vecteur de taille 3. [t]× est la représentation matricielle du produit vectoriel (cross product matrix). Il est intéressant de noter que la relation 3.12 est aussi utilisable avec des correspondances en repère caméra : xˆ′ T Exˆ = 0 (3.13) E possède 5 degrés de liberté car elle dépend seulement de R et de la direction de translation t. Multiplier t par un facteur d’échelle revient à multiplier E par le même facteur, ce qui exprime les mêmes contraintes. La matrice essentielle peut être identifiée à partir de 8 correspondances si l’on utilise la formulation générale x ′TEx = 0 sans contraintes de structure de la matrice E et 5 points si l’on utilise des matrices de calibration connues cf. (NISTÉR 2004 ; LI et HARTLEY 2006).3.3–La géométrie à 2 vues 43 La matrice fondamentale La géométrie épipolaire a notamment été étudiée par LUONG (1992) et FAUGERAS (1992). Pour toute correspondance entre deux images on peut reprendre l’équation 3.13 : xˆ′ T Exˆ = 0 et l’écrire en considérant des points images (en coordonnées image, pixels) : (K −1 r x ′ ) TE(K −1 l x) = 0, x ′T (K −T r EK −1 l )x = 0, x ′T Fx = 0, (3.14) ou F ∼ K′−TEK−1 est la matrice fondamentale. F est définie de taille 3×3 à un facteur multiplicatif près, de rang 2, ce qui lui confère donc 7 degrés de liberté. Cette matrice établit une relation point-ligne tout comme la matrice essentielle. La matrice F peut être estimée à partir de 8 correspondances HARTLEY (1997a) ou à partir de 7 correspondances en forçant a posteriori la contrainte de rang (TORR et MURRAY 1997). Cette dernière méthode est la solution dite minimale et identifie de 1 à 3 solutions pour un échantillon de 7 correspondances. La géométrie épipolaire fournie par la matrice F est particulièrement intéressante car elle établit une relation entre des points en géométrie image. Les paramètres intrinsèques ne sont pas nécessaires pour vérifier la consistance géométrique d’une paire de points. Les épipôles étant les points d’intersection de toutes les droites épipolaires, ils défi- nissent aussi le noyau de F : Fe = 0 et F T e ′ = 0.44 3–La géométrie multiples vues et l’estimation de mouvements 3.4 La géométrie à 3 vues La géométrie d’un triplet d’images peut être représentée par un tenseur tri-focal T (HARTLEY 1997b). T définit les relations épipolaires entre trois vues indicées i, j, k par une matrice cube de taille 3×3×3. Un point x est mis en correspondance avec ses deux lignes épipolaires correspondantes : l ′ , l ′′ (cf. figure 3.4) : ∑ i jk x(i)l ′ j l ′′ k T jk i (3.15) Ce tenseur est une généralisation du concept de la matrice fondamentale à un ensemble de trois vues. Soit trois matrices de projections : P1 = [Id|0], P2 = [a i j ] et P3 = [b i j ]. Le tenseur trifocal est défini ainsi : T jk i = a j i b k 4 −a j 4 b k i | i, j, k = 1,2,3 (3.16) avec i j une entrée de la matrice tel que i désigne la ligne et j la colonne. FIGURE 3.4 – Les relations épipolaires existantes au sein d’un tenseur tri-focal T. Une des propriétés les plus importantes du tenseur tri-focal est que la formulation du tenseur permet d’établir des relations linéaires entre des lignes et points en correspondances entre les trois images. Des contraintes tri-linéaires sont exprimables pour les relations suivantes : ligne-ligne-ligne point–ligne–ligne point–ligne–point point–point-point Une autre particularité du tenseur tri-focal par rapport aux tenseurs à deux vues (bifocaux), telle que la matrice fondamentale, est la relation de transfert. Cette relation de transfert permet d’identifier des points manquants lors de mises en correspondances.3.5–La triangulation 45 Supposons qu’une correspondance est connue (x i ↔ x j ) mais que le point correspondant dans la troisième image x k ne l’est pas. L’utilisation de la contrainte point-ligneligne pour x i et x j identifie alors par intersection le point x k . Il est situé à l’intersection des deux lignes épipolaires l ′′ et l ′′′ . 3.5 La triangulation La triangulation est le procédé de calcul d’un point 3D X d’après ses observations images x i et des matrices de projections Pi . Idéalement le point 3D X est situé à l’intersection des rayons −→ Cix i . Étant donné que les données sont le plus souvent bruitées, les rayons ne s’intersectent pas en pratique : cf. figure 3.5. Le candidat X est alors choisi comme le point ayant les plus faibles erreurs de re-projection entre les projetés images Pi(X) et les points de mesures x i : minimiser X n ∑ i=1 x i −PiX 2 (3.17) avec n le nombre de vues considérées. Cependant une formulation directe menant à cette solution n’est pas évidente à mettre en place. Souvent une solution approximative est calculée, puis les erreurs résiduelles sont minimisées par itérations de l’algorithme de Levenberg-Marquardt (cf. (HARTLEY et ZISSERMAN 2000)). FIGURE 3.5 – La triangulation : Calcul du point X en fonction des caméras Pi et reprojections images. A cause du bruit de mesure, le point X n’est pas aisé à identifier. On note dans la littérature une série de méthodes pour trouver un candidat X dans le cas à deux vues (cf. figure 3.6) : Point milieu On recherche un point X situé sur le segment le plus court entre les deux rayons −→ Cix i . Ce segment est identifié grâce à la droite orthogonale aux deux rayons considérés. Le point 3D recherché est alors situé au milieu de ce segment. Optimisation linéaire ou dite de minimisation algébrique. Avec l’utilisation des coordonnées homogènes on peut utiliser le fait que les vecteurs x i sont colinéaires à PiX pour écrire : [x i ]×PiX = 0 (3.18) Cette équation peut être réécrite sous une forme solvable aux moindres carrés : AX = 0 (3.19)46 3–La géométrie multiples vues et l’estimation de mouvements avec A une matrice 3n×4, n le nombre de vues et X un point visible (situé devant les caméras). La solution en coordonnée homogène est calculée en minimisant ||AX|| sujet à ||X|| = 1 pour éviter la solution triviale X = 0 (cf. Triangulation DLT (Direct Linear Transform) : HARTLEY et ZISSERMAN (2000)). Optimisation itérative une solution initiale est identifiée puis optimisée de manière itérative (LINDSTROM 2010). Optimale le point X est recherché en minimisant une erreur géométrique : les erreurs résiduelles. On minimise l’équation 3.17 directement (KANATANI et al. 2008). Cette méthode est dite méthode gold-standard (cf. (HARTLEY et ZISSERMAN 2000)). FIGURE 3.6 – De gauche à droite, de haut en bas. Situation théorique, point milieu, méthode linéaire, méthode optimale. Limitations Les méthodes DLT sont le plus couramment utilisées dans le cas de la triangulation à n vues, car identifier une solution optimale de manière directe implique des équations complexes qui sont non triviales à résoudre. Des solutions optimales ont été exprimées pour le cas à deux et trois vues (BYRÖD et al. 2007), mais pas au delà. Perspectives HARTLEY et SCHAFFALITZKY (2004a) proposent une formulation quasi-convexe du problème qui permet d’identifier X par minimisation de la norme l∞ des erreurs résiduelles. Cette formulation minimisée par bissection permet de vérifier l’existence d’une solution et de garantir que la solution calculée est optimale par rapport au critère d’ajustement utilisé (la norme l∞ des erreurs de re-projection).3.6–L’estimation de pose 47 3.6 L’estimation de pose Étant donné des correspondances entre des points 3D Xj et les points images 2D xj , on cherche à identifier la matrice de caméra P optimale (cf. figure 3.7). On recherche ainsi la pose (orientation et position) de la caméra qui fait que les rayons −−→CXj passent au plus près possible des m points 2D xj projections des Xj . minimise P m ∑ j=0 xj −PXj 2 (3.20) Ce problème appelé Perspective-n-Point est traité en fonction du nombre de degrés de liberté de la pose : 1. Le cas non calibré : la matrice P de taille 3 × 4 est à identifier. 12 degrés de liberté sont à estimer. Une formulation linéaire de l’équation (3.20) permet de trouver aux moindres carrés une matrice P possible à partir de 6 correspondances 2D-3D (HARTLEY et ZISSERMAN 2000). 2. Le cas calibré (la matrice de calibration K est connue) : 6 degrés de liberté sont ainsi à identifier : 3 pour l’orientation R et 3 pour la position t de la caméra. La connaissance a priori de la matrice de calibration permet de réduire le nombre de correspondances nécessaires. Trois correspondances sont suffisantes pour identifier un ensemble de solutions possibles (GAO et al. 2003 ; KNEIP et al. 2011). Le lecteur est invité à consulter LEPETIT et al. (2009) pour une liste plus exhaustive de différentes méthodes qui, à partir de n correspondances, estiment la pose [R|t] de la caméra (méthodes PnP (Perspective-n-Point)). FIGURE 3.7 – L’estimation d’une pose de caméra (une orientation et position) est déterminée à partir de n correspondances 3D-2D.48 3–La géométrie multiples vues et l’estimation de mouvements 3.7 L’ajustement de faisceaux L’ajustement de faisceaux, Bundle Adjustment, est un processus d’optimisation non linéaire. On souhaite optimiser un vecteur de paramètres pour réduire une fonction d’objectif donné. Dans notre cas la fonction objectif vise à réduire les erreurs résiduelles de re-projection de la structure Xj aux mesures images x i j . x i j étant la projection du point 3D Xj dans l’image i. Le vecteur de paramètres est défini par une configuration initiale : les paramètres des caméras {Pi}i et la structure de la scène {Xj}j . Cette minimisation est réalisée par utilisation d’une procédure itérative, l’algorithme de Levenberg-Marquardt. Un vecteur p de départ représentant la configuration des paramètres est initialisé. A chaque itération, on remplace p par une nouvelle estimation p + q, q étant déterminé pour réduire la fonction objectif à minimiser. Lorsque la fonction objectif ne varie plus ou que le vecteur de paramètres est stable l’algorithme est arrêté. Une convergence vers la solution optimale est observée si le vecteur de départ n’est pas trop éloigné de la solution. Par contre, si la solution initiale est éloignée, une solution locale peut être identifiée. Le problème d’ajustement de faisceaux est donc posé pour réduire la fonction coût suivante : minimise {Pi}i ,{Xj}j m ∑ j=0 n ∑ i=0 x i j −PiXj 2 (3.21) avec n le nombre de matrices de projection P et m le nombre de points 3D considérés dans la scène. FIGURE 3.8 – L’ajustement de faisceaux : Une minimisation non linéaire des paramètres de projection des caméras et de la structure 3D de la scène est réalisée pour réduire les erreurs de re-projection résiduelles observé en domaine image. Une synthèse complète sur l’ajustement de faisceaux est proposée par TRIGGS et al. (2000). Ce problème d’optimisation peut être résolu avec l’usage de matrices parcimonieuses (LOURAKIS et ARGYROS 2004). WU et al. (2011a) proposent une implémentation parallèle (GPU ou CPU) et AGARWAL et MIERLE (2012) proposent une implémentation parallèle générique pouvant utiliser une norme robuste pour éviter l’influence de mesures aberrantes : Ceres-solver. Ceres présente l’avantage d’être générique, la spécifica-3.8–La géométrie multiples-vues et l’estimation de mouvements 49 tion des variables et la fonction objectif intervenant dans un problème non-linéaire sont très facilement paramétrables, ce qui facilite l’implémentation de l’équation (3.21). 3.8 La géométrie multiples-vues et l’estimation de mouvements Les techniques de structure à partir du mouvement, Structure-from-Motion, estiment le déplacement d’une caméra ou d’un appareil photographique et reconstruisent la structure de la scène à partir d’une séquence d’images. Soit la séquence d’images Ij , j ∈ {0,n}. Le procédé est le suivant : des éléments (ou primitives, par exemple des points saillants 2D) sont détectés puis suivis à travers l’ensemble des images : x i j . La visibilité des points 3D Xj image est ainsi connue. Les techniques de SfM cherchent alors à identifier des caméras Pi ainsi qu’une structure Xj représentant au mieux les données de visibilité x i j . C’est un problème d’optimisation ou l’on cherche à minimiser la somme des erreurs résiduelles en domaine image, l’équation (3.21), ou intervient n images et m points 3D. Ces erreurs résiduelles mesurent la précision de la reconstruction : l’adéquation entre la structure, les positions de caméra et les mesures images. Ces erreurs de re-projections, appelées erreurs résiduelles, représentent la distance entre les observations x i j images et la re-projection des points 3D Pi(Xj) reconstruit. FIGURE 3.9 – Illustration de la problématique de SfM. A partir de correspondances entre images relatant des projections de points 3D commun, il s’agit d’identifier la structure et les positions et orientations des clichés dans l’espace.50 3–La géométrie multiples vues et l’estimation de mouvements On note trois grandes catégories d’algorithmes de Structure-from-Motion (cf. figure 3.10) : 1. Les méthodes séquentielles, Sequential SfM : La méthode de reconstruction fait naître une première graine 3D, une reconstruction initiale créée à partir de deux vues, puis la méthode fait croître cette reconstruction en agrégeant les images restantes par estimation de pose. Des itérations répétées d’ajustement de faisceaux sont utilisées pour limiter les effets de dérive et d’accumulation d’erreurs. On distingue deux sous cas en fonction de la manière d’établir les correspondances visuelles considérées entre images : Dans le cas de séquences d’images ordonnées : Les images sont traitées les unes après les autres dans leur ordre d’arrivée : odométrie visuelle ou SLAM (communauté robotique). Les traces sont construites de proche en proche à chaque arrivée d’image. Dans le cas de séquences d’images non ordonnées : Les images sont traitées dans leur ensemble pour construire les correspondances visuelles et identifier les traces. 2. Les méthodes hiérarchiques, Hierarchic SfM : Les images sont traitées par sous ensembles et sont fusionnées de manière hiérarchique afin de reconstruire l’intégralité de la scène. 3. Les méthodes globales, Global SfM, Batch SfM : Les images sont traitées dans leur ensemble. On distingue ici deux méthodes : – Factorisation, Batch SfM : On recherche les matrices de projection et la structure de la scène simultanément, – Global SfM : Supposant les paramètres intrinsèques connus (une caméra calibrée) le problème de SfM est découpé en deux sous tâches. D’abord les rotations globales sont identifiées pour toutes les images puis dans un second temps la structure et les translations des caméras sont identifiées. FIGURE 3.10 – Illustration du processus des méthodes de SfM, de haut en bas, séquentielle, hiérarchique et globale. Chaque point noir implique une reconstruction 3D ou un assemblage de reconstructions 3D.3.9–La mise en correspondances de points saillants 51 3.9 La mise en correspondances de points saillants L’extraction de caractéristiques visuelles, visual features extraction, consiste en des transformations mathématiques calculées sur les pixels d’une image numérique. Ces transformations permettent de mettre en évidence des éléments saillants possédant certaines propriétés visuelles de l’image et de rechercher si des images possèdent du contenu en commun localement similaire. Cette mise en correspondances photomé- trique est réalisée en trois étapes principales : 1. La détection : Une prise de décision locale en chaque point de l’image détermine si la zone de l’image présente une caractéristique intéressante. Les zones mises en évidence représentent des sous-ensembles du domaine de l’image, souvent sous la forme de points isolés, de segments, de courbes continues ou de régions. 2. La description : Une zone locale est utilisée autour de chaque zone d’intérêt pour construire une signature venant décrire la région autour du point d’intérêt. 0 .2 0 .5 … 0 .2 0 .6 0 .1 0 .2 … 0 .5 0 .1 0 .6 0 .3 … 0 .3 0 .1 3. L’appariement : Une comparaison des signatures entre deux images permet d’identifier les zones similaires et ainsi d’identifier des points saillants images d’un même point 3D de la scène observée. Le résultat de la phase d’appariement est utilisé par de nombreuses applications en vision par ordinateur : – la reconnaissance et le suivi d’objets, – l’assemblage d’images panoramiques, – la stabilisation vidéo, – la reconstruction 3D et l’odométrie visuelle.52 3–La géométrie multiples vues et l’estimation de mouvements 3.9.1 La détection de points saillants Il est primordial que la détection de points saillants dans une image soit le plus robuste possible. L’invariance à certaines transformations comme la translation, la rotation et l’échelle permettront ainsi d’établir avec plus de succès les futures étapes d’appariements de points, et donc la robustesse des correspondances établies avec le déplacement de la caméra. Plus un détecteur sera à même d’exhiber des points localisés pré- cisément d’une image à l’autre plus il sera pertinent. Plusieurs catégories de détecteurs sont identifiables : – les bords, edges, curves (Canny, LSD, ...), – les coins, corners (Harris, Fast, ...), – les régions, blobs (Sift, Surf, Kaze, Mser, ...). De nombreuses approches ont été proposées pour améliorer la robustesse et la répé- tabilité de la détection de points saillants. L’une des premières approches a avoir été largement utilisée est le détecteur de coins de HARRIS et STEPHENS (1988), invariant à l’orientation de la structure détectée. LINDEBERG (1998) a ensuite proposé une repré- sentation en espace échelle linéaire des images qui permet de définir une famille de détecteurs de structures invariantes par changement d’échelle. L’utilisation de cet espace échelle a été généralisé à la détection de coins par Harris-Laplace (MIKOLAJCZYK et SCHMID 2001) et à la détection de blobs avec l’utilisation de différences de gaussiennes par LOWE (1999). En définissant un point d’intérêt comme un extremum local de la représentation en espace-échelle, ces approches permettent d’attribuer à ce point une échelle caractéristique. Ces approches sont souvent coûteuses en calcul à cause de la construction de l’espace échelle. Certaines approximations sont alors réalisées, au détriment de la précision de localisation des zones saillantes, mais au profit de gains de calculs non négligeables. L’utilisation d’images intégrales par la méthode SURF (BAY et al. 2006) permet de réduire la consommation mémoire et de réaliser les opérations de filtrage de manière très efficace. L’exploration de nouveau espace échelle mené par ALCANTARILLA et al. (2012) démontre de meilleures stabilités sur les détections réalisées et laisse envisager un détecteur encore plus performant (proche du temps réel : ALCANTARILLA et al. (2013)). FIGURE 3.11 – Une image i est décrite par un ensemble j de points saillants : {P i j }i, j . Dans le cas de SIFT une position, une orientation et une échelle caractéristique sont extraits par points.3.9–La mise en correspondances de points saillants 53 3.9.2 La description de point saillants Afin de retrouver les observations image x i j d’un même point 3D Xj parmi une sé- quence d’images, il est nécessaire d’identifier chaque observation image de manière unique. Pour cela, chaque point est décrit par une signature. Cette signature définit un ensemble de caractéristiques, un descripteur local qui est une représentation compacte du voisinage du point d’intérêt (cf. figure 3.12). 0 .2 0 .5 … 0 .2 0 .6 0 .1 0 .2 … 0 .5 0 .1 0 .6 0 .3 … 0 .3 0 .1 FIGURE 3.12 – Chaque points saillants : {P i j }i, j est décrit par une transformation de la zone image locale l’entourant : {desc(P i j )}i, j . Une solution simple, mais peu robuste, consiste à extraire un patch centré sur le point d’intérêt. Mais le support d’invariance de ce type de descripteur est faible et limite donc son usage. La robustesse de la description locale des points saillants peut être améliorée en supportant l’invariance à des transformations géométriques et aux changements d’éclairement. LOWE (1999) propose une représentation locale appelée SIFT. Ce descripteur SIFT est composé d’histogrammes d’orientation du gradient. Ces histogrammes sont estimés à partir de régions distinctes du voisinage normalisé et centré de chaque point d’intérêt considéré. Il a été montré par MIKOLAJCZYK et SCHMID (2005) que ce type de descripteur est très robuste à différents phénomènes, tels que : bruit, compression JPEG, changement d’éclairement, rotation et changement d’échelle. Ce type de descripteur est très utilisé pour les applications de recherche par le contenu et la photogrammétrie car il possède une répétabilité élevée. Un inconvénient majeur des descripteurs de type SIFT est l’occupation mémoire. On construit en effet un descripteur de 128 valeurs flottantes par point d’intérêt. Cet espace de relativement haute dimension n’est pas idéal pour les calculs sur des collections d’images à large échelle. Des alternatives permettent de réduire la taille des signatures en utilisant des signatures binaires. Ces signatures ont l’avantage d’être plus compactes en mémoire et de proposer un espace de faible dimension. Leur dimension étant plus faible, la phase d’appariement sera réalisée de manière plus rapide. STRECHA et al. (2012) projettent les descripteurs SIFT en une représentation compacte via une matrice de projection apprise par machine-learning. CALONDER et al. (2012) calculent nativement un descripteur binaire par l’utilisation du signe de la différence de couple de points sur une grille autour du point d’intérêt. Idéalement on souhaite disposer de détecteurs et descripteurs de points d’intérêt ayant les qualités suivantes : – invariance de détection en translation, rotation et échelle, – invariance aux variations d’éclairement (luminosité, contraste), – un critère suffisamment local pour gagner en robustesse aux occultations mais suffisamment large pour décrire suffisamment de contenu. L’ajout de nouveaux degrés d’invariance tend à créer des faux positifs lors de l’établissement de correspondances, car plus on devient invariant plus les points ont de chance de se ressembler. C’est pourquoi lors de conditions d’acquisition contrôlée (comme c’est le cas avec des robots mobiles), l’invariance en rotation n’est pas considérée. En considérant une orientation verticale, des appariements plus stables seront ainsi identifiés.54 3–La géométrie multiples vues et l’estimation de mouvements 3.9.3 L’appariement de point saillants Soit deux images, A et B, représentées par un ensemble de points saillants et descripteurs. La phase d’appariement consiste à identifier les points ayant une forte similarité entre les deux images. On note NA le nombre de points d’intérêts de l’image A et NB ceux de l’image B. Pour chaque point saillant de A on recherche les points les plus similaires de B. Cette mesure de ressemblance est réalisée par l’utilisation d’une métrique entre les descripteurs liés aux points. Les NB distances sont évaluées pour chaque point de A dans B. Cet ensemble présentant de nombreuses fausses hypothèses, il convient d’utiliser un critère de rejet basé sur l’analyse des distances calculées pour retenir uniquement les distances les plus vraisemblables (cf. figure 3.13). L’étape d’appariement nécessite trois éléments : – la recherche de plus proches voisins pour obtenir les correspondances hypothèses, – l’utilisation d’une métrique pour mesurer la similarité d’une correspondance, – l’utilisation d’une politique de rejet pour valider une correspondance. FIGURE 3.13 – Appariements : les points les plus similaires de l’image A (gauche) sont recherchés dans l’image B droite. Un filtre est utilisé pour déterminer de tous les candidats possibles si une correspondance est dominante ou non. La recherche de plus proches voisins pour chaque point d’intérêt est un problème coûteux. La méthode naïve teste de manière exhaustive toutes les possibilités et les ordonne par distance. Cette méthode est dite de force brute, Brute force. Des méthodes de calculs approchées identifient les k plus proches voisins d’un descripteur plus rapidement. Ces méthodes approchées, ANN, Approximate Nearest Neighbour, répartissent les descripteurs suivant leur ressemblance dans un arbre binaire (KD-TREE) (MUJA et LOWE 2009). Cet arbre binaire permet un parcours rapide pour évaluer quel sousensemble de l’arbre est le plus similaire à un élément donné en requête. Ce partitionnement permet de limiter le nombre de candidats sur lesquels la métrique est évaluée lors d’une opération de recherche et d’identifier rapidement k voisins. La complexité de recherche sur de larges ensembles de descripteurs est réalisable au prix d’une légère dégradation des performances en précision de calcul, qui est fonction de la taille du groupe considéré et des paramètres de l’arbre de partition. La métrique est choisie en fonction du type de descripteurs utilisés :3.9–La mise en correspondances de points saillants 55 Euclidienne d(x, y) := kx−yk2 pour des descripteurs composés de valeurs réelles, Hamming d(x, y) = ∑(x⊕y) pour des descripteurs composés de valeurs binaires, EMD Earth Mover Distance pour des descripteurs circulaires (cf. RABIN (2009)). Le critère de rejet permet de réduire avec une heuristique les fausses hypothèses parmi les correspondances établies précédemment. Parmi les correspondances établies, seulement quelques-unes sont valides et on souhaite les conserver. Couramment, un filtre réalise le rejet de candidats, parmi les NB distances évaluées, pour chaque point de A. On note plusieurs politiques de rejet dans la littérature (RABIN 2009) : Critère FNN First Nearest Neighbour Pour chaque requête, on garde le plus proche voisin ; le descripteur présentant le plus de similarité : {(P i A ,P j B ) : j = argmin k d(desc(P i A ),desc(P k B ))} Critère DT Distance Threshold Un seuil de validation global est utilisé sur la distance : Pour chaque requête, l’ensemble des descripteurs candidats ayant une distance plus petite que le seuil global δ sont validés : {(P i A ,P j B ) : d(desc(P i A ),desc(P j B )) < δ} Critère DR Distance Ratio Le pourcentage de ressemblance entre les 2 plus proches voisins dans la seconde image est utilisé : pour chaque requête (Pi)A, les 2 plus proches voisins (Pj)B,(Pk)B sont identifiés. Le plus proche voisin est conservé comme point homologue si le ratio des distances d((Pi)A,(Pj)B)/d((Pi)A,(Pk)B) est inférieur à un seuil δ. L’idée utilisée est que plus des candidats sont similaires, plus la chance de confusion est forte. On évite ainsi de mettre en relation des correspondances ambiguës. δ est souvent choisi entre 0.6 et 0.8 (cf. les expérimentations de LOWE (1999) pour identifier les meilleures valeurs possibles de ce paramètre). {(P i A ,P j B ) : j = argmin k d(desc(P i A ),desc(P k B )) < δmin k6=j d(desc(P i A ),desc(P k B ))} Critère SD Symmetric distance Une correspondance n’est conservée que si les correspondances sont réciproques : les indices mis en correspondance doivent être les mêmes quel que soit le sens de calcul A → B et A ← B : {(P i A ,P j B ) : j = argmin k d(desc(P i A ),desc(P k B )),i = min k d(desc(P k A ),desc(P j B ))} Les correspondances établies étant photométriques de faux positifs peuvent toujours être présents. Il convient par la suite de vérifier si les correspondances établies sont géométriquement cohérentes (cf. chapitre 4). Dans le cadre de cette thèse nous utiliserons les détecteurs et descripteurs SIFT (LOWE 1999). Les appariements ayant passé la politique de rejet DR sont retenus. La méthode approchée ANN accompagnée de la norme euclidienne l2 est utilisée pour rechercher les candidats.56 3–La géométrie multiples vues et l’estimation de mouvements 3.10 Méthode de fusion rapide de paires de correspondances de points saillants entre images Un des pré-requis souvent utilisé en vision par ordinateur est l’information de visibilité, c’est-à-dire la connaissance qu’un point 3D donné se re-projette dans une série d’image. Se pose alors le problème suivant : étant donné des détections image nous voulons suivre le déplacement de ces détections dans une série d’images. Ce problème est appelé suivi de points, ou point/feature tracking. Nous appellerons le déplacement apparent d’un point de l’espace dans une série d’images une trace, (track). FIGURE 3.14 – A gauche, une séquence de 9 images fournies avec le logiciel VideoTrace. A droite, une série de traces identifiant le mouvement des points saillants qui ont pu être suivis à travers toute la série d’images en utilisant nos algorithmes. Le problème de suivi de points à travers une série d’images peut être abordé de différentes manières en fonction de la nature de la collection d’images à traiter : Une séquence d’images ordonnée. Narrow-baseline matching. Ce type de séquence, comme des vidéos, induit par nature une amplitude de mouvement faible. Ce faible mouvement des points à suivre permet de construire les trajectoires de points de proche en proche par des zones de recherches locales. Les méthodes sont basées sur des approches de corrélation (LUCAS et KANADE 1981 ; TOMASI et KANADE 1991) (cf. figure 3.15), ou de flux optique (HORN et SCHUNCK 1981). Les méthodes les plus récentes présentent soit des boucles d’apprentissage et de détection : TLD (KALAL et al. 2012) ou des analyses très rapides des champs de déplacement : Zero Shift points (DUPACˇ et al. 2012). FIGURE 3.15 – Suivi de trajectoire d’un point saillant par maximum de corrélation. Une série d’images non ordonnée. Wide-baseline matching. Dans ce cas la cohérence de mouvement ne peut être supposée. En effet les points n’ont pas forcément de cohérence d’une image à l’autre car une partie différente de la scène peut être vue. Le suivi de points est plus difficile, on ne sait pas où rechercher d’une image à l’autre. Les points similaires entre des paires d’images sont alors identifiés par des méthodes d’image-matching (cf. section 3.9)3.10–Méthode de fusion rapide de paires de correspondances de points saillants entre images 57 puis filtrés pour vérifier leur cohérence géométrique (cf. chapitre 4). Ces correspondances par paires d’images sont ensuite assemblées en trajectoires lorsqu’elles partagent des points communs (cf. figure 3.16). FIGURE 3.16 – Dans une série d’images non ordonnées (image1, image2, image3), des correspondances sont identifiées par paire d’images (droite). Relier ces correspondances si elles partagent des points en commun permet d’identifier les traces (bas gauche). Note : L’analyse d’une série de paires 1 → 2,2 → 3,1 → 3 permet de créer une correspondance entre l’image 1 et 3 qui ne serait pas identifiée par une analyse en séquence : 1 → 2 → 3. Nous nous intéressons ici au cas générique, le cas des images non ordonnées. On se retrouve donc avec la tâche suivante : combiner les correspondances géométriques identifiées par paires en traces cohérentes. L’état de l’art traite le plus souvent ce problème par la construction d’un graphe suivi d’une phase d’analyse (SNAVELY et al. 2006). Soit i k le k ième point de l’image i et (i m, j n ) une mise en correspondance établie entre l’image i et j avec les points indicés m et n. Étant donné une liste de correspondances, {(i m,j n )}, on cherche à construire un graphe G puis on l’analyse pour identifier les traces. Soit G = {S,E} avec S, un ensemble de sommets, et E un ensemble d’arêtes. Les sommets S : {i k} représentent les points saillants détectés dans les images. Les arêtes E : {(i m,j n )} représentent les correspondances établies par paires d’images. Les deux étapes requises pour identifier les traces grâce au graphe G sont les suivantes : 1. G est construit en utilisant l’ensemble des correspondances par paires : {(i m,j n )} : Des liens entre points saillants S sont ainsi créés pour chaque correspondance (i m, j n ) établie. Les correspondances deux à deux sont ainsi reliées entre elles. 2. Une analyse en composante connexe permet d’identifier les traces : Chaque composante connexe est une trace identifiant le déplacement apparent d’un point saillant dans une série d’images. Cette approche est fonctionnelle mais non optimale, nous démontrerons dans la section suivante que l’utilisation d’une structure de données plus adaptée permet de gagner en efficacité.58 3–La géométrie multiples vues et l’estimation de mouvements 3.10.1 Une solution ensembliste pour la construction de traces de points saillants Au lieu de voir le problème de construction de traces comme la construction d’un graphe et son analyse, nous considérons le problème de manière ensembliste. Nous montrons que ce problème est soluble par l’utilisation de la théorie des ensembles et que son utilisation est plus efficace que les méthodes de l’état de l’art sur le plan de la complexité algorithmique. De plus, son utilisation possède plusieurs avantages aux vues des solutions concurrentes disponibles. La théorie Proposition 1. En théorie des ensembles, la notion de relation d’équivalence sur un ensemble permet de mettre en relation des éléments qui sont similaires par une certaine propriété. Soit E un ensemble et R une relation d’équivalence. L’utilisation de la relation d’équivalence R sur E permet la construction du groupe quotient E|R composé de classes Q . Chaque Q représente ainsi la fusion des éléments similaires de E : les éléments de E suivant la relation d’équivalence R . Les ensembles quotients {Q } obtenus représentent des classes disjointes. Proposition 2. L’utilisation de la relation d’équivalence sur une ensemble permet de créer les classes par complétion par transitivité. Étant donné un ensemble d’éléments (les points saillants) nous partitionnons en un certain nombre de classes disjointes les relations établies par les correspondances. L’utilisation des correspondances de points homologues comme relation d’équivalence permet d’établir les ensembles disjoints désirés : les traces. La proposition 2 démontre que la théorie des ensembles est applicable à notre problème. Voyons désormais comment réaliser ces opérations de manière concrète. La solution logicielle GALLER et FISHER (1964) propose de mener efficacement la construction et la manipulation de classes d’équivalence à travers une structure de données, les disjoint-set, et des algorithmes : union-find. La structure de données disjoint-set permet de maintenir une forêt d’arbres, chaque arbre représentant un ensemble disjoint. Les algorithmes union-find permettent de maintenir et créer des partitions entre les ensembles disjoints grâce à deux opérations : Trouver, Find détermine la classe d’équivalence d’un élément. Elle sert aussi à déterminer si deux éléments appartiennent à la même classe d’équivalence. Unir, Union réunit deux classes d’équivalence en une seule. Une condition préalablement nécessaire à leur utilisation est la construction des singletons : des ensembles d’équivalences contenant un seul élément par l’instruction MakeSet. La mise en pratique L’utilisation de la théorie des ensembles pour notre problème de construction de traces nécessite la définition de l’ensemble et de la relation d’équivalence :3.10–Méthode de fusion rapide de paires de correspondances de points saillants entre images 59 Soit {E} une collection d’ensembles : chaque point saillant considéré par les correspondances est un ensemble disjoint, Chaque point saillant est considéré comme une trace de taille 1. Soit une relation d’équivalence R : E(f ind(i m)) = E(f ind(j n )), L’utilisation de la relation d’équivalence permet de fusionner deux classes, les classes contenant les points homologues désignés par une correspondance (i m, j n ) par utilisation de la fonction union : union(f ind(i m), f ind(j n )). On réalise la complétion par transitivité. La procédure 1 de calcul de traces est alors réalisée, elle est composée de trois étapes qui nécessitent de parcourir deux fois l’ensemble de correspondances : 1. Pour créer les ensembles de bases : Un ensemble est créé par point saillant utilisé, 2. Pour appliquer la relation d’équivalence : Les correspondances relatives sont fusionnées en traces par l’utilisation répé- tée des fonctions find et union sur l’ensemble des correspondances. Find identifie les ensembles d’appartenance des points saillants de la correspondance considé- rée et les fusionne en utilisant l’opérateur union. 3. Les classes calculées sont parcourues pour lister et identifier les points appartenant à chaque trace. La fusion des correspondances est ainsi réalisée par fusion itérative des correspondances à deux vues. Des traces de points de taille 1 sont unies et évoluent pour former les traces désirées au cours du processus. L’algorithme obtenu est très simple à lire et implémenter. Il est constitué de deux boucles sur les correspondances relatives. Procédure 1 Calcul des traces de points saillants pour une série de paires de correspondances Entrée: une liste de correspondances entre différentes paires d’images : L : {(i m, j n )} Sortie: les traces (1) Construction des ensembles initiaux, les singletons : pour (i m, j n ) ∈ L faire si find(i m) 6= 0/ alors MakeSet(i m) fin si si find(j n ) 6= 0/ alors MakeSet(j n ) fin si fin pour (2) Complétion par transitivité : pour (i m, j n ) ∈ L faire union(find(i m), find(j n )) fin pour (3) Récupération des traces : Retourne chaque arbre de la forêt comme une trace La complexité associée à une utilisation naïve de l’algorithme Union-Find et des disjoint-sets est O(nlog(n)). TARJAN (1975) a ensuite montré que l’utilisation de deux optimisations, union by rank et path compression, permettent de rendre la complexité quasilinéaire en pratique : O(nα(n)) (α étant l’inverse de la fonction de Ackermann). Il n’est60 3–La géométrie multiples vues et l’estimation de mouvements pas possible d’obtenir un meilleur résultat : FREDMAN et SAKS (1989) ont montré que Ω(α(n)) mots en moyenne doivent être lus par opération sur toute structure de données pour le problème des classes disjointes. Le comportement de l’algorithme est illustré en figure 3.17. Des correspondances par paires sont identifiées par différentes couleurs (bleu, vert, rose, violet). Ces correspondances impliquent 12 points, 12 ensembles sont alors créées. Les correspondances sont alors parcourues par paires (marquées par les différentes couleurs) et les ensembles contenant les points homologues sont assemblés (union). Une forêt d’arbres est alors construite et évolue pour créer les 4 trajectoires associées aux correspondances initiales. 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 11 9 10 8 9 10 11 9 10 4 7 1 3 6 0 2 5 8 11 2 3 0 1 9 10 8 11 4 7 0 2 5 1 3 6 8 11 0 2 5 FIGURE 3.17 – Illustration des étapes de l’algorithme de fusion de traces. De haut en bas. Les correspondances initiales par paires identifiées par différentes couleurs. La création des 12 singletons, désignant les 12 points considérés par les correspondances. L’évolution de la forêt de traces (de gauche à droite avec le parcours des appariements par couleur). Et enfin chaque arbre de la forêt est parcouru pour identifier les points appartenant à une trace commune. Expérimentations Notre solution , désignée sous l’acronyme UF, a été évaluée face à deux autres solutions : 1. SNAVELY et al. (2006) : solution contenue dans le code source du logiciel associé Bundler. 2. ZACH (2010-2011) : solution contenue dans le code source de la bibliothèque associée ETH-V3D. Le protocole de test est le suivant : pour des données initiales identiques, une liste de correspondances {(i m, j n )} géométriquement valide par géométrie fondamentale (cf. section 3.3) est fournie aux trois solutions d’identification de traces. Les temps de calcul et nombre de traces identifiées sont mesurés et comparés. Afin de pouvoir tester différents scénarios le test est réalisé sur différents jeux de données images présentant de 8 à 314 images. Ces tests permettent de faire intervenir de 10000 à 1 million de correspondances initiales et ainsi d’évaluer le comportement des solutions à faible et large échelle. Les résultats de l’expérience sont disponibles dans le tableau 3.1.entre images 3.10–Méthode de fusion rapide de paires de correspondances de points saillants 61 Jeux d’images nb. Images #{im, jn} Méthodes UF Zach Bundler temps s. # traces temps s. # traces temps s. # traces 1 HerzJesus 8 13726 10 2454 20 2383 10 2314 2 Castle 19 17853 12 2673 18 2543 30 2229 3 Entry 10 18914 13 2697 27 2524 20 2566 4 Fountain 11 29338 21 4279 52 4139 30 3513 5 Jean-fontana 66 53901 49 8551 72 7773 90 7672 6 Castle 30 56477 40 5639 73 5272 60 5033 7 DeteniceFountain 59 63437 56 7949 86 7445 250 7447 8 HerzJesus 25 68284 50 6603 130 5781 90 6160 9 SceauxCastle 282 364751 411 39639 613 36508 680 35845 10 StMartin 124 651990 531 51473 1505 49109 410 41380 11 Temple 314 1012804 640 20623 1295 15580 1280 19730 TABLE 3.1 – Statistiques sur l’évaluation la fusion de correspondances pour le calcul de traces. Les résultats sont triés par ordre croissant du nombre de correspondances relatives. Le temps le plus court est affiché en gras.62 3–La géométrie multiples vues et l’estimation de mouvements Pour faciliter l’interprétation des résultats les temps des différentes méthodes ont été représentés sous forme graphique sur la figure 3.18. 1 2 3 4 5 6 7 8 9 10 11 0 200 400 600 800 1000 1200 1400 1600 0 200 400 600 800 1000 1200 1400 1600 FIGURE 3.18 – Représentation graphique des temps nécessaires pour identifier les traces du tableau 3.1. Les jeux de données sont triés de manière croissante en fonction du nombre de correspondances initiales. L’expérience permet de faire des remarques sur les points suivants : la vitesse d’exécution On remarque que la solution UF est dans 90% des cas plus rapide que les deux autres solutions (cf. courbes de la figure 3.18). la complexité à large échelle Pour de larges jeux de données on constate que les mé- thodes Zach et Bundler présentent des résultats en dents de scies avec la taille du jeu de correspondances relatives fournies. Notre solution par contre réagit de manière beaucoup plus linéaire. la complétude de la solution : le nombre de traces identifiées Il est important de noter que le nombre de traces varie d’une implémentation à l’autre. Notre approche étant ensembliste nous avons des garanties que pour notre critère d’équivalence la solution identifiée soit optimale. Le fait que nous détectons tout le temps plus de traces que les deux autres méthodes démontrent que leur implémentation n’est pas parfaite et que des traces ne sont pas identifiées, ou rejetées à tort. Concernant la complétude des solutions identifiées les arguments suivants sont avancés : les deux implémentations disponibles évitent l’utilisation de graphes et utilisent des tables d’indices. Ce qui rend les algorithmes sensibles à plusieurs facteurs : Bundler : SNAVELY et al. (2006) Résultat dépendant d’un index de départ, Requiert plusieurs opérations de tri. ETH-V3D : ZACH (2010-2011) Résultat dépendant de l’ordre des paires d’images, Grosse consommation mémoire. La complexité de tels algorithmes est au minimum de O(nlog(n)) (due aux opérations de tri requises). Nos tests ont confirmé que notre solution avec une complexité plus faible, O(nα(n)) minimale théorique, présente une meilleure réactivité aux données d’entrées.3.11–Contributions de ce chapitre 63 Limitations et perspectives Les temps d’exécution de notre approche pourraient être encore réduits par l’utilisation d’une version non bloquante de l’algorithme union-find (ANDERSON et WOLL 1991). Une version parallélisable de notre algorithme est alors envisageable, laissant imaginer de meilleurs temps de réponse sur de larges jeux de données. Cependant l’assemblage naïf des correspondances donne lieu à plusieurs problèmes (AGARWAL et al. 2009) : • plusieurs traces peuvent se croiser et donc contenir plusieurs fois le même point, • plusieurs traces peuvent contenir des points dans la même image. Notre approche actuelle se limite juste à détecter et ne pas exporter les traces qui portent ces cas de conflits. Étant capable de détecter les arbres présentant des conflits nous pouvons envisager un post-traitement afin de couper ses traces corrompues en traces cohérentes en utilisant la méthode proposée par SVARM et al. (2012). Leur approche propose une solution pour garder les traces les plus probables parmi les traces corrompues qui se croisent. Leur solution est basée sur une analyse des arbres dits de Gomory-Hu. Étant données des traces corrompues, l’algorithme utilise des coupes récursives afin de conserver les n sous-traces portant les plus grandes pondérations. Chaque arête porte pour poids le nombre de points géométriquement validés pour la paire d’images considérée par cette arête. 3.11 Contributions de ce chapitre Nous avons présenté les fondamentaux de la géométrie multi-vues et comment des correspondances de points pouvaient être identifiées de manière automatique et assemblées en trajectoire au sein de collections d’images non ordonnées. Une nouvelle méthode permettant de calculer la fusion de correspondances dans le but d’identifier les traces de points saillants à travers une série d’images a été exposée. L’utilisation d’une structure de données et des algorithmes adaptés nous permet de ré- soudre le problème de fusion avec une complexité optimale, quasi-linéaire en pratique. Notre solution, utilisant «la théorie des ensembles», permet de mettre en œuvre une solution élégante qui ne réalise aucune approximation et aucun biais dans les résultats. Nos expériences ont confirmé les résultats théoriques sur le fait que notre méthode a une complexité moindre et donc un temps d’exécution plus faible que les solutions concurrentes. L’utilisation de notre algorithme a toujours démontré qu’il était capable d’identifier plus de traces que les solutions concurrentes pour l’ensemble des jeux de données. Cela démontre que les deux implémentations concurrentes sont biaisées et ne garantissent pas un résultat complet au problème traité. Ce travail a été présenté à la conférence CVMP (MOULON et MONASSE 2012) et largement utilisé pour les autres travaux de ce manuscrit. Une implémentation libre est disponible avec la librairie open-source openMVG (MOULON et al. 2013d).64 3–La géométrie multiples vues et l’estimation de mouvements65 Chapitre 4 L’estimation robuste de modèles paramétriques Lorsque des données sont légèrement bruitées il est courant d’utiliser une méthode d’ajustement aux moindres carrés afin d’identifier les paramètres d’un modèle. Cependant lorsque les données sont bruitées et polluées ces méthodes ne permettent plus de trouver un modèle adéquat. Il est alors courant d’utiliser des méthodes d’estimation robuste qui recherchent le sous ensemble de données s’ajustant le mieux au modèle paramétrique choisi. Ces méthodes reposent sur des tests d’hypothèses pour identifier un modèle et classifier les données suivant leur nature en : • mesures fiables appelées inliers, auxquels le modèle s’ajuste, • fausses mesures appelées outliers, les fausses mesures que le modèle réfute. Nous allons dans ce chapitre : 1. Étudier les méthodes couramment utilisées : MAX-CONSENSUS et RANSAC et discuter leurs limitations, 2. Expliquer et discuter un estimateur robuste incorporant un critère statistique permettant de s’adapter de manière dynamique au bruit de mesure, 3. Montrer comment généraliser l’utilisation de cet estimateur robuste adaptatif à différents modèles d’erreur. Sommaire 4.1 MAX-CONSENSUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.2 RANSAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.2.1 Limitations et variantes . . . . . . . . . . . . . . . . . . . . . . . 68 4.3 A Contrario-RANSAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.3.1 Le principe de la détection a contrario . . . . . . . . . . . . . . . 72 4.3.2 Mise en correspondance a contrario pour l’estimation de la géométrie épipolaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.4 Généralisation de la mise en correspondance a contrario pour l’estimation de modèles paramétriques . . . . . . . . . . . . . . . . . . . . 77 4.4.1 Généralisation du calcul du NFA et utilisations . . . . . . . . . . 78 4.4.2 Application pour l’estimation de la géométrie relative entre deux images sphériques . . . . . . . . . . . . . . . . . . . . . . . 81 4.4.3 Évaluation expérimentale . . . . . . . . . . . . . . . . . . . . . . 84 4.5 Contributions de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . 8966 4–L’estimation robuste de modèles paramétriques 4.1 MAX-CONSENSUS Le but de l’estimation robuste est d’identifier, parmi un ensemble D, le sous-ensemble de points auxquels s’ajuste le mieux un modèle paramétrique H recherché. L’ensemble D est en sortie classifié en deux sous-ensembles : les inliers et les outliers. Soit Di le i e échantillon de D, M une métrique calculant l’erreur de re-projection d’un échantillon au modèle H et δ un seuil d’acceptation. MAX-CONSENSUS est une procédure itérative qui repose sur quatre étapes : 1. La génération d’hypothèses : un échantillonnage stochastique aléatoire de s-uplets est réalisée afin de gé- nérer des hypothèses H , s étant suffisant pour estimer les paramètres d’une hypothèse H . 2. Une mesure de consensus : l’ensemble des erreurs de re-projection au modèle en cours d’hypothèse H est évalué pour chaque échantillon. 3. Un critère de validation : Si l’erreur est inférieure à un seuil δ alors l’échantillon est ajouté au consensus. 4. Un critère d’arrêt : un nombre d’itérations N. MAX-CONSENSUS est une méthode qui teste successivement des hypothèses et mesure la taille du consensus généré. La taille du consensus acceptant H sous une pré- cision δ est maximisée et ainsi la consensus d’échantillon identifié est retenu comme inliers : argmax H #D ∑ i=1 1(M (H ,Di) < δ) (4.1) Une recherche exhaustive des s-uplets est nécessaire afin de rechercher le modèle idéal. L’évaluation de toutes les combinaisons de s-uplets n’est pas réalisable en pratique car N = #D s combinaisons seraient à évaluer. Notant que N → ∞ en fonction de s et la taille de l’ensemble échantillon D un problème combinatoire se pose. Puisqu’il n’est pas pensable de réaliser tous ces tirages, une façon naïve mais efficace pour limiter la complexité est de choisir un N fixe et d’utiliser un échantillonnage stochastique. MAX-CONSENSUS est une méthode itérative qui tire au sort, N fois, un s-uplet pour générer une hypothèse et la vérifier. Note : plus s est petit, plus l’exploration stochastique de l’espace des s-uplets sera large et rapidement réalisée. MAX-CONSENSUS est une méthode à deux paramètres : • δ : précision/erreur maximale tolérée pouvant être acceptée pour une appartenance à l’ensemble de consensus, • N : le nombre d’itérations à réaliser.4.2–RANSAC 67 4.2 RANSAC La méthode RANSAC (RANdom SAmpling Consensus) (FISCHLER et BOLLES 1981) est une évolution de la méthode MAX-CONSENSUS. L’idée est de réduire le nombre de tirages N à réaliser. Si l’on a une idée du nombre d’inliers a-priori dans les données ; on peut calculer le nombre de tirages nécessaires pour être sûr d’avoir statistiquement parcouru l’espace des solutions de manière suffisante. A première vue cette solution permet de réduire la complexité algorithmique de la recherche robuste de modèle, mais elle a comme inconvénient d’ajouter un nouveau paramètre p sur la proportion estimée de contamination des données. RANSAC évalue le nombre suffisant de tirages N à réaliser pour assurer qu’avec une probabilité p, au moins 1 échantillon de taille s n’est pas pollué. Si le taux d’inliers w est connu, alors la probabilité de choisir tous les échantillons pollués est (1 − w s ) N, c’est à dire Soit la probabilité de tirer N fois un s-uplet contenant au moins 1 outlier. On a alors (1−w s ) N ≤ 1− p, soit encore : N ≥ log(1− p) log(1−ws) (4.2) RANSAC peut ainsi au fur et à mesure de son évaluation estimer le nombre d’itérations N lui restant à effectuer en fonction de la taille du consensus le plus grand rencontré jusqu’alors. A chaque fois qu’un meilleur consensus est identifié, N est remis à jour grâce à l’équation 4.2 (cf. procédure 2). Procédure 2 RANSAC : Recherche du plus large consensus pour un modèle paramé- trique H Entrée: D = {D0,...,Di} : un ensemble d’échantillons Entrée: δ : un seuil de précision, borne haute pour l’acceptation des erreurs Entrée: p : une probabilité sur la contamination de l’ensemble échantillon, Entrée: N : un nombre maximal de tirages. Sortie: le plus large ensemble consensus Sopt et les paramètres du modèle Hopt retenu. compteur i = 0, #Sopt = 0/ (1) Échantillonnage aléatoire : Tirage d’un s-uplet Estimation d’un modèle H // Génération d’une hypothèse (2) Sélection des inliers : S = {Di} | M (H ,Di) < δ // Évaluation de l’hypothèse (3) Consensus optimal : si #S > #Sopt alors Sopt = S Hopt = H N est mis à jour via l’équation 4.2 // Évaluation du #tirages restant à effectuer fin si (4) Critère d’arrêt : tant que i < N, i = i+1. Retour à l’étape 1. La seule différence entre MAX-CONSENSUS et RANSAC consiste en la mise à jour du nombre de tirages restant à réaliser. L’algorithme RANSAC peut donc terminer plus rapidement son estimation robuste, mais un paramètre supplémentaire p est rajouté. Cependant, dans la majorité des cas le niveau de bruit des données est inconnu et variable d’un jeu de données à l’autre. Le choix des paramètres δ et p est donc loin d’être68 4–L’estimation robuste de modèles paramétriques évident. RANSAC est une méthode à trois paramètres : • δ : précision maximale acceptée pour construire un ensemble de consensus, • N : le nombre maximal d’itérations pouvant être réalisées, • p : une probabilité de succès fixé apriori. 4.2.1 Limitations et variantes Les méthodes MAX-CONSENSUS et RANSAC ont une limitation majeure commune par rapport à ce que l’on appelle l’efficacité relative. L’efficacité relative est dépendante du choix arbitraire du seuil de précision δ. C’est l’introduction de ce seuil qui permet une robustesse d’estimation tolérant jusqu’à plus de 50 % d’outliers, mais en contrepartie le choix de ce paramètre est très critique. Comme le montre la figure 4.1 lorsque ce seuil est trop élevé, quelques outliers sont sélectionnés à tort. Lorsque ce seuil est trop faible, une transformation fiable n’est pas estimable, car trop peu d’échantillons sont utilisés. On parle alors de situation de sur-évaluation, over-fitting, ou de sous-évaluation, under-fitting. (a) Distribution des points (b) Choix correct de δ (c) δ trop petit, sous-évaluation (d) δ trop large, sur-évaluation FIGURE 4.1 – Ambiguité du choix du seuil de sélection pour l’estimation d’un modèle de droite.4.2–RANSAC 69 Diverses variantes de MAX-CONSENSUS et RANSAC sont proposées dans la litté- rature pour chacune des 4 étapes mises en jeu : la génération d’hypothèses, la mesure de consensus, le critère de validation et enfin le critère d’arrêt. Plutôt que de réaliser une liste exhaustive (cf. CHOI et al. (2009)) nous allons lister quelques méthodes marquantes par domaine d’étude. Amélioration de la rapidité : Échantillonnage guidé. L’échantillonnage de groupes de s-uplets peut être vu comme un processus de génération d’hypothèses. En l’absence de connaissance apriori sur le modèle suivi par les données, un échantillonnage uniforme est utilisé, chaque hypothèse est ainsi générée indépendamment des précédentes. Plusieurs heuristiques ont été proposées pour faire converger l’algorithme plus rapidement. MOISAN et STIVAL (2004) propose avec ORSA (Optimized Random Sampling Algorithm) de tirer les échantillons parmi le meilleur ensemble Sopt lorsqu’une hypothèse est jugée valide. CHUM et MATAS (2005) propose avec PROSAC (PROgressive SAmple Consensus) de tirer les échantillons en fonction d’un indice de confiance qui leur est associé. Le tirage n’est plus réalisé de manière uniforme mais en tenant compte de cette mesure de qualité. L’intuition est qu’il vaut mieux tester en premier lieu les configurations sur lesquelles on a le plus confiance. Dans le cas de la mise en correspondances d’images, la similarité entre les descripteurs est associée aux échantillons. NI et al. (2009) propose avec GROUPSAC de partitionner en sous-groupes les échantillons. Dans le cas de correspondances images, un critère géomé- trique est utilisé. La ressemblance des vecteurs directeurs entre les points images en correspondance est ainsi utilisée dans un algorithme de regroupement hiérarchique. La probabilité de tirer un échantillon est alors déterminée par la taille d’un groupe et non plus uniforme. Amélioration de la robustesse : Adaptivité au bruit. Contrairement aux méthodes de type MAX-CONSENSUS qui utilisent un seuil fixe δ sur les résidus observés, les méthodes citées ici visent à mesurer la qualité et la validation d’un groupe associé à une transformation. Il s’agit de déterminer de manière automatique le groupe de consensus qui s’ajuste le mieux au modèle en cours d’hypothèse et de ne plus dépendre d’un seuil δ fixé de manière heuristique. Pour chaque modèle, le bruit des données est estimé, l’ensemble consensus satisfaisant le modèle paramétrique est déterminé statistiquement. Ce problème n’est pas trivial, mais apporter une solution permet de devenir adaptatif aux données. Une façon de ne plus dépendre d’un seuil δ peut être réalisé en changeant la métrique. ROUSSEEUW (1984) recherche l’ensemble consensus qui minimise la médiane des résidus observés par la méthode LMedS, Least-Median-ofSquares. On observe que la méthode permet de rejeter efficacement les données aberrantes mais en contrepartie elle est très sensible à un bruit de type gaussien. L’utilisation de la médiane limite l’identification d’un consensus à des données polluées à moins de 50%. Hypothèse : distributions normales des inliers et distribution uniforme des outliers : L’algorithme MLESAC Maximum Likelihood SAC (TORR et ZISSERMAN 2000) introduit une mesure de qualité basée sur la probabilité de70 4–L’estimation robuste de modèles paramétriques distribution des inliers et outliers. La distribution des inliers est modélisée comme une distribution gaussienne et les outliers comme une distribution uniforme. Hypothèse : distributions uniformes des outliers : MINPRAN MINimize the Probability of RANdomness (STEWART 1995) recherche un ensemble consensus, qui associé à un modèle paramétrique, n’est pas expliqué par la chance (le modèle de fond). La taille de cet ensemble consensus est évaluée par la minimisation d’une probabilité P(S|H ). Considérant les résidus des outliers uniformément distribués, une mesure de consistance est définie par l’utilisation de la probabilité. MINPRAN modélise par des probabilités le fait d’observer un groupe de k résidus plus petit qu’une erreur r parmi N résidus selon une loi uniforme. Le groupe de k points présentant la plus faible probabilité est retenu. Le calcul des probabilités permet d’obtenir une méthode adaptative mais rajoute une complexité importante pour les calculs. Hypothèses : points d’intérêt indépendants et uniformément distribués dans les images : MOISAN et STIVAL (2004) proposent de mesurer la qualité d’un groupe de correspondances dans le cadre de la théorie de la détection a contrario. Cette approche présente de nombreuses similitudes avec l’algorithme MINPRAN mais les hypothèses pour le modèle de fond sont diffé- rentes. Cette méthode que nous référons par l’acronyme AC-RANSAC (A Contrario RANdom SAmple Consensus) est expliquée plus en détail dans la section 4.3. Hypothèses : distributions uniformes des alpha-consistance de modèles : StaRSaC (CHOI et MEDIONI 2009) propose de tester de manière exhaustive différentes valeurs de seuil δ. Le consensus conservé est estimé en fonction de la variance des paramètres du modèle H en estimation. RAGURAM et FRAHM (2011) propose avec la méthode RECON REsidual CONsensus de rechercher K hypothèses qui sont consistantes. La mesure de consistance repose sur un test dit d’α-consistance permettant d’identifier la variance du bruit d’un modèle en cours d’évaluation. RECON itère parmi différentes valeurs de seuil α et garde le plus petit α donnant un ensemble de modèles partageant des distributions similaires d’erreur résiduelle. L’inconvénient de ces méthodes est que les seuils sont contraints apriori dans un intervalle fixe et discrétisé en K sous seuils à évaluer. Amélioration de la précision : Optimisation locale. CHUM et al. (2003) propose avec LO-RANSAC pour chaque hypothèse en cours d’acceptation de l’optimiser localement. C’est à dire de lancer des estimations d’hypothèses parmi les données sélectionnées en inlier. L’hypothèse donnant la plus petite erreur moyenne est retenue. La méthode de MOISAN et STIVAL (2004) réalise à la fois un échantillonnage guidé et une optimisation locale du modèle.4.2–RANSAC 71 Nous venons de voir qu’il existe toute une famille de méthodes RANSAC, chaque méthode apporte des optimisations de certaines parties de l’algorithme de base. Chaque méthode a ses avantages et inconvénients : fiabilité et paramètres plus ou moins visibles. Nous allons nous intéresser par la suite à la méthode nommée AC-RANSAC, A Contrario RANSAC, car elle repose sur la définition et l’usage de critères statistiques d’aide à la décision bien fondés. Les points abordés par AC-RANSAC sont particulièrement intéressants et permettent : • la modélisation statistique du nombre de fausses alarmes, • l’adaptabilité au bruit des données et donc une meilleure précision pour les modèles identifiés (cf. figure 4.2), • l’absence de paramètres autres qu’un nombre d’itération maximal, • un point de rupture plus large que les autres méthodes (pouvant aller jusqu’à 90% d’outliers si suffisamment d’hypothèses sont testées). Des expériences, sur A Contrario RANSAC, réalisées par MOISAN et STIVAL (2004) et NOURY (2011) ont démontré sur images synthétiques et réelles : • l’amélioration du taux de réussite général et ce jusqu’a 90% d’outliers, • l’amélioration générale de la précision (comparé à RANSAC et MSAC), • l’amélioration systématique de la solution identifiée lorsque le taux d’outliers dé- passe les 50%. FIGURE 4.2 – Comportement d’AC-RANSAC pour la recherche d’un modèle paramé- trique de ligne ou un bruit gaussien de plus en plus grand est ajouté. En vert les données validées a contrario en rouge les données rejetées et en bleu le modèle identifié. On note, en bas à droite, qu’en présence de bruit pur AC-RANSAC n’identifie aucun modèle, RANSAC aurait lui retourné une fausse hypothèse.72 4–L’estimation robuste de modèles paramétriques 4.3 A Contrario-RANSAC La théorie de la détection a contrario a été proposée initialement par DESOLNEUX et al. (2000) pour la détection de segments puis généralisée à d’autres propos par la suite : DESOLNEUX et al. (2007). Elle s’inspire des tests d’hypothèses pour détecter des groupes significatifs d’objets partageant des caractéristiques similaires. Les «méthodes a contrario» reposent sur la définition d’un modèle de fond et une mesure de signifi- cativité. 4.3.1 Le principe de la détection a contrario La méthodologie a contrario (AC)repose sur le postulat qu’une structure n’est perçue que lorsqu’elle n’a que très peu de chance d’être due au hasard. Ce principe est défini par le «principe de Helmholtz» (cf. figure 4.3). Lionel MOISAN (2003) définit l’idée à exploiter comme suit : Proposition 3. "Il est beaucoup plus simple de définir un modèle que l’on souhaite réfuter (typiquement un modèle uniforme) qu’un modèle précis des objets que l’on souhaite détecter". FIGURE 4.3 – Illustration du principe de Helmholtz (groupement perceptuel). A gauche, aucune structure ne se détache de l’image, où les segments ont été tirés aléatoirement de manière indépendante. A droite, on ne peut s’empêcher de regrouper certain segments car les alignements visibles ont peu de chances d’arriver par hasard. L’application de la méthodologie a contrario demande la définition de quatre critères : 1. Un modèle de fond : La définition de l’hypothèse à réfuter. 2. Une mesure de similarité : Une mesure de l’adéquation d’un échantillon à une hypothèse en cours d’évaluation. 3. Une mesure de significativité : Une mesure de l’adéquation d’un groupe d’échantillons à une hypothèse en cours (la détection d’une structure significative). 4. Un critère d’optimisation : Optimisation permettant de retenir la meilleure hypothèse rencontrée : celle qui réfute le plus le modèle de fond. Appliquée à la recherche de modèle, la méthode a contrario répond à la question : "Est-ce que le modèle considéré s’ajuste aux données par chance ?" Le cadre statistique repose sur deux notions : la définition d’un modèle de fond, qui décrit le processus génératif, pour lequel aucune structure significative n’est perçue, et une mesure de similarité de caractéristiques composant un groupe. Cette similarité permet d’évaluer la qualité des groupes testés afin de détecter automatiquement quel sous-groupe est cohérent, rigide.4.3–A Contrario-RANSAC 73 4.3.2 Mise en correspondance a contrario pour l’estimation de la géométrie épipolaire Dans le but de s’affranchir des limitations de RANSAC, MOISAN et STIVAL (2004) utilisent la méthodologie a contrario pour réaliser les tâches de sélection et validation de groupe dans le but d’estimer la géométrie épipolaire à partir de correspondances. Ils apportent les éléments suivants : Rappel. On dispose d’un ensemble de correspondances C : {(m,m ′ )},#C = n entre deux images I et I ′ . On considère qu’un sous-groupe de 7 points est nécessaire pour calculer de 1 à 3 matrices fondamentales. Le modèle de fond à réfuter, l’hypothèse nulle. On souhaite identifier un sous-groupe de ces correspondances qui peut être expliqué par une unique transformation. Pour estimer cette transformation dans la méthodologie a contrario, on définit une hypothèse nulle H0 qui décrit la distribution des correspondances aléatoireC pour lesquelles aucun groupement ne doit être validé. Un groupe de correspondances est considéré comme significatif s’il réfute l’hypothèse nulle, en d’autres termes si l’observation d’un tel groupe sous H0 est peu probable. Proposition 4. Un ensemble C de n correspondances aléatoires {(m,m ′ )} suit l’hypothèse nulle H0 lorsque : • les correspondances (m,m ′ ) sont des variables aléatoires mutuellement indépendantes, • les points m et m ′ sont uniformément distribués dans leur image respective I, I ′ . La mesure de similarité. La mesure permettant de vérifier la qualité d’un échantillon de correspondances dans le cas de la géométrie épipolaire utilise une erreur de type point-droite. Cette erreur résiduelle implique pour un modèle F et un couple de point (m,m ′ ) une distance des points m et m ′ aux lignes épipolaires F Tm ′ dans I et Fm dans I ′ respectivement. La mesure de significativité. On souhaite ici mesurer l’adéquation d’un modèle en cours d’hypothèse aux données de manière statistique. Soit S ′ un sous-groupe de C, tel que #S ′ = s et FS ′ la matrice fondamentale évaluée à partir du s-uplet. Si l’on considère queC suit le modèle de fond et que l’on a estimé la matrice FS ′ à partir d’un sous-groupe S ′ ⊂ C. Pour n’importe quelle correspondance aléatoire (m,m ′ ) de C, la probabilité que la distance entre m ′ et la ligne épipolaire FS ′m soit plus petite que α peut être majorée (cf. figure 4.4). Cette borne supérieure est le rapport entre l’aire maximale d’une bande de largeur 2α et l’aire A de l’image I ′ . En notant M (FS ′m,m ′ ) la distance euclidienne entre le point m ′ et la ligne épipolaire FS ′m on note : ∀α > 0,PH0 [M (FS ′m,m ′ ) ≤ α] ≤ 2αDI ′ AI ′ (4.3) où DI ′ et AI ′ désignent respectivement la longueur de la diagonale et l’aire de l’image I ′ . On définit l’erreur symétrique de transfert pour la géométrie épipolaire : max 2DI ′ AI ′ M (FS ′m,m ′ ), 2DI AI M (m,F T S ′m ′ ) ∈ [0,1]74 4–L’estimation robuste de modèles paramétriques FIGURE 4.4 – Définition de la mesure de significativité de l’erreur α pour la géométrie épipolaire. Considérant un couple de point aléatoire (m,m ′ ) ⊂ C | S ′ on peut écrire PH0 max 2DI ′ AI ′ M (FS ′m,m ′ ), 2DI AI M (m,F T S ′m ′ ) ≤ α ≤ α 2 ≤ α (4.4) Pour tout sous-ensemble S de C tel que S ∩S ′ = 0/ on peut ainsi mesurer l’adéquation de la matrice fondamentale FS ′ pour les correspondances de S comme l’erreur de transfert symétrique normalisée maximale sur tous les points de S : α(S,FS ′) := max (m,m′)∈S max 2DI ′ AI ′ M (FS ′m,m ′ ), 2DI AI M (m,F T S ′m ′ ) (4.5) On appelle cette mesure l’α-rigidité. Plus α est petit, moins il est probable que l’ensemble de correspondances soit dû au hasard. Les correspondances étant supposées indépendantes, on obtient une borne α #S pour la probabilité d’observer une rigidité α(S,FS ′) : ∀α > 0, PH0 [α(S,FS ′) ≤ α] ≤ α #S (4.6) On peut ainsi mesurer la cohérence d’un sous-groupe S de correspondances réelles selon une transformation F en considérant que la probabilité de la rigidité aléatoire de α(S,FS ′) soit plus petite que la rigidité observée α(S,F) sous l’hypothèse nulle H0. La quantité α(S,F) #S mesure à quel point on s’étonne d’observer un groupe de taille #S et de rigidité α(S,F) en supposant que le groupe est généré aléatoirement. Comme on recherche des groupes qui ne sont pas composés de bruit, seuls les groupes pour lesquels la probabilité est faible seront validés. Une optimisation. Afin de connaître de manière automatique quel sous-groupe S est α-rigide, un critère de validation automatique est utilisé. Ce critère de validation s’appuie sur l’espérance du nombre de fausses alarmes, le NFA : une probabilité α pondérée par un nombre de tests. Cette mesure de qualité associe une borne supérieure de l’espé- rance du nombre de fausses alarmes au nombre de groupes de taille k de S qui suivent le modèle de fond : Proposition 5. Soit C = {(mi ,m ′ i )|i = 1,...,n} un ensemble de n appariements entre les images I et I ′ . Soit S un sous-ensemble de C, constitué de #S = k correspondances, avec k ≤ n − 7. L’ensemble S est dit ε-significatif s’il existe un sous-ensemble S ′ de C, tel que #S ′ = 7,S ′ ∩S = 0/ et4.3–A Contrario-RANSAC 75 NFA(S,FS ′, k) = 3(n−7) n k k 7 α k−7 ≤ ε. (4.7) Le NFA permet d’estimer quel sous-groupe de taille k réfute l’hypothèse de fond H0. On mesure ainsi l’α-rigidité d’un sous-groupe de S de taille k pour la matrice FS ′ . Cette mesure est d’autant plus significative que la quantité NFA(S,FS ′, k) est faible. Le nombre de tests utilisé est composé de : 1. le nombre de tirage aléatoire : Le terme 3 k 7 correspond au nombre de transformations F qu’il est possible d’estimer parmi les k correspondances restantes. Le nombre de 7-uplets multiplié par le nombre de modèles hypothèses maximum pouvant être calculé. 2. le nombre de groupe de résidus (n − 7). Les appariements restants dont les erreurs résiduelles sont ordonnées par ordre croissant (les différentes bornes supé- rieures α à évaluer), 3. le nombre de groupe de taille k ≤ n−7 : le terme n k . Identifier le groupe optimal pour la matrice FS ′ consiste à trouver le nombre de valeurs étant le plus α-consistant : le groupe Sk ayant le plus petit NFA. Soit, rechercher le groupe de taille k minimisant l’équation NFA(S,FS, k) : NFA(Sk) = min k=8...n NFA(S,FS ′, k) ≤ ε , (4.8) avec ε = 1 comme borne naturelle pour indiquer que l’on autorise au plus une fausse alarme par détection. Les sous-groupes sont explorés en faisant varier k ∈ [8,n]. Tester tous les sous-ensembles de 7-uplets n’étant pas envisageable, il convient d’utiliser les mêmes idées que RANSAC pour créer l’algorithme AC-RANSAC (cf. procédure 3). Á chaque itération un 7-uplets S est tiré parmi les n correspondances. De une à trois matrices fondamentales sont alors estimées. Pour chacune on recherche le sous-groupe le plus α-consistant : Les erreurs pour les n−7 appariements restant (mi ,m ′ i ) ∈C | S sont évaluées et ordonnées par ordre croissant puis le groupe de taille k optimal est identi- fié. On itère jusqu’à ce qu’un nombre maximal d’itérations ait été atteint ou que l’on a identifié une hypothèse donnant un NFA< 1, phase où l’on va pouvoir optimiser localement le modèle pour continuer à identifier de nouvelle matrice F ayant sous-groupe avec un NFA plus petit. On obtient la procédure 3 :76 4–L’estimation robuste de modèles paramétriques Procédure 3 AC-RANSAC Entrée: D = {(m,m ′ )} : un ensemble de correspondances Entrée: N : un nombre maximal de tirage Sortie: l’ensemble consensus Sopt, le modèle Fopt validé a contrario et son NFA. iter = 0, Sopt = 0/, optim = 0 NFAopt = 1 Dcopie = D (1) Échantillonnage aléatoire : Tirage d’un 7-uplet S parmi Dcopie Estimation de(s) matrices F (au plus 3) pour chaque matrice F faire (2) Sélection des inliers : Tri des correspondances (m,m ′ ) selon leur erreur résiduelle αi Sélection du groupe S ′de taille k minimisant le NFA(S,F,αi , k) (3) Validation : si #S ′ > #Sopt et NFA(S’) < NFAopt alors Sopt = S ′ Fopt = F (3.1) Optimisation du modèle et réduction du nombre d’itération : si NFA(S’) < 1 et optim = 0 alors Dcopie = S ′ N = iter+N/10; optim = 1 fin si fin si fin pour (4) Critère d’arrêt : Tant que iter < N, iter = iter +1. Retour à l’étape 1. (5) Optimisation du modèle final : Estimation aux moindres carrés de Fopt en utilisant Sopt.4.4–Généralisation de la mise en correspondance a contrario pour l’estimation de modèles paramétriques 77 4.4 Généralisation de la mise en correspondance a contrario pour l’estimation de modèles paramétriques Le modèle de fond proposé pour la géométrie épipolaire par MOISAN et STIVAL (2004) est très générique (indépendance mutuelle et distribution uniforme des points homologues), il peut donc être utilisé pour l’estimation de modèles paramétriques autres que la matrice fondamentale. Dans un premier temps nous nous intéressons au cas des transformations géométriques du plan. Puis nous proposons d’explorer une formulation générique du calcul NFA pour appliquer l’estimation robuste a contrario AC-RANSAC à des modèles inexplorés jusqu’alors. Étendre la formulation a contrario initiale pour le cas des transformations géomé- triques du plan (similitudes, transformations affines et homographie) requiert de redé- finir les points suivants : 1. La mesure de similarité : la mesure de l’erreur résiduelle, Les transformations géométriques du plan impliquent non plus une distance à une ligne épipolaire, mais une correspondance point à point. Soit Mp un modèle paramétrique réalisant une transformation géométrique du plan. L’erreur résiduelle de transfert dans l’image droite s’exprime par la distance euclidienne entre le point x ′ de l’image droite et le point Mpx, transfert du point x de l’image gauche à l’image droite : M (Mpx, x ′ ) = kMpx−x ′ k2. (4.9) Pour tout correspondance (x, x ′ ) la probabilité conditionnellement à H0 que la distance M (Mpx, x ′ ) soit plus petite que α est bornée supérieurement par le rapport de l’aire du disque de rayon α divisé par l’aire A ′ de l’image I ′ : ∀α > 0, PH0 [M (Mpx, x ′ ) ≤ α] ≤ π α 2 A′ . (4.10) Autrement dit, ∀α > 0, PH0 [ π A′M (Mpx, x ′ ) 2 ≤ α] ≤ α. (4.11) 2. La mesure de significativité : la mesure de l’α-rigidité, Une nouvelle définition de la rigidité (en considérant les erreurs de transfert dans les deux images) est exprimée : α(S,MpS ′) := max (x,x ′)∈S max π A′M (Mpx, x ′ ) 2 , π A M (x,M−1 p x ′ ) 2 (4.12) La cohérence d’un sous-groupe S ′ de correspondances réelles selon une transformation Mp, en considérant la probabilité que la rigidité aléatoire de α(S,MpS ′) soit plus petite que la rigidité observée α(S,Mp) sous l’hypothèse nulle H0, est mesurée comme précédemment : ∀α > 0, PH0 α(S,MpS′) ≤ α ≤ α #S (4.13) 3. La phase d’optimisation : le calcul du NFA. En considérant maintenant un ensemble S de n appariements entre deux images I et I ′ on exprime de manière analogue le critère de validation du NFA proposé par MOISAN et STIVAL (2004) : NFA(S,MpS′, k) = (n−Ns) n k k Ns α k−Ns ≤ ε, (4.14) Système de mesure d’imp´edance ´electrique embarqu´e, application aux batteries Li-ion Rouba Al Nazer To cite this version: Rouba Al Nazer. Syst`eme de mesure d’imp´edance ´electrique embarqu´e, application aux batteries Li-ion. Signal and Image processing. Universit´e de Grenoble, 2014. French. HAL Id: tel-00958783 https://tel.archives-ouvertes.fr/tel-00958783 Submitted on 13 Mar 2014 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destin´ee au d´epˆot et `a la diffusion de documents scientifiques de niveau recherche, publi´es ou non, ´emanant des ´etablissements d’enseignement et de recherche fran¸cais ou ´etrangers, des laboratoires publics ou priv´es.THÈSE Pour obtenir le grade de DOCTEUR DE L’UNIVERSITÉ DE GRENOBLE Spécialité : Signal Image Télécommunications et Parole Arrêté ministériel : 7 août 2006 Présentée par Rouba AL NAZER Thèse dirigée par Nadine MARTIN et Co-encadrée par Viviane CATTIN Pierre GRANJON préparée au sein du Laboratoire CEA/LETI dans l'École Doctorale Electronique Electrotechnique Automatique Traitement du Signal Système de mesure d'impédance électrique embarqué, application aux batteries Li-ion Thèse soutenue publiquement le 24 Janvier 2014, devant le jury composé de : M., Gérard, BLOCH Professeur, Université de Lorraine, Rapporteur M., Christophe, FORGEZ Professeur, Université de Technologie de Compiègne, Rapporteur M., François, HUET Professeur, Université Pierre et Marie Curie, Membre Mme, Marie, CHABERT Professeur, INP-Toulouse, Présidente M., Maxime, MONTARU Docteur Ingénieur, CEA/INES, Invité Mme, Nadine, MARTIN Directeur de Recherche CNRS, GIPSA-Lab, Directrice de thèse Mme, Viviane, CATTIN Docteur Ingénieur, CEA/LETI, Co-encadrante M., Pierre, GRANJON Maître de conférences, Grenoble-INP, GIPSA-Lab, Co-encadrant Remerciements Ce travail a été effectué dans le laboratoire L2EP du leti du CEA grâce à Viviane Cattin que je tiens à remercier pour m'avoir permis de réaliser cette thèse et de m'avoir orientée vers la thématique de l'étude de l’impédance des batteries utilisées dans les véhicules hybrides. Je lui suis également reconnaissante pour tous les précieux conseils qu'elle m'a donnés, pour la confiance qu'elle m'a accordée et sans qui ce travail n'aurait jamais vu le jour. J'adresse mes remerciements les plus chaleureux à Pierre Granjon, maître de conférences à ENSE3, pour sa disponibilité, ses qualités pédagogiques et scientifiques. J'ai beaucoup appris à ses côtés et je lui adresse toute ma gratitude. J'ai notamment apprécié d'avoir eu, tout au long de cette thèse, ses conseils de grande rigueur scientifique et littéraire. J'associe à ces remerciements Maxime Montaru, chercheur à l'INES de Chambéry, pour m’avoir transmis la majeure partie des expériences effectuées dans le cadre d’autres projets et pour m’avoir conseillée et guidée avec bienveillance grâce à ses précieuses connaissances dans le domaine des batteries. Un énorme merci à vous trois pour m’avoir corrigée et aidée avec patience, tout au long de la rédaction de ce manuscrit. Je voudrais également remercier tous les membres du jury pour l'intérêt qu'ils ont porté à mon travail. De manière plus personnelle, je remercie chaleureusement tous mes camarades du laboratoire qui m'ont permis d'effectuer cette thèse dans une ambiance amicale, et plus particulièrement ceux qui se reconnaîtront, pour leur soutien et leur bonne humeur. Immanquablement, je souhaite remercier ma famille pour leur soutien constant. Cette thèse, aboutissement de longues années d’études, je la dois beaucoup à mes parents, à mes sœurs et mes frères exceptionnels avec qui j’ai vécu dans un climat toujours serein, à l’abri de tous soucis affectifs. Il m’est impossible de trouver des mots pour dire à quel point je suis fière d’eux, et à quel point je les aime.Résumé La ŵesuƌe d͛iŵpĠdaŶĐe ĠleĐtƌiƋue eŶ eŵďaƌƋuĠ suƌ ǀĠhiĐule est uŶ sujet ĐlĠ pouƌ aŵĠlioƌeƌ les foŶĐtioŶs de diagŶostiĐ d͛uŶ paĐk ďatteƌie. OŶ ĐheƌĐhe eŶ paƌtiĐulieƌ à fouƌŶiƌ aiŶsi des ŵesuƌes supplémentaiƌes à Đelles du ĐouƌaŶt paĐk et des teŶsioŶs Đellules, afiŶ d͛eŶƌiĐhiƌ les iŶdiĐateuƌs de ǀieillisseŵeŶt daŶs uŶ pƌeŵieƌ teŵps, et d͛Ġtat de saŶtĠ et de Đhaƌge daŶs uŶ seĐoŶd teŵps. UŶe ŵĠthode ĐlassiƋue de laďoƌatoiƌe pouƌ oďteŶiƌ des ŵesuƌes d͛iŵpĠdaŶĐe d͛uŶe ďatteƌie est la speĐtƌosĐopie d͛iŵpĠdaŶĐe ĠleĐtƌoĐhiŵiƋue ;ou EI“Ϳ. Elle ĐoŶsiste à eŶǀoǇeƌ uŶ sigŶal siŶusoïdal eŶ ĐouƌaŶt ;ou teŶsioŶͿ de fƌĠƋueŶĐe ǀaƌiaďle ďalaǇaŶt uŶe gaŵŵe de fƌĠƋueŶĐes d͛iŶtĠƌġt et ŵesuƌeƌ ensuite la réponse en tension (ou ĐouƌaŶtͿ pouƌ ĐhaƋue fƌĠƋueŶĐe. UŶe teĐhŶiƋue d͛ideŶtifiĐatioŶ aĐtiǀe ďasĠe suƌ l͛utilisatioŶ des sigŶauǆ laƌge ďaŶde à ŵotifs ĐaƌƌĠs est pƌoposĠe. EŶ paƌtiĐulieƌ, des siŵulatioŶs oŶt peƌŵis de Đoŵpaƌeƌ les peƌfoƌŵaŶĐes d͛ideŶtifiĐatioŶ de diffĠƌeŶts sigŶaux d͛eǆĐitatioŶ fƌĠƋueŵŵeŶt utilisĠs daŶs le doŵaiŶe de l͛ideŶtifiĐatioŶ et de ǀĠƌifieƌ les ĐoŶditioŶs ĐoƌƌespoŶdaŶt à uŶ ĐoŵpoƌteŵeŶt liŶĠaiƌe et iŶǀaƌiaŶt daŶs le teŵps de l͛ĠlĠŵeŶt ĠleĐtƌoĐhiŵiƋue. L͛ĠǀaluatioŶ de la ƋualitĠ d͛estiŵatioŶ est effeĐtuĠe en utilisant une grandeur spécifique : la cohérence. Cette grandeur statistique permet de déterminer un intervalle de confiance sur le module et la phase de l͛iŵpĠdaŶĐe estiŵĠe. Elle peƌŵet de sĠleĐtioŶŶeƌ la gaŵŵe de fƌĠƋueŶĐe où la batterie respecte les hǇpothğses iŵposĠes paƌ la ŵĠthode d͛ideŶtifiĐatioŶ laƌge ďaŶde. AfiŶ de valider les résultats, une électronique de test a été conçue. Les résultats expérimentaux permettent de ŵettƌe eŶ ǀaleuƌ l͛iŶtĠƌġt de Đette appƌoĐhe paƌ ŵotifs ĐaƌƌĠs. UŶ ĐiƌĐuit de ƌĠférence est utilisé afin d'évaluer les performances en métrologie des méthodes. L'étude expérimentale est ensuite poursuivie sur une batterie Li-ion soumise à un courant de polarisation et à différents états de Đhaƌge. Des essais Đoŵpaƌatifs aǀeĐ l͛EI“ soŶt ƌĠalisĠs. Le Đahieƌ de Đhaƌge Ġtaďli à l'aide d͛uŶ simulateur de batterie Li-ioŶ a peƌŵis d͛Ġǀalueƌ les peƌfoƌŵaŶĐes de la teĐhŶiƋue laƌge ďaŶde pƌoposĠe et de stƌuĐtuƌeƌ soŶ utilitĠ pouƌ l͛estiŵatioŶ des Ġtats de ǀieillisseŵeŶt et de Đhaƌge.Abstract Embedded electrical impedance measurement is a key issue to enhance battery monitoring and diagŶostiĐ iŶ a ǀehiĐle. It pƌoǀides additioŶal ŵeasuƌes to those of the paĐk͛s ĐuƌƌeŶt aŶd Đell͛s ǀoltage to eŶƌiĐh the agiŶg͛s iŶdiĐatoƌs iŶ a fiƌst tiŵe, aŶd the battery states in a second time. A classical method for battery impedance measurements is the electrochemical impedance spectroscopy (EIS). At each frequency, a sinusoidal signal current (or voltage) of a variable frequency sweeping a range of frequencies of interest is at the input of the battery and the output is the measured voltage response (or current). An active identification technique based on the use of wideband signals composed of square patterns is proposed. Particularly, simulations were used to compare the performance of different excitation signals commonly used for system identification in several domains and to verify the linear and time invariant behavior for the electrochemical element. The evaluation of the estimation performance is performed using a specific quantity: the spectral coherence. This statistical value is used to give a confidence interval for the module and the phase of the estimated impedance. It allows the selection of the frequency range where the battery respects the assumptions imposed by the non-parametric identification method. To experimentally validate the previous results, an electronic test bench was designed. Experimental results are used to evaluate the wideband frequency impedance identification. A reference circuit is first used to evaluate the performance of the used methodology. Experimentations are then done on a Li–ion battery. Comparative tests with EIS are realized. The specifications are established using a simulator of Li-ion battery. They are used to evaluate the performance of the proposed wide band identification method and fix its usefulness for the battery states estimation: the state of charge and the state of health. TABLE DES MATIERES INTRODUCTION ................................................................................................................................................ 1 CHAPITRE 1 : CONTEXTE GENERAL .............................................................................................................. 5 1.1 PROBLEMES ECOLOGIQUES ET ECONOMIQUES LIES AU TRANSPORT........................................................................ 5 1.1.1 Le transport en tant que principal émetteur de GES ......................................................................... 5 1.1.2 Le pétrole : conflits économiques et politiques ................................................................................. 8 1.2 VERS L͛ELECTRIFICATION DU VEHICULE ............................................................................................................ 8 1.3 GENERALITES SUR LES ACCUMULATEURS........................................................................................................ 10 1.3.1 Les technologies des accumulateurs ............................................................................................... 10 1.3.2 Grandeurs caractéristiques d’uŶ aĐĐuŵulateuƌ .............................................................................. 12 1.3.2.1 La capacité de stockage C ሺAhሻ .............................................................................................................. 12 1.3.2.2 La capacité nominale Cn ሺAhሻ................................................................................................................ 12 1.3.2.3 La capacité stockée Cs ሺAhሻ ................................................................................................................... 12 1.3.2.4 Le rendement faradique (%) ................................................................................................................... 12 1.3.2.5 L͛autodécharge (%) ................................................................................................................................. 12 1.3.2.6 La tension à vide (OCV pour Open Circuit Voltage) ................................................................................ 13 1.3.2.7 La durée de vie en cyclage et calendaire ................................................................................................ 13 1.3.3 Les accumulateurs Li-ion ................................................................................................................. 13 1.3.3.1 Fonctionnement ..................................................................................................................................... 13 1.3.3.2 Phénomènes physico-chimiques ............................................................................................................ 14 a) L͛effet de ĐouĐhe douďle............................................................................................................................. 14 b) Transfert de charge ..................................................................................................................................... 15 c) La diffusion .................................................................................................................................................. 15 d) Film de passivation ...................................................................................................................................... 15 e) Pertes ohmiques.......................................................................................................................................... 16 1.3.4 Des accumulateurs aux batteries .................................................................................................... 16 1.4 SYSTEME DE SUPERVISION DE BATTERIE ......................................................................................................... 16 1.4.1 IŶdiĐes d’Ġtats ................................................................................................................................. 17 1.4.1.1 Etat de santé (SOHሻ................................................................................................................................ 17 1.4.1.2 Etat de charge (SOC)............................................................................................................................... 17 1.4.2 Terminologie.................................................................................................................................... 18 1.5 L͛ACCUMULATEUR : OBJET DE MODELISATION ................................................................................................ 19 1.5.1 Boite Blanche ................................................................................................................................... 19 1.5.2 Boite noire ....................................................................................................................................... 20 1.5.3 Boite grise ........................................................................................................................................ 20 1.5.3.1 Le modèle de Randles généralisé ........................................................................................................... 21 1.5.3.2 Application aux cellules LiFePO4 ............................................................................................................. 231.6 CIRCUIT ELECTRIQUE EQUIVALENT ET NOTION D͛IMPEDANCE ELECTRIQUE ............................................................. 24 CHAPITRE 2 : IDENTIFICATION DE L’IMPEDANCE ELECTRIQUE D’UN ACCUMULATEUR.............................. 25 2.1 HYPOTHESES DE TRAVAIL............................................................................................................................ 26 2.2 ETAT DE L͛ART.......................................................................................................................................... 26 2.2.1 Identification de la résistance interne ............................................................................................. 27 2.2.1.1 Mesure par milliohmmètre.................................................................................................................... 27 2.2.1.2 Temps de repos (period-of-rest) ............................................................................................................ 27 2.2.1.3 Impulsion de courant .............................................................................................................................. 27 2.2.1.4 Interprétation ......................................................................................................................................... 27 2.2.1.5 Exploitation ............................................................................................................................................ 28 2.2.2 SpeĐtƌosĐopie d’iŵpĠdaŶĐe ĠleĐtƌiƋue ;SIEͿ.................................................................................... 29 2.2.3 Vers une rupture inévitable des méthodes classiques ..................................................................... 29 2.3 IDENTIFICATION NON PARAMETRIQUE D͛UN ACCUMULATEUR............................................................................. 30 2.3.1 Système linéaire et invariant dans le temps (LIT) ............................................................................ 30 2.3.2 Identification non paramétrique ..................................................................................................... 31 2.3.2.1 Principe ................................................................................................................................................... 31 2.3.2.2 Cohérence spectrale ............................................................................................................................... 32 2.3.2.3 Algoƌithŵe d͛ideŶtifiĐatioŶ ŶoŶ paƌaŵĠtƌiƋue ...................................................................................... 33 2.3.2.4 Intervalles de confiance .......................................................................................................................... 34 2.3.3 Eƌƌeuƌs d’estiŵatioŶs ...................................................................................................................... 35 2.3.3.1 Erreur quadratique moyenne et variance d͛eƌƌeuƌ d͛estiŵatioŶ ........................................................... 35 2.3.3.2 Erreur quadratique moyenne efficace et écart type normalisés ............................................................ 35 2.3.4 IŶtĠƌġt ŵajeuƌ de l’ideŶtifiĐatioŶ laƌge ďaŶde pouƌ l’appliĐatioŶ eŶ eŵďaƌƋuĠ ............................. 36 2.3.5 Effet des paƌaŵğtƌes de la ŵĠthode d’estiŵatioŶ .......................................................................... 36 2.3.5.1 “igŶal d͛eǆĐitation .................................................................................................................................. 37 a) Bruit blanc aléatoire .................................................................................................................................... 37 b) Séquence binaire pseudo aléatoire ............................................................................................................. 38 c) Chirp ............................................................................................................................................................ 38 d) Carré modulé en fréquence ........................................................................................................................ 39 e) Carré ............................................................................................................................................................ 40 2.3.5.2 Noŵďƌe d͛ĠĐhaŶtilloŶs, duƌĠe d͛aĐƋuisitioŶ, ŵoǇeŶŶage...................................................................... 40 2.3.5.3 Drift compensation ................................................................................................................................. 41 2.4 APPLICATION AUX ACCUMULATEURS : ETUDE EN SIMULATION............................................................................ 42 2.4.1 Système, entrée, sortie .................................................................................................................... 42 2.4.2 Visualisation des résultats ............................................................................................................... 43 2.4.3 Validation des résultats ................................................................................................................... 43 2.4.4 Simulations ...................................................................................................................................... 43 2.4.4.1 Paramètres de simulation ...................................................................................................................... 43 2.4.4.2 Cohérence spectrale ............................................................................................................................... 44 2.4.4.3 Intervalles de confiance .......................................................................................................................... 452.4.4.4 Effet du bruit de mesure ........................................................................................................................ 48 2.5 CONCLUSION ........................................................................................................................................... 49 CHAPITRE 3 : VALIDATION EXPERIMENTALE DES RESULTATS.................................................................... 51 3.1 BANC EXPERIMENTAL................................................................................................................................. 51 3.1.1 Electronique de génération des signaux à motifs carrés ................................................................. 51 3.1.2 TechŶiƋue d’ideŶtifiĐatioŶ paƌ aŶalǇse paƌ haƌŵoŶiƋue ;AHͿ......................................................... 52 3.1.3 Mesure à quatre points ................................................................................................................... 53 3.1.4 Circuit électrique de référence ......................................................................................................... 53 3.1.4.1 Description du circuit électrique de référence ....................................................................................... 53 3.1.4.2 Contraintes pour une mesure directe .................................................................................................... 53 3.2 PROTOCOLE EXPERIMENTAL ........................................................................................................................ 54 3.2.1 TeĐhŶologie de l’aĐĐuŵulateuƌ ....................................................................................................... 54 3.2.2 Réglage du point de fonctionnement .............................................................................................. 55 3.2.3 Aŵplitude du sigŶal d’eǆĐitatioŶ..................................................................................................... 55 3.2.4 Paramétrage des expérimentations ................................................................................................ 57 3.2.4.1 CoŶĐeptioŶ des sigŶauǆ d͛eǆĐitatioŶ ...................................................................................................... 57 3.2.4.2 Séparation des mesures ......................................................................................................................... 58 3.3 RESULTATS EXPERIMENTAUX ....................................................................................................................... 59 3.3.1 Résultats des essais sur le circuit électrique de référence ............................................................... 59 3.3.1.1 ‘Ġsultats aǀeĐ la teĐhŶiƋue d͛analyse par harmonique ......................................................................... 59 3.3.1.2 ‘Ġsultats de la teĐhŶiƋue d͛ideŶtifiĐatioŶ laƌge ďaŶde .......................................................................... 60 3.3.1.3 ‘Ġsultats aǀeĐ l͛AH à ďase de signaux carrés périodiques ...................................................................... 62 3.3.1.4 Interprétation des résultats .................................................................................................................... 63 3.3.2 Test sur un accumulateur réel ......................................................................................................... 65 3.3.2.1 Etude dans la gamme de fréquence [Ͷ Hz-ͻ͸ Hz]................................................................................. 65 a) Résultats avec la SBPA ................................................................................................................................. 65 b) Résultats avec un signal carré modulé en fréquence .................................................................................. 66 c) Résultats avec un signal carré périodique ................................................................................................... 67 d) Interprétation des résultats ........................................................................................................................ 68 3.3.2.2 Etude en basses fréquences [Ͳ,Ͳ͵͵ Hz-͵,͵͵ Hz]................................................................................... 69 3.4 CONCLUSION ........................................................................................................................................... 71 CHAPITRE 4 : L’IMPEDANCE ELECTRIQUE POUR LA SUPERVISION DES ACCUMULATEURS......................... 72 4.1 IMPEDANCE ELECTRIQUE ET CEE................................................................................................................. 72 4.1.1 Technologie DFRA/DFIS ................................................................................................................... 72 4.1.2 IdeŶtifiĐatioŶ paƌtielle d’uŶ CEE en utilisant une SBPA................................................................... 73 4.1.3 Principe de normalisation pour l’ideŶtifiĐatioŶ sous uŶ ĐouƌaŶt de polaƌisatioŶ foƌt [18]............. 74 4.1.4 Algoƌithŵe d’optiŵisatioŶ : aŵĠlioƌatioŶ des peƌfoƌŵaŶĐes ......................................................... 74 4.1.4.1 PƌiŶĐipe de l͛estiŵatioŶ paƌ optiŵisatioŶ ŶuŵĠƌiƋue............................................................................ 754.1.4.2 Application aux accumulateurs .............................................................................................................. 75 a) Approche classique ..................................................................................................................................... 77 b) Les approches alternatives .......................................................................................................................... 78 4.1.5 La nouvelle approche : estimation en deux étapes ......................................................................... 82 4.1.6 Résultats expérimentaux ................................................................................................................. 83 4.2 EXPLOITATION DE L͛IMPEDANCE ELECTRIQUE POUR LE SUIVI DES INDICES D͛ETAT.................................................... 84 4.2.1 Cahier des charges pour le SOH ...................................................................................................... 84 4.2.2 Cahier des charges pour le SOC....................................................................................................... 87 4.2.3 Etude de validitĠ de la teĐhŶiƋue d’identification large bande pour le suivi du SOH...................... 88 4.2.3.1 “igŶal d͛eǆĐitatioŶ et ĐalĐul de la dispeƌsioŶ suƌ les ŵesuƌes ................................................................ 88 4.2.3.2 Interprétation des résultats .................................................................................................................... 89 4.2.4 ValiditĠ de la teĐhŶiƋue d’ideŶtifiĐatioŶ laƌge ďaŶde pouƌ le suivi du SOC..................................... 89 4.2.4.1 Essai de suivi du SOC .............................................................................................................................. 89 4.2.4.2 Interprétation des résultats .................................................................................................................... 90 4.3 CONCLUSION ........................................................................................................................................... 91 CONCLUSIONS ET PERSPECTIVES .................................................................................................................... 94 ANNEXE A. DERIVATION NON ENTIERE ET CPE ....................................................................................... 97 ANNEXE B. DATASHEET BATTERIE A123-SYSTEMS ................................................................................ 100 ANNEXE C. SIMULATEUR D’UN ACCUMULATEUR LIFEPOͶ .................................................................. 102 ANNEXE D. CARTE ELECTRONIQUE DE GENERATION DES SIGNAUX A MOTIFS CARRES ......................... 104 ANNEXE E. EXEMPLE D’UN DIAGRAMME DE NYQUIST TOTAL EXPERIMENTAL D’UN ACCUMULATEUR LIFEPOͶ 106 REFERENCES ................................................................................................................................................. 107 TABLE DES FIGURES FIGURE 1-1: EVOLUTION COMPAREE DE LA CONCENTRATION EN COʹ DANS L͛ATMOSPHERE ET DE LA TEMPERATURE MOYENNE DU GLOBE TERRESTRE. ............................................................................................................................................... 6 FIGURE 1-2 : EMISSIONS DE GAZ A EFFET DE SERRE PAR SECTEUR EN FRANCE EN 2000 ET 2011 [4]. ........................................... 7 FIGURE 1-3 : EVOLUTION DE LA PRODUCTION EN AUTOMOBILE ET DE LA CONCENTRATION EN CO2 DANS L͛ATMOSPHERE................. 7 FIGURE 1-4 : EVOLUTION DU PRIX DE PETROLE DE 1987 A 2012 [6]. .................................................................................... 8 FIGURE 1-5 : DIAGRAMME DE RAGONE POUR DIFFERENTES TECHNOLOGIES D͛ACCUMULATEURS [9]. ......................................... 10 FIGURE 1-6 : PRINCIPE DE FONCTIONNEMENT D͛UN ACCUMULATEUR LI-ION [14]. ................................................................. 13 FIGURE 1-7 : SCHEMA DE COMPOSITION DE LA COUCHE DOUBLE [16]. ................................................................................. 15 FIGURE 1-8 : LIEN ENTRE ACCUMULATEURS ET BATTERIES – EXEMPLE D͛UNE BATTERIE COMPOSEE DE 10 MODULES EN SERIE, CHAQUE MODULE CONTENANT 5 ACCUMULATEURS DE 2,3 AH CHACUN EN PARALLELE (5P) MIS EN SERIE 12 FOIS (12S). .................. 16 FIGURE 1-9 : CIRCUIT DE RANDLES. ............................................................................................................................... 21 FIGURE 1-10 : DIAGRAMME DE NYQUIST DE ZR//CPE POUR DIFFERENTES VALEURS DE P [47]. .............................................. 22 FIGURE 1-11 : TROIS TYPES D͛IMPEDANCE DE WARBURG [18]. .......................................................................................... 23 FIGURE 1-12 : MODELE DE BATTERIES LIFEPO4 [18]. ..................................................................................................... 23 FIGURE 2-1 : ESTIMATION DE LA RESISTANCE VIA LE RAPPORT DE ∆V∆I EN UTILISANT LE SIMULATEUR ET COMPARAISON AVEC LES VALEURS DES PARAMETRES DU CEE IMPLANTE. ....................................................................................................... 28 FIGURE 2-2 : SYSTEME SISO. ....................................................................................................................................... 30 FIGURE 2-3 : IDENTIFICATION D͛UN SYSTEME. ................................................................................................................. 32 FIGURE 2-4 : EXEMPLE D͛UNE SBPA (TRACE TEMPOREL A GAUCHE, DENSITE SPECTRALE DE PUISSANCE EN DB A DROITE).............. 38 FIGURE 2-5 : EXEMPLE D͛UN CHIRP (TRACE TEMPOREL A GAUCHE, DENSITE SPECTRALE DE PUISSANCE EN DB A DROITE). ............... 39 FIGURE 2-6 : EXEMPLE D͛UN CARRE MODULE EN FREQUENCE (TRACE TEMPOREL A GAUCHE, DENSITE SPECTRALE DE PUISSANCE EN DB A DROITE)........................................................................................................................................................... 40 FIGURE 2-7 : EXEMPLE D͛UN CARRE (TRACE TEMPOREL A GAUCHE, DENSITE SPECTRALE DE PUISSANCE EN DB A DROITE). ............... 40 FIGURE 2-8 : REPONSE EN TENSION A UN COURANT CONTINU IDC A ESTIMER PAR UN POLYNOME GRACE A LA REPONSE EN TENSION A UN COURANT IDC+ SBPA. ............................................................................................................................... 42 FIGURE 2-9 : ERREUR MOYENNE ENTRE PT ET UDCሺTሻ EN FONCTION DU DEGRE DU POLYNOME PT. ........................................ 42 FIGURE 2-10 : DENSITE SPECTRALE DE PUISSANCE (EN DB) DES CINQ SIGNAUX D͛EXCITATION.................................................... 44 FIGURE 2-11 : COHERENCE SPECTRALE, CINQ SIGNAUX D͛EXCITATION DIFFERENTS, RSB=0DB, GAMME DE FREQUENCE [13 HZ-320 HZ]................................................................................................................................................................. 45 FIGURE 2-12 : INTERVALLES DE CONFIANCE EN HAUTE FREQUENCE POUR LES SIGNAUX ............................................................ 47 FIGURE 2-13 : NRMSE EN % POUR DIFFERENTS SIGNAUX D͛EXCITATION EN FONCTION DU RSB. .............................................. 48 FIGURE 3-1 : SCHEMA SIMPLIFIE DE LA CARTE ELECTRONIQUE UTILISEE POUR GENERER DES SIGNAUX A MOTIFS CARRES. ................. 51 FIGURE 3-2 : APPAREIL VMP-300 DE CHEZ BIOLOGIC. ..................................................................................................... 52 FIGURE 3-3 : SCHEMA DU CIRCUIT DE REFERENCE PASSIF ET DE SON DIAGRAMME DE NYQUIST. ................................................. 53 FIGURE 3-4 : SCHEMA DU CIRCUIT DE REFERENCE PASSIF ADAPTE AU PROTOCOLE DE MESURE. .................................................. 54 FIGURE 3-5 : AMPLITUDE D͛EXCITATION (AͲ) DE LA SBPA SELON LES DONNEES DU SIMULATEUR POUR DIFFERENTES VALEURS DU COURANT DE POLARISATION. ................................................................................................................................ 56FIGURE 3-6 : VARIATION DE L͛AMPLITUDE DU SIGNAL D͛EXCITATION ENTRE LE DEBUT (BLEU) ET LA FIN (VERT) DES TESTS EFFECTUES POUR DIFFERENTES VALEURS DU SOC INITIAL, POUR UN COURANT DE POLARISATION DE ͳͳͲ MA POUR UNE DUREE DE ͷ MINUTES. ..................................................................................................................................................... 57 FIGURE 3-7 : PHOTO DU MONTAGE DE MESURE EN ALTERNANCE (CONNEXION SIMULTANEE DU VMP-300 ET DU SYSTEME D͛IDENTIFICATION LARGE BANDE).......................................................................................................................... 58 FIGURE 3-8 : PHOTO DU MONTAGE DE MESURE ISOLEE AVEC LE VMP-300. ......................................................................... 59 FIGURE 3-9 : DIAGRAMME DE NYQUIST DE L͛IMPEDANCE OBTENUE PAR ANALYSE HARMONIQUE DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ͸ HZ]. ................................................................................................................................................ 60 FIGURE 3-10 : TRACES TEMPORELS DU SIGNAL D͛EXCITATION DE 19 BLOCS DE SBPA POUR LA GAMME DE FREQUENCE [Ͷ HZ-ͻ͸ HZ] : (A) SIGNAL COMPLET (COURANT A GAUCHE, TENSION A DROITE, CAS ACCUMULATEUR EN PREMIERE LIGNE ET ACCUMULATEUR + CIRCUIT ELECTRIQUE DE REFERENCE EN DEUXIEME LIGNE), (B) TRACE IDEM QUE (A) ZOOME SUR UN BLOC DE COURANT ET DE LA REPONSE EN TENSION CORRESPONDANTE POUR LES DEUX CAS, (C) COHERENCES SPECTRALES ESTIMEES A L͛AIDE DES DONNEES PRECEDENTES POUR LES DEUX CAS. ........................................................................................... 61 FIGURE 3-11 : DIAGRAMME DE NYQUIST DE L͛IMPEDANCE OBTENUE POUR LA SBPA DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ͸ HZ]. ...................................................................................................................................................................... 61 FIGURE 3-12 : TRACES TEMPORELS DES SIGNAUX UTILISES POUR L͛AH A BASE DE SIGNAUX CARRES PERIODIQUES : (A) TRACES COMPLETS DU COURANT A GAUCHE ET DE LA REPONSE EN TENSION A DROITE POUR LES CAS ACCUMULATEUR EN PREMIERE LIGNE ET ACCUMULATEUR + CIRCUIT ELECTRIQUE DE REFERENCE EN DEUXIEME LIGNE, (B) EXEMPLE DE DECOUPAGE D͛UN SIGNAL. .... 62 FIGURE 3-13 : DIAGRAMME DE NYQUIST DES IMPEDANCES ELECTRIQUES OBTENUES PAR L͛AH A BASE DE SIGNAUX CARRES PERIODIQUES DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ͸ HZ]. ................................................................................. 63 FIGURE 3-14 : DIAGRAMME DE NYQUIST DES IMPEDANCES ELECTRIQUES ESTIMEES A L͛AIDE DES DIFFERENTS SIGNAUX PAR COMPARAISON AVEC L͛IMPEDANCE THEORIQUE DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ͸ HZ]. .................................... 63 FIGURE 3-15 : (A) CONTACT CARTE-CARTE DANS LE CAS D͛IDENTIFICATION LARGE BANDE. (B) DIAGRAMME DE NYQUIST MONTRANT UNE IMPEDANCE NON REPRODUCTIBLE ET INCONTROLABLE QUI EN RESULTE. ................................................................. 64 FIGURE 3-16 : COHERENCE SPECTRALE: RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC LA SBPA COMME SIGNAL D͛EXCITATION DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ͸ HZ]. ................................................................................ 66 FIGURE 3-17 : DIAGRAMME DE NYQUIST : RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC LA SBPA COMME SIGNAL D͛EXCITATION DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ͸ HZ]. ................................................................................ 66 FIGURE 3-18 : COHERENCE SPECTRALE : RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC LE CARRE MODULE EN FREQUENCE COMME SIGNAL D͛EXCITATION DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ͸ HZ]. .......................................... 67 FIGURE 3-19 : DIAGRAMME DENYQUIST : RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC LE CARRE MODULE EN FREQUENCE COMME SIGNAL D͛EXCITATION DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ͸ HZ]. .......................................... 67 FIGURE 3-20 : COHERENCE SPECTRALE: RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC UN CARRE DE FREQUENCE FONDAMENTALE ͺHZ COMME SIGNAL D͛EXCITATION. .............................................................................................. 68 FIGURE 3-21 : DIAGRAMME DE NYQUIST : RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC UN SIGNAL CARRE DE FREQUENCE FONDAMENTALE ͺHZ COMME SIGNAL D͛EXCITATION. .............................................................................. 68FIGURE 3-22 : RESULTATS DES ESTIMATIONS EXPERIMENTALES OBTENUES AVEC LES DIFFERENTS SIGNAUX A MOTIFS CARRES COMME SIGNAL D͛EXCITATION DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ͸ HZ]. ...................................................................... 69 FIGURE 3-23 : COHERENCE : RESULTATS DE TROIS MESURES EXPERIMENTALES AVEC LA SBPA COMME SIGNAL D͛EXCITATIONS DANS LA GAMME DE FREQUENCE [Ͳ,Ͳ͵͵ HZ-͵,͵͵ HZ]. .................................................................................................... 70 FIGURE 3-24 : DIAGRAMME DE NYQUIST POUR LES MESURES SUR UN ACCUMULATEUR DANS LA GAMME DE FREQUENCE [Ͳ,Ͳ͵͵ HZ-͵,͵͵ HZ]. .................................................................................................................... 70 FIGURE 4-1 : SCHEMA DU CIRCUIT ELECTRIQUE EQUIVALENT UTILISE DANS [80]. .................................................................... 73 FIGURE 4-2 : ALGORITHME D͛OPTIMISATION. .................................................................................................................. 76 FIGURE 4-3 : HISTOGRAMMES NORMALISES OBTENUS AVEC L͛APPROCHE CLASSIQUE : LIGNES VERTES REPRESENTENT LES VALEURS THEORIQUES, LES JAUNES SONT LES VALEURS MOYENNES ESTIMEES SUR LES DIFFERENTES REALISATIONS EFFECTUEES. ............ 78 FIGURE 4-4 : TRACE DU MODULE DES IMPEDANCES PARTIELLES ET DE L͛IMPEDANCE TOTALE DE L͛ACCUMULATEUR. ....................... 79 FIGURE 4-5 : HISTOGRAMMES NORMALISES, APPROCHE PAR SEGMENTATION DE LA BANDE DE FREQUENCE CLASSIQUE : LIGNES VERTES REPRESENTENT LES VALEURS THEORIQUES, LES JAUNES SONT LES VALEURS MOYENNES ESTIMEES SUR LES DIFFERENTES REALISATIONS EFFECTUEES. .................................................................................................................................. 80 FIGURE 4-6 : HISTOGRAMMES NORMALISES, APPROCHE PAR EXTENSION DE BANDES DE FREQUENCE CLASSIQUE : LIGNES VERTES REPRESENTENT LES VALEURS THEORIQUES, LES JAUNES SONT LES VALEURS MOYENNES ESTIMEES SUR LES DIFFERENTES REALISATIONS EFFECTUEES. .................................................................................................................................. 81 FIGURE 4-7 : HISTOGRAMMES NORMALISES, APPROCHE D͛OPTIMISATION EN DEUX ETAPES CLASSIQUE : LIGNES VERTES REPRESENTENT LES VALEURS THEORIQUES, LES JAUNES SONT LES VALEURS MOYENNES ESTIMEES SUR LES DIFFERENTES REALISATIONS EFFECTUEES. ...................................................................................................................................................................... 82 FIGURE 4-8 : EXEMPLE DE RESULTATS EXPERIMENTAUX A DIFFERENTS SOCS ET INTENSITES DE COURANT. ................................... 84 FIGURE 4-9 : MODELE D͛EVOLUTION DE R EN FONCTION DU SOH. ..................................................................................... 86 FIGURE 4-10 : ABAQUE DE PRECISION POUR SOH. .......................................................................................................... 86 FIGURE 4-11 : TRACE DE LA VARIATION ∆ZSOCሺFሻ SUR L͛IMPEDANCE ELECTRIQUE A SOCͲ = ͻͷ% ET IͲ = -Ͳ,ʹ͸A ET CE POUR ͷ% DE VARIATION SUR LE SOC. .......................................................................................................................... 88 FIGURE 4-12 : TRACE DE L͛ECART TYPE DE LA PARTIE REELLE DE L͛IMPEDANCE DE L͛ACCUMULATEUR CALCULE SUR LES M = ͵Ͳ ESSAIS AVEC LA SBPA COMME SIGNAL D͛EXCITATION. ........................................................................................................ 89 FIGURE 4-13 : DIAGRAMME DE NYQUIST A DIFFERENTS SOCS DE L͛IMPEDANCE ELECTRIQUE DE L͛ACCUMULATEUR DANS LA BANDE DE FREQUENCE [Ͳ,Ͳ͵͵ HZ-͵,͵͵ HZ]. ..................................................................................................................... 90 FIGURE 4-14 : EVALUATION DES RESULTATS D͛IDENTIFICATION LARGE BANDE PAR RAPPORT AU CAHIER DES CHARGES DU SOC. ....... 91 FIGURE A-1 : DIAGRAMME DE BODE DE L͛APPROXIMATION D͛UN CPE [18]. ......................................................................... 98 FIGURE A-2 : CIRCUIT ELECTRIQUE EQUIVALENT DE L͛OPERATEUR DE DERIVATION NON ENTIERE S-Υ [18]. .................................. 99 FIGURE C-1 : SCHEMA DU CIRCUIT IMPLANTE SOUS SIMULINK........................................................................................... 102 FIGURE E-1 : DIAGRAMME DE NYQUIST EXPERIMENTAL COMPLET DE L͛ACCUMULATEUR A UN SOC DE 83 % ET SOUS UN COURANT DE POLARISATION DE DECHARGE DE 0,92 A. ............................................................................................................. 106Page | 1 Introduction De Ŷos jouƌs, le ƌĠĐhauffeŵeŶt ĐliŵatiƋue est l͛uŶ des dileŵŵes Ƌui eǆalte les effoƌts des paǇs afiŶ d͛eŶ liŵiteƌ les ĐoŶsĠƋueŶĐes gƌaǀes. A la ďase, il s͛agit d͛uŶ phĠŶoŵğŶe Ŷatuƌel Ƌue le gloďe teƌƌestƌe ĐoŶŶait depuis l͛auďe des teŵps. Les fluĐtuatioŶs Ŷatuƌelles de teŵpĠƌatuƌe soŶt auǆ alentours de plus ou moins ͳ°� par millénaire. Or, les mesures terrestres de températures réalisées au cours du ��௘ siècle montrent une élévation significative de la température moyenne, ce qui traduit une situation alarmante. Le gƌoupe iŶteƌgouǀeƌŶeŵeŶtal suƌ l͛ĠǀolutioŶ du Đliŵat ;GIECͿ fondé paƌ l͛ONU est chargé de réaliser une synthèse des études scientifiques sur ce sujet. Dans son dernier rapport, le GIEC a présenté des projections des modèles climatiques indiquant que la température à la surface du globe est susceptible d'augmenter de ͳ,ͳ à ͸,Ͷ °� supplémentaires au cours du �� ௘ siècle. La corrélation entre les relevés de ��ଶ et l͛augŵeŶtatioŶ des teŵpĠƌatuƌes pƌouǀe la ƌespoŶsaďilitĠ de l͛aĐtiǀitĠ huŵaiŶe liĠe à la pƌoduĐtioŶ ŵassiǀe de gaz à effets de seƌƌe ;GE“Ϳ. BieŶ Ƌue l͛Ġtude soit liŵitĠe à la pĠƌiode allaŶt jusƋu͛à ʹͳͲͲ, le réchauffement devrait se poursuivre au-delà de cette date, même si les émissions s'arrêtent, en raison de la grande capacité calorifique des océans et de la durée de vie du ��ଶ et des autres GES dans l'atmosphère. Les conséquences prévues théoriquement de ce réchauffement accéléré sont nombreuses et difficiles à cerner. Cependant, on en citera plusieurs qui sont déjà visibles : la fréquence, l'intensité et la durée des phénomènes extrêmes (canicules, inondations, sécheresses, cyclones...) se sont accentuées ; les écarts thermiques entre les saisons et les continents sont de moins en moins marqués ; le recul des glaciers et la fonte des calottes polaires augmentent le niveau des océans ; les cycles de vie de certaines espèces animales et végétales sont modifiés et leur risque d'extinction s͛aĐĐƌoît, etĐ… Outƌe Đes iŵpaĐts suƌ l͛eŶǀiƌoŶŶeŵeŶt, tous les seĐteuƌs soĐio-économiques seront affectés. Ces ĐoŶsĠƋueŶĐes iŵposeŶt la ŵise à jouƌ de l͛iŶfƌastƌuĐtuƌe phǇsiƋue et soĐiale, allaŶt d'uŶe modification des pratiques de construction à une adaptation des systèmes de santé. Le secteur de l͛agƌiĐultuƌe seŶsiďle au Đliŵat seƌa aussi touĐhĠ. Le ĐhaŶgeŵeŶt de teŵpĠƌatuƌe affeĐte la pĠƌiode des récoltes ; les précipitations fortes provoquent de sérieux glissements de terrain ou de violentes ĐoulĠes de ďoue d͛où le ďesoiŶ d͛adaptatioŶ de Đe seĐteuƌ pouƌ ƌĠsisteƌ auǆ Đatastƌophes Ŷatuƌelles plus intenses et plus fréquentes. L͛eŶseŵďle des Ġtudes et doŶŶĠes aŶŶoŶĐeŶt doŶĐ uŶ daŶgeƌ Ƌui ŵeŶaĐe la ǀie suƌ la Teƌƌe. Ce problème planétaire touche le monde entier sans exception et nécessite donc un engagement au Ŷiǀeau iŶteƌŶatioŶal afiŶ d͛eŶ liŵiteƌ les ĐoŶsĠƋueŶĐes et sauǀeƌ la plaŶğte.Page | 2 L͛aĐtiǀitĠ huŵaiŶe gĠŶğƌe des GE“ Ƌui soŶt uŶe des Đauses du ƌĠĐhauffeŵeŶt ĐliŵatiƋue. La combustion des énergies fossiles est l'un des premiers facteurs qui augmentent la production des GES. C'est pourquoi aujourd'hui il est nécessaire de trouver de nouvelles énergies propres pour, sans même penser à baisser cette production, tenter au moins d'arrêter sa croissance. Actuellement, la quasi-totalité des activités (industries, transport, habitat etc..) se base sur les dérivés du pétrole (essence et gazole) dont les stocks sur la planète sont limités ce qui entraine un problème économique et politique : la ƌaƌetĠ des ƌessouƌĐes liĠe à l͛augŵeŶtatioŶ iŶĐoŶtƌôlaďle de la deŵaŶde cause la croissance ingérable des prix et implique une dépendance politique envers les pays fouƌŶisseuƌs. Des solutioŶs doiǀeŶt doŶĐ ġtƌe ŵises eŶ œuǀƌe pouƌ liŵiteƌ la consommation du pétrole tant dans l'industrie, que l'habitat ou les transports. Dans le domaine des transports, l'hybridation des motorisations thermiques est une solution provisoire qui prépare pour les motorisations tout électriques. En utilisant des sources d'énergie électriques au lieu des dérivés du pétrole, l'efficacité énergétique du véhicule est améliorée et, en même temps, les émissions du véhicule et la consommation des carburants à base de pétrole sont réduites. Depuis plusieurs années, les études sur ces nouvelles configurations de véhicules sont lancées. DiffĠƌeŶts sujets soŶt ĠǀoƋuĠs, ŵais la ďatteƌie ƌeste l͛ĠlĠŵeŶt pƌiŵoƌdial ǀu Ƌue le ďoŶ fonctionnement des véhicules hybrides et électriques est lié à la disponibilité du réseau de puissance et donc par conséquent à la batterie. DaŶs Đe geŶƌe d͛appliĐatioŶs où de foƌtes puissaŶĐe et teŶsioŶ soŶt ŶĠĐessaiƌes, les aĐĐuŵulateuƌs ;dits aussi ĐellulesͿ soŶt ďƌaŶĐhĠs eŶ paƌallğle pouƌ foƌŵeƌ Đe Ƌu͛oŶ appelle uŶ Ġtage. L͛assoĐiatioŶ de plusieurs étages en série forme un module, et finalement un pack est constitué de plusieurs modules en série. Le marché des batteries ne cesse d'évoluer au cours des années et les thèmes de recherche peuvent être divisés en deux groupes. Le premier porte sur la chimie et les processus de fabrication des batteries, et vise à augmenter l'énergie, la puissance, la sécurité et la dimension des cellules, de ŵaŶiğƌe à ġtƌe Đoŵpatiďle aǀeĐ les eǆigeŶĐes de l'autoŵoďile. Le seĐoŶd s͛iŶtĠƌesse auǆ ŵodes d͛utilisatioŶ des ďatteries et concerne le développement des modèles pour décrire leurs comportements, des algorithmes pour estimer des variables non mesurables, des circuits ĠleĐtƌoŶiƋues pouƌ gĠƌeƌ les ďatteƌies peŶdaŶt leuƌ foŶĐtioŶŶeŵeŶt, etĐ… Le pƌeŵieƌ thğŵe de recherche appaƌaît daŶs Đe ŵaŶusĐƌit au tƌaǀeƌs du Đhoiǆ de la teĐhŶologie de l͛aĐĐuŵulateuƌ, aloƌs Ƌue le Đœuƌ de l͛Ġtude appaƌtieŶt au deuǆiğŵe. La ďatteƌie est souǀeŶt aĐĐusĠe d͛ġtƌe le faĐteuƌ liŵitaŶt de Đes Ŷouǀelles ĐatĠgoƌies de ǀĠhiĐules. Etant la partie la plus coûteuse (ͷͲ % du prix du véhicule), ni le constructeur, ni le consommateur ne désirent assumer le coût financier du remplacement du pack batterie au cours de la vie du véhicule. Page | 3 Le dĠǀeloppeŵeŶt d͛uŶ ǀĠhiĐule pƌopƌe eŶgloďe paƌ ĐoŶsĠƋueŶt l͛optiŵisation de sa chaîne de ŵotoƌisatioŶ du poiŶt de ǀue du Đoût et de l'autoŶoŵie, aiŶsi Ƌu͛uŶe ŵise eŶ adĠƋuatioŶ de la duƌĠe de vie du pack batterie avec celle du véhicule. Malheureusement, les performances des batteries déclinent au fil de leur utilisation, ce qui rend leur gestion un enjeu essentiel pour la diffusion des véhicules propres dans des conditions de coûts acceptables. Un système de management de batterie (BMS pour Battery Management system) à bord d'un véhicule est nécessaire afin de protéger les batteries de tous les dommages éventuels, de prolonger leur durée de vie, et de veiller à les maintenir à un niveau de fonctionnement optimal. Pouƌ atteiŶdƌe Đes oďjeĐtifs, plusieuƌs iŶdiĐes d͛Ġtat soŶt pƌĠdĠfiŶis doŶt deuǆ soŶt pƌiŵoƌdiauǆ pouƌ une bonne gestion de l'énergie. Une bonne connaissance de l'état de charge (�� pour State Of Charge) et de l'état de santé (�� pour State Of Health) permet de déterminer le niveau de fonctionnement que peut assurer la batterie. Une bonne surveillance de la batterie permet également d'assurer son fonctionnement en toute sécurité et prévenir tout risque de dégradation des accumulateurs eux-mêmes (emballement thermique, explosion) et de leurs performances. Dans la littĠƌatuƌe, oŶ ŵeŶtioŶŶe souǀeŶt la peƌtiŶeŶĐe de l͛iŵpĠdaŶĐe ĠleĐtƌiƋue pouƌ atteiŶdƌe Đes objectifs. Sur la base d͛oďseƌǀatioŶs des ǀaƌiatioŶs de l͛alluƌe du speĐtƌe d͛iŵpĠdaŶĐe aǀeĐ les conditions de mesures (courant, ��, ��, etĐ …Ϳ, oŶ suggğƌe uŶe ĐoƌƌĠlatioŶ iŵpliĐite ou eǆpliĐite de l͛iŵpĠdaŶĐe aǀeĐ Đes iŶdiĐes. DaŶs Đette optiƋue, le pƌojet de ƌeĐheƌĐhe pƌoposĠ daŶs Đe ŵĠŵoiƌe ǀise à Ġtaďliƌ uŶ sǇstğŵe d͛estiŵatioŶ eŶ eŵďaƌƋuĠ de l͛iŵpĠdaŶĐe ĠleĐtƌiƋue des accumulateurs et s'inscrit dans le cadre de l'amélioration des systèmes de gestion de batterie. Toute l'étude portera sur un accumulateur de technologie Li-ion. En effet, cette technologie présente uŶe eǆĐelleŶte deŶsitĠ d͛ĠŶeƌgie, uŶe duƌĠe de ǀie iŵpoƌtaŶte et Ŷe possğde pas d͛effet ŵĠŵoiƌe. Après des débuts plus ou moins satisfaisants sur des technologies nickel-cadmium (��) ou nickelhydrure métallique (��), les batteries Li-ion semblent prometteuses pour une utilisation dans des applications de puissance et donc représentent la prochaine génération de système de stockage Ƌu͛iŶtĠgƌeƌoŶt les ǀĠhiĐules ĠleĐtƌiƋues. Etant donné que cette étude a pour finalité l'implantation en temps réel dans des processeurs embarqués sur véhicule, l'originalité de cette thèse par rapport aux travaux similaires, repose sur l'utilisation des signaux large bande à motifs carrés. Malgré leur simplicité apparente, leur intérêt est notable. Faciles à implanter en embarqué, ces signaux ont prouvé leurs performances pour l͛ideŶtifiĐatioŶ de sǇstğŵes, et oŶ ǀa les appliƋueƌ au Đas de l͛iŵpĠdaŶĐe d͛uŶ aĐĐuŵulateuƌ. Ce document est structuré en quatre chapitres. Un premier chapitre permet de situer la problématique traitée dans cette thèse par rapport aux enjeux sociétaux et environnementaux du développement des véhicules non polluants. Ensuite, les ĐaƌaĐtĠƌistiƋues d͛uŶ aĐĐuŵulateuƌ aiŶsi que les différentes approches de modélisation sont Page | 4 présentées. A côté des modèles mathématiques et électrochimiques, les circuits électriques équivalents sont détaillés ainsi que les liens possibles entre les principaux phénomènes chimiques qui y prennent place et les composants électriques du modèle. Ce formalisme permettra une analyse physique plus aisée des différentes réponses de l'accumulateur. Les Đhapitƌes suiǀaŶts ĐoŶstitueŶt le Đœuƌ du tƌaǀail réalisé durant cette thèse. Le chapitre 2 commence aveĐ uŶe pƌĠseŶtatioŶ de la thĠoƌie de l͛ideŶtifiĐatioŶ ŶoŶ paƌaŵĠtƌiƋue des systèmes linéaires et invariants dans le temps en utilisant des signaux large bande en entrée. Sur la ďase d͛uŶ ĐiƌĐuit ĠleĐtƌiƋue ĠƋuiǀaleŶt ;��) implanté sous Simulink, une étude en simulation des performances de signaux large bande de différents types pouƌ l͛estiŵatioŶ de l͛iŵpĠdaŶĐe ĠleĐtƌiƋue est pƌoposĠe afiŶ de ǀalideƌ l͛utilitĠ de tels sigŶauǆ pouƌ Đette appliĐatioŶ. Plusieuƌs gƌaŶdeurs ĐaƌaĐtĠƌistiƋues soŶt utilisĠes ;ĐohĠƌeŶĐe speĐtƌale, iŶteƌǀalle de ĐoŶfiaŶĐe…Ϳ afiŶ de ƋuaŶtifieƌ les performances d͛estiŵatioŶ de Đes sigŶauǆ d͛eǆĐitatioŶ. Ensuite, une étude expérimentale est présentée dans le chapitre 3. PuisƋue l͛iŵpĠdaŶĐe ƌĠelle de l͛aĐĐuŵulateuƌ est iŶĐoŶŶue, la première partie de ce chapitre est consacrée à une étude effectuée sur un circuit électrique de référence à impédance connue. En utilisant son expression analytique, uŶe ĐoŵpaƌaisoŶ de peƌfoƌŵaŶĐes eŶtƌe la teĐhŶiƋue d͛identification large bande proposée et celles de la méthode classique est établie. La seconde partie présente les résultats expérimentaux obtenus sur un accumulateur réel. Le Đhapitƌe ϰ ĐoŶstitue uŶe ĐoŶtiŶuitĠ Ŷatuƌelle de l͛Ġtude. Il dĠĐƌit deuǆ possiďilitĠs d͛eǆploitatioŶ de l͛iŵpĠdaŶĐe estiŵĠe ǀia la teĐhŶiƋue d͛ideŶtifiĐatioŶ laƌge ďaŶde. La pƌeŵiğƌe ĐoŶsiste à l͛utilisatioŶ d͛uŶ algoƌithŵe d͛optiŵisatioŶ afiŶ de ƌeŵoŶteƌ auǆ ǀaleuƌs des ĐoŵposaŶts d͛uŶ ĐiƌĐuit électrique équivalent. Dans cette optique, un algorithme double étape est élaboré. Celui-ci permet d͛aŵĠliorer en termes de convergence, un algorithme classiquement utilisé. La seconde partie pƌĠseŶte uŶe ĐoŵpaƌaisoŶ des peƌfoƌŵaŶĐes de la teĐhŶiƋue d͛ideŶtifiĐatioŶ laƌge ďaŶde pƌoposĠe par rapport à uŶ Đahieƌ des Đhaƌges ĠlaďoƌĠ ǀia le siŵulateuƌ pouƌ le suiǀi des iŶdiĐes d͛Ġtat de l͛aĐĐuŵulateuƌ : l͛Ġtat de Đhaƌge ;��) et l͛Ġtat de saŶtĠ ;��). Page | 5 Chapitre 1 : Contexte général 1.1 Problèmes écologiques et économiques liés au transport De nos jours, la quasi-totalitĠ des aĐtiǀitĠs huŵaiŶes s͛appuie suƌ la ĐoŶsoŵŵatioŶ des dĠƌiǀĠs du pétrole (essence et gazole), ce qui est particulièrement vrai pour le secteur du transport. La raréfaction de ces ressources et le réchauffement climatique que subit notre ère poussent à l͛ĠŵeƌgeŶĐe de Ŷouǀelles ĠŶeƌgies alteƌŶatiǀes pƌopƌes et ƌeŶouǀelaďles. Le dĠǀeloppeŵeŶt de véhicules hybrides et ĠleĐtƌiƋues s͛iŶsĐƌit daŶs Đette teŶdaŶĐe de foŶd. De tels ǀĠhiĐules peƌŵettƌoŶt de ĐiƌĐuleƌ, d͛uŶe paƌt, eŶ ƌĠduisaŶt l͛ĠŵissioŶ des gaz à effet de seƌƌe ;GE“Ϳ ƌeĐoŶŶus ġtƌe les pƌiŶĐipauǆ ageŶts ƌespoŶsaďles du ƌĠĐhauffeŵeŶt ĐliŵatiƋue, et d͛autƌe paƌt, sans être menacés par la raréfaction des ressources pétrolières. 1.1.1 Le transport en tant que principal émetteur de GES Le terme GES regroupe plusieurs gaz émis par les activités humaines [1] : le dioxyde de carbone (��ଶ ) qui provient de la combustion des énergies fossiles, le méthane (��ସ ) qui provient de l’élevage des ruminants, de la culture du riz, des décharges d'ordures, des exploitations pétrolières, gazières et charbonnières, le protoxyde d'azote (�ଶ�) qui vient des engrais azotés et de divers procédés chimiques, les gaz fluorés ou hydrofluorocarbures (��) qui sont des gaz propulseurs des bombes aérosols, des gaz réfrigérants ou proviennent d'industries diverses, les hydrocarbures perfluorés ( �� ) qui sont émis notamment lors de la fabrication de l'aluminium, l'hexafluorure de soufre (��଺ሻ qui est un gaz inerte utilisé comme détecteur de fuite et isolant électrique. DaŶs soŶ ĐiŶƋuiğŵe ƌappoƌt sĐieŶtifiƋue de ϮϬϭϯ [Ϯ], le gƌoupe d͛eǆpeƌts iŶteƌgouǀeƌŶeŵeŶtal suƌ l͛ĠǀolutioŶ du climat (GIEC) confirme, avec plus de ͻͲ% de certitude, que le réchauffement observé Đes ĐiŶƋuaŶte deƌŶiğƌes aŶŶĠes pƌoǀieŶt esseŶtielleŵeŶt de l͛augŵeŶtatioŶ des ĠŵissioŶs de GE“ par les activités humaines (chauffage, transports, industries, élevage intensif). La corrélation entre l͛augŵeŶtatioŶ de la teŵpĠƌatuƌe et Đelle de la ĐoŶĐeŶtƌatioŶ des GE“ et plus paƌtiĐuliğƌeŵeŶt le ��ଶ (unité : parties par million en volume (��ͿͿ est uŶ des ĠlĠŵeŶts Ƌui peƌŵetteŶt d͛ĠtaǇeƌ cette hypothèse [3] (Figure 1-11-1).Page | 6 Figure 1-1: Evolution comparée de la concentration en �� dans l’atmosphère et de la température moyenne du globe terrestre. Les ĐoŶsĠƋueŶĐes gƌaǀes du ƌĠĐhauffeŵeŶt ĐliŵatiƋue soŶt saŶs ĠƋuiǀoƋue. L͛aĐĐƌoisseŵeŶt des températuƌes ŵoǇeŶŶes ŵoŶdiales de l͛atŵosphğƌe et de l͛oĐĠaŶ, la foŶte gĠŶĠƌalisĠe de la Ŷeige et de la glaĐe et l͛ĠlĠǀatioŶ du Ŷiǀeau ŵoǇeŶ ŵoŶdial de la ŵeƌ soŶt des oďseƌǀatioŶs Ƌu͛oŶ Ŷe peut plus nier. Le réchauffement moyen constaté à la surface de la terre s͛Ġlğǀe de Ͳ,͹ʹ℃ ሺͲ,Ͷͻ ° C à Ͳ,ͺͻ ° Cሻ sur la période ͳͻͷͳ − ʹͲͳʹ. Chacune des trois dernières décennies a été beaucoup plus chaude que toutes les décennies précédentes, et la première décennie du ʹͳ� siècle a été la plus chaude [1]. Pour toutes ces raisons, bon nomďƌe d͛Ġtats oŶt iŶǀesti daŶs des ƌeĐheƌĐhes ǀisaŶt à ƌĠduiƌe les émissions de GES. En France, plusieurs secteurs sont à l͛oƌigiŶe des ĠŵissioŶs de GE“ [ϰ]. Particulièrement, en ʹͲͳͳ et aǀeĐ uŶ pouƌĐeŶtage d͛eŶǀiƌoŶ ͵͸%, le secteur des transports (regroupant la circulation automobile et le transport routier) est le principal émetteur, en particulier pour le ��ଶ (Figure 1-21-2). Ce quota pƌeŶd eŶ Đoŵpte la ĐoŶtƌiďutioŶ diƌeĐte de Đe seĐteuƌ à l͛ĠŵissioŶ de ��ଶ (combustion du gazole ou de l'essence), de ��ସ (évaporation des carburants en stockage et combustions incomplètes) et de �� (systèmes de climatisation), ainsi que sa contribution indirecte (émissions dues à l'exploitation du pétrole). Page | 7 Figure 1-2 : Emissions de gaz à effet de serre par secteur en France en 2000 et 2011 [4]. DaŶs le seĐteuƌ du tƌaŶspoƌt, uŶe ĐoƌƌĠlatioŶ eǆpliĐite est ŶotĠe eŶtƌe l͛ĠǀolutioŶ de la pƌoduĐtioŶ automobile mondiale depuis ͳͺͺͲ et la concentration en ��ଶ daŶs l͛atŵosphère (Figure 1-31-3). L͛oƌigiŶe de Đette augŵeŶtatioŶ peut ġtƌe attƌiďuĠe à deuǆ Đauses pƌiŶĐipales : l͛augŵeŶtatioŶ ĐoŶtiŶue du Ŷoŵďƌe de ǀoituƌes eŶ ĐiƌĐulatioŶ d͛uŶe paƌt, et l͛eǆigeŶĐe ĐoŶtiŶue des ĐlieŶts d͛aǀoiƌ des voitures plus puissantes et donc émettant plus de ��ଶ d͛autƌe paƌt. EŶ ʹͲͲͷ, [5] annonce une nouvelle inquiétante : selon une étude récente, la concentration en ��ଶ (͵ͺͲ ��) est ʹ͹ % plus élevée que le maximum atteint au cours de ces ͸ͷͲ ͲͲͲ dernières années. En ʹͲͲ͸, le taux de ��ଶ est toujouƌs eŶ augŵeŶtatioŶ, l͛OƌgaŶisatioŶ MĠtĠoƌologiƋue MoŶdiale ;OMMͿ, eŶƌegistƌe uŶe teneur de ͵ͺͳ,ʹ ��. Figure 1-3 : Evolution de la production en automobile et de la concentration en CO2 dans l’atmosphère. Ces chiffres alarmants ont finalement abouti en ʹͲͲͷ à la ŵise eŶ plaĐe d͛uŶe Ŷoƌŵe aŶtipollutioŶ réduisant les émissions de GES par la commission européenne. Elle a pour objectif de corriger progressivement les tendances polluantes, et ses exigences sont réactualisées tous les quatre ans. Page | 8 1.1.2 Le pétrole : conflits économiques et politiques De même que les préoccupations environnementales, les préoccupations économiques et politiques impliquent également la mutation du secteur du transport. Les ressources en pétrole ne sont pas illiŵitĠes aloƌs Ƌue les ďesoiŶs s͛aĐĐeŶtueŶt. Cette ƌaƌĠfaĐtioŶ a diƌeĐteŵeŶt iŶfluĠ suƌ le pƌiǆ de l͛esseŶĐe Ƌui Ŷe Đesse d͛augŵeŶteƌ ;Figure 1-41-4Ϳ. L͛effoŶdƌeŵeŶt ŶotĠ eŶ ʹͲͲͺ est lié à la crise financière qui a touché la planète. Cependant, la reprise à la hausse souligne une demande mondiale importante. Et Đe Ŷ͛est pas tout, les paǇs oĐĐideŶtauǆ ŵaŶƋueŶt de ƌessouƌĐes pĠtƌoliğƌes. Ce sont les pays du Moyen-Orient qui assurent les besoins des pays développés en pétrole. Cette dépendance économique impacte profondément les relations politiques surtout avec les troubles politiques au Moyen-OƌieŶt. L͛utilisatioŶ de pƌoduits pĠtƌoliers devient de moins en moins avantageuse face à d͛autƌes alteƌŶatiǀes. Les ĐoŶstƌuĐteuƌs autoŵoďiles, eŶ paƌtiĐulieƌ, doiǀeŶt doŶĐ s'adapteƌ à Đe ĐoŶteǆte eŶ dĠǀeloppaŶt des solutioŶs utilisaŶt des souƌĐes d͛ĠŶeƌgie ŵoiŶs Đoûteuses Ƌue le pétrole. Figure 1-4 : Evolution du prix de pétrole de 1987 à 2012 [6]. 1.2 Vers l’électrification du véhicule Face aux problèmes évoqués, les consommateurs désirent des véhicules de plus en plus propres et les constructeurs automobiles doivent développer des solutions moins polluantes tout en utilisant des ressources moins coûteuses que le pétrole. Plusieurs possibilités sont envisageables. Utiliser le Gaz de Pétrole Liquéfié, le Gaz Naturel, le ďiogazole eŶ soŶt des eǆeŵples. CepeŶdaŶt, l͛ĠleĐtƌifiĐatioŶ du ǀĠhiĐule ĐoŶstitue ŶotaŵŵeŶt à court terme une excellente solution alternative, et à moyen ou long terme, pourrait venir remplacer les véhicules thermiques classiƋues. OŶ distiŶgue plusieuƌs degƌĠs d͛ĠleĐtƌifiĐatioŶ eŶ foŶĐtioŶ de l͛iŵpoƌtaŶĐe du sǇstğŵe ĠleĐtƌiƋue daŶs la tƌaĐtioŶ du ǀĠhiĐule [ϳ] : HEV : Véhicule Hybride Électrique (Hybrid Electric Vehicle). Ces véhicules disposent d’un degré d’électrification plus ou moins important, allant de la simple aide au démarrage à un mode tout électrique très limité. Le véhicule devient alors moins consommateur de carburant Page | 9 et moins polluant dans les villes. Il garde une autonomie et des performances dynamiques, comparables à celles des véhicules thermiques classiques sur routes et autoroutes. Il se distingue par l’impossibilité de se recharger sur une prise de courant [7]. PHEV : Véhicule Hybride Électrique Rechargeable (Plug-in Hybrid Electric Vehicle). Ces hybrides rechargeables sont une variante du modèle hybride. Leur spécificité est de permettre le rechargement de la batterie du véhicule à l’arrêt à l’aide d’une prise de courant. Le pack batterie est, dans les faits, beaucoup plus important que pour un simple HEV. Le véhicule est donc capable de fonctionner en mode tout électrique sur de petites distances (inférieures à ͷͲ ��). Une fois la batterie déchargée, le véhicule se comporte alors comme un véhicule hybride [7]. . EV : Véhicule Électrique (Electric Vehicle). Les véhicules électriques ne sont pas des véhicules hybrides, ils ont le plus haut degré d’électrification. On parle de véhicule « tout électrique ». La seule source d’énergie utilisée, dans ces véhicules, est la batterie. Celle-ci se recharge comme celle d’un PHEV sur une prise de courant (recharge classique ou rapide). Les émissions sont alors nulles lors du roulage du véhicule, on parle également de véhicule « Zéro Émission » [7]. Ces ǀĠhiĐules, eŶtƌe autƌes, foŶt l͛oďjet d͛Ġtudes ŵeŶĠes au CEA1 : en particulier, les instituts du LETI2 et du LITEN3 tƌaǀailleŶt daŶs le ďut de ǀaloƌiseƌ Đette teĐhŶologie. Il s͛aǀğƌe ĠǀideŶt Ƌue le ďoŶ fonctionnement de ces véhicules dépend essentiellement des dispositifs de stockage d'énergie électrique, en particulier des batteries. Par conséquent, le contrôle du système de stockage d'énergie est primordial. Le principal obstacle est la difficulté d'une telle tâche. En effet, une batterie est un système non-linéaire complexe influencé par plusieurs facteurs dont les principaux sont les profils d͛utilisatioŶ, ĐaƌaĐtĠƌisĠs paƌ les ƌĠgiŵes de puissaŶĐe et les duƌĠes d͛iŶteƌƌuptioŶs, et la température interne, dépendante de la température ambiante et du système de gestion thermique. De plus, elle subit des modifications de ses propriétés en raison de processus de vieillissement. Dans de nombreux cas, l'état de la batterie est évalué uniquement à partir de la tension, du courant et de la température, ces paramètres étant accessibles à la plupart des systèmes de mesure embarqués dans le véhicule. Cette thèse est une contribution à la gestion embarquée des batteries, et plus particulièrement à la dĠteƌŵiŶatioŶ de l'iŵpĠdaŶĐe ĠleĐtƌiƋue d͛uŶ aĐĐuŵulateuƌ ;ĠlĠŵeŶt de ďase d͛uŶe ďatteƌieͿ daŶs un but de surveillance. 1 Commissariat à l’énergie atomique et aux énergies alternatives 2 Laboratoire d’Electronique et de Technologie de l’Information 3 Laboratoire d’Innovation pour les Technologies des Energies Nouvelles et les nanomatériauxPage | 10 1.3 Généralités sur les accumulateurs Afin de situer la problématique de ce travail de thèse, cette section présente de manière générale, les accumulateurs, les différentes technologies existantes et leur principe de fonctionnement. Elle introduit aussi les grandeurs caractĠƌistiƋues d͛uŶ aĐĐuŵulateuƌ, Đe Ƌui peƌŵet de dĠfiŶiƌ les iŶdiĐes d͛Ġtat. 1.3.1 Les technologies des accumulateurs UŶ aĐĐuŵulateuƌ est uŶ ĠlĠŵeŶt de stoĐkage d͛ĠŶeƌgie ĠleĐtƌoĐhiŵiƋue pouǀaŶt foŶĐtioŶŶeƌ de manière réversible. Un accumulateur est constitué de deux couples oxydoréducteurs, ��ଵ/��ଵ et ��ଶ/��ଶ, pƌĠseŶts suƌ deuǆ ĠleĐtƌodes diffĠƌeŶtes aǇaŶt des poteŶtiels d͛ĠƋuiliďƌe diffĠƌeŶts. C͛est l͛ĠĐaƌt eŶtƌe les poteŶtiels Ƌui fait la teŶsioŶ à ǀide de l͛aĐĐuŵulateuƌ ;�� pour open circuit voltage). Ce dernier doit ġtƌe Đapaďle de fouƌŶiƌ uŶ ŵaǆiŵuŵ d͛ĠŶeƌgie et de puissaŶĐe pouƌ uŶ minimum de volume et de masse. UŶ Đƌitğƌe iŵpoƌtaŶt de ĐoŵpaƌaisoŶ des peƌfoƌŵaŶĐes de diffĠƌeŶts aĐĐuŵulateuƌs est l͛ĠǀaluatioŶ du couple puissance/énergie spécifique qui est représenté par le diagramme de Ragone (Figure 1-51-5Ϳ. Ce Đouple tƌaduit l͛ĠŶeƌgie fouƌŶie pouƌ uŶe puissaŶĐe doŶŶĠe [ϴ]. La puissaŶĐe ;ƌesp. l͛ĠŶeƌgieͿ spĠĐifiƋue est dĠfiŶie Đoŵŵe ĠtaŶt la puissaŶĐe ŵaǆiŵale ;ƌesp. l͛ĠŶergie maximale) que peut fouƌŶiƌ l͛aĐĐuŵulateuƌ paƌ uŶitĠ de poids. UŶe pƌeŵiğƌe estiŵatioŶ de l͛ĠŶeƌgie spĠĐifiƋue peut ġtƌe oďteŶue eŶ utilisaŶt la ĐapaĐitĠ ŶoŵiŶale, la teŶsioŶ ŶoŵiŶale et le poids de l͛ĠlĠŵeŶt. Figure 1-5 : Diagramme de Ragone pour différentes technologies d’accumulateurs [9]. Le choix des technologies des accumulateurs intégrés dans les véhicules hybrides et électriques a évolué au cours du temps. Le Tableau 1-1 présente une comparaison de trois principales technologies utilisĠes et peƌŵet d͛eǆpliƋueƌ les ƌaisoŶs aďoutissaŶt au Đhoiǆ de la teĐhŶologie �� − ��. Page | 11 Tableau 1-1 : Comparaison des technologies d’accumulateurs [13]. Au dĠpaƌt, eŶ ƌaisoŶ de leuƌ faiďle Đoût et de leuƌ siŵpliĐitĠ de ŵise eŶ œuǀƌe, les aĐĐuŵulateuƌs plomb à électrolyte acide étaient les plus utilisés. Toutefois, leurs faibles densités énergétiques ainsi que leur courte durée de vie ont poussé les constructeurs à développer de nombreuses autres technologies : nickel à électrolytes alcalins (��, ��, ��), lithium à électrolyte polymère solide et anode de lithium métallique en film minces (�� − ��) ou à électrolyte organique liquide et électrode négative à insertion (�� − ��), alcalins (��/��, ��/��) etc. Les technologies qui ont précédé les accumulateurs �� − �� souffraient de plusieurs problèmes. On peut citer comme simple exemple le dépôt métallique sous forme de dendrite. Ce dépôt, inhérent à la nature même du métal, peut, dans les accumulateurs lithium métal polymère par exemple, provoquer des problèmes de sécurité. Cette poussée dendƌitiƋue est susĐeptiďle d͛eŶtƌaîŶeƌ uŶ Đouƌt-circuit interne à l͛aĐĐuŵulateuƌ paƌ peƌĐĠe du sĠpaƌateuƌ ;ŵeŵďƌaŶe sĠpaƌaŶt les deuǆ feuillets d͛ĠleĐtƌodesͿ. De plus, elle ĐoŶtƌiďue à la ĐoŶsoŵŵatioŶ de l͛ĠleĐtƌolǇte Ƌui ƌĠagit aǀeĐ le lithiuŵ fraîchement déposé [10]. Actuellement les accumulateurs �� − �� dominent le marché des accumulateurs pour plusieurs raisons. On en cite quelques unes ci-dessous [11][12] : - densité d’énergie élevée (ͳ͹Ͳ ��ℎ. �ିଵ environ), - matière brute peu coûteuse et disponible dans la nature (minérale de triphylite), - facilité de synthèse, - respect de l’environnement et de la sécurité, - vie de cycle et calendaire plus longue, - excellente stabilité de structure, - stabilité thermique et stabilité électrochimique. Malgré ces performances, leur coût reste encore élevé. Les travaux de recherche actuels portent sur les ŵatĠƌiauǆ ĐoŶstitutifs des ĠleĐtƌodes, et ŶotaŵŵeŶt la positiǀe, afiŶ d͛augŵeŶteƌ la teŶsioŶ de fonctionnement et/ou la durée de vie. Page | 12 1.3.2 Grandeurs caractéristiques d’un accumulateur UŶe teĐhŶologie d͛aĐĐuŵulateuƌ peut ġtƌe ĐaƌaĐtĠƌisĠe paƌ uŶe ŵultitude de gƌaŶdeuƌs [ϮϬ], doŶt oŶ donne ici la définition. 1.3.2.1 La capacité de stockage � ሺ�ℎሻ La capacité de stockage � [20] représente la quantité de charge qu'il est possible d'obtenir lors d'une dĠĐhaƌge Đoŵplğte de l͛aĐĐuŵulateuƌ iŶitialeŵeŶt ĐhaƌgĠ aǀeĐ uŶ ĐouƌaŶt ĐoŶstaŶt. La nomenclature utilisée pour désigner la capacité de stockage obtenue pour une décharge de � heures est �௡. De manière générale, lorsque l'on parle d'une capacité �ହ, cela revient à évoquer la quantité de charge obtenue lors d'une décharge de ͷ heures. 1.3.2.2 La capacité nominale �௡ ሺ�ℎሻ La capacité nominale [20] correspond à la capacité de stockage obtenue à un régime de décharge nominal et respectant les critères initiaux et finaux du constructeur (température, intensité du ĐouƌaŶt, etĐ…Ϳ. Coŵŵe la ĐapaĐitĠ de stoĐkage, la ĐapaĐitĠ ŶoŵiŶale dĠpeŶd de la teŵpĠƌatuƌe et de l'Ġtat de l͛aĐĐuŵulateuƌ. 1.3.2.3 La capacité stockée �௦ ሺ�ℎሻ La capacité stockée [20] est analogue à la capacité nominale définie au paragraphe précédent eǆĐeptĠe Ƌue l'Ġtat iŶitial Ŷe dĠsigŶe pas foƌĐĠŵeŶt l͛aĐĐuŵulateuƌ Đoŵŵe ĠtaŶt ĐoŵplğteŵeŶt chargé. 1.3.2.4 Le rendement faradique (%) Le rendement faradique [20] ƞ௙ représente l'efficacité de la recharge. En effet, dans les accumulateurs à électrolyte aqueux, les réactions aux électrodes sont concurrencées par des réactions secondaires. Ces réactions secondaires représentent des courants de fuite importants notamment lors des charges. Les accumulateurs Li-ion, dont l'électrolyte n'est pas aqueux, présentent des rendements faradiques proches de ͳͲͲ %. 1.3.2.5 L’autodécharge (%) Les phĠŶoŵğŶes d͛autodĠĐhaƌge [ϮϬ] se tƌaduiseŶt paƌ uŶe peƌte de l͛ĠŶeƌgie loƌs du stoĐkage de l͛aĐĐuŵulateur. Ce phénomène provient des réactions secondaires intervenant aux deux électrodes et dépend fortement de la température. Pour les accumulateurs plomb et �� [Ϯϭ], l͛autodĠĐhaƌge est de ʹ % par jour. Les accumulateurs Li-ion sont beaucoup moins sensibles à ce phénomène avec une autodécharge de ͳͲ % par mois [21]. Page | 13 1.3.2.6 La tension à vide (�� pour Open Circuit Voltage) La teŶsioŶ à ǀide dĠsigŶe la teŶsioŶ d͛ĠƋuiliďƌe de l͛aĐĐuŵulateuƌ au ƌepos. Elle est dĠfiŶie Đoŵŵe la diffĠƌeŶĐe des poteŶtiels d͛ĠƋuilibre entre les deux électrodes. Après des temps de relaxation suffisant, celle-Đi dĠpeŶd diƌeĐteŵeŶt, d͛apƌğs la loi de NeƌŶst [ϮϮ], des aĐtiǀitĠs des espğĐes aĐtiǀes et de la teŵpĠƌatuƌe. L͛histoƌiƋue de l͛utilisatioŶ de l͛aĐĐuŵulateuƌ peut aǀoiƌ uŶ iŵpact sur la teŶsioŶ à ǀide. OŶ paƌle aloƌs de phĠŶoŵğŶe d͛hǇstĠƌĠsis. Celui-ci est limité pour les accumulateurs Li-ion [20]. 1.3.2.7 La durée de vie en cyclage et calendaire Les performances des accumulateurs décroissent avec le temps. Un accumulateur est considéré en fiŶ de ǀie loƌsƋue ses peƌfoƌŵaŶĐes Ŷe ƌĠpoŶdeŶt plus à Đelles ŶĠĐessaiƌes pouƌ l͛appliĐatioŶ ǀisĠe. La durée de vie en cyclage dépend de plusieurs paramètres tels que le mode du cyclage, la fenêtre d͛Ġtat de Đhaƌge utilisĠe et de la teŵpĠƌatuƌe de ĐǇclage. Elle est exprimée en nombre de cycles ou bien en quantité de charge fournie [20]. Paƌ ailleuƌs, uŶe autƌe duƌĠe de ǀie est doŶŶĠe à uŶ aĐĐuŵulateuƌ loƌs d͛uŶ stoĐkage pƌoloŶgĠ, oŶ paƌle de la duƌĠe de ǀie ĐaleŶdaiƌe. Mġŵe daŶs le Đas où l͛aĐĐuŵulateuƌ Ŷ͛est pas utilisĠ, il est le siège de réactions secondaires qui le détériorent. Cette grandeur dépend aussi de plusieurs paƌaŵğtƌes tels Ƌue l͛Ġtat de Đhaƌge de l͛aĐĐuŵulateuƌ et la teŵpĠƌatuƌe de stoĐkage [ϮϬ]. 1.3.3 Les accumulateurs Li-ion 1.3.3.1 Fonctionnement DaŶs Đette Ġtude, l͛aĐĐuŵulateuƌ Li-ion utilisé est de type ��ସ. Son fonctionnement repose sur le sĐhĠŵa d͛oǆǇdo-réduction classique de la Figure 1-61-6 intervenant simultanément aux deux pôles : l͛ĠleĐtƌode positiǀe ;��ଵି௫��ସ) (Equation 1-1) et la négative (��௫ �଺) (Equation 1-2). On Ŷoŵŵe souǀeŶt Đe pƌiŶĐipe ŵĠĐaŶisŵe « ƌoĐkiŶg Đhaiƌ » Đaƌ le lithiuŵ s͛iŶsğƌe et se dĠsiŶsğƌe alteƌŶatiǀeŵeŶt d͛uŶe ĠleĐtƌode à l͛autƌe loƌs des pƌoĐessus de Đhaƌge / dĠĐhaƌge. Figure 1-6 : Principe de fonctionnement d’un accumulateur Li-ion [14]. - Réaction électrochimique à l’électrode positivePage | 14 ��ସ ↔ ��ଵି௫��ସ + ��ା + ��ି Equation 1-1 - Réaction électrochimique à l’électrode négative ͸� + ��ା + ��ି ↔ ��௫�଺ Equation 1-2 OŶ ĐoŶstate Ƌu͛au Đouƌs des pƌoĐessus ĠleĐtƌoĐhiŵiƋues, le lithiuŵ ĐoŶseƌǀe toujours un caractère ionique, sans que jamais ne survienne le phénomène de dépôt métallique. Les ŵatĠƌiauǆ d͛ĠleĐtƌodes soŶt gĠŶĠƌaleŵeŶt des ŵatĠƌiauǆ d͛iŶseƌtioŶ doŶt la ĐaƌaĐtĠƌistiƋue principale est de pouvoir insérer ou désinsérer des ions ��ା de manière réversible. En fonctionnement, les ions ��ା sont échangés entre les deux électrodes, à travers un électrolyte qui joue le rôle de conducteur ionique. Les électrons transitent, quant à eux, par le circuit électrique externe pour garantir la neutralité des électrodes. Pour assurer ces échanges, la polarisation doit bien entendu être toujours maintenue par le circuit externe. Lors de la décharge, les réactions d͛oǆǇdoƌĠduĐtioŶ auǆ ĠleĐtƌodes soŶt spoŶtaŶĠes. Des ioŶs ��ା (respectivement électrons) sont pƌoduits à l͛ĠleĐtƌode ŶĠgatiǀe et soŶt tƌaŶspoƌtĠs à tƌaǀeƌs l͛ĠleĐtƌolǇte ;ƌespeĐtiǀeŵeŶt ĐiƌĐuit ĠleĐtƌiƋueͿ aǀaŶt d͛ġtƌe iŶsĠƌĠs daŶs l͛ĠleĐtƌode positiǀe. Cela ĐoŶduit à uŶe oǆǇdatioŶ de l͛ĠleĐtƌode ŶĠgatiǀe ;aŶodeͿ et à uŶe ƌĠduĐtioŶ de l͛ĠleĐtƌode positiǀe ;ĐathodeͿ, et doŶĐ à la pƌoduĐtioŶ d͛uŶ courant électrique. Lors de la charge, un courant doit être fourni par le circuit externe pour inverser les ƌĠaĐtioŶs et stoĐkeƌ uŶe ĠŶeƌgie sous foƌŵe d͛ĠŶeƌgie ĐhiŵiƋue. DaŶs Đe Đas, l͛ĠleĐtƌode ŶĠgative et l͛ĠleĐtƌode positiǀe deǀieŶŶeŶt ƌespeĐtiǀeŵeŶt, la Đathode et l͛aŶode. 1.3.3.2 Phénomènes physico-chimiques Les accumulateurs Li-ion sont le siège de différents phénomènes physico-chimiques. Cette partie décrit brièvement quelques-uns de ces phénomènes. a) L’effet de couche double L͛effet de ĐouĐhe douďle est la ƌepƌĠseŶtatioŶ ĠleĐtƌiƋue de l͛iŶteƌfaĐe ĠleĐtƌode-électrolyte. LoƌsƋu͛uŶ ŵĠtal est ploŶgĠ daŶs uŶe solutioŶ, il a teŶdaŶĐe à se Đhaƌgeƌ ŶĠgatiǀeŵeŶt eŶ suƌfaĐe à Đause d͛uŶ eǆĐğs d͛ĠleĐtƌoŶs. À soŶ tour, cette surface attire les ions positifs de son voisinage pour ĐƌĠeƌ uŶe ĐouĐhe positiǀe ;iŶteƌŶeͿ. Paƌ ĠƋuiliďƌe, uŶe ĐouĐhe d͛ioŶs de sigŶe opposĠ ;eǆteƌŶeͿ ǀa également se former quasi-instantanément le long de la première couche (Figure 1-71-7) [15]. Ce phĠŶoŵğŶe tƌaduit le ĐoŵpoƌteŵeŶt d͛uŶ ĐoŶdeŶsateuƌ �ௗ௟ dont le diélectrique a une épaisseur très faible. Page | 15 Figure 1-7 : Schéma de composition de la couche double [16]. b) Transfert de charge Le phĠŶoŵğŶe de tƌaŶsfeƌt de Đhaƌge tƌaduit la ĐiŶĠtiƋue de la ƌĠaĐtioŶ d͛oǆǇdo-réduction [15].Ce phĠŶoŵğŶe est dĠpeŶdaŶt, eŶtƌe autƌes, de la suƌteŶsioŶ à l͛iŶteƌfaĐe et de l͛aĐtiǀitĠ des oǆǇdaŶts et ƌĠduĐteuƌs. L͛eǆpƌessioŶ du ĐouƌaŶt faƌadiƋue est doŶŶĠe, sous forme réduite, par la formule de Butler-Volmer [17]: �ி = �଴ሺ�ିఈி஗ − �ିሺଵିఈሻி஗ሻ Equation 1-3 Avec � la constante réduite de Faraday, � le coefficient de transfert de charge, � la surtension à l͛ĠleĐtƌode ou la suƌteŶsioŶ à tƌaǀeƌs la douďle ĐouĐhe ;�ௗ௟), et �଴ le ĐouƌaŶt d͛ĠĐhaŶge. c) La diffusion Le tƌaŶspoƌt paƌ diffusioŶ ĐoŶĐeƌŶe le dĠplaĐeŵeŶt de ŵatiğƌe sous l͛effet du gƌadieŶt de poteŶtiel chimique des milieux les plus concentrés vers les moins concentrés. Ce phénomène est le plus compliqué à analǇseƌ daŶs l͛Ġtude de l͛aĐĐuŵulateuƌ et Ŷ͛est solliĐitĠ Ƌue pouƌ des foŶĐtioŶŶeŵeŶts à très basse fréquence (� < ʹ ��) ou à fort courant [15][18]. d) Film de passivation Lorsque le potentiel des électrodes négatives (resp. positives) est situé en dehors du domaine de staďilitĠ ĠleĐtƌoĐhiŵiƋue, uŶe ƌĠduĐtioŶ ;ƌesp. dĠĐoŵpositioŶͿ paƌtielle de l͛ĠleĐtƌolǇte à la suƌfaĐe des grains de matière active est alors observée [14][19]. Ce processus entraîne la consommation d͛uŶe paƌtie du lithiuŵ et ĐƌĠe uŶe Đouche solide à la surface de ces électrodes, appelée « film de passiǀatioŶ ». EŶ plus d͛uŶe diŵiŶutioŶ iƌƌĠǀeƌsiďle de la ĐapaĐitĠ de l͛aĐĐuŵulateuƌ, uŶe diŵiŶutioŶ de la puissaŶĐe dispoŶiďle due à l͛augŵeŶtatioŶ de l͛iŵpĠdaŶĐe de l͛ĠleĐtƌode à Đause de la présence de cette couche, est aussi observée. Ce film permet la migration des ions lithium lors de l͛iŶseƌtioŶ/dĠsiŶseƌtioŶ daŶs le ŵatĠƌiau ĐaƌďoŶĠ, et empêche partiellement la réduction de l͛ĠleĐtƌolǇte. Page | 16 e) Pertes ohmiques Tout passage de courant dans l͛aĐĐuŵulateuƌ est aĐĐoŵpagŶĠ d͛uŶe Đhute de teŶsioŶ liĠe auǆ ƌĠsistaŶĐes de l͛ĠleĐtƌolǇte, de l͛ĠleĐtƌode et des ĠlĠŵeŶts de ĐoŶŶeǆioŶ. BieŶ Ƌue Đes ƌĠsistaŶĐes soieŶt de faiďles ǀaleuƌs, elles soŶt la Đause pƌiŶĐipale des peƌtes paƌ effet Joule daŶs l͛accumulateur. 1.3.4 Des accumulateurs aux batteries Toutes les technologies sont caractérisées par une faible tension nominale par rapport aux exigences de la plupart des systèmes à alimenter et particulièrement des véhicules hybrides et électriques (ͳ,ʹ � pour des accumulateurs de type ��, ͵,ʹ V pour une technologie Li-ion phosphate de fer (��ସ), ͵,͹ � pour une technologie de type Li-ioŶ à ďase d͛oǆǇde de ĐoďaltͿ. Pouƌ oďteŶiƌ de fortes capacités, on place plusieurs accumulateuƌs eŶ paƌallğle, Đe tǇpe d͛assoĐiatioŶ est dĠsigŶĠ comme un étage. Pour obtenir le niveau de tension adéquat, on place en série plusieurs étages, on paƌle aloƌs de ŵodules. L͛assoĐiatioŶ de plusieuƌs ŵodules est appelĠe uŶe ďatteƌie d͛aĐĐuŵulateuƌs ou « pack batterie » ou plus couramment batterie (Figure 1-81-8). Figure 1-8 : Lien entre accumulateurs et batteries – Exemple d’une batterie composée de 10 modules en série, chaque module contenant 5 accumulateurs de 2,3 Ah chacun en parallèle (5p) mis en série 12 fois (12s). 1.4 Système de supervision de batterie Le foŶĐtioŶŶeŵeŶt daŶs des ĐoŶditioŶs aŶoƌŵales d͛uŶ aĐĐuŵulateuƌ peut pƌoǀoƋueƌ des dĠgâts ĐatastƌophiƋues. L͛eŵďalleŵeŶt theƌŵiƋue eŶ est uŶ eǆeŵple. Ce phĠŶoŵğŶe se dĠĐleŶĐhe suƌtout lors d͛uŶ Đouƌt-ĐiƌĐuit iŶteƌŶe ou uŶe suƌĐhaƌge. Assuƌeƌ la sûƌetĠ des ĠlĠŵeŶts d͛uŶ paĐk ďatteƌie est donc indispensable pour le développement des HEVs et EVs. Les ďatteƌies utilisĠes daŶs les ǀĠhiĐules soŶt souŵises à des pƌofils d͛usage Đoŵpleǆes. EŶ effet, ces pƌofils ƌeflğteŶt l͛utilisatioŶ ĐhaotiƋue de la tƌaĐtioŶ opĠƌĠe paƌ le ĐoŶduĐteuƌ loƌs de tƌajets et Ƌui se Page | 17 ĐaƌaĐtĠƌiseŶt paƌ des ǀitesses et puissaŶĐes ǀaƌiaďles et iƌƌĠguliğƌes. CoŶtƌaiƌeŵeŶt à l͛utilisatioŶ au seiŶ d͛uŶ oƌdiŶateuƌ poƌtaďle ;paƌ exemple) constituée de charges et de décharges répétitives, les profils automobiles peuvent être considérés comme aléatoires. Un système de supervision, désigné comme le BMS (Battery Management system), est donc toujours iŶtĠgƌĠ daŶs les HEVs et EVs afiŶ d͛assurer a minima la sûreté de fonctionnement des batteries. 1.4.1 Indices d’états Paƌŵi les iŶdiĐateuƌs d͛Ġtat Ƌui s'aǀğƌeŶt iŵpoƌtaŶts pouƌ la gestioŶ de la ďatteƌie, oŶ peut Điteƌ l'Ġtat de Đhaƌge et l͛Ġtat de saŶtĠ. DaŶs Đe paƌagƌaphe, oŶ s͛iŶtĠƌesse à leuƌ dĠfiŶitioŶ à l͛ĠĐhelle de l͛aĐĐuŵulateuƌ, ŵais les ŵġŵes ŶotioŶs peuǀeŶt ġtƌe adaptĠes à l͛ĠĐhelle d͛uŶe ďatteƌie. 1.4.1.1 Etat de santé (��ሻ Le ǀieillisseŵeŶt est la ŵodifiĐatioŶ, au fil du teŵps, des pƌopƌiĠtĠs de l͛aĐĐuŵulateuƌ. Il se tƌaduit généralement par une baisse de la capacité nominale �௡ሺ�ℎሻ au fil de l͛utilisatioŶ ou du teŵps [Ϯϱ][Ϯϲ]. L͛Ġtat de saŶtĠ ;�� pour « state of health ») est donc défini comme le rapport de la ĐapaĐitĠ ŶoŵiŶale de l͛aĐĐuŵulateuƌ à l͛iŶstaŶt � paƌ ƌappoƌt à Đelle eŶ soƌtie d͛usiŶe à �଴ : �� = ஼೙,೟ሺ்ሻ ஼೙,೟బ ሺ்ሻ Equation 1-4 La capacité nominale variant avec la température, cet indice est généralement défini pour une température de référence � donnée. 1.4.1.2 Etat de charge (��) L͚Ġtat de Đhaƌge ou �� (pour « state of charge ») représente le rapport des capacités stockée et nominale à une température � donnée. Il est normalisé entre Ͳ et ͳͲͲ%. �� = �௦ሺ�ሻ �௡ሺ�ሻ Equation 1-5 Le calcul par coulométrie permet de suivre facilement le �� d͛uŶ aĐĐuŵulateuƌ. Il ĐoŶsiste à calculer la quantité de charge retirée (décharge) ou injectée (charge) entre deux instants différents loƌsƋue l͛aĐĐuŵulateuƌ est souŵis à uŶ ĐouƌaŶt � (Equation 1-6). ��ሺ�ଶ ሻ− ��ሺ�ଵ ሻ = ͳ ͵͸ͲͲ�௡ ە ۖ ۔ ۖ ۓ− න �� < Ͳ ሺ�é�ℎ��ሻ ௧మ ௧భ − න ƞ௙�� > Ͳ ሺ�ℎ��ሻ ௧మ ௧భ Equation 1-6 �௡ est la capacité nominale en �ℎ, �ଵ et �ଶ sont les instants en � de dĠďut et fiŶ de l͛appliĐatioŶ du courant �, ƞ௙ est le ƌeŶdeŵeŶt faƌadiƋue Ƌui ƌepƌĠseŶte l͛effiĐaĐitĠ de ƌeĐhaƌge [ϮϬ]. DaŶs l͛appliĐatioŶ des ǀĠhiĐules hǇďƌides et ĠleĐtƌiƋues, le calĐul d͛iŶtĠgƌatioŶ s͛effeĐtue gƌâĐe à uŶe valeur référence de temps et de la mesure du courant total du pack batterie ou de l͛aĐĐuŵulateuƌ. Page | 18 Les eƌƌeuƌs aĐĐuŵulĠes à Đause à l͛iŶtĠgƌatioŶ soŶt ĐoŵpeŶsĠes gƌâĐe au ƌeĐalage du �� via une mesure de tension lorsque celle-ci atteint les limites haute ou basse. Dans [52][88], plusieurs méthodes de mesure du �� sont détaillées. 1.4.2 Terminologie Dans ce paragraphe, une définition est donnée pour la surveillance, le diagnostic et la supervision des batteries. Cette terminologie est directement inspirée du domaine de la supervision des systèmes complexes [23][24]. D͛uŶe ŵaŶiğƌe gĠŶĠƌale, la supeƌǀisioŶ d͛uŶ sǇstğŵe a pouƌ ďut de ƌĠagiƌ ĐoƌƌeĐteŵeŶt auǆ ĐhaŶgeŵeŶts d͛Ġtats ĠǀeŶtuels de Đe sǇstğŵe ;dĠgƌadatioŶ, appaƌitioŶ de dĠfauts, …Ϳ afiŶ de ŵaiŶteŶiƌ ses peƌfoƌŵaŶĐes et d͛assuƌeƌ la sĠĐuƌitĠ des ďieŶs et des personnes. Elle est constituée de trois tâches principales : l’étape de surveillance, l’étape de diagnostic, l’étape de décision. L͛oďjeĐtif de la suƌǀeillaŶĐe ;ou « monitoring »Ϳ est la dĠteƌŵiŶatioŶ à ĐhaƋue iŶstaŶt de l͛Ġtat ĐouƌaŶt du sǇstğŵe d͛iŶtĠƌêt. Cet état est constitué par un ensemble de symptômes dont il faut détecter la présence et déterminer les caractéristiques. Il est important de noter que ces symptômes ne sont pas des défauts, mais plutôt des indicateurs qui permettront la détection et la caractérisation de défauts ou de défaillances dans une étape ultérieure. La tâche de monitoring est réalisée grâce aux connaissances disponibles sur ce procédé, qui peuvent être de deux types : - les connaissances a priori développées avant l’action de surveillance, constituées par exemple par des modèles physiques du système, - les connaissances en fonctionnement constituées par les observations faites sur le système lors de son fonctionnement. L͛Ġtape de diagŶostiĐ est l͛opĠƌatioŶ Ƌui ĐoŶsiste à ƌeŵoŶteƌ des symptômes et de leurs ĐaƌaĐtĠƌistiƋues auǆ dĠfauts pƌĠseŶts daŶs le sǇstğŵe d͛iŶtĠƌġt. Cette Ġtape utilise doŶĐ les soƌties de l͛Ġtape pƌĠĐĠdeŶte de suƌǀeillaŶĐe pouƌ fouƌŶiƌ uŶe liste de dĠfauts et de dĠfaillaŶĐes ĠǀeŶtuels ainsi que leurs caractéristiques ;gƌaǀitĠ, loĐalisatioŶ…Ϳ. EŶfiŶ, l͛Ġtape de dĠĐisioŶ ĐoŶsiste à ƌĠagiƌ ĐoƌƌeĐteŵeŶt à l͛appaƌitioŶ de dĠfauts et de dĠfaillaŶĐes au seiŶ du sǇstğŵe, et à eŶtƌepƌeŶdƌe les aĐtioŶs ĐoƌƌeĐtes peƌŵettaŶt d͛assuƌeƌ la sûƌetĠ de fonctionnement du procédé (changement de consigne, passage dans un mode dégradé de foŶĐtioŶŶeŵeŶt, opĠƌatioŶ de ŵaiŶteŶaŶĐe, ƌĠpaƌatioŶ, ŵise hoƌs seƌǀiĐe…Ϳ. Concernant les applications de gestion de batteries embarquées dans des HEVs et EVs, la surveillance de la batterie (le système d͛iŶtĠƌġtͿ ĐoŶsiste à estiŵeƌ les iŶdiĐateuƌs d͛Ġtats ;les symptômes) qui seront présentés dans le paragraphe suivant. Pour y parvenir, la tension et le Page | 19 courant sont le plus souvent observés (constituant les connaissances en fonctionnement). Des connaissances a priori peuvent également être rajoutées en utilisant un modèle de batterie. Ensuite, l͛Ġtape de diagŶostiĐ ĐoŶsiste eŶ gĠŶĠƌal à attƌiďueƌ uŶ seuil pouƌ ĐhaƋue iŶdiĐateuƌ. Paƌ eǆeŵple uŶ état de charge aux alentours de Ͳ% peut entrainer une surdéchaƌge si l͛aĐĐuŵulateuƌ ĐoŶtiŶue à dĠďiteƌ du ĐouƌaŶt, ĐeĐi aǇaŶt des ĐoŶsĠƋueŶĐes ŶĠfastes suƌ l͛aĐĐuŵulateuƌ. L͛Ġtape de diagŶostiĐ ĐoŶsisteƌa doŶĐ iĐi à Đoŵpaƌeƌ l͛Ġtat de Đhaƌge ĐouƌaŶt de l͛aĐĐuŵulateuƌ aǀeĐ uŶ seuil pƌĠdĠteƌŵiŶĠ proche de Ͳ %. Une fois ce seuil franchi intervient la dernière étape du système de supervision : la tâĐhe de dĠĐisioŶ. Pouƌ l͛eǆeŵple pƌĠĐĠdeŶt de suƌdĠĐhaƌge, il s͛agiƌa de liŵiteƌ le ĐouƌaŶt puis d͛ouǀƌiƌ le ĐoŶtaĐteuƌ de sĠĐuƌitĠ eŶ Đas de fƌaŶĐhisseŵeŶt du seuil afiŶ de ƌĠagir correctement à cet événement particulier. Les systèmes regroupant toutes ces fonctionnalités sont appelés systèmes de gestion ou de supervision de batteries, ou plus communément « BMS » (pour Battery Management system). 1.5 L’accumulateur : objet de modélisation AfiŶ d͛assuƌeƌ les diffĠƌeŶtes tâĐhes du BM“, la ŵodĠlisatioŶ des aĐĐuŵulateuƌs s͛aǀğƌe uŶ outil essentiel pour comprendre et prédire leur fonctionnement dans un système aussi délicat que les HEVs et EVs. Elle aide à développer des outils théoriques et pratiques nécessaires pour la compréhension et la caractérisation des accumulateurs, siège de différents phénomènes ĠleĐtƌoĐhiŵiƋues Đoŵpleǆes. Ce ŵodğle doit s͛adapteƌ à Ŷ͛iŵpoƌte Ƌuel pƌofil de Đhaƌge suƌ uŶe large variation du �� de l͛aĐĐuŵulateur et à différentes températures de fonctionnement. Cette seĐtioŶ est de Ŷatuƌe ďiďliogƌaphiƋue [Ϯϳ]. L͛oďjeĐtif Ŷ͛est pas de ƌeĐeŶseƌ tous les ŵodğles eǆistaŶts mais plutôt de se positionner par rapport aux travaux existants et souligner a posteriori les choix adoptés dans cette thèse. 1.5.1 Boite Blanche Il s͛agit des ŵodğles phǇsio-chimiques. Ce sont les modèles les plus précis et les plus utilisés par les ĐoŶĐepteuƌs d͛aĐĐuŵulateuƌs pouƌ optiŵiseƌ les peƌfoƌŵaŶĐes d'uŶ aĐĐuŵulateuƌ [Ϯϳ]. Toutefois, ils sont également les plus lents et les plus difficiles à configurer (paramètres basés sur la connaissance de la structure, la chimie, la composition, la capacité, la température, et d'autres caractéristiques de l͛aĐĐuŵulateuƌͿ. Paƌ eǆeŵple, [Ϯϴ][Ϯϵ] oŶt dĠǀeloppé un modèle électrochimique isotherme qui décrit la charge et la décharge d'un accumulateur au lithium pour un seul cycle. Ce modèle se base suƌ la ƌĠsolutioŶ d͛ĠƋuatioŶs diffĠƌeŶtielles ŵettaŶt eŶ jeu les ĐoŶĐeŶtƌatioŶs des espğĐes eŶ solution. Ces modèles peƌŵetteŶt de pƌĠdiƌe la teŶsioŶ de l͛aĐĐuŵulateuƌ eŶ foŶĐtioŶ du teŵps, ŵais aussi les pƌofils de ĐoŶĐeŶtƌatioŶ au seiŶ des ĠleĐtƌodes et de l͛ĠleĐtƌolǇte [ϯϬ]. Ils peuǀeŶt aussi Page | 20 être utilisés pour définir les capacités disponibles à différents profils de sollicitation ou établir les régimes optimaux de courant admissible. 1.5.2 Boite noire Il s͛agit des modèles empiriques [27] consistant à établir une relation directe entre les conditions d͛usage et les peƌfoƌŵaŶĐes de l͛aĐĐuŵulateuƌ ;ĐapaĐitĠ, ĠŶeƌgie, …Ϳ. Ces modèles sont les plus faciles à configurer mais sont difficilement extrapolables. Les paramètres utilisés n'ont pas de sigŶifiĐatioŶ phǇsiƋue, Đe Ƌui liŵite sĠƌieuseŵeŶt l͛aŶalǇse du ĐoŵpoƌteŵeŶt de l͛aĐĐuŵulateuƌ. La loi de Peukert [14] est un exemple de ce genre de modèle. On peut aussi citer dans cette catégorie les modèles basés sur la logique floue [31][32][33][34] ou ceux sur les réseaux de neurones [35][36][37]. Bien que la précision, la vitesse et la complexité de ces modèles soient acceptables, le ĐoŵpoƌteŵeŶt de l͛aĐĐuŵulateuƌ est dĠĐƌit paƌ des relations sans aucun lien direct avec les phénomènes physico-ĐhiŵiƋues Ƌui s͛Ǉ dĠƌouleŶt. Paƌ ĐoŶsĠƋueŶt, l͛iŶteƌpƌĠtatioŶ phǇsiƋue des résultats demeure difficile. 1.5.3 Boite grise Au lieu de modéliser le ĐoŵpoƌteŵeŶt de l͛aĐĐuŵulateuƌ, soit eŶ dĠĐƌiǀaŶt les pƌoĐessus électrochimiques, soit par approximation empirique, les modèles de type boite grise [27] tentent de fournir une représentation équivalente du comportement d'un accumulateur. Bien que le nombre de paramètres soit en général limité, ces modèles font appel à des tables qui nécessitent un effort de configuration important. Il s͛agit eŶ paƌtiĐulieƌ de la modélisation des accumulateurs par des circuits électriques équivalents (��s) [38][39][40][41][42][43] qui constitue un outil essentiel pour les professionnels du génie électrique. De tels circuits permettent de traduire le comportement électrique fréquentiel et temporel des accumulateurs. Grâce à l'analogie entre les différents domaines de la physique-chimie et le domaine de l'électricité, les circuits électriques peuvent, sous certaines conditions de linéarité, approcher les différents phénomènes physico-chimiques présents dans un accumulateur au moyen d͛ĠlĠŵeŶts passifs ;ƌĠsistaŶĐes, ĐapaĐités, inductances) et actifs (force électromotrice, source de ĐouƌaŶt …Ϳ. Il est important de distinguer les modèles statiques des modèles dynamiques. Les modèles statiques ne prennent pas en compte les phénomènes transitoires et leur impédance est constituée uniquement d'éléments résistifs, tandis que les modèles dynamiques sont capables de décrire les phénomènes transitoires en utilisant des éléments dont les impédances sont complexes. Suivant la gamme de validité du modèle, les paramètres de ces circuits peuǀeŶt iŶtĠgƌeƌ l͛iŶflueŶĐe de diǀeƌs faĐteuƌs tels Ƌue la teŵpĠƌatuƌe, l͛Ġtat de Đhaƌge, le ĐouƌaŶt et l͛Ġtat de saŶtĠ. UŶe phase Page | 21 de ĐaƌaĐtĠƌisatioŶ pƌĠalaďle est aloƌs ƌĠalisĠe peƌŵettaŶt d͛Ġtaďliƌ le lieŶ eŶtƌe Đes paƌaŵğtƌes et les différents facteurs. Enfin, quelle que soit la complexité du modèle �� utilisé, des modèles supplémentaires sont ŶĠĐessaiƌes pouƌ pouǀoiƌ suiǀƌe l͛ĠǀolutioŶ du �� ;ǀia le suiǀi de l͛�� par exemple), de la température ;ǀia uŶ ŵodğle d͛ĠǀolutioŶ d͛uŶ ou plusieuƌs paƌaŵğtƌes du ��), et du �� (via un modèle d͛ĠǀolutioŶ d͛uŶ ou plusieuƌs paƌaŵğtƌes du ��). 1.5.3.1 Le modèle de Randles généralisé L͛aĐĐuŵulateuƌ pƌĠseŶte des ĐoŵpoƌteŵeŶts ŵiĐƌosĐopiƋues tƌğs Đoŵpleǆes et des phĠŶoŵğŶes internes fortement couplés. Randles a proposé un circuit électrique équivalent (Figure 1-91-9) en les traduisant avec des composants électriques [44]. Figure 1-9 : Circuit de Randles. Une interprétation préalable des composants est possible. Le modèle (Figure 1-91-9) renferme une résistance ohmique (�) et une inductance (�) en série modélisant les effets des électrodes, de l͛ĠleĐtƌolǇte et de la ĐoŶŶeĐtiƋue. Le comportement de la double couche peut être associé à la capacité �ௗ௟ alors que la cinétique de la réaction électrochimique peut être décrite par la résistance de transfert de charge (�௧௖Ϳ. “eloŶ soŶ ŵodğle, le poteŶtiel d͛ĠƋuiliďƌe est représenté par une source de tension idéale (��). Enfin le phénomène de diffusion, connu pour être difficile à étudier, est modélisé par une impédance de Warburg ( �� Ϳ. Tƌois Đas d͛iŵpĠdaŶĐe de Waƌďuƌg soŶt gĠŶĠƌaleŵeŶt utilisĠs seloŶ l͛Ġpaisseuƌ de la couche de diffusion [18] : épaisseur semi-infinie, Ġpaisseuƌ fiŶie eŶ pƌĠseŶĐe de la ĐoŶǀeĐtioŶ ou de l͛hǇpothğse de NeƌŶst, et Ġpaisseuƌ fiŶie à tƌaǀeƌs un film mince. Ces impédances peuvent être généralisées en intégrant des exposants non entiers dans leur expression. Aussi, afiŶ de pƌĠseŶteƌ les ĠƋuatioŶs ĐoƌƌespoŶdaŶtes à ĐhaƋue Đas, il s͛aǀğƌe ŶĠĐessaiƌe d͛iŶtƌoduiƌe ƌapideŵeŶt des ĐoŵposaŶts à iŵpĠdaŶĐe d͛oƌdƌe ŶoŶ eŶtieƌ appelĠs ĠlĠŵeŶts à phase constante (�� pour « Constant Phase Element »Ϳ [ϰϱ][ϰϲ] et pƌĠseŶtĠs plus eŶ dĠtails daŶs l͛AŶŶeǆe A de Đe ŵĠŵoiƌe. La foƌŵule gĠŶĠƌale de l͛iŵpĠdaŶĐe d͛uŶ �� est donnée par : �஼௉ாሺ�ሻ = ͳ �ሺ�ʹ��ሻ ௣ Ͳ ൑ � ൑ ͳ Equation 1-7 Page | 22 �� ൜ � = ͳ: ��é �� = Ͳ: �é�� est une constante et � est un complexe tel que �ଶ = −ͳ, � étant la fréquence, � ĠtaŶt l͛oƌdƌe ŶoŶ entier du ��. Dans cette étude, un �� va être connecté en parallèle à une résistance �. Afin de clarifier la notion du ��, l͛iŵpĠdaŶĐe du ĐiƌĐuit �//�� est tracée à la Figure 1-101-10 pour différentes valeurs de �. Figure 1-10 : Diagramme de Nyquist de ��//�� pour différentes valeurs de � [47]. Normalement, un système réel dépend non seulement de son état actuel mais également de ses états passés. La dériǀĠe d͛oƌdƌe ŶoŶ-eŶtieƌ d͛uŶe foŶĐtioŶ �ሺ�ሻ permet de prendre en compte les valeurs de �ሺ�ሻ à tous les instants � < Ͳ gƌâĐe à l͛iŶtĠgƌatioŶ Ƌui appaƌaît ŶatuƌelleŵeŶt daŶs les dĠfiŶitioŶs pƌĠseŶtĠes daŶs l͛aŶŶeǆe A. Elle fournit donc une caractérisation globale de �ሺ�ሻ. C͛est cet effet mémoire qui fait de la dérivation non-entière un outil intéressant pour modéliser ĐoƌƌeĐteŵeŶt les phĠŶoŵğŶes ĐapaĐitifs et diffusifs Ƌui oŶt lieu au seiŶ d͛uŶ aĐĐuŵulateuƌ. EŶ foŶĐtioŶ du Đas ĐoŶsidĠƌĠ, l͛iŵpĠdaŶĐe de diffusion est exprimée de manière différente [18] (Figure 1-111-11) : la diffusion semi-infinie est correctement modélisée par un �� [18], la diffusion finie d’après l’hypothèse de Nernst [18] est modélisée par : �ௐሺ�ሻ = � ��ℎሺ��ሻ௣ ሺ��ሻ௣ Equation 1-8 A tƌğs ďasses fƌĠƋueŶĐes, l͛iŵpĠdaŶĐe de Waƌďuƌg pƌĠseŶte le ĐoŵpoƌteŵeŶt d͛uŶe ƌĠsistaŶĐe. C͛est pourquoi on parle de « circuit fermé ». la diffusion finie à travers un film mince [18] est modélisée par : �ௐሺ�ሻ = � ��ℎሺ��ሻ௣ ሺ��ሻ௣ Equation 1-9 La paƌtie iŵagiŶaiƌe teŶd ǀeƌs l͛iŶfiŶi pouƌ les fƌĠƋueŶĐes ďasses Đe Ƌui ĐoƌƌespoŶd à l͛iŵpĠdaŶĐe d͛uŶe ĐapaĐitance ou à un état de « circuit ouvert ». Ces phĠŶoŵğŶes diffusifs seƌoŶt ŶĠgligĠs daŶs la suite de la thğse ǀu Ƌu͛ils Ŷe soŶt solliĐitĠs Ƌue pouƌ des fréquences extrêmement basses. Page | 23 Figure 1-11 : Trois types d’impédance de Warburg [18]. 1.5.3.2 Application aux cellules LiFePO4 Le modèle classique de Randles donné à la Figure 1-91-9 et ďasĠ suƌ des iŵpĠdaŶĐes d͛oƌdƌe eŶtieƌ Ŷ͛est pas approprié pour décrire finement le comportement macroscopique complexe de l͛aĐĐuŵulateuƌ. AfiŶ de ŵodĠliseƌ ĐoƌƌeĐteŵeŶt uŶ aĐĐuŵulateuƌ, le ƌeĐouƌs à l͛utilisatioŶ des �� s͛aǀğƌe iŶtĠƌessaŶt, et paƌtiĐuliğƌeŵeŶt pouƌ ŵodĠliseƌ l͛effet de ĐouĐhe douďle et du filŵ de passiǀatioŶ. C͛est pouƌƋuoi le ŵodğle de ‘aŶdles gĠŶĠƌalisĠ ;Figure 1-121-12) consistant à introduire dans le circuit classique deux de ces termes, ��௙ et ��ௗ௟, a été proposé dans K.DONG [18] pour modéliser un accumulateur de type ��ସ. Figure 1-12 : Modèle de batteries LiFePO4 [18]. L͛ĠƋuatioŶ aŶalǇtiƋue de l͛iŵpĠdaŶĐe totale de Đe ĐiƌĐuit où l͛iŵpĠdaŶĐe de Waƌďuƌg est ŶĠgligĠe est donc finalement donnée par : �௔௡௔௟௬௧௜௤௨௘ ሺ�ሻ = � + ʹπ�� + �௙ ͳ + �௙�௙ሺʹπ��ሻ ௣೑ + �௧௖ ͳ + �௧௖�ௗ௟ሺʹπ��ሻ ௣೏೗ Equation 1-10 Le Tableau 1-2 ƌĠĐapitule l͛eŶseŵďle des paƌaŵğtƌes de Đe ŵodğle aiŶsi Ƌue les phĠŶoŵğŶes Ƌue [18] a essayé de leur associer. � Résistance des électrodes, électrolytes et connexions � Inductance de connexions �௙ Résistance du film de passivation �௙, �௙ Paramètres du ��௙ : effet du film de passivation Page | 24 �௧௖ Résistance de transfert de charge �ௗ௟, �ௗ௟ Paramètres du ��ௗ௟ : effet de la double couche Tableau 1-2 : Récapitulatif des paramètres du �� de Randles amélioré. Le simulateur associé (Annexe C), développé sous Matlab/Simulink à l͛INE“4 [18][20][48], a montré de ďoŶŶes peƌfoƌŵaŶĐes loƌs d͛eǆpĠƌiŵeŶtatioŶs ŵeŶĠes suƌ des aĐĐuŵulateuƌs gƌaphite ��ସ de la compagnie A123 Systems Ltd, de capacité nominale ʹ,͵ �ℎ et de tension nominale de ͵,͵� (cf. Annexe B). Le modèle présenté ici sera donc celui utilisé dans la suite de ce mémoire, et le simulateur correspondant sera utilisé pour la réalisation des études en simulations, préliminaires à la phase expérimentale. 1.6 Circuit électrique équivalent et notion d’impédance électrique La validité des �� précédents est basée sur les hypothèses suivantes : Un �� est défini et valable uniquement autour d’un point de fonctionnement donné. L’amplitude des fluctuations de courant à l’entrée de l’accumulateur reste faible. Par conséquent, l’accumulateur modélisé autour du point de fonctionnement choisi peut être considéré comme linéaire. Sous les hypothèses précédentes et pour un point de fonctionnement fixe, l’accumulateur peut être considéré comme un système linéaire et invariant dans le temps (LIT) pour lequel les notions de fonction de transfert et de réponse fréquentielle sont parfaitement définies, comme il est montré dans le chapitre suivant. Dans ce cas, l’impédance électrique définie par l’Equation 1-10 correspond à la réponse fréquentielle du système LIT constitué par l’accumulateur au point de fonctionnement fixe considéré, dont l’entrée est le courant parcourant cet accumulateur, et la sortie la tension à ses bornes. Cette impédance dépend des différents éléments du �� choisi et contient donc la majeure partie de l͛iŶfoƌŵatioŶ liĠe auǆ phĠŶoŵğŶes phǇsiƋues Ƌui pƌeŶŶeŶt plaĐe daŶs l͛aĐĐuŵulateuƌ. Elle est doŶĐ iŵpoƌtaŶte à ĐalĐuleƌ pouƌ sa ĐaƌaĐtĠƌisatioŶ et/ou sa suƌǀeillaŶĐe. C͛est suƌ Đette deƌŶiğƌe remarque que repose la démarche suivie dans les chapitres suivants. 4 Institut National de l’Energie SolairePage | 25 Chapitre 2 : Identification de l’impédance électrique d’un accumulateur L͛ideŶtifiĐatioŶ de sǇstğŵes est uŶ eŶseŵďle de ŵĠthodes ǀisaŶt à ŵodĠliseƌ les sǇstğŵes dynamiques à partir de données expérimentales. Elle consiste à déterminer un modèle mathématique du système en utilisant et en analysant ses entrées et ses sorties. Si ce modèle mathématique repose sur un ensemble fini de paramètres, on parle d'identification « paramétrique ». L͛ideŶtifiĐatioŶ paƌaŵĠtƌiƋue permet dans la plupart des cas de faciliter la synthèse de lois de commande, ce qui en fait un outil très apprécié dans le domaine de l͛autoŵatiƋue. “i le ŵodğle ŵathĠŵatiƋue ĐoŶsiste eŶ uŶe foŶĐtioŶ Ƌui ĐaƌaĐtĠƌise le sǇstğŵe à identifier, comme la fonction de transfert ou les réponses impulsionnelle ou fréquentielle d'un sǇstğŵe liŶĠaiƌe et iŶǀaƌiaŶt daŶs le teŵps, oŶ paƌle aloƌs d͛ideŶtifiĐatioŶ « non paramétrique ». De plus, deux approches différentes de l'identification peuvent être envisagées. Si les entrées du système sont imposées par l'utilisateur spécifiquement pour l'identification, on parle d'approche « active ». Par contre, si on utilise les signaux d'entrée et de sortie du système en fonctionnement, sans ajouter aucun signal supplémentaire pour l'identification, on parle d'approche « passive ». DaŶs Đe Đhapitƌe, Đ͛est l͛ideŶtifiĐatioŶ ŶoŶ paƌaŵĠtƌiƋue aĐtiǀe Ƌui est Đhoisie. EŶ effet, uŶe fois liŶĠaƌisĠ autouƌ d͛uŶ poiŶt de foŶĐtioŶŶeŵeŶt, le système peut être caractérisé par sa réponse fréquentielle, autrement dit son impédance électrique. Cette grandeur constitue donc un modèle non-paƌaŵĠtƌiƋue de l͛aĐĐuŵulateuƌ ǀalaďle autouƌ du poiŶt de foŶĐtioŶŶeŵeŶt ĐoŶsidĠƌĠ. L͛oďjeĐtif des méthodes développées dans ce chapitre est de réaliser une estimatioŶ pƌĠĐise de l͛iŵpĠdaŶĐe ĠleĐtƌiƋue d͛uŶ aĐĐuŵulateuƌ autouƌ d͛uŶ poiŶt de foŶĐtioŶŶeŵeŶt eŶ eŵploǇaŶt uŶ sigŶal d͛eŶtƌĠe dĠdiĠ à l͛ideŶtifiĐatioŶ et eŶ ŵesuƌaŶt le sigŶal de soƌtie ĐoƌƌespoŶdaŶt. De plus, les ŵĠthodes présentées devront permettre de suiǀƌe l͛ĠǀolutioŶ de Đette iŵpĠdaŶĐe au Đouƌs du teŵps. Ce Đhapitƌe Ġtaďlit tout d͛aďoƌd les hǇpothğses de tƌaǀail Ƌui seƌoŶt ƌespeĐtĠes tout au loŶg de l͛Ġtude. EŶsuite, uŶ Ġtat de l͛aƌt suƌ les ŵĠthodes ĐouƌaŵŵeŶt utilisĠes ;paƌaŵĠtƌiƋues et ŶoŶ paramétriƋuesͿ pouƌ ideŶtifieƌ l͛iŵpĠdaŶĐe ĠleĐtƌiƋue d͛uŶ aĐĐuŵulateuƌ est pƌĠseŶtĠ. EŶfiŶ, la possibilité d'employer des méthodes d'identification large-bande pour estimer cette impédance ĠleĐtƌiƋue suƌ des ďaŶdes de fƌĠƋueŶĐe doŶŶĠes seƌa ĠtudiĠe. L͛iŶtĠƌġt ŵajeur de cette approche seƌa la possiďilitĠ d͛ġtƌe iŵplaŶtĠe sous foƌŵe ƌĠĐuƌsiǀe et doŶĐ eŶ teŵps-réel, et embarqué dans les véhicules. Page | 26 2.1 Hypothèses de travail Le système en étude (accumulateur), ayant pour entrée le courant de polarisation �ௗ௖ (courant ĐoŶtiŶu appliƋuĠ à l͛aĐĐuŵulateuƌͿ auquel est superposée une composante alternative de faible amplitude ∆�ሺ�ሻ , et pour sortie la réponse en tension correspondante, a en général un ĐoŵpoƌteŵeŶt ŶoŶ liŶĠaiƌe [ϰϵ][ϱϬ]. CepeŶdaŶt, l͛ideŶtification non paramétrique proposée dans Đette Ġtude est ƌestƌeiŶte auǆ sǇstğŵes liŶĠaiƌes et iŶǀaƌiaŶts daŶs le teŵps ;LITͿ. Pouƌ Ƌu͛elle aboutisse à des résultats valables, il faut que les conditions expérimentales permettent une linéarisation locale autouƌ d͛uŶ poiŶt de foŶĐtioŶŶeŵeŶt fiǆe. Ce deƌŶieƌ est assoĐiĠ à uŶ eŶseŵďle de paramètres qui doivent tous pouvoir être considérés comme constants au cours de la mesure. Le pƌeŵieƌ de Đes paƌaŵğtƌes est l͛iŶteŶsitĠ du ĐouƌaŶt de polaƌisatioŶ Ƌui est ďieŶ Đonstante. Les autƌes paƌaŵğtƌes soŶt ƌelatifs à l͛Ġtat gloďal de l͛aĐĐuŵulateuƌ : son ��, son �� et sa température �. Tout d͛aďoƌd, le �� est considéré naturellement constant étant donné sa dǇŶaŵiƋue tƌğs leŶte. EŶsuite, l͛aĐĐuŵulateuƌ foŶĐtioŶne dans un régime stable établi à température ambiante : sa température est donc également considérée constante. Finalement, le �� est effeĐtiǀeŵeŶt plus ou ŵoiŶs ǀaƌiaďle duƌaŶt la ŵesuƌe ;seloŶ l͛iŶteŶsitĠ du ĐouƌaŶt de polaƌisatioŶͿ. Cependant, en respeĐtaŶt uŶ Đoŵpƌoŵis eŶtƌe la duƌĠe de ŵesuƌe et l͛iŶteŶsitĠ du ĐouƌaŶt de polarisation, une variation de �� limitée à ʹ% est considérée comme acceptable. Sous les hǇpothğses pƌĠĐĠdeŶtes, le poiŶt de foŶĐtioŶŶeŵeŶt autouƌ duƋuel l͛aĐĐuŵulateuƌ foŶĐtionne peut être considéré comme fixe. La composante alternative ��ሺ�ሻ superposée au courant de polarisation doit ĠgaleŵeŶt ġtƌe d͛aŵplitude suffisaŵŵeŶt faiďle pouƌ peƌŵettƌe la liŶĠaƌisatioŶ du sǇstğŵe. OŶ ĐoŶsidğƌe daŶs la suite Ƌu͛elle Ŷe doit pas pƌovoquer plus de ʹͲ à ͶͲ �� de variation sur la réponse en tension [51], une amplitude de ͳͷͲ �� est alors admise (soit un régime de �/ͳͷ). Pour récapituler, les hypothèses de travail se résument à : une durée de mesure suffisamment faible pour que le �� ne varie pas de plus de ʹ%. une composante alternative ∆�ሺ�ሻ suffisamment faible, correspondant à une amplitude de �/ͳͷ. Sous ces conditions, l'accumulateur sera considéré comme un système LIT autour du point de fonctionnement fixe, et donc pouvant être caractérisé par sa réponse fréquentielle. Cette dernière ƌelie le ĐouƌaŶt d'eŶtƌĠe et la teŶsioŶ de soƌtie de l͛aĐĐuŵulateuƌ, il s'agit doŶĐ d'uŶe iŵpĠdaŶĐe électrique. 2.2 Etat de l’art Dans la littérature, on trouve plusieurs paramètres électriques dont la définition est plus ou moins siŵpleŵeŶt ƌeliĠe à Đelle de l͛iŵpĠdaŶĐe ĠleĐtƌiƋue d͛uŶ aĐĐuŵulateuƌ. La teƌŵiŶologie est changeante, ce qui rend parfois difficile la compréhension de la grandeur mesurée. Page | 27 2.2.1 Identification de la résistance interne Le modğle ĠleĐtƌiƋue le plus siŵple d͛uŶ aĐĐuŵulateuƌ est uŶe souƌĐe de teŶsioŶ eŶ sĠƌie aǀeĐ uŶe résistance. Cette dernière englobe les résistances dues aux processus électrochimiques ainsi que Đelles des ĐoŶŶeǆioŶs. Ce teƌŵe de ƌĠsistaŶĐe Ŷ͛est pas dĠfiŶi de façon claire définitive, chaque définition dépendant de la technique de mesure utilisée [52]. 2.2.1.1 Mesure par milliohmmètre EŶ appliƋuaŶt uŶ sigŶal d͛eǆĐitatioŶ siŶusoïdal à haute fƌĠƋueŶĐe ;tǇpiƋueŵeŶt ͳ �� ), le ŵilliohŵŵğtƌe doŶŶe diƌeĐteŵeŶt la paƌtie ƌĠelle de l͛iŵpĠdaŶĐe Đoŵpleǆe de l͛aĐĐuŵulateuƌ à cette fréquence [52]. 2.2.1.2 Temps de repos (period-of-rest) Le ĐouƌaŶt de dĠĐhaƌge appliƋuĠ à l͛aĐĐuŵulateuƌ est iŶteƌƌoŵpu ďƌutaleŵeŶt Đe Ƌui Đause apƌğs une certaine durée de repos �, une variation ∆� suƌ la teŶsioŶ de l͛aĐĐuŵulateuƌ. La ƌĠsistaŶĐe iŶteƌŶe de l͛aĐĐuŵulateuƌ, dite aussi ƌĠsistaŶĐe dǇŶaŵiƋue [ϱϮ], est aloƌs dĠfiŶie paƌ : �ௗሺ�ሻ = ∆�ሺ�ሻ � Equation 2-1 2.2.1.3 Impulsion de courant Une impulsion de courant ∆� est appliquée après une période de repos ou ajoutée à un courant de Đhaƌge ou de dĠĐhaƌge dĠjà appliƋuĠ à l͛aĐĐuŵulateuƌ. UŶe ǀaƌiatioŶ ∆� est ensuite observée après une durée �. Une nouvelle définition de la résistance interne peut alors être établie [53] : �ௗሺ�ሻ = ∆�ሺ�ሻ ∆� Equation 2-2 2.2.1.4 Interprétation Dans ces deux dernières techniques, la résistance interne dépend fortement du temps de repos T [52]. [52] présente que sur les technologies de batterie au plomb et nickel-cadmium, on a : si � < ͳͲ ��, �ௗ correspondra au terme � du circuit de Randles amélioré (Figure 1-12), si � ~ ͳ �, les processus à constantes de temps supérieures à ͳ � influent sur la mesure et �ௗ dépendra des termes � et �௙, si � > ͳ ��, les processus lents s’ajoutent et �ௗ dépendra d’une relation entre �, �௙ et �௧௖ du circuit de Randles amélioré. Afin de comprendre la relation entre la grandeur résistive estimée par le simple rapport tension sur courant et les termes résistifs du �� de la Figure 1-12, une simulation a été réalisée en se référant au circuit électrique paramétré sur des cellules A123 ʹ,͵ �ℎ tel que présenté au chapitre précédent (paragraphe 1.5.3.2.). Un échelon de courant est appliqué en entrée du simulateur. Les valeurs du Page | 28 rapport tension sur courant calculées (�ௗ) apƌğs diffĠƌeŶts teŵps d͛atteŶte soŶt ĐoŵpaƌĠes auǆ termes résistifs connus du �� choisi (Figure 2-12-1). On observe que : - le terme � associé à la résistance Joule (électrodes et électrolyte) est mesurable pour des durées inférieures à Ͳ,ͳ �� ce qui nécessite des systèmes de métrologie à fréquences d’acquisition élevées. Cette grandeur est intéressante vu qu’elle est souvent liée aux �� et �� [52] [53] pour certaines technologies d’accumulateurs. - une valeur de résistance peut correspondre à la somme des contributions des termes � et �௙, ce qui peut s’observer notamment au niveau du coude formé par l’allure de la réponse en tension, - un temps d’attente long sur la réponse en tension fournit une valeur de résistance plus grande mais sans sens physique précis. Figure 2-1 : Estimation de la résistance via le rapport de ∆� ∆� en utilisant le simulateur et comparaison avec les valeurs des paramètres du �� implanté. 2.2.1.5 Exploitation La ƌĠsistaŶĐe dǇŶaŵiƋue ŵesuƌĠe Ŷ͛est Ŷi uŶe ƌĠsistaŶĐe puƌe Ŷi le ŵodule de l͛iŵpĠdaŶĐe électrique à une fréquence donnée [52]. Cependant, les deux dernières techniques (temps de repos et impulsion de courant) citées ci-dessus sont généralement utilisées en raison de leur simplicité de ŵise eŶ œuǀƌe. Elles ŶĠĐessiteŶt uŶe ǀaƌiatioŶ de ĐouƌaŶt eŶ eŶtƌĠe du sǇstğŵe. DaŶs ĐeƌtaiŶes appliĐatioŶs ;ǀĠhiĐules ƌoulaŶtͿ Đette ǀaƌiatioŶ est ŶatuƌelleŵeŶt gĠŶĠƌĠe. DaŶs d͛autƌes ;ďatteƌies des véhicules en charge ou UPS (Uninterruptible Power Supply) en mode de veille), on se permet de générer une variation de durée juste suffisante pour effectuer les mesures [24]. La quantité obtenue �ௗ a fait l͛oďjet d͛Ġtudes pouƌ dĠteƌŵiŶeƌ uŶe possiďle ƌelatioŶ aǀec les indices d͛Ġtat �� et �� de l͛aĐĐuŵulateuƌ, saŶs pouƌ autaŶt l͛assoĐieƌ à des pƌoĐessus ĠleĐtƌoĐhiŵiƋues [52][54]. Notamment, il a été montré l͛utilitĠ de Đe paƌaŵğtƌe au diagŶostiĐ du �� [52][55][56][57]. Page | 29 EtaŶt doŶŶĠes les ĐoŶtƌaiŶtes d͛ĠĐhaŶtilloŶŶage d͛uŶ sǇstğŵe eŵďaƌƋuĠ, Đette ŵĠthode Ŷe seŵďle pas permettre de déterminer directement la valeur de la résistance � car il faudrait alors échantillonner à haute fréquence. L͛ĠǀolutioŶ de la ŵesuƌe du teƌŵe � + �௙ peut toutefois peƌŵettƌe de suiǀƌe l͛ĠǀolutioŶ de Đet iŶdiĐateuƌ d͛Ġtat. 2.2.2 Spectroscopie d’impédance électrique (SIE) La speĐtƌosĐopie d͛iŵpĠdaŶĐe ĠleĐtƌiƋue ;“IEͿ, appelĠe aussi teĐhŶiƋue d͛aŶalǇse paƌ haƌŵoŶiƋue (AH) [58][51][59][60], est particulièrement utile et efficace pour étudier la dynamique des processus électrochimiques et physiques aux interfaces électrode/électrolyte [60]. Elle a également été utilisée pour caractériser l'impédance d'accumulateurs électriques [61]. Elle permet de déconvoluer les phénomènes à constantes de temps différentes. Cette méthode consiste à appliquer une excitation sinusoïdale et à mesurer la réponse de l͛aĐĐuŵulateuƌ. La solliĐitatioŶ peut ġtƌe eŶ ĐouƌaŶt ou eŶ teŶsioŶ ; on parle alors respectivement des modes galvanostatique ou potentiostatique. DaŶs le Đas d͛uŶ essai galvanostatique, le courant continu (nommé aussi courant de polarisation) est contrôlé et une composante alternative sinusoïdale ฀ i(t) Imax sin(2Sft) lui est superposée. Le sǇstğŵe ĠtaŶt liŶĠaƌisĠ autouƌ d͛uŶ poiŶt de foŶĐtioŶŶeŵeŶt, la ƌĠpoŶse eŶ teŶsioŶ de l͛aĐĐuŵulateuƌ est ŵesuƌĠe et ĐoŶsidĠƌĠe de la foƌŵe suiǀaŶte : ฀ v(t) Vmax sin(2Sft M). En utilisant Đes deuǆ gƌaŶdeuƌs, l͛iŵpĠdaŶĐe Đoŵpleǆe de l͛aĐĐuŵulateur est donnée dans le domaine fréquentiel par : *exp( ( )) )( )( max max fj I V f Z f est M Equation 2-3 Dans les deux modes, en balayant une gamme de fréquence donnée, fréquence par fréquence, une bonne estimation de l'impédance complexe de l͛aĐĐuŵulateuƌ peut ġtƌe oďteŶue. 2.2.3 Vers une rupture inévitable des méthodes classiques BieŶ Ƌu͛elles soieŶt siŵples et faĐiles à ŵettƌe eŶ œuǀƌe, les ŵĠthodes d͛ideŶtifiĐatioŶ paƌtielle de l͛iŵpĠdaŶĐe ĠleĐtƌiƋue d͛uŶ aĐĐuŵulateuƌ Ŷ͛oŶt pas la ƌiĐhesse fƌéquentielle nécessaire pour l͛aŶalǇse fiŶe de soŶ ĐoŵpoƌteŵeŶt. EŶ Đe Ƌui ĐoŶĐeƌŶe l͛AH, elle ƌeste diffiĐile à utiliseƌ pouƌ des appliĐatioŶs eŵďaƌƋuĠes telles Ƌue pouƌ les EVs et HEVs où le Đoût de l͛ĠleĐtƌoŶiƋue ŶĠĐessaiƌe à soŶ iŵplaŶtatioŶ ƌeste pƌohibitif. UŶ autƌe poiŶt faiďle de Đes ŵĠthodes est à souligŶeƌ. EŶ effet, l͛iŵpĠdaŶĐe ĠleĐtƌiƋue est uŶe gƌaŶdeuƌ iŶtĠƌessaŶte pouƌ oďteŶiƌ des iŶfoƌŵatioŶs suƌ les iŶdiĐes d͛Ġtats de l͛aĐĐuŵulateuƌ. Toutefois, pour pouvoir suivre leur évolution dans le temps, elle doit être estimée à plusieurs dates teŵpoƌelles ĐoŶsĠĐutiǀes. Oƌ, aǀeĐ l͛AH paƌ eǆeŵple, ĐhaƋue Ŷouǀelle estiŵatioŶ de l͛iŵpĠdaŶĐe https://hal.archives-ouvertes.fr/tel-01066805/document G´en´eration de mod`eles num´eriques de surface et d´etection de changements 3D `a partir d’imagerie satellite st´er´eoscopique tr`es haute r´esolution Cyrielle Gu´erin To cite this version: Cyrielle Gu´erin. G´en´eration de mod`eles num´eriques de surface et d´etection de changements 3D `a partir d’imagerie satellite st´er´eoscopique tr`es haute r´esolution. Other. Universit´e Ren´e Descartes - Paris V, 2014. French. . HAL Id: tel-00953485 https://tel.archives-ouvertes.fr/tel-00953485 Submitted on 28 Feb 2014 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destin´ee au d´epˆot et `a la diffusion de documents scientifiques de niveau recherche, publi´es ou non, ´emanant des ´etablissements d’enseignement et de recherche fran¸cais ou ´etrangers, des laboratoires publics ou priv´es.THESE DE DOCTORAT DE ` l’UNIVERSITE PARIS DESCARTES ´ Sp´ecialit´e : Informatique Ecole doctorale Informatique, T´el´ecommunications et ´ Electronique (Paris) ´ Pr´esent´ee par Cyrielle GUERIN Pour obtenir le grade de DOCTEUR de l’UNIVERSITE PARIS DESCARTES ´ G´en´eration de Mod`eles Num´eriques de Surface et D´etection de Changements 3D `a Partir d’Imagerie Satellite St´er´eoscopique Tr`es Haute R´esolution soutenue le 18 f´evrier 2014 devant le jury compos´e de : M. Pascal Monasse Rapporteur M. Laurent Polidori Rapporteur M. Andres Almansa Examinateur M. Bruno Vallet Examinateur Mme. Nicole Vincent Examinatrice M. Renaud Binet Encadrant M. Marc Pierrot-Deseilligny Directeur de th`ese2Remerciements Avant tout, mes remerciements vont `a Renaud Binet et Marc Pierrot-Deseilligny, initiateurs et encadrants de ce sujet de th`ese qui m’a captiv´e pendant ces trois ann´ees. Merci `a Marc de m’avoir fait d´ecouvrir MicMac et la programmation dynamique que j’utilise maintenant partout ! Merci Renaud pour ton enthousiasme, tes nombreuses id´ees au cours de la th`ese et surtout pour m’avoir beaucoup appris dans le domaine de l’imagerie optique. Je tiens aussi `a remercier la DGA d’avoir financ´e ces travaux. Participer `a ce programme a ´et´e tr`es motivant. Merci `a Philippe Blanc, toujours de tr`es bon conseil et `a Bruno Vallet pour le travail tr`es enrichissant que nous avons r´ealis´e ensemble. Merci `a toute l’´equipe du CALTECH pour m’avoir invit´ee dans vos murs et fait d´ecouvrir d’autres pistes de recherche ! Merci S´ebastien pour toute l’aide que tu m’as apport´ee durant ce stage mais aussi pour m’avoir fait visiter ce petit bout des Etats–Unis ! J’esp`ere que notre ´ collaboration ne s’arrˆetera pas l`a. Je tiens aussi `a remercier les enseignants du Master 2 de l’EGID et surtout Samia Boukir et Nesrine Chehata. Merci de m’avoir incit´ee `a continuer dans la recherche quand je n’´etais qu’´etudiante en master ! J’esp`ere Nesrine qu’on se retrouvera encore souvent pour des conf´erences, IGARSS a ´et´e un tr`es bon moment. Je n’oublie sˆurement pas tout le labo TSE avec lequel j’ai travaill´e pendant ces trois ann´ees. Merci bien sˆur `a Philippe pour m’avoir accueillie dans ce labo et m’avoir encourag´ee tout au long de la th`ese. Un grand bravo `a Adrien pour m’avoir cˆotoy´ee dans le mˆeme bureau pendant plus de 2 ans ! Tu resteras mon irrempla¸cable coll`egue de bureau et ami. Merci `a Thierry d’avoir toujours eu confiance en moi et de m’avoir soutenu tous les jours, bon 3ou moins bon...Merci `a B´eatrice pour nos collaborations sur divers projets. Merci `a Philippe, Rodolphe et Eric pour avoir accept´e de relire cette th`ese. Finalement merci `a vous tous, ¸ca a ´et´e un r´eel plaisir de travailler avec vous dans ce labo. Merci aussi `a tous ceux que j’ai rencontr´ee durant cette th`ese. Merci `a Franck pour d’inoubliables conversations et fous rires si d´ecompressants sur la ligne C3 ! Je te souhaite le meilleur pour ta nouvelle carri`ere et j’esp`ere qu’on ne se perdra pas de vue. Bien sˆur, je remercie Boris, rencontr´e de fa¸con si inopin´e et qui s’est r´ev´el´e ˆetre un ami tr`es pr´ecieux, merci d’avoir pass´e ces heures `a m’´epauler pour mon article, tu m’as beaucoup apport´e. You rock ! Merci enfin `a mes parents et `a mes soeurs, vous m’avez soutenue durant toutes ces ann´ees d’´etudes. J’ai pu compter sur votre soutien inflexible lors de mes plus grandes p´eriodes de stress. Du fond du coeur, merci. C’est `a vous que je d´edie cette th`ese. 4R´esum´e L’imagerie satellite permet aujourd’hui l’acquisition d’un nombre croissant de donn´ees dont l’augmentation des r´esolutions spatiale et temporelle permet de caract´eriser de plus en plus finement une sc`ene et son ´evolution. Dans ce contexte, les m´ethodes de d´etection des changements apparus entre deux sc`enes sont particuli`erement ´etudi´ees. Elles sont g´en´eralement bas´ees sur les diff´erences radiom´etriques entre les images. Cependant, ces m´ethodes s’av`erent souvent peu robustes `a des changements radiom´etriques non pertinents tels que ceux induits par la variation des conditions d’acquisition des images. L’objectif de cette th`ese est ainsi de d´evelopper une m´ethode alternative, bas´ee sur la recherche des changements d’´el´evation de la sc`ene. L’´el´evation repr´esente en effet une information pertinente et adapt´ee, notamment dans un contexte de d´etection des changements de type urbain (construction, destruction ou modification d’infrastructures). Pour r´epondre `a des besoins en analyse d’image qui n´ecessitent des r´esultats rapides et fiables, la m´ethode que nous proposons est une chaˆıne de traitements compl`ete et automatique bas´ee sur l’exploitation de couples d’image satellites st´er´eoscopiques tr`es haute r´esolution permettant la g´en´eration et la comparaison de Mod`eles Num´eriques de Surface (MNS). Afin de limiter les fausses alarmes de changements dues aux erreurs li´ees `a la g´en´eration des MNS, une ´etape cl´e de cette th`ese a consist´e `a augmenter la pr´ecision des MNS, notamment `a travers la prise en compte des zones d’occlusions et de mauvaise corr´elation. La m´ethode de g´en´eration des MNS `a ainsi ´et´e am´elior´ee et une technique innovante de fusion des deux MNS provenant du mˆeme couple d’images a ´et´e d´evelopp´ee. La comparaison des MNS g´en´er´es avec un MNS LiDAR montre que notre approche permet une nette augmentation de la qualit´e des MNS, les erreurs de corr´elation sont r´eduites tandis que les zones d’occlusion sont 5pr´ecis´ement localis´ees. La m´ethode de d´etection des changements d’´el´evation est, quant `a elle, bas´ee sur une labellisation par optimisation des pixels du MNS diff´erentiel calcul´e `a partir des MNS produits `a chaque date. Cette ´etape permet de mettre en ´evidence les vrais changements de la sc`ene parmi le bruit r´esiduel des MNS. Les r´esultats obtenus sur diff´erents sites test´es montrent que plus de 80% des changements de taille sup´erieure `a 15 pixels x 15 pixels (ou 100 m2 avec des images tr`es haute r´esolution) sont d´etect´es par notre m´ethode, avec moins de 20% d’erreurs. Nous montrons cependant que ces r´esultats d´ependent principalement du param`etre de r´egularisation de la d´etection des changements, qui contrˆole le taux de fausses alarmes par rapport au taux de bonnes d´etections du r´esultat. 6Abstract The growing amount of satellite data, increasingly resolved spatially and temporally, represents a high potential of information allowing the accurate characterization of the evolution of an area of interest. For this reason, automatic analysis techniques such as change detection methods are widely investigated. Most of them are based on radiometric changes between remote sensed optical images. These methods are however very sensitive to a significant number of irrelevant changes such as those due to the variation of the geometrical conditions between two different acquisitions. The objective of this work is then to develop an alternative method based on the elevation change detection. The advantage of using the elevation is that this information is particularly relevant and well adapted in a context of urban monitoring where the elements of interest correspond to buildings that can be constructed, modified or destroyed between two dates. In order to satisfy new needs in image analysis which require quick and reliable results, our method is a complete and automatic processing flow based on the analysis of high resolution satellite stereoscopic couples and the generation of Digital Surface Models (DSM). Stereoscopic DSMs, however, generally suffer from a high number of correlation errors leading to false alarms in the final change detection map. One of the main contribution of this work consisted in increasing the DSM accuracy, especially through a better handling of the occlusion and miss-correlation areas. For this purpose, the image matching technique has been improved and all DSMs computed from the same stereoscopic couple are then fusioned through a new approach, based on an optimization method. The comparison between our DSM with a LiDAR-based DSM indicates that our method largely improves the DSM quality, the amount of correlation errors is decreased while the occlusion areas are accurately localized. The change detection method itself is based on the labelization of the pixels of the differential 7DSM computed from the DSMs generated at each date of interest. This step, performed through another optimization process, enables to bring forward the relevant changes among the residual noise of the DSMs. The results, obtained for several experimental areas, show that more than 80% of the changes larger than 15 pixels x 15 pixels (100 m m2 with high resolution images) are detected with our method, with less than 20% of false alarms. We also show that these results mainly depend on the regularization parameter which controls the balance between the amount of false alarms towards the amount of true detections in the final results. 8Table des mati`eres Introduction G´en´erale 13 1 Etudes bibliographiques et strat´egie adopt´ee ´ 17 1.1 La d´etection de changements : ´etat de l’art . . . . . . . . . . . . . . . . . . . . . 18 1.1.1 M´ethodes de d´etection des changements radiom´etriques . . . . . . . . . . 18 1.1.2 M´ethodes alternatives : d´etection des changements d’´el´evation . . . . . . 19 1.2 M´ethodes de restitution 3D : ´etat de l’art . . . . . . . . . . . . . . . . . . . . . . 23 1.2.1 Mise en correspondance d’images par m´ethode d’optimisation . . . . . . . 25 1.2.2 Caract´eristiques des corr´elateurs . . . . . . . . . . . . . . . . . . . . . . . 27 1.2.3 Les strat´egies de mise en correspondance . . . . . . . . . . . . . . . . . . 29 1.2.4 Les outils de restitution 3D existants . . . . . . . . . . . . . . . . . . . . . 33 1.3 Description g´en´erale de la chaˆıne de traitements d´evelopp´ee . . . . . . . . . . . . 35 1.4 Capteurs utilis´es et donn´ees d’entr´ee . . . . . . . . . . . . . . . . . . . . . . . . . 37 1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2 Outils et m´ethodes n´ecessaires `a la chaˆıne de traitements 41 2.1 Co–localisation des images : utilisation d’un outil de spatio–triangulation . . . . 42 2.1.1 Contexte et objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.1.2 Principe de la spatio–triangulation . . . . . . . . . . . . . . . . . . . . . . 43 2.2 Outil pour la r´esolution de probl`emes de labellisation . . . . . . . . . . . . . . . . 47 2.2.1 Trois probl`emes de labellisation . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2.2 Les m´ethodes d’optimisation existantes . . . . . . . . . . . . . . . . . . . 49 2.2.3 Description de l’algorithme s´electionn´e . . . . . . . . . . . . . . . . . . . . 55 2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 9TABLE DES MATIERES ` 3 G´en´eration de Mod`eles Num´eriques de Surface sur une grille r´eguli`ere `a partir de couples st´er´eoscopiques 61 3.1 Description de la strat´egie de mise en correspondance adopt´ee . . . . . . . . . . . 62 3.1.1 Technique de mise en correspondance . . . . . . . . . . . . . . . . . . . . 62 3.1.2 Fonction d’optimisation et r´egularisation . . . . . . . . . . . . . . . . . . . 63 3.1.3 Prise en compte des zones d’occlusion . . . . . . . . . . . . . . . . . . . . 65 3.2 D´eveloppement d’une m´ethode de basculement des MNS sur une grille g´eographique r´eguli`ere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.2.1 Interpolation des points de la grille r´eguli`ere . . . . . . . . . . . . . . . . . 66 3.2.2 Conditions au calcul de l’´el´evation d’un point . . . . . . . . . . . . . . . . 67 3.3 Am´elioration des MNS : d´eveloppement d’une m´ethode de fusion des MNS . . . 72 3.3.1 Erreurs des MNS asym´etriques . . . . . . . . . . . . . . . . . . . . . . . . 72 3.3.2 M´ethode de fusion des MNS asym´etriques . . . . . . . . . . . . . . . . . . 74 3.4 Qualit´e et pr´ecision des MNS obtenus . . . . . . . . . . . . . . . . . . . . . . . . 82 3.4.1 Co–localisation LiDAR et MNS . . . . . . . . . . . . . . . . . . . . . . . . 82 3.4.2 Crit`eres de qualit´e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 3.5 Application au cas de la multi–st´er´eoscopie . . . . . . . . . . . . . . . . . . . . . 87 3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4 D´eveloppement d’une m´ethode de d´etection des changements d’´el´evation 93 4.1 Calcul et analyse du MNS diff´erentiel . . . . . . . . . . . . . . . . . . . . . . . . 94 4.2 M´ethode de d´etection des changements . . . . . . . . . . . . . . . . . . . . . . . . 97 4.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5 Exp´erimentation et discussion des r´esultats de la m´ethode de d´etection des changements d’´el´evation 101 5.1 Pr´esentation des zones de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.1.1 Phoenix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.1.2 Christchurch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.1.3 R´egion de Tohoku : analyse d’une zone catastroph´ee . . . . . . . . . . . . 105 5.2 M´etriques d’analyse des r´esultats de la d´etection de changements . . . . . . . . . 109 5.2.1 Variables calcul´ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 10TABLE DES MATIERES ` 5.2.2 M´etriques d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.3 Analyse de sensibilit´e des r´esultats obtenus . . . . . . . . . . . . . . . . . . . . . 112 5.3.1 Influence des param`etres de la m´ethode sur les r´esultats . . . . . . . . . . 113 5.3.2 Impact de la qualit´e des donn´ees d’entr´ee . . . . . . . . . . . . . . . . . . 118 5.3.3 Int´erˆet d’une m´ethode globale : comparaison avec un filtrage local . . . . 121 5.3.4 Influence du paysage de la zone d’´etude . . . . . . . . . . . . . . . . . . . 124 5.4 Analyse des r´esultats sur la zone de Sendai . . . . . . . . . . . . . . . . . . . . . 127 5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 6 Conclusion g´en´erale 133 6.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 6.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 Table des figures 139 Liste des tableaux 143 Bibliographie 145 11TABLE DES MATIERES ` 12Introduction G´en´erale Depuis le lancement des premiers satellites d´edi´es `a la t´el´ed´etection spatiale, leur nombre, leur r´esolution et leur capacit´e d’acquisition n’ont de cesse d’augmenter. Aujourd’hui, Pl´eiades 1A et 1B fournissent des images `a 70 cm de r´esolution tandis que WorldView-3 est attendu avec une r´esolution inf´erieure `a 50 cm. Ce nombre de donn´ees, d’une qualit´e toujours meilleure, permet d’acc´eder `a une grande quantit´e d’informations pour caract´eriser et analyser une sc`ene et son ´evolution `a de tr`es fines ´echelles spatiales et temporelles. Pour traiter ces nouveaux flux de donn´ees, les m´ethodes permettant l’analyse de s´eries multi– temporelles d’images sont alors particuli`erement int´eressantes et en fort d´eveloppement. Les applications `a ces ´etudes sont tr`es nombreuses, `a commencer par l’agriculture, pour caract´eriser l’´evolution des sols, jusqu’aux g´eosciences, pour l’observation des glaciers en termes de volume, d’´etendue ou de vitesse [1], pour la surveillance des volcans [2] ou encore pour les mesures des d´eformations tectoniques [3, 4]. L’augmentation drastique de la r´esolution des images permet aussi aujourd’hui une observation beaucoup plus fine des milieux urbains pour une meilleure analyse g´eographique et d´emographique des villes `a travers la mise `a jour des plans cadastraux ou autres bases de donn´ees [5] mais aussi pour la cartographie de d´egˆats mat´eriels (en terme de bˆatiments ou d’infrastructures d´etruits) apr`es une catastrophe majeure telle qu’un s´eisme, un tsunami, un glissement de terrain, un ´ev´enement m´et´eorologique ou encore une guerre [6]. Dans ce contexte, les m´ethodes de d´etection des changements, automatiques ou semi–automatiques, sont particuli`erement avantageuses. Les algorithmes de d´etection de changements sont traditionnellement bas´es sur l’´etude 13INTRODUCTION GEN´ ERALE ´ d’images radars ou optiques. En imagerie optique, la plupart des m´ethodes s’int´eressent aux diff´erences de r´eflectances entre les donn´ees acquises `a des dates t1 et t2 [7]. Cependant, les r´esultats montrent que, dans un contexte de suivi des infrastructures urbaines, de nombreuses fausses alarmes ou changements non pertinents sont g´en´er´es par ces m´ethodes de d´etection 2D. Ces alarmes sont g´en´eralement dues aux diff´erentes conditions d’acquisition des images (conditions d’´eclairement ou d’atmosph`ere, azimut solaire, saison ou encore angles d’acquisition des images) lors des prises de vue ainsi qu’`a de nombreux changements radiom´etriques tels que l’´evolution des sols, les r´enovations de toitures ou de revˆetement de sol. Le travail de th`ese pr´esent´e ici s’inscrit dans cette probl´ematique de d´etection de changements. Dans le but de s’affranchir des changements radiom´etriques, nous nous int´eressons aux changements d’´el´evation de type urbain (directement reli´es au bˆati) et dans un contexte de suivi temporel ou de crise majeure n´ecessitant des r´esultats fiables et rapides. Afin de r´epondre au mieux `a cette probl´ematique, la technique propos´ee est bas´ee enti`erement sur les diff´erences d’´el´evation de la sc`ene entre les deux dates d’int´erˆet. En effet, cette information, dont la variation en milieu urbain est g´en´eralement li´ee `a des changements du bˆati, est robuste `a la plupart des changements 2D et est donc particuli`erement adapt´ee `a cet objectif [8]. Aujourd’hui, diff´erents syst`emes d’acquisition permettent d’acc´eder `a l’information d’´el´evation d’une sc`ene : les lasers a´eroport´es (Airborne Laser Scaning ou ALS), le LiDAR (Light Detection And Ranging), les satellites radar ou encore l’imagerie st´er´eoscopique, a´erienne ou spatiale, `a travers la g´en´eration de Mod`eles Num´eriques de Surface (MNS). Du fait de leur tr`es haute r´esolution, leur large capacit´e d’acquisition et la rapidit´e de livraison et de traitement de ces donn´ees, les satellites optiques produisant des images st´er´eoscopiques apparaissent comme la meilleure r´eponse pour la d´etection des changements d’´el´evation. De plus, le coˆut de ces images est relativement faible compar´e aux autres syst`emes d’acquisition, voire nulle lors d’une crise majeure car ces images sont alors gratuitement mises `a disposition des agences cartographiques `a travers la Charte Internationale Espace et Catastrophes Majeures, sign´ee par de nombreux pays. L’objectif de ce travail est ainsi de d´evelopper et de tester, dans un contexte urbain, une m´ethode de d´etection de changements innovante et bas´ee sur les changements d’´el´evation d’une sc`ene entre deux dates. Afin de r´epondre de fa¸con adapt´ee `a la probl´ematique de quantification 14INTRODUCTION GEN´ ERALE ´ de d´egˆats apr`es une catastrophe, la technique de d´etection de changements d´evelopp´ee est une chaˆıne de traitements compl`ete et automatique, d´ebutant par le recalage des donn´ees brutes et fournissant, en sortie, une carte g´eor´ef´erenc´ee des changements d´etect´es. Au cours de cette th`ese, nous d´etaillerons toutes les ´etapes de cette chaˆıne de traitements, leurs objectifs et leurs r´esultats. Dans une premi`ere partie, nous montrerons l’int´erˆet de la recherche des changements d’´el´evation (ou 3D) par rapport aux changements radiom´etriques `a travers un ´etat de l’art de ces m´ethodes. Nous ´etudierons aussi les m´ethodes de g´en´eration de MNS `a partir d’images st´er´eoscopiques (chapitre 1), ´etape primordiale de la chaˆıne de traitements. Dans une seconde partie, nous d´ecrirons les outils existants n´ecessaires `a notre chaˆıne de traitements, qui consistent en un outil de recalage des images, ´etape indispensable `a tout traitement g´eom´etrique des images et un outil de r´esolution de probl`emes de labellisation par programmation dynamique (chapitre 2). Cet algorithme est en effet central pour trois ´etapes de calcul de notre chaˆıne de traitements. Puis, dans le chapitre 3, nous d´etaillerons la m´ethode compl`ete de g´en´eration des MNS. Cette m´ethode, qui d´ebute par la mise en correspondance des images st´er´eoscopiques pr´esente ensuite deux innovations majeures permettant d’am´eliorer la pr´ecision des MNS en vue de la d´etection des changements. La technique de d´etection de changements 3D, bas´ee sur une classification de la carte des diff´erences d’´el´evation par une m´ethode de labellisation, sera finalement expos´ee dans le chapitre 4. Enfin, la derni`ere partie aura pour objectif d’illustrer l’int´erˆet de la chaˆıne de traitements d´evelopp´ee et d’analyser les r´esultats obtenus dans diff´erentes sc`enes urbaines, que ce soit dans un contexte de mise `a jour des bases de donn´ees ou pour la caract´erisation et la quantification rapide des d´egˆats apr`es une catastrophe majeure (chapitre 5). 15INTRODUCTION GEN´ ERALE ´ 16Chapitre 1 Etudes bibliographiques et strat´egie ´ adopt´ee Dans le domaine de la d´etection de changements par imagerie satellite, de nombreuses m´ethodes existent mais elles sont principalement bas´ees sur l’exploitation de la radiom´etrie des images tandis que tr`es peu de m´ethodes utilisent l’information 3D de la sc`ene. C’est cette approche que nous avons choisi de d´evelopper dans notre chaˆıne de traitements car elle se r´ev`ele particuli`erement pertinente pour la d´etection des changements de type bˆati, dans un contexte urbain. La chaˆıne de traitements propos´ee n´ecessite ainsi une ´etape de reconstruction 3D de la sc`ene. Cependant, les contraintes li´ees aux acquisitions satellites rendent le calcul de la mise en correspondance des images particuli`erement complexe et de multiples techniques ont ´et´e d´evelopp´ees afin d’am´eliorer leur robustesse. Dans une premi`ere partie de ce chapitre, nous pr´esenterons quelques unes des m´ethodes classiques de d´etection de changements radiom´etriques. Nous d´etaillerons ensuite plus particuli`erement les m´ethodes d´evelopp´ees pour la d´etection des changements d’´el´evation et nous montrerons leur int´erˆet, notamment en milieu urbain. Puis, dans une seconde partie, nous analyserons les m´ethodes de restitution 3D existantes et l’int´erˆet de certaines techniques pour notre chaˆıne de traitements. Enfin, dans une derni`ere partie, nous d´etaillerons toutes les ´etapes de notre chaˆıne de traitements et les donn´ees utilis´ees lors des phases exp´erimentales. 171.1. LA DETECTION DE CHANGEMENTS : ´ ETAT DE L’ART ´ 1.1 La d´etection de changements : ´etat de l’art 1.1.1 M´ethodes de d´etection des changements radiom´etriques Les m´ethodes traditionnelles en d´etection de changements sont bas´ees sur la comparaison temporelle des radiom´etries qui peut ˆetre effectu´ee directement `a l’´echelle du pixel. Un large inventaire des m´ethodes les plus connues est fourni par Radke [7]. Les m´ethodes les plus simples et rapides `a impl´ementer sont celles utilisant les diff´erences radiom´etriques ou les rapports (ratios) entre les pixels correspondant en t1 et t2 [7, 9, 10]. Cependant, ces m´ethodes n´ecessitent souvent des seuillages ou des r`egles de d´ecisions et restent tr`es sensibles au bruit des images, aux erreurs de recalage et surtout aux conditions d’acquisition des images, diff´erentes entre t1 et t2, qui g´en`erent de nombreuses alarmes de changements, g´en´eralement non pertinentes. D’autres m´ethodes, de type statistique, sont aussi employ´ees `a l’´echelle du pixel [7, 9]. Le but est de d´ecider, pour chaque pixel, s’il correspond `a un changement ou non en fonction de l’hypoth`ese changement ou non changement qui d´ecrit le mieux son intensit´e. Ces hypoth`eses sont pos´ees `a partir des variations d’intensit´e des pixels dans la s´erie temporelle [7]. L’analyse par composantes principales (PCA) est aussi largement utilis´ee [10–12]. Elle permet de r´eduire la dimension spectrale des images aux composantes les plus riches en information et donc o`u les changements les plus importants ont la plus grande probabilit´e d’apparaˆıtre. Cependant, les hypoth`eses, n´ecessaires pour la mise en oeuvre de ces m´ethodes, proviennent souvent d’une premi`ere analyse des changements recherch´es et limitent ainsi l’automatisation de ces m´ethodes. Les m´ethodes de classification des pixels sont aussi tr`es d´evelopp´ees. Deux m´ethodes sont principalement utilis´ees : la post classification et la classification directe multi–date [13]. La premi`ere consiste `a classer les pixels, de fa¸con supervis´ee ou non, sur chaque image ind´ependamment puis `a comparer les classes. Le probl`eme de cette approche est l’impact important d’une erreur de classe dans l’une des images sur le r´esultat final. Cette m´ethode est ainsi plutˆot utilis´ee pour la d´etection de changements `a grande ´echelle comme pour l’occupation des sols par exemple [7, 9, 10, 12]. 18CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´ La classification directe multi–dates n´ecessite la concat´enation des images, puis la classification, souvent supervis´ee, des pixels selon leur valeur dans toutes les bandes afin de faire apparaˆıtre les changements [11]. Enfin, les images multi–spectrales permettent aussi l’utilisation d’outils tels que les Support Vector Machine (SVM) [14]. Les valeurs spectrales de chaque pixel sont alors repr´esent´ees par un vecteur dans l’espace temporel, la magnitude et la direction de ces vecteurs permettent le classement des pixels en changement ou non changement dans l’image. Ces m´ethodes de classification s’av`erent souvent plus robustes aux erreurs de recalage ou au bruit des images mais elle n´ecessitent souvent des processus supervis´es. Aujourd’hui, avec l’augmentation de la r´esolution spatiale des images, l’int´egration d’informations sur le voisinage des pixels devient indispensable car un objet est maintenant repr´esent´e par plusieurs pixels dans l’espace image. L’image peut alors ˆetre analys´ee de fa¸con plus efficace en consid´erant cette information spatiale [11, 12, 15]. Ainsi, Bruzzone [16] utilise une approche bas´ee sur les Champs de Markov Al´eatoires (Markov Random Fields, MRF) afin de mod´eliser les probabilit´es d’appartenance d’un pixel `a une classe en fonction de son voisinage. Al–Khudhairy [15] se base sur la forme et l’homog´en´eit´e des objets afin de les classer. Ces approches, de plus en plus r´epandues, am´eliorent la robustesse des algorithmes au bruit et aux distorsions g´eom´etriques des images mais sans pour autant supprimer la sensibilit´e `a tous les changements radiom´etriques non pertinents tels que les variations de r´eflectance des surfaces, l’´evolution des sols ou des revˆetements d’infrastructures. 1.1.2 M´ethodes alternatives : d´etection des changements d’´el´evation Derni`erement, de nouvelles approches, alternatives `a la d´etection de changements 2D, ont ´emerg´e. Leur but est de concentrer la d´etection sur les changements d’´el´evation de la sc`ene tout en ´etant plus robuste aux conditions d’acquisition des images ou aux changements non pertinents qui correspondent souvent `a des changements 2D. Dans le cadre d’une d´etection des changements urbains de type bˆati, ces m´ethodes apparaissent donc particuli`erement appropri´ees. Les donn´ees d’entr´ee utilis´ees pour obtenir cette information d’´el´evation proviennent alors de campagnes LiDAR, de lasers a´eroport´es ou plus fr´equemment d’imagerie st´er´eoscopique, spatiale ou a´erienne [17, 18]. Ces techniques de d´etection des changements 3D peuvent ˆetre divis´ees en deux cat´egories 191.1. LA DETECTION DE CHANGEMENTS : ´ ETAT DE L’ART ´ principales : les techniques image `a base de donn´ees et les techniques image `a image. Les techniques dites image–base de donn´ees consistent g´en´eralement `a comparer une base de donn´ees vecteur, contenant les empreintes de bˆatiments (telles que des donn´ees cadastrales) et une image de l’´el´evation de tous les points de la sc`ene. Ces techniques sont les plus utilis´ees en d´etection de changements car elles sont n´ecessaires pour la mise `a jour automatique ou semi–automatique de bases de donn´ees d´ej`a existantes. La strat´egie g´en´eralement adopt´ee dans ce cas est l’extraction des bˆatiments sur la carte d’´el´evation et la comparaison des empreintes obtenues avec la base de donn´ees initiale afin de constater la pr´esence ou non du bˆatiment `a la date de la base de donn´ees [5, 19, 20]. L’extraction des bˆatiments est alors le point sensible de la m´ethode et peut ˆetre effectu´ee, selon le type de donn´ees d’entr´ee, par un algorithme d’extraction de structures dans un nuage de points g´en´er´e par des donn´ees laser [18], par des m´ethodes de classification `a partir de MNS et de donn´ees multispectrales [19, 21] ou bien par l’extraction des contours 2D des bˆatiments sur un MNS afin de comparer les segments obtenus avec la base de donn´ees vecteur [5]. Cette ´etape d’extraction est particuli`erement sensible car une erreur peut g´en´erer une fausse diff´erence entre la base de donn´ees et les empreintes calcul´ees, notamment lorsque la carte des ´el´evations de la sc`ene est g´en´er´ee `a partir d’images, plus bruit´ees que les donn´ees laser. De mˆeme, l’´etape de comparaison n´ecessite g´en´eralement que les donn´ees vecteur et image soient tr`es pr´ecis´ement recal´ees. Des post–filtrages sont souvent appliqu´es sur les extractions de bˆatiment afin de compenser ce type d’erreur, mais ces filtrages peuvent alt´erer la d´etection des changements les plus petits, tels que les modifications apport´ees `a un bˆatiment. Enfin, l’inconv´enient majeur de ces techniques r´eside dans le fait que les bases de donn´ees cadastrales sont tr`es rarement disponibles et mises `a jour, rendant ce type de m´ethode totalement inadapt´e pour la quantification des d´egˆats apr`es une catastrophe majeure par exemple [19]. Les techniques image `a image repr´esentent alors la seule alternative lorsqu’aucune donn´ee externe n’est disponible ou valide. Elles consistent `a calculer la diff´erence entre deux images d’´el´evation acquises aux dates t1 et t2 afin de mettre en ´evidence les changements d’´el´evation apparus. Cette m´ethode est largement utilis´ee pour des probl´ematiques de g´eoscience telles que l’´etude 20CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´ d’objets g´eologiques comme les volcans [2] ou les glaciers [1], la mesure des mouvements topographiques ou des glissements de terrain [3, 4]. Dans ce contexte de surveillance des milieux, il est souvent n´ecessaire d’acqu´erir des s´eries temporelles compos´ees de nombreuses images afin de suivre les variations sur une grande p´eriode de temps. Les donn´ees employ´ees sont alors tr`es souvent des donn´ees satellitaires ou a´eriennes qui permettent d’acqu´erir des sc`enes sur de vastes emprises terrain. Pour des applications en g´eoscience, les variations recherch´ees sont typiquement de tr`es basse fr´equence spatiale et de faible amplitude altim´etrique, visibles `a grande ´echelle et donc facilement d´etectables par une simple diff´erence entre les cartes d’´el´evation, g´en´er´ees `a basse ou moyenne r´esolution [3, 4]. Au contraire, dans le contexte urbain dans lequel se place ce travail, les changements recherch´es sont g´en´eralement de tr`es haute fr´equence spatiale et de forte amplitude, n´ecessitant une pr´ecision de d´etection qui ne peut ˆetre obtenue qu’avec des images tr`es haute r´esolution. Les m´ethodes d´evelopp´ees pour la basse ou moyenne r´esolution ne sont pas adapt´ees `a cette probl´ematique car il est alors n´ecessaire de mettre en ´evidence les changements recherch´es parmi les nombreuses fausses alarmes g´en´er´ees `a haute ou tr`es haute r´esolution spatiale [8, 22]. Parmi les m´ethodes de d´etection image–image `a tr`es haute r´esolution, deux types de techniques sont appliqu´es : les techniques semi–automatiques, bas´ees sur l’utilisation d’informations multi–spectrales ou contextuelles telles que la taille ou la forme des objets ou encore sur l’utilisation de zones d’apprentissage et les techniques enti`erement automatiques. Jung [23] propose une m´ethode semi–automatique qui utilise des MNS g´en´er´es par imagerie st´er´eoscopique a´erienne. Dans une premi`ere ´etape, un algorithme de focusing permet de rechercher les zones ayant probablement chang´e grˆace `a la comparaison des MNS de chaque date. Puis une seconde ´etape permet, pour chaque date, de classer ces zones d’int´erˆet selon les labels ”bˆatiment” ou ”non–bˆatiment” `a l’aide d’arbres de d´ecision g´en´er´es `a partir de zones d’apprentissage. Les deux segmentations ainsi obtenues sont alors compar´ees pour retrouver les changements du bˆati. Avec ce type de m´ethode, la qualit´e de la d´etection d´epend alors de chacune des segmentations et ne permet pas de retrouver les modifications apport´ees `a un bˆatiment. Aujourd’hui, peu d’´etudes portent sur la d´etection des changements d’´el´evation entre deux 211.1. LA DETECTION DE CHANGEMENTS : ´ ETAT DE L’ART ´ MNS g´en´er´es `a partir d’images satellites st´er´eoscopiques tr`es haute r´esolution. En effet, malgr´e les avantages qu’apporte la haute r´esolution temporelle de ces images qui sont aussi moins on´ereuses qu’une campagne d’acquisition a´erienne, leur r´esolution reste beaucoup plus basse que celle des images a´eriennes (aujourd’hui WorldView–1 atteins 50 cm de r´esolution nadir lorsque les images a´eriennes ont une r´esolution de l’ordre du d´ecim`etre). De plus, les images a´eriennes sont plus contrast´ees que les images satellites permettant une mise en correspondance plus efficace pour la g´en´eration de MNS pr´ecis. Enfin, leur acquisition quasi nadir permet de limiter les zones d’occlusion dans les images. Ainsi, les MNS produits `a partir de couples d’images satellites souffrent de plus nombreuses erreurs de corr´elation et de zones d’occlusion par rapport `a ceux produits par l’a´erien, erreurs se propageant souvent sous forme de fausses alarmes sur les cartes finales de d´etection de changements. Afin de r´eduire l’impact des erreurs de MNS dans le MNS diff´erentiel, Tian [8] propose le calcul d’une diff´erence robuste entre les MNS des deux dates d’acquisition qui se traduit par l’affectation, pour chaque pixel (i, j) de l’image des diff´erences, de la diff´erence minimale obtenue entre le pixel du MNS `a t1 en (i, j) et un pixel du MNS t2 appartenant `a une fenˆetre de taille d´efinie et centr´ee sur le pixel (i, j). Puis, dans une seconde ´etape, la carte des diff´erences obtenue est analys´ee par une extraction de contours suivie par un affinage de formes par un algorithme de box-fitting. Dans une autre approche, Tian [24] propose, apr`es le calcul de la diff´erence robuste, l’application d’un masque des zones d’ombre, bas´e sur l’exploitation des bandes multispectrales tel que l’a impl´ement´ee Marchant [25]. Ce masque est alors combin´e `a un masque regroupant les corr´elations de faible coefficient obtenues lors de la g´en´eration des MNS. La diff´erence masqu´ee ainsi obtenue est alors segment´ee puis les ´el´ements mis en ´evidence sont filtr´es `a partir de crit`eres de tailles et de formes d´ecrits par Chaabouni–Chouayakh [22], afin de mieux s´eparer les changements appartenant au bˆati des fausses erreurs. Cette approche permet la d´etection de 60% `a 80% des objets de plus de 100 m2 et de 2 m `a 3 m d’´el´evation diff´erentielle, respectivement et avec 50% `a 15% de fausses alarmes. Plus r´ecemment, Tian [26] a am´elior´e cette approche grˆace `a l’ajout d’un indicateur de changements calcul´e directement entre les images panchromatiques ayant permis la g´en´eration 22CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´ des MNS. Cet indicateur de changements est bas´e sur l’analyse de l’´evolution des statistiques locales d’une image entre deux dates. Le r´esultat de la fusion des informations obtenues par la diff´erence robuste segment´ee et par les indicateurs de changements radiom´etriques est ensuite filtr´e `a partir des mˆemes crit`eres de formes et de tailles. Les r´esultats montrent alors de 55% `a 93% des changements d´etect´es avec 45% `a 16% de fausses alarmes. Cependant, si les r´esultats de ces m´ethodes apparaissent prometteurs, les nombreux seuils et crit`eres n´ecessaires peuvent limiter les changements d´etectables `a certaines formes et tailles. Enfin, Reinartz [6] effectue une segmentation des images aux dates t1 et t2 en utilisant une m´ethode de classification bas´ee sur le IR–MAD (Iteratively Reweighted Multivariate Alteration) d´evelopp´ee par Nielsen [27]. Les r´esultats de segmentation aux deux dates sont alors associ´es avec le MNS diff´erentiel afin de d´ecider, pour chaque r´egion segment´ee, si elle correspond `a des bˆatiments d´etruits ou nouveaux. En conclusion de cette ´etude, nous noterons que, `a notre connaissance, aucune m´ethode totalement automatique n’existe pour la d´etection des changements d’´el´evation `a partir d’imagerie satellite seule, sans ajout d’informations externes ou contextuelles. Pourtant, la capacit´e de r´eactivit´e des satellites face `a une crise, leur agilit´e pour la st´er´eoscopie ainsi que leur r´esolution inf´erieure au m`etre sont des atouts majeurs pour des probl´ematiques de d´etection de changements d’´el´evation, mˆeme si la g´en´eration de MNS pr´ecis `a partir de ces donn´ees demeure difficile. 1.2 M´ethodes de restitution 3D : ´etat de l’art Classiquement, la reconstruction 3D d’une sc`ene n´ecessite le calcul de la disparit´e entre tous les pixels homologues des deux images d’un couple st´er´eoscopique. Les pixels homologues correspondent `a des pixels repr´esentant un mˆeme point terrain, rep´er´es sur chaque image du couple st´er´eoscopique. La disparit´e correspond au d´ecalage g´eom´etrique (en pixels) mesur´e entre deux pixels homologues lorsque les angles de prise de vue des images diff`erent. Cette valeur de disparit´e est reli´ee `a l’´el´evation de la sc`ene au pixel consid´er´e, elle est donc calcul´ee pour tous les pixels d’une image par la mise en correspondance dense des images 231.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´ afin d’obtenir l’´el´evation de tous les points de la sc`ene. Cependant, les contraintes li´ees aux acquisitions satellite rendent le calcul de la disparit´e particuli`erement complexe car de nombreuses difficult´es se pr´esentent : – les angles d’acquisition des images sont souvent importants (jusqu’`a 30◦ d’incidence) g´en´erant des diff´erences radiom´etriques importantes, – ces angles d’incidence g´en`erent d’importantes zones d’occlusion : c’est–`a–dire des zones cach´ees dans l’image, typiquement les zones aux abords des bˆatiments. Dans ce cas il n’est pas possible de trouver des pixels homologues dans ces zones, – des d’objets peuvent ˆetre en mouvement : la mise en correspondance des images d’un couple implique comme hypoth`ese que la sc`ene soit parfaitement immobile entre les deux acquisitions, or, dans la r´ealit´e, cette hypoth`ese n’est pas r´ealisable, – certaines zones sont trop homog`enes ou poss`edent une texture r´ep´etitive ou bien une structure 3D tr`es complexe (c’est le cas pour la structure de la v´eg´etation), dans tous ces cas il est tr`es difficile de d´eterminer pr´ecis´ement les pixels homologues, – il existe des changements radiom´etriques entre les acquisitions : toutes les surfaces n’´etant pas lambertiennes, c’est–`a–dire que la lumi`ere n’est pas forc´ement r´efl´echie de la mˆeme fa¸con dans toutes les directions, une mˆeme surface peut pr´esenter diff´erentes radiom´etries selon l’angle de l’acquisition et ainsi compliquer la mise en correspondance, – certains d´efauts g´eom´etriques r´esiduels subsistent, mˆeme apr`es l’affinage, comme nous le montrerons dans la section 2.1. Depuis les 30 derni`eres ann´ees, de nombreux algorithmes ont ´et´e d´evelopp´es pour la reconstruction 3D de sc`enes `a partir d’imagerie terrestre, a´erienne ou spatiale. Des inventaires de ces techniques ont ´et´e r´ealis´es par Scharstein [28], Brown [29] puis plus r´ecemment par Lazaros [30]. La base de donn´ees de Middlebury 1 a notamment ´et´e tr`es utilis´ee pour r´ealiser ces inventaires. Ils permettent de comparer un grand nombre de ces techniques en termes de performance et de m´ethodologie. Les techniques pr´esent´ees ne sont cependant pas toutes transposables aux images satellites. 1. Ensemble de jeux de donn´ees correspondant `a des images st´er´eoscopiques accompagn´ees de v´erit´es terrain mis `a disposition des utilisateurs pour tester des algorithmes de mise en correspondance. Le contexte et les images sont cependant ´eloign´es de notre probl´ematique de reconstruction 3D par imagerie satellite en milieu urbain. 24CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´ 1.2.1 Mise en correspondance d’images par m´ethode d’optimisation Pour de nombreux auteurs, la mise en correspondance d’images peut ˆetre vue comme un probl`eme de labellisation [31],[32],[33],[34] : chaque valeur de disparit´e ou d’´el´evation (alors consid´er´ee comme un label) affect´ee `a un pixel d’une image maˆıtre est d´eduite de la s´election du pixel homologue parmi plusieurs candidats dans l’image esclave. La mise en correspondance peut ainsi ˆetre r´esolue `a partir d’une m´ethode d’optimisation : l’objectif est alors de retrouver, pour chacun des pixels d’une image maˆıtre, les pixels homologues dans l’image esclave (ou dans toutes les autres images dans le cas de la multi–st´er´eoscopie). La mise en correspondance peut alors ˆetre r´ealis´ee par des m´ethodes locales d’optimisation : la recherche de primitives homologues (pixels, segments ou r´egions) est alors effectu´ee de fa¸con locale uniquement, ou bien `a travers des m´ethodes globales (ou semi–globales) selon lesquelles la mise en correspondance est r´esolue en recherchant la solution de disparit´e sur l’image enti`ere (ou des subdivisions de l’image). Ainsi, les m´ethodes de mise en correspondance peuvent ˆetre bas´ees sur les algorithmes d’optimisation que nous verrons plus en d´etails dans le chapitre 2, section 2.2.2. M´ethodes locales de mise en correspondance Les m´ethodes locales peuvent ˆetre bas´ees sur la mise en correspondance des segments ou des contours de l’image, tels que les contours de bˆatiments. Plusieurs auteurs utilisent ces contours pour aider `a la mise en correspondance radiom´etrique des images. La m´ethode propos´ee par Baillard [35] recherche les points de contours des bˆatiments sur des images a´eriennes afin d’apporter une contrainte g´eom´etrique `a la corr´elation radiom´etrique des pixels, effectu´ee dans une seconde ´etape. Zhang [36] propose, sur des images satellites, une m´ethode hybride bas´ee sur la combinaison de la mise en correspondance dense des pixels et celle des contours de l’image. Cette technique permet d’imposer une forte contrainte de r´egularisation entre les contours d´etect´es afin de garantir une surface r´eguli`ere tout en pr´eservant les discontinuit´es au niveau des contours. Ces techniques montrent des r´esultats particuli`erement int´eressants, notamment pour les zones homog`enes mais elles peuvent ˆetre sensibles `a la d´etection de contours. Les m´ethodes bas´ees 251.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´ sur les contours restent cependant peu utilis´ees `a cause des erreurs produites par la d´etection de contours et la difficult´e de retrouver les plus petites structures. Les m´ethodes les plus populaires de mise en correspondance sont g´en´eralement bas´ees sur l’intensit´e des pixels des images et la mise en correspondance dense de tous les pixels de l’image, souvent `a travers la m´ethode dite de block matching. Cette m´ethode est bas´ee sur la corr´elation d’une fenˆetre de pixels d´efinie sur l’image maˆıtre avec une fenˆetre glissante sur l’image esclave et le calcul d’un score de corr´elation. La disparit´e est ensuite ´evalu´ee `a partir du pixel ayant engendr´e le meilleur score de corr´elation (technique du winner take all) [37]. La zone de recherche est alors souvent contrainte par la ligne ´epipolaire (ou pseudo–´epipolaire dans le cas des images satellites). Ce type de m´ethode, tr`es rapide, est cependant particuli`erement sensible au bruit des images, aux diff´erences radiom´etriques ou encore aux d´efauts d’orientation r´esiduels des images lorsque la mise en correspondance est r´ealis´ee le long de l’´epipolaire seulement. R´ecemment, d’autres techniques ont ´emerg´e, bas´ees sur la mise en correspondance de zones segment´ees d’une image [38] et l’assignement d’une valeur de disparit´e `a ces zones par m´ethode d’optimisation. Ces techniques sont cependant sensibles `a toutes les erreurs de segmentation qui sont alors susceptibles de provoquer des erreurs de reconstruction 3D. M´ethodes globales ou semi–globales Les m´ethodes de reconstruction 3D les plus populaires et les plus efficaces sont aujourd’hui les m´ethodes bas´ees sur la mise en correspondance `a travers une optimisation sur l’image. Ces m´ethodes fonctionnent par le calcul d’un coˆut de mise en correspondance li´e au score de corr´elation obtenu entre les fenˆetres de pixels candidates sur chaque image (block matching), auquel s’ajoute un terme de r´egularisation. Nous d´ecrirons en d´etail cette optimisation dans le chapitre 3, section 3.1. Les diff´erences entre les nombreuses m´ethodes bas´ees sur une optimisation sont li´ees `a la mesure de similarit´e, `a la contrainte de r´egularisation et `a la m´ethode d’optimisation employ´ee. Comme nous le verrons dans le chapitre 2, section 2.2.2, de nombreuses m´ethodes d’optimisation ont ´et´e d´evelopp´ees et appliqu´ees au traitement d’images et plus particuli`erement `a la mise en 26CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´ correspondance d’images. On trouve notamment les m´ethodes globales telles que le belief propagation [39], [33], ou les graph-cuts [40], [41], l’objectif est alors de retrouver, pour tous les pixels de l’image simultan´ement, une solution qui minimise une fonctionnelle d’´energie globale sur l’image. Les m´ethodes dites semi–globales [42] permettent de calculer une solution non plus sur toute l’image simultan´ement mais sur des s´equences de pixels de l’image trait´ees ind´ependamment [43]. Ces s´equences peuvent ˆetre form´ees par les lignes [34] de l’image ou bien par les lignes, colonnes et toutes les directions interm´ediaires de l’image, selon la m´ethode de Hirschmuller [ ¨ 31] ou Pierrot-Deseilligny [32] ou encore par un graphe s´electionn´e dans l’image comme le propose Veksler [44]. Les r´esultats obtenus sur chaque s´equence de l’image sont ensuite fusionn´es afin d’obtenir la solution semi–globale. Nous verrons dans la section 2.2.3 que la m´ethode de reconstruction que nous avons s´electionn´ee est bas´ee sur ce type d’optimisation semi–globale et r´esolue par programmation dynamique `a l’image des m´ethodes propos´ees par Hirschmuller et Pierrot-Deseilligny [ ¨ 31], [32]. 1.2.2 Caract´eristiques des corr´elateurs Quelle que soit la m´ethode d’optimisation choisie, la mesure de similarit´e employ´ee pour calculer la correspondance entre les pixels ou entre les fenˆetres de pixels de chaque image (matching cost), est un point important pour s´electionner les pixels homologues. Une ´etude des diff´erentes mesures de la litt´erature a ´et´e r´ealis´ee par Scharstein et Szeliski [28], puis Hirschmuller [ ¨ 45]. Les mesures les plus utilis´ees sont : – la somme des diff´erences radiom´etriques au carr´e (Sum of Absolute Differences ou SAD), – la somme des diff´erences radiom´etriques absolues (Sum of Squared Differences ou SSD), – le normalized cross correlation coefficient (ou NCC). De nombreuses autres mesures de similarit´e sont propos´ees dans la litt´erature. Birchfield [46] propose une mesure de ressemblance robuste `a l’´echantillonnage pixellique des images : au lieu de comparer deux fenˆetres de pixels d´ecal´ees par un nombre entier de pixels, il compare chaque pixel de l’image maˆıtre avec une interpolation lin´eaire d’une fenˆetre de pixels sur l’autre 271.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´ image. Afin d’ˆetre le plus robuste possible aux diff´erences radiom´etriques provoqu´ees par la variation d’angle de prise de vue, des m´ethodes dites ”non-param´etriques” sont aussi tr`es utilis´ees. Elles consistent `a filtrer les donn´ees avant la corr´elation afin de r´eduire l’impact de ces diff´erences [37]. Le filtrage de rank, par exemple, recherche dans une fenˆetre centr´ee sur un pixel, le nombre de pixels dont la valeur est en dessous de celle du pixel consid´er´e puis remplace la valeur du pixel central par cette valeur. La correlation (r´ealis´ee avec la mesure SAD) va alors d´ependre de l’agencement des valeurs et non plus de l’intensit´e. Cependant, ce filtrage engendre une perte d’information spatiale qui r´eduit le pouvoir discriminant de la m´ethode [29]. Une variation `a ce filtrage, nomm´e le filtre census, pr´eserve la distribution spatiale de la fenˆetre en encodant le r´esultat du filtre de rank pour chaque pixel dans une chaˆıne de bytes [29]. D’autres filtrages de la fenˆetre de mise en correspondance sont utilis´es tels que le Laplacian of Gaussian ou le filtrage moyen [45]. Tous ces filtres tentent d’am´eliorer la robustesse aux conditions d’acquisition et aux erreurs de corr´elation des images car ils diminuent la sensibilit´e aux outliers des images. Ils sont majoritairement suivis d’une corr´elation par SAD. Hirschmuller [ ¨ 31] propose une mesure de similarit´e bas´ee sur la notion d’information mutuelle, r´eput´ee moins sensible au recalage et aux conditions d’illumination des images. L’information mutuelle entre deux fenˆetres de pixels est calcul´ee en additionnant l’entropie des histogrammes de chaque image puis en soustrayant l’entropie de l’histogramme joint. Hirschmuller et Szeliski [ ¨ 45] ont compar´e diff´erents coˆuts de corr´elation et leur efficacit´e pour la mise en correspondance dense des images. Ils montrent d’abord que la performance d’une fonction de coˆut d´epend avant tout de la m´ethode d’optimisation employ´ee indiquant que la fonction de coˆut a finalement un impact mod´er´e sur le r´esultat final. Cependant, ils observent que le filtrage de rank et l’information mutuelle semblent plus efficaces au niveau des discontinuit´es car ils permettent notamment une meilleure robustesse `a l’effet d’adh´erence qui conduit g´en´eralement `a la dilatation des objets de la sc`ene. Ce probl`eme, inh´erent aux m´ethodes de block matching, apparaˆıt lorsqu’il y a un saut brutal de disparit´e dans l’une des images qui ne peut ˆetre parfaitement localis´e `a l’int´erieur de la fenˆetre de corr´elation. Finalement, bien que plus performants, le filtre de rank ou l’information mutuelle n´ecessitent un temps de calcul 1,5 `a 5 fois plus important que le temps requis pour une mesure de type SAD. Cette derni`ere est la mesure impl´ement´ee dans l’outil de mise en correspondance que 28CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´ nous utilisons. 1.2.3 Les strat´egies de mise en correspondance L’approche multi–r´esolution Aujourd’hui, la plupart des auteurs utilisent une approche coarse to fine ou multi–´echelle pour la g´en´eration des MNS. Cette m´ethode est bas´ee sur la corr´elation r´ealis´ee sur les images r´e–´echantillonn´ees de l’´echelle la plus grande `a la plus petite. Le r´esultat obtenu pour une certaine ´echelle sert alors d’initialisation pour la corr´elation `a ´echelle suivante. Le grand avantage de cette technique est un important gain de temps [31], [32]. Cependant, Szintsev [40] montre que de tels algorithmes ont tendance `a flouter les bords de bˆatiments car lors de l’agr´egation des pixels d’une fenˆetre de corr´elation, des pixels appartenant `a deux surfaces diff´erentes sont m´elang´es aux ´echelles les plus grandes et les discontinuit´es sont plus difficilement retrouv´ees. Des erreurs peuvent alors se propager `a toute la pyramide d’images. Certains auteurs proposent des fenˆetres de corr´elation adaptatives au niveau des zones de fortes discontinuit´es [47]. Sizintsev [40] et Pierrot-Deseilligny [32] proposent l’´equivalent d’un filtrage morphologique `a chaque niveau de la pyramide d’images en utilisant la fenˆetre de corr´elation comme ´el´ement structurant afin de simuler une fenˆetre adaptative pouvant se d´eplacer autour de la discontinuit´e qui a ´et´e calcul´ee au niveau sup´erieur de la pyramide, augmentant la pr´ecision au niveau de ces zones de discontinuit´es. Cet algorithme est d´ecrit par P´enard et al.[48] et est impl´ement´e dans l’outil de mise en correspondance que nous avons s´electionn´e. La prise en compte des occlusions L’un des points les plus sensibles de la mise en correspondance r´eside dans la pr´esence des zones d’occlusion sur les images st´er´eoscopiques. Elles correspondent `a des zones observ´ees sur une des deux images seulement et pour lesquelles il est impossible de retrouver les pixels homologues (ces zones sont souvent appel´ees demi–occlusion ou half–occlusion dans la litt´erature car l’occlusion n’est pr´esente que sur une des deux images). Ces zones se situent aux abords 291.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´ des bˆatiments et ont une taille variable en fonction de l’angle d’incidence de l’acquisition de l’image. Or, pour la st´er´eoscopie, les angles d’incidence peuvent ˆetre tr`es importants (jusqu’`a 30˚pour les images WorldView) cr´eant des zones d’occlusion de taille importante dans l’image. Ces derni`eres ann´ees, de nombreux auteurs se sont int´eress´es `a ce sujet. Brown [29] d´efinit trois classes d’algorithmes prenant en compte les occlusions : ceux qui d´etectent les occlusions (g´en´eralement apr`es le calcul de la disparit´e), ceux qui sont plus robustes aux zones d’occlusion grˆace aux fonctions de coˆut impl´ement´ees et enfin ceux qui mod´elisent les zones d’occlusion lors de la mise en correspondance. Les m´ethodes les plus simples pour la d´etection des zones d’occlusion sont bas´ees sur la d´etection des discontinuit´es dans l’image. Fua [49] et Qingxiong [33] calculent deux cartes de disparit´e en inversant les rˆoles maˆıtre et esclave des images `a chaque fois. Les disparit´es dont les valeurs sont trop ´eloign´ees entre elles pour le mˆeme point sont alors consid´er´ees comme des occlusions. Cette m´ethode dite de back matching est aujourd’hui impl´ement´ee dans de nombreux algorithmes [29]. Elle est cependant longue en temps de calcul et peut g´en´erer de tr`es nombreuses zones dites d’occlusion qui sont en r´ealit´e dues `a des diff´erences d’illumination, des zones homog`enes ou plus g´en´eralement des zones de mauvaise corr´elation sur l’une des deux cartes de disparit´e. Egnal [50] compare cinq approches de d´etection des zones d’occlusion bas´ees sur : – l’analyse de l’histogramme des disparit´es dans une fenˆetre de disparit´e, – les variations du coefficient de corr´elation, – le double calcul de la disparit´e `a partir de chacune des images, – l’analyse de la contrainte d’ordre des disparit´es (pas forc´ement respect´ee lors d’une occlusion), – les discontinuit´es de la disparit´e. Ce dernier algorithme, ainsi que l’algorithme de double calcul de disparit´e apparaissent comme les plus prometteurs. Cependant, leur efficacit´e semble d´ependre du paysage en pr´esence (la position de l’occlusion, la pr´esence d’objets fins, etc...). De plus, il n’y a pas eu d’´etude concernant la performance de ces algorithmes en fonction de la m´ethode d’optimisation appliqu´ee. Les m´ethodes r´eduisant la sensibilit´e aux zones d’occlusion correspondent souvent `a 30CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´ l’adaptation de la mesure de similarit´e en fonction de ce probl`eme. Chambon [51] utilise deux mesures combin´ees : le zero mean normalized cross correlation coefficient et le smooth median absolute deviation, afin d’am´eliorer la robustesse envers ces zones. Les filtrages de rank et census propos´es par Zabih [37] permettent aussi une certaine robustesse aux outliers et donc souvent aux erreurs parfois ponctuelles g´en´er´ees par les zones d’occlusion (lorsque l’angle d’incidence reste faible). Enfin, d’autres m´ethodes passent par l’utilisation de fenˆetres adaptatives en fonction du degr´e de confiance de la corr´elation, le but est d’optimiser les r´esultats de la corr´elation pr`es des zones d’occlusion [29]. Les m´ethodes mod´elisant les zones d’occlusion, c’est–`a–dire permettant leur localisation en fonction du voisinage, int`egrent les zones d’occlusion directement dans la recherche de la disparit´e en cr´eant des fonctions de coˆut sp´ecifiques `a ces zones. Belhumeur [52] a impl´ement´e un mod`ele complexe de fonction de coˆut incluant des termes pour les surfaces lisses, les limites d’objets et les pentes. Bobick et Intille [34] associent un coˆut avec les zones d’occlusion qu’ils r´eduisent ou augmentent en fonction de l’orientation des contours de bˆatiments et donc de celle de la zone d’occlusion. L’´etude comparative de Egnal [50] ne consid`ere que des m´ethodes de d´etection des zones d’occlusion. A notre connaissance, aucune ´etude ne permet de comparer les diff´er ` entes techniques cit´ees pour la prise en compte de ces zones (d´etection - sensibilit´e - mod´elisation). Cependant, les m´ethodes les plus efficaces, rapides et faciles `a impl´ementer sont vraisemblablement les m´ethodes de d´etection des occlusions, mˆeme si elles n´ecessitent g´en´eralement un double calcul de la disparit´e ou un post–traitement des cartes de disparit´e g´en´er´ees. Les m´ethodes r´eduisant la sensibilit´e aux occlusions montrent certaines performances mais ne permettent pas la localisation des occlusions et peuvent donc engendrer des erreurs dans le MNS, erreurs qui se propagent g´en´eralement ensuite dans la d´etection des changements de la sc`ene. Au contraire, les m´ethodes de mod´elisation s’av`erent tr`es performantes pour la localisation mais elles sont particuli`erement difficiles `a impl´ementer. Dans la chaˆıne de traitements d´evelopp´ee, nous avons choisi une m´ethode de d´etection des zones d’occlusion appliqu´ee apr`es le calcul des cartes d’´el´evation par mise en correspondance. Cet 311.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´ algorithme, bas´e sur des contraintes g´eom´etriques au niveau des discontinuit´es de l’image sera d´ecrit dans le chapitre 3, section 3.2. Les g´eom´etries de mise en correspondance La g´eom´etrie de mise en correspondance correspond `a la technique choisie pour la recherche des pixels homologues entre les images st´er´eoscopiques. Selon le nombre d’images disponibles et leur pr´ecision d’orientation, plusieurs g´eom´etries sont possibles. Classiquement, cette recherche est bas´ee sur la g´eom´etrie ´epipolaire (ou pseudo–´epipolaire dans le cas des images satellites) comme repr´esent´e sur la figure 1.1(a). La recherche d’un pixel de l’image maˆıtre est effectu´ee le long de la ligne ´epipolaire correspondante sur l’image esclave. Une recherche bi–dimensionnelle (transversale `a l’´epipolaire) permet d’ˆetre plus robuste aux erreurs r´esiduelles dans les mod`eles g´eom´etriques des images. Cette technique, encore tr`es r´epandue, n´ecessite cependant un r´e–´echantillonnage ´epipolaire des images. La seconde g´eom´etrie, tr`es classique aujourd’hui, est la g´eom´etrie image (ou faisceaux), illustr´ee en figure 1.1(b). Le principe est la recherche du pixel homologue d’une image maˆıtre sur l’image esclave en localisant celui–ci grˆace aux mod`eles g´eom´etriques des images (affin´es pr´ealablement) et pour chaque altitude d´efinie dans un rep`ere terrain [36], [32]. Une fois le pixel localis´e sur l’image esclave, il est aussi possible d’effectuer la recherche selon une seconde dimension, dans l’espace image afin d’ˆetre, l`a encore, plus robuste aux erreurs g´eom´etriques des images. Enfin, la g´eom´etrie dite terrain, repr´esent´ee en figure 1.1(c), permet de retrouver, pour chaque altitude z d’un point d´efini dans un rep`ere terrain, les pixels de chaque image qui correspondent `a ce point terrain grˆace aux mod`eles g´eom´etriques des images. Un score de corr´elation est alors calcul´e entre les fenˆetres de pixels d´efinies autour des pixels s´electionn´es. L’altitude finale choisie est alors celle qui maximise le score de corr´elation entre les fenˆetres de pixels s´electionn´ees. Cette technique permet le calcul direct de la carte de profondeur sur une grille terrain r´eguli`ere, quel que soit le nombre d’images utilis´e. De plus, toutes les images sont consid´er´ees ensemble, sans notion de maˆıtre et esclave, permettant un processus sym´etrique. Si cette technique se 32CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´ montre peu robuste aux erreurs g´eom´etriques des images ou aux occlusions lorsque seulement deux images sont utilis´ees, elle s’av`ere tr`es avantageuse lorsque le nombre d’images augmente car elle est alors plus pr´ecise (notamment pour la prise en compte des zones d’occlusion) et plus rapide qu’une mise en correspondance d’images deux `a deux. Ces diff´erentes g´eom´etries de mise en correspondance sont d´ecrites en d´etail, avec leurs avantages et inconv´enients, dans l’article de P´enard et al [48]. Les auteurs montrent notamment que la g´eom´etrie image pr´esente g´en´eralement de meilleurs r´esultats que la g´eom´etrie terrain, c’est pourquoi cette derni`ere a ´et´e s´electionn´ee pour la mise en correspondance dans notre chaˆıne de traitements. 1.2.4 Les outils de restitution 3D existants Aujourd’hui, de nombreux outils de reconstruction 3D existent sous forme de packages commerciaux ou open–source. On notera, parmi les packages commerciaux les plus populaires, Socet–set de BAE Systems, Erdas Imagine de Intergraph, Sat–PP de 4D Ixplorer, OrthoEngine de PCI Geomatics, Smart3DCapture de Acute3D ou encore Photo Modeler. Les performances de ces outils sont g´en´eralement bonnes mais le param´etrage peut ˆetre difficile surtout lorsque les codes sources ne sont pas accessibles, ce qui les rend peu exploitables dans un cadre de recherche. D’autre outils existent tels que PMVS, de Furukawa et Ponce [53], OpenCV library (contenant les librairies pour la mise en correspondance selon l’algorithme de Hirschmuller ¨ [31]) ou encore MicMac d´evelopp´e par l’IGN [32]. Ces outils sont libres de t´el´echargement mais parmi eux, seul MicMac est un outil totalement open–source. Le t´el´echargement des codes sources de MicMac permet en effet le contrˆole de tous les param`etres et la maˆıtrise interne compl`ete du code. Ses diff´erentes options, qui autorisent la mise en correspondance selon toutes les g´eom´etries cit´ees pr´ec´edemment, l’utilisation de plusieurs m´ethodes d’optimisation et d’interpolation et l’option multi–´echelle en font un outil particuli`erement adaptable `a tous les contextes (g´eologique ou urbain, en imagerie spatiale ou terrestre). C’est pourquoi l’outil MicMac est donc celui que nous avons s´electionn´e pour la mise en correspondance des images st´er´eoscopiques. 331.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´ (a) Sch´ema de principe de la g´eom´etrie ´epipolaire (b) Sch´ema de principe de la g´eom´etrie image (c) Sch´ema de principe de la g´eom´etrie terrain Figure 1.1 – Sch´ema de principe des diff´erentes g´eom´etries de mise en correspondance. 34CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´ 1.3 Description g´en´erale de la chaˆıne de traitements d´evelopp´ee L’objectif fix´e lors du travail de th`ese est de d´evelopper une m´ethode totalement automatique pour la d´etection des changements d’´el´evation `a partir d’images satellites st´er´eoscopiques. Nous nous pla¸cons dans un contexte urbain, le but ´etant de retrouver tous les changements du bˆati (construction, destruction ou modifications d’infrastructure). Les contraintes du syst`eme sont alors les suivantes : – le syst`eme doit ˆetre enti`erement automatique de l’acquisition des images `a la g´en´eration des cartes de changements, – la m´ethode doit ˆetre applicable quels que soient le ou les capteurs tr`es haute r´esolution utilis´es, qu’ils soient satellites ou a´eriens, – les param`etres doivent ˆetre suffisamment g´en´eriques afin que la m´ethode soit applicable dans des contextes vari´es (milieu urbain, montagneux, d´esertique). Afin de r´epondre au mieux `a ces contraintes, une chaˆıne compl`ete et innovante de traitements `a ´et´e d´evelopp´ee. Cette chaˆıne, illustr´ee en figure 1.2 comprend trois ´etapes majeures : la premi`ere ´etape (entour´ee en trait plein sur la figure) correspond `a la spatio–triangulation ou recalage simultan´e de toutes les images disponibles, sans consid´eration de leur date d’acquisition. Cette ´etape, d´ecrite dans le chapitre 2, section 2.1, sera r´ealis´ee `a l’aide d’outils existants permettant la recherche de points de liaison entre les images et l’affinage des mod`eles g´eom´etriques des images. La seconde ´etape (entour´ee en pointill´es fins) permet la g´en´eration de MNS pr´ecis pour chaque date. Cette ´etape, d´ecrite dans le chapitre 3 consiste d’abord en une mise en correspondance des images `a l’int´erieur de chaque couple, chaque image ´etant successivement maˆıtre et esclave. Cette mise en correspondance, r´ealis´ee `a l’aide de l’outil MicMac et par une m´ethode d’optimisation (voir section 3.1), est suivie par le basculement des MNS g´en´er´es sur une grille r´eguli`ere commune (voir section 3.2) puis par la fusion de tous les MNS obtenus avec un algorithme de labellisation par optimisation (voir section 3.3). Ces deux derni`eres ´etapes sont issues de d´eveloppements r´ealis´es au cours de la th`ese et 351.3. DESCRIPTION GEN´ ERALE DE LA CHA ´ ˆINE DE TRAITEMENTS DEVELOPP ´ EE´ Figure 1.2 – Illustration des diff´erentes ´etapes de la chaˆıne globale de traitements. permettent de prendre en compte toutes les contraintes et sources d’erreurs inh´erentes aux images satellites afin de g´en´erer des MNS pr´ecis en vue de la d´etection des changements d’´el´evation. 36CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´ Ainsi, la derni`ere ´etape (entour´ee en pointill´es larges) a pour objectif l’analyse de la diff´erence des MNS afin de mettre en ´evidence les changements d’´el´evation les plus pertinents de la sc`ene selon une m´ethode que nous avons d´evelopp´ee. Cette m´ethode, d´ecrite dans le chapitre 4, est bas´ee sur la classification des pixels du MNS diff´erentiel `a travers un algorithme de labellisation par optimisation. Nous noterons finalement que trois ´etapes de calcul r´ealis´ees dans cette chaˆıne de traitements sont bas´ees sur une labellisation des pixels de l’image r´esolue par une m´ethode d’optimisation. Un algorithme ”noyau” a ainsi ´et´e d´evelopp´e au cours de th`ese et a ´et´e adapt´e pour la r´esolution de chacun de ces probl`emes. Cet algorithme est d´ecrit dans le chapitre 2, section 2.2.3. 1.4 Capteurs utilis´es et donn´ees d’entr´ee Au cours de ce travail, de nombreux jeux de donn´ees ont ´et´e utilis´es afin d’exp´erimenter les m´ethodes sur diff´erentes sc`enes et d’en analyser les r´esultats. Seules des images panchromatiques provenant de capteurs tr`es haute r´esolution spatiale ont ´et´e employ´es : Ikonos, dont les images obtenues ´etaient r´e–´echantillonn´ees `a 1 m de r´esolution spatiale, WorldView-1 et 2, produisant des images `a environ 60 cm de r´esolution spatiale et Pl´eiades, produisant des images `a environ 70 cm de r´esolution spatiale. Le tableau 1.1 r´esume toutes les donn´ees utilis´ees. Bien que les images multispectrales puissent apporter des informations permettant de filtrer les cartes de d´etection de changements obtenues `a la mani`ere de Tian [8], nous avons choisi de d´evelopper notre chaˆıne de traitements `a partir des images panchromatiques uniquement. Tous ces capteurs sont de type push–broom : barrettes lin´eaires de d´etecteurs permettant l’acquisition de chaque ligne de l’image successivement grˆace au d´efilement du paysage dans le plan focal. Quatre zones g´eographiques ont ´et´e ´etudi´ees pour les diff´erentes ´etapes de calcul de la m´ethode, en fonction des donn´ees disponibles. Pour l’illustration de la chaˆıne compl`ete, i.e. de la g´en´eration des MNS `a la d´etection de changements, la ville de Phoenix, en Arizona (Etats-Unis) a ´et´e analys´ee entre les dates de 2008 et 2011. ´ Cette zone permet d’´evaluer les performances de la m´ethode lors de l’analyse de l’´evolution ty- 371.4. CAPTEURS UTILISES ET DONN ´ EES D’ENTR ´ EE´ Capteur Date R´esolution Angle Angle b/h d’acquisition spatiale (m) d’azimut (◦ ) d’´el´evation (◦ ) Donn´ees acquise sur la ville de Phoenix (Etats-Unis) WorldView-1 2008-10-06 0,59 51,5 64,1 0,67 WorldView-1 2008-10-06 0,56 141,6 67,6 WorldView-1 2011-04-28 0,62 156,2 59,6 0,70 WorldView-1 2011-04-28 0,56 65,0 67,6 Donn´ees acquise sur la ville de Toulouse (France) Pl´eiades 2012-05-07 0,70 115,5 64,7 0,54 Pl´eiades 2012-05-07 0,70 88,9 64,6 0,55 Pl´eiades 2012-05-07 0,70 102,2 65,2 0,54 Donn´ees acquise sur la ville de Chistchurch (Nouvelle Z´elande) WorldView-1 2009-09-16 0,66 85,7 57,2 0,66 WorldView-1 2009-09-16 0,58 66,3 23,7 WorldView-2 2011-08-30 0,60 199,5 57,3 0,66 WorldView-2 2011-08-30 0,47 289,0 87,2 Donn´ees acquise sur la ville de Sendai (Japon) Ikonos 2010-12-11 1 (reech.) 64,9 64,65 0,79 Ikonos 2010-12-11 1 (reech.) 149,15 60,66 Ikonos 2011-08-13 1 (reech.) 314,4 61,14 0,72 Ikonos 2011-08-13 1 (reech.) 250,96 56,66 Table 1.1 – M´etadonn´ees des images utilis´ees lors des diff´erentes ´etudes. pique d’un milieu urbain. Dans ce mˆeme contexte, la ville de Christchurch, en Nouvelle Z´elande a aussi ´et´e ´etudi´ee. L’int´erˆet de cette zone est la pr´esence de deux acquisitions LiDAR effectu´ees au mˆeme endroit et `a des dates proches des acquisitions satellitaires. Cette zone permet ainsi une quantification pr´ecise des performances des algorithmes mis en place. Les donn´ees Pl´eiades, acquises sur la ville de Toulouse selon le mode tri–st´er´eoscopique, permettent d’illustrer l’int´erˆet de l’algorithme de g´en´eration des MNS pour le traitement d’acquisitions multi–st´er´eoscopiques. 38CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´ La zone de Sendai (Japon), permet enfin de tester de la chaˆıne de traitements sur un cas concret de catastrophe majeure. En effet, les donn´ees disponibles ont ´et´e acquises avant et apr`es le s´eisme suivi par le tsunami qui a ravag´e la cˆote de Sendai le 11 mars 2011. 1.5 Conclusion Ce chapitre pr´esente tout d’abord de nombreuses m´ethodes de d´etection de changements `a partir d’images satellites ou a´eriennes. Cependant, si les m´ethodes classiques bas´ees sur la comparaison radiom´etrique des images montrent de bonnes performances, elles ne s’av`erent pas toujours efficaces du fait des nombreuses fausses alarmes qu’elles g´en`erent et sont souvent difficilement automatisables car trop d’a priori sur les changements sont n´ecessaires. Les m´ethodes bas´ees sur l’exploitation de l’information d’´el´evation de la sc`ene paraissent alors mieux adapt´ees, notamment au contexte urbain. Bien que ces m´ethodes n´ecessitent aussi des informations a priori ou contextuelles, l’analyse de la diff´erence entre deux cartes d’´el´evation montre de tr`es bon r´esultats. Dans cet objectif, de nombreuses m´ethodes de restitution 3D ont ´et´e ´etudi´ees afin de s´electionner une strat´egie suffisamment robuste pour la mise en correspondance d’images satellites et la g´en´eration de cartes d’´el´evation. Nous avons vu que de nombreuses techniques permettent de prendre en compte les erreurs de recalage des images ou bien les zones d’occlusion, ces deux points ´etant particuli`erement importants dans le cas des images satellites. La chaˆıne de traitements r´ealis´ee lors de cette th`ese est ainsi bas´ee sur la g´en´eration de MNS `a travers plusieurs ´etapes de calcul permettant d’am´eliorer leur pr´ecision grˆace `a une technique de mise en correspondance s´electionn´ee pour ses performances et son adaptabilit´e, suivi par des post–traitements permettant une meilleur prise en compte des erreurs d’occlusion. La m´ethode de d´etection des changements d´evelopp´ee est, quant `a elle, une m´ethode innovante car totalement automatique permettant la d´etection des changements pertinents du bˆati grˆace `a la seule utilisation de l’information d’´el´evation produite aux dates d’int´erˆet. 391.5. CONCLUSION 40Chapitre 2 Outils et m´ethodes n´ecessaires `a la chaˆıne de traitements Ce chapitre pr´esente les outils de calcul, utilis´es en l’´etat ou bien impl´ement´es, n´ecessaires `a la chaˆıne de traitements d´evelopp´ee. La premi`ere ´etape de la chaˆıne de traitements consiste en un recalage simultan´e de toutes les donn´ees disponibles aux dates t1 et t2. Cette ´etape est bas´ee sur des outils existants pour la recherche de points de liaison entre les images et l’affinage des mod`eles g´eom´etriques des images par ajustement de faisceaux. Cette ´etape est essentielle pour la g´en´eration des MNS et le calcul des MNS diff´erentiels, calculs qui n´ecessitent une grande pr´ecision de recalage entre les images. Apr`es un bref rappel de l’objectif et du principe de la spatio–triangulation des images, nous verrons quelques r´esultats obtenus apr`es ce calcul et nous discuterons des erreurs r´esiduelles g´en´er´ees. Nous verrons ensuite dans ce chapitre l’outil central n´ecessaire aux ´etapes de calcul r´ealis´ees dans notre chaˆıne de traitements. Cet outil est un algorithme d’optimisation semi-globale et permettant la r´esolution de probl`emes de labellisation. Nous montrerons tout d’abord comment cet algorithme a ´et´e s´electionn´e parmi les nombreux algorithmes d’optimisation existants puis nous d´etaillerons son impl´ementation telle que nous l’avons r´ealis´ee. 412.1. CO–LOCALISATION DES IMAGES : UTILISATION D’UN OUTIL DE SPATIO–TRIANGULATION 2.1 Co–localisation des images : utilisation d’un outil de spatio– triangulation 2.1.1 Contexte et objectif Les capteurs tr`es haute r´esolution tels que les capteurs Pl´eiades, WorldView, Ikonos, GeoEye ou OrbView sont particuli`erement agiles, facilitant les acquisitions st´er´eoscopiques. Les images peuvent alors ˆetre prises par vue lat´erale (across track) ou plus commun´ement en mode avant–arri`ere le long de la trace du satellite (along track), permettant des acquisitions quasi–simultan´ees. Ces diff´erentes conditions d’acquisition sont le point cl´e de la st´er´eoscopie. Cependant, les mod`eles g´eom´etriques fournis avec les images et contenant les informations sur la position du satellite, son orientation et sa direction de vis´ee lors de l’acquisition, ne sont pas suffisamment pr´ecis. En effet, pour des satellites tr`es haute r´esolution tels que Pl´eiades, il faudrait atteindre une pr´ecision de restitution des angles de vis´ee au microm`etre pour que l’orientation du satellite soit connue `a l’´echelle du pixel. Ceci n’est aujourd’hui pas r´ealisable par les syst`emes de contrˆole [54]. La figure 2.1 pr´esente les angles correspondant aux variations d’attitudes du satellite appel´es roulis αR, tangage αT et lacet αL. Ainsi, lorsque les mod`eles g´eom´etriques natifs associ´es aux images sont exploit´es, on observe que les pixels homologues (ou points de liaison) appartenant `a diff´erentes images (du mˆeme couple st´er´eoscopique ou non) et repr´esentant un mˆeme point physique ne correspondent pas aux mˆemes coordonn´ees terrain. On observe des biais variables selon les satellites et la pr´ecision de leurs mod`eles g´eom´etriques : DigitalGlobe annonce une pr´ecision de localisation absolue au sol de 15 m pour QuickBird, 9 m pour Ikonos et 5 m pour WorldView tandis que Pl´eiades est annonc´e `a 12 m de pr´ecision [54]. Or, la mise en correspondance des images n´ecessite une pr´ecision subpixellique (typiquement inf´erieure `a 0,5 m) de localisation relative des images. En effet, la technique employ´ee, d´etaill´ee au chapitre 3, est bas´ee sur le parcours des lignes de vis´ee de chacun des pixels. De mˆeme, lors de l’´etape de d´etection de changements, d´ecrite dans le chapitre 4, le calcul de la diff´erence des 42CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE TRAITEMENTS MNS pixel `a pixel est particuli`erement sensible au recalage des MNS, lui–mˆeme directement li´e au recalage des images d’origine. Afin de s’assurer de la pr´ecision de co–localisation des images puis des MNS, nous avons choisi de proc´eder, avant tout autre traitement, `a une spatio–triangulation [55] (plus connue sous le nom d’a´ero–triangulation pour les images a´eriennes). 2.1.2 Principe de la spatio–triangulation Le principe de la spatio–triangulation est de corriger les erreurs des mod`eles g´eom´etriques des images afin que les lignes de vis´ee provenant des pixels homologues de chacune des images se croisent au mieux sur les mˆemes coordonn´ees au sol [56]. Cet affinage des mod`eles peut ˆetre r´ealis´e de fa¸con absolue au sol si des points d’appuis sont disponibles (points rep´er´es dans l’image et de coordonn´ees terrain connues) ou relative, c’est–`a–dire que les images sont alors seulement co–localis´ees entre elles. Le principe de la spatio–triangulation est illustr´e dans les figures 2.2(a) et 2.2(b) qui pr´esentent l’orientation des images avant et apr`es cette ´etape. Figure 2.1 – Illustration du syst`eme d’acquisition en barrette push–broom et des angles d’attitude du satellite. 432.1. CO–LOCALISATION DES IMAGES : UTILISATION D’UN OUTIL DE SPATIO–TRIANGULATION (a) Orientation et localisation des images avant spatio– triangulation. (b) Orientation et localisation des images apr`es spatio– triangulation. Figure 2.2 – Illustration du r´esultat de la spatio–triangulation pour le recalage des images. Selon les donn´ees fournies avec les images satellites, les mod`eles g´eom´etriques peuvent correspondre au mod`ele physique des images ou aux fractions rationnelles (RPC). Le mod`ele physique est un mod`ele explicite, calcul´e en prenant en compte les param`etres de prise de vue du syst`eme `a chaque instant et d´efini par les ´eph´em´erides du satellite (orbitographie, attitude et orientation du satellite `a chaque instant). Les fractions rationnelles permettent de mod´eliser la ligne de vis´ee de chacun des pixels afin de retrouver les matrices de passage des coordonn´ees images aux coordonn´ees terrain pour n’importe quelle altitude [56]. En g´eom´etrie image, on d´efinit par mod`ele direct, le mod`ele physique ou analytique, permettant le calcul des coordonn´ees terrain d’un point `a partir de ses coordonn´ees image (et d’une altitude). Le mod`ele inverse permet de calculer les coordonn´ees image d’un point `a partir de ses coordonn´ees terrain. Ainsi, la spatio–triangulation consiste `a affiner les mod`eles g´eom´etriques des images, et plus particuli`erement les angles d’attitude : roulis, tangage et lacet, en leur introduisant un mod`ele 44CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE TRAITEMENTS d’erreur. L’objectif est de corriger ces mod`eles afin de garantir la crois´ee des faisceaux provenant d’un jeu de points de liaison ou d’appuis. Cet objectif peut ˆetre atteint si les mod`eles d’erreurs introduits, sur l’instrument, l’orientation ou l’attitude du satellite, sont en ad´equation avec la r´ealit´e [55]. Lorsque seuls des points de liaison sont disponibles, des contraintes de localisation absolue sont pos´ees grˆace `a des a priori afin d’´eviter que le mod`ele ne diverge. Les points d’appuis ´etant des donn´ees rares voire inexistantes, toutes les images de la chaˆıne de traitements propos´ee sont recal´ees entre elles de fa¸con relative. Une premi`ere ´etape, avant l’affinage des mod`eles, consiste `a rechercher des points de liaison entre les images. Cette ´etape est r´ealis´ee grˆace `a un outil de corr´elation d’images d´evelopp´e au CEA 1 . Cet outil permet la corr´elation non dense des images deux `a deux afin de d´eterminer les points homologues les plus fiables (c’est–`a–dire ceux montrant le meilleur score de corr´elation). Seuls quelques centaines de points, bien r´epartis sur chaque image, sont n´ecessaires pour affiner les mod`eles. L’´etape d’ajustement de faisceaux est ensuite effectu´ee `a l’aide du logiciel Euclidium, d´evelopp´e par le CNES et l’IGN. Ces outils de corr´elation et d’ajustement de faisceaux, d´ej`a existants et valid´es, fonctionnent de fa¸con totalement automatique pour tous type de capteurs. Cependant, il apparaˆıt que mˆeme apr`es l’affinage des mod`eles g´eom´etriques des images, des erreurs r´esiduelles persistent. Ces erreurs sont g´en´eralement dues `a des variations temporelles d’orientation du capteur lors de la prise de vue, impossibles `a mod´eliser et `a corriger par la spatio–triangulation du fait du faible nombre de degr´es de libert´e du mod`ele d’erreur (biais et d´erive temporelle d’attitude). Un autre d´efaut, inh´erent aux traitements sol, peut aussi repr´esenter une source d’erreur non corrigeable par la spatio–triangulation : c’est le d´efaut provenant de la simulation en “capteur parfait” des images. En effet, l’acquisition des images satellites est r´ealis´ee par segments, illustr´es en figure 2.1. Lorsque l’image est produite, les segments de chaque ligne sont fusionn´es afin de simuler un capteur lin´eaire monolitique. Or, des d´efauts de calibration sur les distances inter–barrettes peuvent subsister et engendrer des erreurs dans les mod`eles g´eom´etriques des images (RPC ou mod`eles physiques), erreurs qui ne peuvent ˆetre mod´elis´ees et corrig´ees par la 1. Cet outil a ´et´e d´evelopp´e en interne et aucune publication n’y fait r´ef´erence. 452.1. CO–LOCALISATION DES IMAGES : UTILISATION D’UN OUTIL DE SPATIO–TRIANGULATION (a) D´efauts r´esiduels d’une image OrbView-3 apr`es spatio–triangulation. (b) D´efauts r´esiduels d’une image WorldView-1 apr`es spatio–triangulation. Figure 2.3 – Illustration du r´esultat de la spatio–triangulation pour le recalage des images (´echelle en pixels). spatio–triangulation car elle n’autorise pas de degr´es de libert´e sur le plan focal. Figure 2.4 – Illustration du calcul des r´esidus de la spatio–triangulation. Dans le but de quantifier ces erreurs, les distances r´esiduelles entre les faisceaux provenant de points homologues trouv´es entre les deux images d’un couple OrbView-3 et d’un couple WorldView-1 ont ´et´e calcul´ees (figures 2.3(a) et 2.3(b)). 46CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE TRAITEMENTS La figure 2.4 permet d’illustrer le calcul de cette distance pour deux points homologues M i1 et M i2, appartenant `a deux images diff´erentes I1 et I2. Le recalage des images n’´etant pas parfait, les faisceaux provenant de ces points ne se croisent pas. La plus petite distance entre ces faisceaux est repr´esent´ee par la distance entre les points M et M′ dans l’espace terrain. Projet´ee en g´eom´etrie image, cette distance correspond `a la distance d entre les points M i2 (point homologue `a M i1) et M i′ 2 (point retrouv´e par corr´elation ´epipolaire entre les deux images). Cette distance, calcul´ee apr`es le recalage des images, repr´esente l’erreur r´esiduelle de la spatio–triangulation. Cette distance a ´et´e calcul´ee apr`es l’affinage des mod`eles g´eom´etriques d’un couple d’images OrbView–3 et d’un couple d’images WorldView–1. Les figures 2.3(a) et 2.3(b) illustrent les r´esultats obtenus pour ces deux capteurs. On observe sur la figure 2.3(b) des artefacts lin´eaires tr`es marqu´es formant des discontinuit´es dans l’image (rep´er´es par les fl`eches rouges en haut de la figure 2.3(b)), d’amplitude d’environ 0,7 pixel pour les images WorldView-1. Ces d´efauts correspondent aux d´efauts capteurs non corrig´es des images (ils ne sont pas visibles sur la figure 2.3(a)). Les d´efauts d’attitude sont, quant `a eux, visibles sous formes d’ondulations quasi horizontales et tr`es marqu´ees sur la figure 2.3(a) et horizontales sur la figure 2.3(b). Ces d´efauts sont rep´er´es par les fl`eches noires `a gauche de chacune des figures. Ces r´esidus, d’ordre pixellique pour les images OrbView-3 mettent en ´evidence des erreurs d’orientation trop importantes sur ce capteur pour notre ´etude, tandis que les erreurs d’ordre subpixelliques du capteur WorldView-1 sont acceptables et autorisent la mise en correspondance des images pour la g´en´eration fiable de MNS. 2.2 Outil pour la r´esolution de probl`emes de labellisation 2.2.1 Trois probl`emes de labellisation A l’int´erieur de cette chaˆıne de traitements, trois ´etapes d ` e calcul sont bas´ees sur la r´esolution d’un probl`eme de labellisation (voir section 1.3). C’est–`a–dire qu’`a chacune de ces 472.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION ` ´etapes de calcul, la valeur de chaque pixel de l’image de sortie r´esulte d’un choix r´ealis´e entre plusieurs valeurs ou attributs possibles selon des crit`eres calcul´es appel´es attaches aux donn´ees. Dans une premi`ere ´etape de calcul, lors de la mise en correspondance des images, le pixel homologue `a un pixel de l’image maˆıtre est choisi parmi plusieurs candidats en fonction d’un crit`ere de similarit´e. La s´election du pixel homologue permet alors de d´eduire l’´el´evation du point terrain repr´esent´e par ces pixels homologues (voir chapitre 3, section 3.1). Dans un second calcul, qui correspond `a la fusion des MNS, les pixels du MNS final r´esultent du choix entre les diff´erentes valeurs d’´el´evation propos´ees par chacun des pixels des MNS `a fusionner. Ce choix est r´ealis´e en fonction d’un crit`ere de confiance calcul´e pour chacun des pixels des diff´erents MNS (voir chapitre 3, section 3.3). Enfin, lors de la d´etection des changements, c’est en fonction de la valeur du pixel dans la diff´erence de MNS qu’un label de changement (positif, n´egatif ou non changement) est attribu´e au pixel de la carte finale des changements (voir chapitre 4). Ces probl´ematiques, bien que tr`es diff´erentes en termes de labels et d’objectifs, ont pour caract´eristique commune que toutes les solutions ne sont pas ´equiprobables. En effet, `a crit`eres d’attache aux donn´ees identiques, on privil´egie les solutions r´eguli`eres. Cette r´egularit´e se traduit par le fait que, dans une image, la valeur d’un pixel n’est pas ind´ependante des valeurs des pixels qui l’entourent, de mˆeme, le label affect´e `a un pixel d´epend des labels affect´es aux pixels voisins. L’ensemble des labels peut ainsi ˆetre consid´er´e comme un champ de Markov al´eatoire [28, 42, 57, 58] et la probabilit´e d’affectation d’un label `a un pixel d´epend alors de la probabilit´e conjointe de l’appartenance du label `a ce pixel et aux pixels de son voisinage. Le probl`eme de labellisation n’est alors plus consid´er´e comme un probl`eme local mais peut ˆetre r´esolu de fa¸con globale sur l’image. Toutes les solutions de labellisation possibles sur l’image ne sont pas ´equiprobables. Cependant, il existe une solution optimale qui correspond a priori `a une solution r´eguli`ere sur l’image qui limite les variations de hautes fr´equences, correspondant g´en´eralement `a du bruit. Cette formulation se traduit alors par l’introduction d’une contrainte de r´egularisation spatiale dans le calcul de labellisation des pixels. Chacune des labellisations rencontr´ees dans la chaˆıne de traitements est alors r´esolue `a 48CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE TRAITEMENTS partir d’une mˆeme m´ethode bas´ee sur la minimisation d’une fonctionnelle d’´energie globale E sur l’ensemble des pixels x d’une image X et permettant d’assigner un label n j appartenant au jeu de labels N = {n 1 , n2 , ..., nz}, (z ´etant le nombre total de labels) `a chacun des pixels x ∈ X selon la fonction suivante : E(n) = X x∈X Cdata(n(x)) + X (x′)∈V (x) Creg(n(x), n(x ′ )). (2.1) Cdata(n(x)) repr´esente le coˆut pour l’affectation du label n au pixel x en fonction d’un crit`ere de probabilit´e d’appartenance `a ce label. Creg(n(x), n(x ′ )) correspond au coˆut pour l’affectation d’un des labels n `a deux pixels voisins x et x ′ . Ce terme traduit la contrainte de r´egularisation. 2.2.2 Les m´ethodes d’optimisation existantes De nombreuses approches existent pour r´esoudre la minimisation d’une fonctionnelle d’´energie sur une image. Ce sujet a notamment ´et´e largement ´etudi´e pour r´esoudre le probl`eme de la mise en correspondance d’images [28], comme nous l’avons vu dans le chapitre 1, section 1.2, mais cette approche est aussi tr`es utilis´ee en restauration d’image ou en segmentation [12, 58]. Nous rappelons que les algorithmes de minimisation d’´energie peuvent ˆetre divis´es en deux cat´egories : les algorithmes permettant de retrouver une solution exacte ou approch´ee en consid´erant toute l’image en une seule fois, et les algorithmes qui partitionnent l’image en une s´erie de probl`emes plus simples `a r´esoudre (g´en´eralement en consid´erant l’image par s´equences de pixels en une dimension) et qui permettent de retrouver des solutions minimales localement qui sont ensuite fusionn´ees afin d’obtenir le r´esultat global [43]. Ce sont les m´ethodes semi–globales [42]. Les m´ethodes globales Les m´ethodes les plus populaires d’optimisation globale sont celles bas´ees sur les graph-cuts [59], [58] et [41], ou encore le belief propagation [43, 60]. Ces m´ethodes sont parmi les plus efficaces comme l’a d´emontr´e Scharstein [28], `a partir du benchmark Middelbury [61], puis 492.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION ` (a) Illustration de la construction des graph–cuts. Figure provenant de l’article de Roy et Cox [59] (b) Illustration du graphe 3D et de la surface de disparit´e. Figure 2.5 – Illustration de la m´ethode des graph–cuts appliqu´ee au calcul de la disparit´e. Schindler [42] sur des probl`emes de classification d’images. D’autres m´ethodes, comme les recuits–simul´es (simulated annealing), d´evelopp´es par Geman [57], sont souvent jug´ees moins efficaces et trop lourdes en temps de calcul, notamment parce que les labels de chacun des pixels sont recalcul´es `a chaque it´eration afin de retrouver un minimum global [58]. Formulation du probl`eme de mise en correspondance `a travers la th´eorie du Maximum-flow. L’id´ee des graph–cuts est de ramener le probl`eme de minimisation d’´energie `a un probl`eme de coupe minimale dans un graphe, ce qui, d’apr`es le th´eor`eme de Ford-Fulkerson [62], revient `a trouver le flot maximal (ou MaxFlow) `a travers un graphe, probl`eme pour lequel il existe des algorithmes de calcul exacts et efficaces. Dans le cas d’un probl`eme de mise en correspondance, Roy et Cox [59] ont d´evelopp´e un algorithme permettant de retrouver globalement et en une seule fois la surface de disparit´e (repr´esent´ee en rouge sur la figure 2.5) pour un couple d’images st´er´eoscopiques. Avec cet algorithme d’optimisation, et afin de satisfaire une contrainte de r´egularisation spatiale dans toutes les directions, la mise en correspondance ne peut pas se faire selon une seule dimension `a travers la mise en correspondance classique des lignes ´epipolaires. 50CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE TRAITEMENTS L’id´ee est alors de construire un graphe 3D (x, y, z), x et y repr´esentent la dimension image (ligne,colonne) et z repr´esente les hypoth`eses d’´el´evation donn´ees par la recherche sur les parallaxes. A ce graphe sont ajout´es une source ` S et un puits T permettant de former le graphe G = (V, E) avec V l’ensemble des sommets du graphe, c’est `a dire la grille 3D form´ee entre S et T, et E l’ensemble des arˆetes qui connectent tous les sommets de la grille (repr´esent´ee sur la figure 2.5(b)). A chaque arˆete est affect´e un coˆut (ou une capacit´e de flot) : – les arrˆetes verticales (nomm´ees D sur la figure 2.5(b)) sont les arˆetes dites de disparit´e et correspondent directement au coˆut de mise en correspondance : un coefficient de corr´elation ´elev´e entre deux pixels va permettre la saturation de l’arˆete correspondante par le flot maximal et inversement, – les arˆetes horizontales (nomm´ees O sur la figure 2.5(b)) sont les arˆetes d’occlusion (O) qui contrˆolent la r´egularisation et permettent de limiter les variations de la surface de disparit´e selon le poids de la r´egularisation, – les arˆetes connect´ees `a la source ou au puits sont, quant `a elles, de capacit´e infinie. Toute solution Z = f(x) repr´esente une coupe minimale qui divise le graphe selon deux ensembles : – Z > f(x), c’est l’ensemble appel´e background dans la figure 2.5(a), – Z < f(x), c’est l’ensemble appel´e foreground dans la figure 2.5(a). On montre que le coˆut de la coupe minimale d´efinie pr´ec´edemment est calcul´e exactement par la formule pr´ec´edente (´equation 2.1). Ce probl`eme peut donc ˆetre formul´e comme un probl`eme de flot maximum pour lequel Cox et Roy proposent une solution optimis´ee [59]. Kolmogorov [63] a cependant montr´e que l’application des graph–cuts est soumise `a une condition dite de “sous–modularit´e” de la fonction d’´energie de r´egularisation. En effet, les poids des arˆetes du graphe doivent ˆetre forc´ement positifs de la source vers le puits afin que l’algorithme converge, cette condition se traduit par l’´equation suivante : Creg(0, 0) + Creg(1, 1) ≤ Creg(0, 1) + Creg(1, 0). (2.2) Avec Creg le coˆut d’affectation de deux labels binaires (0 ou 1) `a deux pixels voisins. Si l’´energie 512.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION ` de r´egularisation ne satisfait pas ces contraintes, la solution optimale ne peut ˆetre garantie. Cette contrainte peut limiter la gamme de fonctions de coˆut possible pour la r´esolution d’un probl`eme d’optimisation par graph–cuts. Autres approches d’optimisation globale Un autre algorithme, largement utilis´e pour l’optimisation globale est le belief propagation [39], [33] ou la version loopy belief propagation propos´ee par Felzenszwalb [43]. Cette m´ethode fonctionne par passage de “messages” entre le graphe d´efini par les quatre connexes d’un pixel. Chaque message est un vecteur de dimension ´egale au nombre de labels en jeu et fonction du coˆut minimum obtenu pour chaque label, consid´erant leurs probabilit´es sur les quatre connexes du pixel. Cependant, Kolmogorov montre que la convergence de cet algorithme n’est pas toujours assur´ee [64, 65] et la solution trouv´ee apparaˆıt souvent de plus haute ´energie que les graph–cuts et donc non optimale. De plus, le temps de calcul n´ecessaire reste particuli`erement long [64], bien que la variante de Felzenszwalb permette de r´eduire ce temps [43]. Une m´ethode proche du belief propagation a ´et´e r´ecemment introduite, le tree-reweighted message passing [65]. Cette m´ethode apparaˆıt moins gourmande en ´energie puisque les ”messages” ne sont plus pass´es entre un graphe form´e des quatre connexes mais `a travers un graphe form´e par un arbre. Kolmogorov [65] et Szeliski [64] ont montr´e que cette m´ethode ´etait plus efficace que les graph–cuts sur les jeux de test de Middelbury mais reste n´eanmoins plus lente que les graph–cuts. De mani`ere g´en´erale, les graph–cuts et autres m´ethodes d’optimisation globales n´ecessitent de tr`es grandes capacit´es m´emoire (notamment lorsque plusieurs labels sont en jeu) et sont alors difficilement applicables sur des images compl`etes de grande emprise telles que les images satellites tr`es haute r´esolution [42]. Les m´ethodes semi–globales D’autres proc´ed´es permettent la r´esolution de probl`emes d’optimisation, non pas en recherchant une solution exacte ou approch´ee au minimum global sur toute l’image simultan´ement mais en fonctionnant it´erativement sur la recherche de minimas locaux sur l’image `a partir de 52CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE TRAITEMENTS Figure 2.6 – Illustration d’un effet de streaking le long des lignes d’une image trait´ee par programmation dynamique. fonctions qui permettent une approximation de la fonction globale. L’avantage de ces m´ethodes est de r´eduire largement la complexit´e des probl`emes en les divisant en sous–probl`emes plus faciles et rapides `a r´esoudre [43]. La m´ethode la plus populaire est la programmation dynamique. Cette m´ethode est aujourd’hui appliqu´ee dans de nombreux domaines de traitement d’image [31, 34, 44, 66]. Appliqu´ee `a une image, l’id´ee de base de la programmation dynamique consiste `a optimiser une fonction d’´energie sur chacune des lignes ind´ependamment [34]. L’inconv´enient majeur de cette m´ethode est le manque de coh´erence entre chacune des lignes, cr´eant des effets de streaking ou artefacts lin´eaires, le long des lignes dans le r´esultat lorsqu’un label a tendance `a se propager le long de la ligne du fait de la r´egularisation spatiale. Ce ph´enom`ene est illustr´e sur le MNS pr´esent´e en figure 2.6 o`u la propagation de valeurs d’´el´evation le long des lignes, sans coh´erence avec les colonnes, est fortement marqu´ee. Afin de limiter ce probl`eme, plusieurs approches ont ´et´e d´evelopp´ees : Bobick et Intille [34], dans un contexte de mise en correspondance d’images, d´etectent pr´ealablement les contours de l’image et adaptent les coˆuts le long de ces contours afin d’aligner les disparit´es dans l’image finale. La difficult´e r´eside alors dans la d´etection pr´ecise des contours de l’image `a prendre en 532.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION ` compte. Ohta [67] proc`ede d’abord `a une recherche des disparit´es selon les lignes puis utilise les r´esultats obtenus afin de contraindre une recherche selon les colonnes de l’image. Les r´esultats obtenus sont alors additionn´es pour s´electionner la disparit´e finale de chaque pixel. Veksler [44] applique la programmation dynamique sur des structures en arbre, choisies en fonction des contours les plus importants de l’image. Cet algorithme permet alors de minimiser l’´energie selon deux dimensions afin de se rapprocher au mieux d’une optimisation globale. L’inconv´enient de cette m´ethode r´eside ici dans le choix des structures d’arbre utilis´ees et de leur initialisation. Hirschmuller [ ¨ 31] applique la programmation dynamique selon plusieurs directions sur l’image, ind´ependamment les unes des autres, puis additionne les coˆuts obtenus pour chaque label afin de calculer le coˆut final de chaque disparit´e pour chacun des pixels de l’image. Cet algorithme permet le calcul rapide de l’optimisation et prend en compte tout le voisinage des pixels puisque toutes les directions de l’image sont calcul´ees. Cette optimisation quasi globale est appel´ee le semi–global labelling [31, 42]. Schindler, [42] compare plusieurs m´ethodes de classification d’images bas´ees sur (i) un algorithme de graph–cuts tel que celui propos´e par Boykov [58], (ii) un algorithme de semi–global labelling bas´e sur la m´ethode de Hirschmuller [ ¨ 31] et (iii) des m´ethodes de classification locale, sans contrainte spatiale. Il apparaˆıt d’abord que les m´ethodes d’optimisation globales sont plus efficaces que les m´ethodes de classification locales : les r´esultats obtenus montrent une pr´ecision g´en´erale de classification de 70,5% `a 80% pour une m´ethode locale, 72% `a 80% pour une m´ethode semi-globale et de 72,5% `a 85% pour une m´ethode de graph–cuts. Cependant, si les m´ethodes graph–cuts pr´esentent la meilleure efficacit´e, Schindler observe que les m´ethodes de semi–global labelling montrent des performances tr`es proches tout en maintenant un temps de calcul inf´erieur, ce qui en fait une bonne alternative aux graph–cuts pour des labellisations sur de nombreuses ´etiquettes et une large emprise. Le semi–global labelling apparaˆıt donc comme une m´ethode d’optimisation suffisamment performante pour des questions de labellisation et tr`es adapt´ee dans un contexte de traitement 54CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE TRAITEMENTS rapide et automatique puisque ses performances en termes de temps de calcul et d’allocation m´emoire sont sup´erieures `a celles des m´ethodes globales. Ce type de m´ethode a donc ´et´e s´electionn´e pour la r´esolution des probl`emes de labellisation rencontr´es dans notre chaˆıne de traitements. 2.2.3 Description de l’algorithme s´electionn´e L’algorithme de programmation dynamique utilis´e dans ce travail est bas´e sur la programmation dynamique sur une s´equence, algorithme d´ecrit par Felzenszwalb [66]. Une s´equence correspond alors `a un sous–ensemble de pixels de l’image. Afin de r´eduire les effets de streaking de la programmation dynamique, les minimisations sont effectu´ees ind´ependamment sur plusieurs directions de l’image : lignes, colonnes, diagonales et directions interm´ediaires, telles que repr´esent´ees sur la figure 2.7 et selon la technique propos´ee par Hirschmuller et Pierrot-Deseilligny [ ¨ 31, 32]. Tous les coˆuts, obtenus par label pour chaque pixel et selon chaque direction sont ensuite fusionn´es afin d’obtenir la solution semi–globale sur toute l’image. De cette fa¸con, et en parall´elisant les calculs dans chaque direction, l’optimisation est effectu´ee efficacement selon un temps polynomial. Figure 2.7 – Illustration du parcours des diff´erentes directions pour la programmation dynamique afin de calculer le coˆut ”semi–global”. 552.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION ` Algorithme de minimisation selon une direction Soit une s´equence lin´eaire de pixels X = {x0, x1, ..., xi , ..., xf } le long d’une direction de l’image. Le but est d’assigner `a chacun des pixels xi un label n(xi) appartenant au jeu de labels N = {n 1 , n2 , ..., nz}, z ´etant le nombre total de labels. La solution S de labellisation sur la s´equence de x0 `a xf correspond alors `a la solution qui minimise les coˆuts de labellisation en chaque pixel de la s´equence, selon l’´equation : S(n(x0), ..., n(xf )) = Xxf x0 Cdata(x, n(xi)) + λ xX f−1 x0 Creg((xi , n(xi)),(xi+1, n(xi+1)). (2.3) Cdata(x, n(xi)) repr´esente la fonction d’attache au donn´ees, c’est la probabilit´e que le label n corresponde au pixel xi de la s´equence. Creg((xi , n(xi)),(xi+1, n(xi+1)) repr´esente le coˆut de r´egularisation entre deux pixels cons´ecutifs xi et xi+1 sur la s´equence et portant un label n. Cette fonction de r´egularisation est souvent calcul´ee selon le mod`ele de Potts [68] dans lequel le coˆut affect´e au label n est ´egal `a 0 si les deux labels cons´ecutifs sont identiques et 1 sinon (´equation 2.4). Creg((xi , n(xi)),(xi+1, n(xi+1))) =    0 if n(xi) = n(xi+1), 1 if n(xi) 6= n(xi+1). (2.4) Ce mod`ele est utilis´e lors de l’´etape de d´etection des changements (chapitre 4) mais nous verrons que les ´etapes de mise en correspondance (chapitre 3 section 3.1) et de fusion des MNS (section 3.3) n´ecessitent des fonctions de r´egularisation plus complexes. La variable scalaire λ repr´esente, quant `a elle, le poids accord´e `a la contrainte de r´egularisation : plus cette valeur est importante, plus la contrainte spatiale sera renforc´ee, c’est–`a–dire que le coˆut d’affectation d’un label, diff´erent du label pr´ec´edent, sera augment´e. En pratique, nous verrons que cette variable est d´efinie en fonction du r´esultat recherch´e qui doit ˆetre plus ou moins r´egulier selon le contexte. Le principe de l’algorithme est de calculer le meilleur chemin passant par chaque couple pixel–label (xi , nj ), selon un parcours de la s´equence de pixels de x0 `a xf . L’objectif est de 56CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE TRAITEMENTS Figure 2.8 – Illustration du calcul des coˆuts obtenus pour chaque label et chaque pixel de la s´equence selon l’´equation 2.5. Les fl`eches vertes repr´esentent chacun des coˆuts calcul´es, les fl`eches rouges repr´esentent le coˆut le plus faible obtenu entre un label d’un pixel et tous les labels du pixel pr´ec´edent. calculer, pour un couple pixel–label (xi , nj ), le coˆut pour le couple suivant (xi+1, nj ) (figure 2.8). Soit A(x0, nj ) le coˆut initial du label n j au pixel x0 de la position 0 est d´efini par : A(x0, nj ) = Cdata(x0, n). (2.5) A la position ` xi de la s´equence, le coˆut A(xi , nj ) pour lui assigner un label n j se calcule selon l’´equation suivante : A(xi , nj ) = Cdata(xi , nj ) + min nk A(xi−1, nk ) + λCreg(n j , nk ) , (2.6) n j et n k deux labels appartenant au jeu de labels N. Ainsi, pour chacun des labels n j (j ∈ [1 : z]) propos´es `a chacun des pixels xi , le coˆut obtenu correspond `a tous les coˆuts cumul´es du chemin de x0 `a xi qui minimisent le coˆut en n j . Dans la figure 2.8, les fl`eches vertes repr´esentent tous les chemins possibles pour parvenir `a chacun des labels. Le chemin amenant le coˆut minimal en chaque label de chaque pixel est repr´esent´e par les fl`eches rouges. Une fois tous ces coˆuts calcul´es, le meilleur chemin de x0 `a xf correspond au chemin ayant 572.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION ` amen´e le label de coˆut minimal n j∗ xf au dernier pixel xf , tel que : n ∗ (xf ) = argmin n A(xf , n(xf ))). (2.7) La matrice finale contenant la somme des coˆuts de chacun des labels et pour chaque pixel est alors parcourue afin de retrouver le label amenant le coˆut minimal sur chaque pixel. G´en´eralisation de l’algorithme `a plusieurs directions Le coˆut semi–global est d´efini comme le coˆut de chaque label obtenu `a travers le sous–graphe d´etermin´e par toutes les directions calcul´ees dans l’image. Selon cette d´efinition, la minimisation est appliqu´ee sur des s´equences lin´eaires de pixels dans toutes les directions impos´ees et de fa¸con ind´ependante entre les s´equences comme illustr´e sur la figure 2.7. Les matrices de coˆuts, obtenues pour chaque pixel et selon chaque direction sont ensuite fusionn´ees afin d’obtenir un coˆut final pour chaque label et pour chaque pixel, tel que le d´ecrivent Hirschmuller et Pierrot-Deseilligny [ ¨ 31, 32]. Or, les coˆuts obtenus dans les matrices ne peuvent ˆetre directement comparables entre eux puisque les coˆuts sont cumul´es lors des parcours de chaque s´equence de pixels qui ne poss`edent pas forc´ement le mˆeme nombre de pixels. Afin de rendre possible cette comparaison de coˆut entre les labels d’un mˆeme pixel sur les diff´erentes directions, il est n´ecessaire de les recalculer selon une mˆeme ´echelle. Cette op´eration se traduit par le calcul de la distance `a la solution optimale de labellisation, C(nx) d sur toutes les s´equences obtenues, selon la formule : C(xi , n(xi))d = C(xi , n(xi)) − C(xi , n∗ (xi)). (2.8) Ces distances `a la solution optimale par label peuvent alors ˆetre additionn´ees pour chaque label et selon chacune des directions. Le label final n d∗ choisi pour chaque pixel xi et dans toutes les directions est finalement celui ayant le coˆut minimal, tel que : n d∗ (xi) = argmin n X dirs C(xi , n(xi))d . (2.9) Le nombre de directions peut avoir un impact important sur le r´esultat final. Cependant, `a partir d’un certain nombre de directions trait´ees, les diff´erences entre les r´esultats diminuent fortement, elles sont presque nulles au del`a de 12 directions. Or, le nombre de directions trait´ees 58CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE TRAITEMENTS augmente sensiblement le temps de calcul de la m´ethode, il est donc n´ecessaire de trouver le nombre de directions ad´equat afin d’obtenir le meilleur ´equilibre entre temps de calcul et pr´ecision du r´esultat. Dans la plupart des probl`emes trait´es dans ces travaux, un nombre de 8 ou 12 directions sera utilis´e. Une comparaison des r´esultats obtenus avec 1, 4, 8, 12 et 16 directions est pr´esent´ee dans le chapitre 5. 2.3 Conclusion La spatio–triangulation permet l’affinage des mod`eles g´eom´etriques des images afin de corriger les erreurs d’orientation et d’attitude dues `a une restitution imparfaite des informations sur la position du satellite, son orientation et sa direction de vis´ee lors de l’acquisition. L’objectif de cette op´eration, r´ealis´ee simultan´ement sur toutes les images disponibles, est de permettre un recalage relatif pr´ecis entre toutes ces donn´ees. Cette ´etape est r´ealis´ee `a l’aide d’outils existants permettant la recherche fiable de points homologues puis l’ajustement des faisceaux. Cependant, nous avons montr´e que des d´efauts, de capteur ou d’attitude, persistent dans les mod`eles affin´es. Ces erreurs peuvent n´eanmoins ˆetre acceptables lorsqu’elles restent sub– pixelliques comme c’est le cas pour les images WorldView-1 que nous utilisons. Le second outil que nous avons d´etaill´e, au cours de ce chapitre, est un algorithme de programmation dynamique que nous avons impl´ement´e et adapt´e pour le calcul de trois des traitements de la chaˆıne d´evelopp´ee au cours de cette th`ese : la mise en correspondance, la fusion des MNS et la d´etection des changements d’´el´evation. Cet algorithme de programmation dynamique a ´et´e s´electionn´e pour sa facilit´e d’impl´ementation par rapport `a d’autres m´ethodes d’optimisation globales classiques telles que les graph–cuts mais aussi et surtout pour la rapidit´e d’ex´ecution des calculs et son efficacit´e reconnue. 592.3. CONCLUSION 60Chapitre 3 G´en´eration de Mod`eles Num´eriques de Surface sur une grille r´eguli`ere `a partir de couples st´er´eoscopiques Comme nous l’avons vu dans le chapitre 1, de nombreuses techniques existent pour la g´en´eration de MNS en fonction des contraintes associ´ees aux donn´ees d’entr´ee et des sources d’erreurs `a prendre en compte. La strat´egie que nous avons choisie est bas´ee sur trois ´etapes de calcul. La premi`ere ´etape consiste en une mise en correspondance des images `a l’aide d’un outil existant, MicMac, et dont les options que nous utilisons seront d´ecrites dans une premi`ere partie de ce chapitre. Puis nous d´etaillerons la m´ethode que nous avons d´evelopp´ee afin de basculer les MNS sur une grille r´eguli`ere terrain tout en localisant et filtrant certaines erreurs de mise en correspondance. Dans une troisi`eme partie, nous pr´esenterons certaines erreurs de mise en correspondance non corrig´ees, notamment dues aux zones d’occlusion de l’image esclave et nous d´ecrirons la m´ethode que nous avons d´evelopp´ee pour r´esoudre ce probl`eme et am´eliorer la pr´ecision des MNS obtenus. Cette m´ethode est bas´ee sur la fusion des deux MNS g´en´er´es `a partir du mˆeme couple d’images st´er´eoscopiques par inversion des rˆoles maˆıtre et esclave des images. Nous d´etaillerons notamment l’algorithme permettant cette fusion `a travers la labellisation des pixels du MNS final, contrˆol´ee par une contrainte de r´egularisation spatiale. 613.1. DESCRIPTION DE LA STRATEGIE DE MISE EN CORRESPONDANCE ADOPT ´ EE´ Puis, dans une derni`ere partie, nous analyserons les r´esultats obtenus `a travers la comparaison des MNS g´en´er´es avec une v´erit´e LiDAR, acquise `a une date proche de nos donn´ees satellites, sur la ville de Christchurch en Nouvelle-Z´elande. 3.1 Description de la strat´egie de mise en correspondance adopt´ee 3.1.1 Technique de mise en correspondance La m´ethode de mise en correspondance d’images que nous avons s´electionn´ee est bas´ee sur la g´eom´etrie image (repr´esent´ee figure 1.1(b), p34). Comme cit´e dans le chapitre 1, section 1.2.3, cette g´eom´etrie ne n´ecessite pas le r´e–´echantillonnage complet de l’image en g´eom´etrie ´epipolaire et se montre plus robuste que la g´eom´etrie terrain aux erreurs g´eom´etriques des images ainsi qu’aux zones d’occlusion lorsque seulement deux images sont en jeu [48]. Cette robustesse est un avantage certain pour notre chaˆıne de traitements dans laquelle toute erreur de MNS (planim´etrique ou altim´etrique) peut avoir des cons´equences sur la carte finale des changements de la sc`ene. Le principe de la g´eom´etrie image r´eside dans le parcours des lignes de vis´ee des pixels dont la mod´elisation a ´et´e affin´ee lors de l’´etape de spatio-triangulation (chapitre 2,section 2.1). Pour chacun des pixels de l’image maˆıtre (g´en´eralement l’image la plus au nadir) et de coordonn´ees xM(lM, cM), la ligne de vis´ee est parcourue de fa¸con discr`ete avec un pas altim´etrique d´etermin´e par l’utilisateur. Chaque pas d´efinit un point P dans l’espace, de coordonn´ees (Px, Py, Pz). La ligne de vis´ee de l’image esclave passant par ce point de l’espace est alors d´etermin´ee `a partir du mod`ele g´eom´etrique inverse de l’image esclave et le pixel correspondant dans cette image, de coordonn´ee (lE, cE) est localis´e. La corr´elation entre les pixels est alors effectu´ee `a travers des fenˆetres de corr´elation centr´ees sur chacun des pixels de l’image maˆıtre et de l’image esclave et de taille sp´ecifi´ee par l’utilisateur (ici une fenˆetre de rayon R = 2 pixels est utilis´ee). L’imagette de l’image esclave est alors r´e–´echantillonn´ee dans la g´eom´etrie de l’imagette maˆıtre. Lorsque le pixel homologue est s´electionn´e, on obtient alors, pour le pixel consid´er´e dans l’image maˆıtre, une valeur directe de 62CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ l’altitude du point. Toutefois, la g´en´eration de MNS dans la g´eom´etrie de l’image maˆıtre pr´esente un inconv´enient. En effet, puisque la recherche de l’´el´evation est r´ealis´ee `a partir de l’image maˆıtre, la carte des ´el´evations est g´en´er´ee dans la g´eom´etrie de l’image maˆıtre et il est alors n´ecessaire de les r´e–´echantillonner dans une nouvelle grille g´eographique r´eguli`ere afin que les MNS produits `a partir de diff´erentes images maˆıtre soient comparables entre eux pixel `a pixel. 3.1.2 Fonction d’optimisation et r´egularisation Parmi les m´ethodes d’optimisation impl´ement´ees dans l’outil MicMac, nous avons choisi une m´ethode bas´ee sur la programmation dynamique, notamment pour des raisons de temps de calcul (cf. chapitre 2 section 2.2.2). L’´equation g´en´erale de cette optimisation est pr´esent´ee en section 2.2.3 Lors de la mise en correspondance, les labels correspondent `a toutes les ´el´evations z test´ees et le coˆut d’attache aux donn´ees Cdata(xMi , z(xMi )), c’est–`a–dire le coˆut pour assigner une ´el´evation z `a un pixel xMi de l’image maˆıtre, est une fonction du score de corr´elation obtenu entre le pixel de l’image maˆıtre xMi et le pixel homologue trouv´e dans l’image esclave xE. Il est ici calcul´e avec le NCC (´equation 3.1) : Cdata(xMi , z(xMi )) = NCC(xMi , xE). (3.1) Soit deux vecteurs uM et uE constitu´es de l’ensemble des q valeurs des vignettes de corr´elation centr´ees en xMi et en xE, respectivement. p ds w est une fonction de pond´eration, w ∈ [1 : q]. Pour chaque vecteur uM de valeurs Uw, on pose : R(uM) = Pq w=1 p ds P w Uw n w=1 p ds w (3.2) La d´efinition est identique pour chaque vecteur VE de valeurs Vw. Le coefficient de corr´elation s’´ecrit : NCC(uM, vE) = R(uMvM) − R(uM)R(vE) q (R(u 2 M) − R(uM) 2) ∗ (R(v 2 E ) − R(vE) 2) (3.3) Lors de la g´en´eration de MNS, la r´egularisation a pour but de limiter les variations d’altitude. Ainsi, cette fonction est calcul´ee `a partir de la diff´erence d’altitude obtenue entre deux pixels 633.1. DESCRIPTION DE LA STRATEGIE DE MISE EN CORRESPONDANCE ADOPT ´ EE´ cons´ecutifs de l’image maˆıtre xMi et xMi−1 selon l’´equation suivante : Creg((xMi , z(xMi )),(xMi−1 , z(xMi−1 ))) = f(| z(xMi) − z(xMi−1) |). (3.4) (a) Carte des ´el´evations d’un couple WorldView-1, r´egularisation λ = 0.02. (b) Carte des ´el´evations d’un couple WorldView-1, r´egularisation λ = 1.0. Figure 3.1 – Illustration de l’impact de la r´egularisation pour la g´en´eration de MNS. Le param`etre de r´egularisation est un param`etre particuli`erement important dans la g´en´e- 64CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ ration des MNS puisqu’il contrˆole les variations d’altitudes des MNS g´en´er´es. En effet, plus sa valeur est importante, plus le poids de la r´egularisation spatiale sera important, faisant disparaˆıtre les structures les plus fines (et le bruit) du MNS et flouter les bords de bˆatiments. Ce ph´enom`ene est bien repr´esent´e en figure 3.1(b). Inversement, une faible r´egularisation va permettre d’observer les variations plus fines d’altitude (et ainsi de s´eparer les bˆatiments tr`es proches les uns des autres), mais en augmentant la pr´esence de bruit (figure 3.1(a)). Ainsi, en milieu urbain, milieu dans lequel les discontinuit´es et les variations fines d’´el´evation doivent ˆetre respect´ees afin d’obtenir un MNS pr´ecis au niveau des bˆatiments, la r´egularisation est d´efinie `a une valeur faible, de mˆeme pour un milieu fortement escarp´e. Inversement, en milieu rural, d´esertique ou vallonn´e, la r´egularisation peut ˆetre largement augment´ee. L’outil MicMac permet d’adapter ais´ement ce param`etre qui fait ainsi partie des param`etres de notre chaˆıne de traitements. 3.1.3 Prise en compte des zones d’occlusion La m´ethode choisie pour la prise en compte des zones d’occlusion est bas´ee sur une localisation post–traitement, apr`es la g´en´eration de la carte d’´el´evation de la sc`ene en g´eom´etrie image. En effet, lors du r´e–´echantillonnage de la carte des ´el´evations sur une grille r´eguli`ere, ´etape dite de “basculement”, nous avons d´evelopp´e une m´ethode permettant de localiser ces zones en fonction des angles d’acquisition de l’image maˆıtre et de la pr´esence de discontinuit´es. Le basculement a ainsi un rˆole majeur dans la g´en´eration du MNS final. 3.2 D´eveloppement d’une m´ethode de basculement des MNS sur une grille g´eographique r´eguli`ere Comme pr´ecis´e pr´ec´edemment, selon cette technique de mise en correspondance, la carte des ´el´evations est calcul´ee dans la g´eom´etrie de l’image maˆıtre. Afin de comparer des cartes d’´el´evations obtenues sur une mˆeme zone selon diff´erentes dates, diff´erents capteurs ou mˆeme selon diff´erentes techniques de g´en´eration de MNS, il est n´ecessaire de r´e–´echantillonner ces cartes d’´el´evations selon une grille terrain r´eguli`ere et commune `a toutes les cartes produites. C’est l’´etape de basculement. G´en´eralement, ce r´e–´echantillonnage est effectu´e par interpolation des points de la grille 653.2. DEVELOPPEMENT D’UNE M ´ ETHODE DE BASCULEMENT DES MNS SUR UNE ´ GRILLE GEOGRAPHIQUE R ´ EGULI ´ ERE ` r´eguli`ere. Ainsi, l’´el´evation de chacun des points de cette grille r´eguli`ere est interpol´ee `a partir des coordonn´ees terrain des trois points les plus proches de lui provenant de la carte des ´el´evations calcul´ee. Pour ce faire, les pixels de la grille image sont parcourus par triplets. Cette technique d’interpolation est la plus commune, notamment parce que la maille d’origine est une maille carr´ee. Le basculement que nous proposons est aussi bas´e sur une interpolation des points de la grille r´eguli`ere `a partir du nuage de points form´e par la carte des ´el´evations en g´eom´etrie image. Mais, avant chaque interpolation d’un point de la grille `a partir des points les plus proches, certaines conditions sont v´erifi´ees afin de d´eterminer si le point est valide et peut ˆetre calcul´e ou non. Ces conditions reposent sur des contraintes g´eom´etriques permettant la d´etection des fa¸cades et des zones d’occlusion et une contrainte qualitative sur le score de corr´elation obtenu lors de la mise en correspondance. Elles ont pour but de limiter les erreurs sur le MNS final produit. 3.2.1 Interpolation des points de la grille r´eguli`ere L’´etape de basculement repose sur une interpolation de l’´el´evation de chacun des points de la grille r´eguli`ere `a partir des trois points les plus proches formant un triangle autour du pixel consid´er´e, le syst`eme est illustr´e en figure 3.2. Ce triplet de point provient du nuage de points obtenu lors de la mise en correspondance et dont les coordonn´ees planim´etriques ont ´et´e calcul´ees grˆace aux mod`eles g´eom´etriques des images. Les pixels de l’espace image, consid´er´es par triplets, de coordonn´ees ligne l et colonne c tel que P I 1 = (l, c), P I 2 = (l, c+ 1) et P I 3 = (l + 1, c) correspondent alors `a des coordonn´ees x y et z dans l’espace terrain T tel que P E 1 = (x1, y1, z1), P E 2 = (x2, y2, z2) et P E 3 = (x3, y3, z3) (sommets des triangles noirs sur la figure 3.2). Si un point de la grille terrain r´eguli`ere (en rouge sur la figure 3.2) se situe `a l’int´erieur du triangle, les points de coordonn´ees P = (xP , yP , zP ) sont alors interpol´es par une interpolation lin´eaire `a partir des coordonn´ees des trois sommets du triangle P E 1 , P E 2 et P E 3 . 66CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ Figure 3.2 – Principe de parcours de la grille image maˆıtre pour l’interpolation des points de la grille r´eguli`ere. 3.2.2 Conditions au calcul de l’´el´evation d’un point Les images ayant ´et´e acquises avec un angle d’incidence pouvant ˆetre fort, deux difficult´es doivent ˆetre consid´er´ees : – les fa¸cades de bˆatiments, visibles sur l’image maˆıtre, g´en`erent plusieurs points d’´el´evations diff´erentes mais avec les mˆemes coordonn´ees planim´etriques, – les zones d’occlusion des images doivent ˆetre localis´ees afin de ne pas interpoler les points correspondants. Pour le premier cas, lors du calcul de l’´el´evation d’un point situ´e `a l’int´erieur d’un triangle d’interpolation tel que le point P de la figure 3.2, si il apparaˆıt qu’une ´el´evation a d´ej`a ´et´e d´etermin´ee `a ces mˆemes coordonn´ees planim´etriques, cela peut signifier que ce point appartient `a une fa¸cade de bˆatiment. En effet, le long d’une fa¸cade, les points poss`edent les mˆemes coordonn´ees planim´etriques mais des coordonn´ees altim´etriques diff´erentes. Dans ce cas, seul le point correspondant `a l’´el´evation maximum trouv´e doit ˆetre pris en compte, ceci afin de retrouver l’´el´evation la plus haute du bˆatiment (son toit). Cette technique de recherche de la plus haute ´el´evation d’un objet est connue sous le nom de Z-Buffer dans la litt´erature [69]. 673.2. DEVELOPPEMENT D’UNE M ´ ETHODE DE BASCULEMENT DES MNS SUR UNE ´ GRILLE GEOGRAPHIQUE R ´ EGULI ´ ERE ` Pour le second cas, les zones d’occlusion doivent ˆetre localis´ees afin de ne pas interpoler les points de ces zones ce qui entraˆınerait des erreurs. Dans ce but, nous avons mis en place une technique de d´etection des zones d’occlusion bas´ee sur leur localisation `a partir de l’analyse des angles d’acquisition (´el´evation et azimut) de l’image maˆıtre. La figure 3.3 illustre le principe de localisation utilis´e. Sur la figure 3.3, les points P E 1 , P E 2 et P E 3 repr´esentent les points dans l’espace terrain correspondant `a un triplet de pixels de l’image maˆıtre. Le point P correspond au point de la grille r´eguli`ere `a interpoler. Dans une premi`ere ´etape, les deux points du triplet de points correspondant `a l’´el´evation maximum et minimum dans le triangle sont d´etermin´es, si la diff´erence d’´el´evation Dh obtenue sur le triangle est inf´erieure `a 1 m (r´esolution altim´etrique des MNS), le point P de la grille terrain situ´e dans le triangle peut ˆetre calcul´e directement car le terrain est consid´er´e comme quasiment plat `a cet endroit. Si une diff´erence d’´el´evation plus importante est relev´ee, il est alors n´ecessaire de d´efinir si une zone d’occlusion est pr´esente `a cet endroit et quelle est son emprise afin de d´ecider si le triangle est viable pour le calcul d’un point. En premier lieu, on d´efinit le point le plus ´elev´e (P E 1 dans la figure 3.3) et le plus bas (point P E 3 ) du triplet de points. La droite DM reliant la projection de P E 1 , P E′ 1 sur le plan horizontal et le point P E 3 est calcul´ee. Cette droite repr´esente la distance au sol entre le point le plus haut et le point le plus bas. Puis, les angles d’azimut a et d’incidence i sont d´efinis pour le point P E 1 . On d´etermine alors la droite Di , projection sur le plan horizontal du vecteur d´efini dans l’espace par les angles d’azimut et d’incidence au point P E 1 . La droite Di repr´esente alors l’orientation et la longueur au sol de la zone d’occlusion. Le vecteur DM pr´ec´edemment obtenu est alors projet´e sur le vecteur Di en un vecteur Dx. Cette projection permet de situer le triplet de points consid´er´es en fonction de la zone d’occlusion, i.e si les vecteurs sont oppos´es le point peut ˆetre calcul´e car il n’y a pas de zone d’occlusion (sur l’image maˆıtre). Si les vecteurs sont dans le mˆeme sens et que Dx est plus grand que Resplani 2 , Resplani ´etant la r´esolution planim´etrique du MNS, alors le point ne peut pas ˆetre calcul´e car il 68CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ Figure 3.3 – Illustration du principe de l’interpolation d’une grille r´eguli`ere terrain `a partir des points obtenus dans la g´eom´etrie de l’image maˆıtre. se situe dans la zone d’occlusion de l’image maˆıtre. Ce principe permet la localisation rapide des zones d’occlusion qui pourront alors ˆetre prises en compte dans la suite des calculs. Enfin, une derni`ere contrainte sur le basculement consiste `a ne pas prendre en compte, dans le calcul, les pixels de la carte des ´el´evations dont le score de corr´elation final, obtenu lors de la mise en correspondance, est inf´erieur `a un certain seuil. L’objectif est ici de filtrer les points pour lesquels la corr´elation a ´echou´e, toujours afin de limiter les erreurs sur le MNS final. Ce seuil sur le score de corr´elation est d´efini ici `a 2σ, σ ´etant l’´ecart–type obtenu `a l’histogramme des scores de corr´elation. Cette valeur est g´en´eralement proche de 0, 45. La figure 3.4(b) illustre le r´esultat d’un basculement d’une carte des ´el´evations pr´esent´ee en figure 3.4(a) obtenue `a partir d’un couple d’images WorldView-1 `a 60 cm de r´esolution spatiale. Sur la carte bascul´ee, les pixels noirs repr´esentent les zones masqu´ees lors du basculement, que 693.2. DEVELOPPEMENT D’UNE M ´ ETHODE DE BASCULEMENT DES MNS SUR UNE ´ GRILLE GEOGRAPHIQUE R ´ EGULI ´ ERE ` (a) Carte des ´el´evations en g´eom´etrie image (b) Carte des ´el´evations en g´eom´etrie terrain Figure 3.4 – Illustration du r´esultat du basculement d’un MNS WorldView-1 `a partir de la carte des ´el´evations en g´eom´etrie image. 70CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ ce soit `a cause des zones d’occlusion de l’image maˆıtre ou d’un score de corr´elation trop faible. Il faut noter que lors de toutes les ´etapes suivantes de notre chaˆıne de traitements, ces points ne sont jamais interpol´es `a partir de leurs voisins. En effet, leur interpolation serait susceptible de produire des erreurs dans le MNS, erreurs pouvant se r´epercuter dans la carte finale de d´etection de changements. Cette technique de localisation des zones d’occlusion est bas´ee uniquement sur une analyse g´eom´etrique, post´erieure au calcul des ´el´evations par mise en correspondance. Son principal inconv´enient est de produire de nombreuses fausses zones d’occlusion. Ces erreurs proviennent le plus souvent d’erreurs de corr´elation dans la carte des ´el´evations originale. En effet, une erreur de corr´elation g´en`ere, par d´efinition, une ´el´evation erron´ee et donc souvent une variation d’´el´evation entre deux pixels voisins, qui ne repr´esente pas la r´ealit´e. Dans la m´ethode de d´etection des zones d’occlusion, cette variation est assimil´ee `a la pr´esence d’un bˆatiment et la zone `a proximit´e de la variation d’´el´evation est alors consid´er´ee comme une zone d’occlusion. Ainsi, de nombreux pixels du MNS bascul´es peuvent ˆetre masqu´es sans pour autant faire partie d’une zone d’occlusion. Sur des zones homog`enes de l’image, toit de bˆatiment large et lisse par exemple tel que celui du bˆatiment carr´e encercl´e dans la figure 3.4(a), on observe de nombreuses petites zones noires masqu´ees. Ces zones masqu´ees proviennent tr`es probablement de pixels dont le score de corr´elation se situait en dessous du seuil fix´e. Dans les sections et chapitres suivants, ces zones d’occlusion et de mauvaise corr´elation d´etect´ees et masqu´ees lors du basculement seront regroup´ees et cit´ees sous le terme de “masque du MNS“. Ce masque de MNS sera pris en compte lors de toutes les ´etapes suivantes de la chaˆıne de traitements. 713.3. AMELIORATION DES MNS : D ´ EVELOPPEMENT D’UNE M ´ ETHODE DE FUSION ´ DES MNS 3.3 Am´elioration des MNS : d´eveloppement d’une m´ethode de fusion des MNS 3.3.1 Erreurs des MNS asym´etriques Les figures 3.5(a) et 3.5(c) pr´esentent les r´esultats de deux MNS calcul´es `a partir du mˆeme couple st´er´eoscopique mais avec inversion des rˆoles maˆıtre et esclave de chaque image. Sur ces images, les pixels noirs repr´esentent les zones masqu´ees car appartenant `a des zones d’occlusion ou des zones de faible score de corr´elation, calcul´ees lors du basculement (section 3.2). De fa¸con g´en´erale, les deux MNS produits `a partir du mˆeme couple st´er´eoscopique sont tr`es similaires. On note, pour une zone de 2000 × 2000 pixels sur un couple d’image WorldView-1 acquis en 2008 sur la ville de Phoenix, une diff´erence moyenne de 0,004 m avec un ´ecart–type de 1,76 m. Cet ´ecart-type r´esulte typiquement du bruit provenant de mauvaises corr´elations ou de zones d’occlusion ayant g´en´er´e des erreurs lors de la mise en correspondance des images, erreurs ensuite r´epercut´ees sur les MNS bascul´es. On observe que, selon le MNS (et donc selon l’angle d’acquisition de l’image maˆıtre), les zones d’occlusion sont g´er´ees et masqu´ees plutˆot au sud (figure 3.5(a)) ou au nord (figure 3.5(c)) des bˆatiments. De plus, comme d´etaill´e pr´ec´edemment, certaines erreurs de corr´elation ont g´en´er´e des variations d’´el´evation dans la carte des ´el´evations qui ont elles–mˆemes g´en´er´e des occlusions virtuelles lors du basculement. Ces erreurs ´etant variables d’un MNS `a l’autre, les zones d’occlusion g´en´er´ees sont aussi variables entre les MNS. Enfin, des erreurs importantes de corr´elation sont visibles dans les MNS. Ces erreurs sont variables en amplitude et en localisation selon le MNS, elles sont notamment visibles `a proximit´e des bˆatiments et encercl´ees en rouge sur la figure 3.5(a). Afin d’obtenir un MNS coh´erent et le plus pr´ecis possible, la solution propos´ee est de calculer les deux cartes d’´el´evation provenant du mˆeme couple avec inversion des rˆoles maˆıtre et esclave des images puis de fusionner ces MNS, pr´ealablement bascul´es dans la mˆeme g´eom´etrie. L’objectif de cette fusion est de garder le maximum d’informations correctes provenant de l’un ou l’autre des MNS. 72CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ (a) MNS1, couple st´er´eoscopique WorldView-1 du 24/06/2008. (c) MNS2, couple st´er´eoscopique WorldView-1 du 24/06/2008. Figure 3.5 – MNS asym´etriques provenant du mˆeme couple d’images st´er´eoscopiques. 733.3. AMELIORATION DES MNS : D ´ EVELOPPEMENT D’UNE M ´ ETHODE DE FUSION ´ DES MNS 3.3.2 M´ethode de fusion des MNS asym´etriques Plusieurs techniques peuvent ˆetre employ´ees pour la fusion des deux MNS. Une technique consiste `a calculer, pour chaque pixel, la moyenne entre les deux valeurs obtenues. Si l’une des deux valeurs appartient `a un des masques de MNS calcul´es lors du basculement, alors le pixel du MNS final est lui–mˆeme enregistr´e dans le masque final du MNS. Ce masque final repr´esente alors l’union des deux masques g´en´er´es pour chaque MNS. Un r´esultat de cette fusion est pr´esent´e figure 3.6(c). Sur cette figure, les erreurs de corr´elation encercl´ees pr´ec´edemment n’ont pas ´et´es corrig´ees, on observe mˆeme que le MNS fusionn´e poss`ede toutes les erreurs provenant de chacun des MNS. De mˆeme, le masque final, union des deux masques des MNS est plus cons´equent que les masques de chacun des MNS. Cette fusion par la moyenne entraˆıne donc la perte qualitative et quantitative d’information par rapport `a chacun des MNS source. Afin de mieux prendre en compte les erreurs d’´el´evation de l’un ou l’autre des MNS tout en utilisant toute l’information spatiale correcte de chacun des MNS (c’est–`a–dire en limitant les erreurs et les zones masqu´ees), nous proposons de r´esoudre la fusion `a l’aide d’une contrainte de r´egularisation spatiale. La m´ethode propos´ee est bas´ee sur un probl`eme de labellisation permettant d’obtenir le MNS final : `a chaque pixel xi du MNS final est attribu´e un label m provenant du jeu de label M ∈ {MNS1, MNS2, Occlusion}. La valeur du pixel attribu´ee au MNS final est alors celle qui correspond au label s´electionn´e. Les labels MNS1 et MNS2 correspondent, pour chaque pixel, aux valeurs d’´el´evation calcul´ees lors de la g´en´eration de l’un ou l’autre MNS, tandis que le label Occlusion correspond `a un label occlusion, attribu´e au pixel lorsque aucune valeur de MNS ne paraˆıt coh´erente. Le choix d’un label, pour chacun des pixels du MNS final est effectu´e `a partir des diff´erentes donn´ees obtenues `a la g´en´eration des MNS. Ces donn´ees sont : – le Normalized Cross Correlation Coefficient, NCC(pr´esent´e en section 3.1.2 et d’´equation 3.3) obtenu lors de la mise en correspondance des images pour chacun des pixels (et r´e– ´echantillonn´e dans la mˆeme g´eom´etrie que le MNS lors de l’´etape de basculement, section 74CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ (a) MNS1. (b) MNS2. (c) R´esultat de la fusion des MNS par une moyenne et l’intersection des zones d’occlusion. Figure 3.6 – MNS provenant du mˆeme couple st´er´eoscopique et r´esultat de leur fusion par la moyenne. 753.3. AMELIORATION DES MNS : D ´ EVELOPPEMENT D’UNE M ´ ETHODE DE FUSION ´ DES MNS 3.2), – la diff´erence d’´el´evation obtenue entre les deux MNS pour le mˆeme pixel, – la r´egularisation spatiale qui d´epend de la variation d’altitude entre deux pixels cons´ecutifs dans le MNS final. Le NCC est une donn´ee importante qui permet ici de donner un indice de confiance `a l’altitude d´elivr´ee par chaque pixel de chacun des MNS : plus le NCC est important, plus la probabilit´e que la corr´elation soit correcte en ce pixel est ´elev´ee. La comparaison des NCC provenant de chaque MNS permet alors d’indiquer quelle valeur de MNS paraˆıt la plus pertinente. De mˆeme, la diff´erence obtenue entre les valeurs de MNS sur un mˆeme pixel permet de localiser des zones de mauvaise corr´elation ou d’occlusion. En effet, l’´el´evation obtenue en un pixel doit ˆetre sensiblement la mˆeme pour les deux MNS, une diff´erence d’´el´evation correspond alors g´en´eralement `a une erreur sur l’un ou les deux MNS. C’est le principe utilis´e par les techniques de back matching pour la d´etection des zones d’occlusion [49], [33]. Enfin, la pr´esence d’une contrainte de r´egularisation spatiale permet de lisser le MNS final. Comme d´etaill´e au chapitre 2, section 2.2.1, ce probl`eme de labellisation peut ˆetre r´esolu par une minimisation d’´energie dont l’algorithme est d´ecrit en section 2.2.3 et l’´equation g´en´erale est de type : E(n) = X x∈X Cdata(n(x)) + X (x′)∈V (x) Creg(n(x), n(x ′ )). (3.5) Nous rappelons que chaque MNS poss`ede d´ej`a son propre masque, calcul´e lors de l’´etape de basculement d´ecrit en section 3.2. Les pixels appartenant `a ce masque doivent alors ˆetre pris en compte lors du calcul du MNS final par fusion. Ainsi, la valeur de tous les pixels de chaque MNS et correspondant `a un masque est d´efinie `a −9999 lors de cette ´etape de fusion. Les valeurs correspondantes dans la carte des NCC sont, elles, d´efinies `a 0. Nous d´etaillerons tout au long de cette section, comment ces pixels sont pris en compte dans la fusion. Dans cette ´etape de fusion, la fonction d’attache aux donn´ees, CData(xi , m(xi)), pour les labels MNS1 et MNS2 d´epend du coefficient de corr´elation (NCC) obtenu `a la g´en´eration des 76CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ MNS : plus ce coefficient est important pour le label consid´er´e m au pixel xi , plus la probabilit´e du label est ´elev´ee en ce pixel. Concernant le label Occlusion, la fonction d’attache aux donn´ees d´epend du NCC maximum obtenu entre les deux NCC correspondant `a chacune des valeurs de MNS en pr´esence et de la diff´erence calcul´ee entre les deux valeurs de MNS au pixel xi . Ainsi, lorsque l’un ou les deux MNS obtiennent un score de corr´elation important, leur coˆut d’attache aux donn´ees est faible tandis que celui du label Occlusion est fort car il est calcul´e comme ´etant l’inverse du maximum de corr´elation obtenu. La probabilit´e du label Occlusion est donc faible au pixel xi . Le choix entre les labels MNS1 et MNS2 d´epend alors de chacun de leur coefficient de corr´elation et de la r´egularisation. Ce cas est repr´esent´e par un chemin de fl`eches vertes en larges pointill´es sur la figure 3.7. L’´equation 3.6 r´esume le calcul des attaches aux donn´ees pour chacun des labels : CData(xi , m(xi)) =    1 − NCC(xi , m(xi)) si m ∈ {MNS1, MNS2}, max[NCC(xi , MNS1), NCC(xi , MNS2)] + F1(xi) si m ∈ {Occlusion}. (3.6) Dans la fonction d’attache aux donn´ees du label Occlusion, la fonction F1(xi) correspond `a la valeur absolue de la diff´erence d’´el´evation relev´ee au pixel xi et normalis´ee entre 0 et 1 tel que : F1(xi) = 1 1 + e−L(|Z(xi,MNS1)−Z(xi,MNS2)|−t1) . (3.7) Le param`etre L est d´efini `a 1. Cette fonction, non lin´eaire, permet d’affecter un coˆut suffisamment faible pour les diff´erences sup´erieures `a un seuil t1 d´efini `a 5 m, diff´erences consid´er´ees ici comme importantes et donc pouvant provenir d’une occlusion. Des diff´erences plus faibles peuvent en revanche provenir d’une faible erreur sur l’un des MNS qui ne doit pas pour autant privil´egier le label Occlusion mais plutˆot le label MNS le plus pertinent, en particulier si le NCC correspondant est fort. C’est pourquoi le NCC maximum est int´egr´e dans la fonction d’attache aux donn´ees du label Occlusion : plus le maximum NCC est fort, plus la probabilit´e d’une occlusion est faible. Dans le cas o`u l’une des valeurs de MNS au pixel xi correspond au masque natif du MNS, 773.3. AMELIORATION DES MNS : D ´ EVELOPPEMENT D’UNE M ´ ETHODE DE FUSION ´ DES MNS par exemple pour le MNS2, on obtient : NCC(xi , MNS2) = 0 et MNS2(xi) = −9999, donc : CData(xi , MNS1) = 1 − NCC(x, MNS1), CData(xi , MNS2) = 1, CData(xi , Occlusion) = NCC(x, MNS1) + 0. (3.8) Le pixel xi peut alors ˆetre labellis´e MNS1 ou bien Occlusion selon la valeur de NCC obtenue en xi pour le MNS1. C’est le chemin repr´esent´e en fl`eches violettes et en petits pointill´es dans la figure 3.7. Dans le cas o`u les valeurs des deux MNS en xi appartiennent aux masques d’occlusion on obtient : CData(xi , MNS1) = 1, CData(xi , MNS2) = 1, CData(xi , Occlusion) = 1. (3.9) Dans ce cas particulier, la valeur du MNS final en xi est forc´ement ´egale `a 0 (puisque tous les labels en pr´esence correspondent `a une valeur `a 0) et le label s´electionn´e d´epend alors seulement du terme de r´egularisation. C’est le chemin repr´esent´e en fl`eches oranges et lignes pleines dans la figure 3.7. La fonction de r´egularisation est d´efinie telle que : CReg((xi , m(xi)),(xi+1, m(xi+1))) = C R, (3.10) avec C R le terme de r´egularisation qui d´epend de la diff´erence absolue entre les valeurs d’´el´evations Z(xi , m(xi)) et Z(xi+1, m(xi+1)) obtenues par les labels m pour deux pixels cons´ecutifs xi et xi+1. Ce terme est calcul´e ainsi : C R =    F2(| Z(xi , m(xi)) − Z(xi+1, m(xi+1)) |) si m(xi) et m(xi+1) ∈ {MNS1, MNS2}, β si m(xi) ∈ {MNS1, MNS2} et m(xi+1) ∈ {Occlusion}, γ si m(xi) ∈ {Occlusion}. (3.11) avec F2 d´efinie par : F2(| Z(xi , m(xi)) − Z(xi+1, m(xi+1)) |) = 1 1 + e−L(|Z(xi,m(xi))−Z(xi+1,m(xi+1))|−t2) . (3.12) 78CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ Le param`etre L est d´efini `a 1. La valeur t2 de la fonction F2 est ici pos´ee `a 2.5 m (valeur seuil utilis´ee dans la m´ethode de d´etection de changements). L’objectif de cette fonction est de normaliser les diff´erences d’´el´evations entre 0 et 1 afin que les valeurs de coˆut obtenues pour chaque label soient comparables entre elles. F2 est une fonction de r´egularisation entre deux labels de pixels cons´ecutifs et permet ainsi de lisser le MNS final car la valeur du label choisi est alors celle qui se rapproche le plus de la valeur voisine. L’utilisation d’une fonction sigmo¨ıde permet de donner des coˆuts similaires aux labels amenant des variations d’´el´evation proches et ainsi ´eviter une fonction seuil qui attribuerait des coˆuts ´egaux `a 0 ou 1 et orienterait alors trop fortement le choix final du label. Lors du calcul de la fonction de r´egularisation : – lorsque l’une des deux valeurs cons´ecutives appartient `a l’un des masques natifs des MNS, le coˆut calcul´e par la fonction F2 est alors proche de 1, coˆut ´elev´e permettant de limiter la probabilit´e de ce label, – lorsque les deux valeurs de pixels correspondent aux masques natifs des MNS, F2 est alors ´egal `a 0. Les coˆuts de labellisation sont alors similaires en ce pixel pour les deux MNS. Les variables β et γ correspondent `a des valeurs fix´ees `a une valeur moyenne de coˆut (β = 0.5 et γ = 0.5). Ces valeurs, tr`es lˆaches, permettent d’attribuer des coˆuts neutres aux labels consid´er´es, le coˆut final du label d´epend alors principalement de l’attache aux donn´ees. La figure 3.7 pr´esente un sch´ema r´ecapitulatif qui illustre l’orientation du choix de chacun des labels en fonction des donn´ees d’entr´ee (NCC et valeur de MNS) et des fonctions d’attache aux donn´ees utilis´ees. Sur la figure 3.7, les carr´es bleus clair indiquent les labels gagnants pour lesquels le coˆut attribu´e est le plus faible en fonction du calcul de l’attache aux donn´ees mais aussi en fonction de la r´egularisation. Les labels entour´es en rouge repr´esentent les labels impossibles pour chacun des cas d´ecrits. En pratique, il est `a noter que les fonctions d’attache aux donn´ees, de mˆeme que la r´egularisation, ne privil´egient que rarement le label Occlusion. Cette caract´eristique n’est cependant pas un inconv´enient puisque l’objectif est de diminuer les occlusions, et notamment 793.3. AMELIORATION DES MNS : D ´ EVELOPPEMENT D’UNE M ´ ETHODE DE FUSION ´ DES MNS les fausses occlusions provenant d’erreurs de corr´elation, et les pixels de faible NCC afin de privil´egier les valeurs correctes de chacun des MNS. De mˆeme, on note que des coˆuts tr`es similaires peuvent ˆetre affect´es aux deux labels MNS. Or, comme pr´ecis´e pr´ec´edemment, en de nombreux pixels des MNS, les ´el´evations calcul´ees sont tr`es proches car il n’y avait pas d’ambigu¨ıt´es dans la mise en correspondance. Dans ce cas, l’affectation de l’une ou l’autre valeur des MNS n’a pas d’impact r´eel sur le MNS final. La figure 3.8(c) pr´esente le r´esultat obtenu par la fusion par labellisation des deux MNS produits `a partir du mˆeme couple st´er´eoscopique. Bien que toujours globalement similaire aux MNS, ce r´esultat ne pr´esente plus les erreurs importantes de corr´elation encercl´ees pr´ec´edemment. Figure 3.7 – Sch´ema r´ecapitulatif de la proc´edure de fusion des MNS en fonction des valeurs initiales et de l’attache aux donn´ees. 80CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ (a) MNS1 (b) MNS2 (c) R´esultat de la fusion par optimisation avec r´egularisation spatiale. Figure 3.8 – 3.8(a) et 3.8(b) : MNS calcul´es `a partir du mˆeme couple st´er´eoscopique et r´esultats de leur fusion par optimisation globale 3.8(c). 813.4. QUALITE ET PR ´ ECISION DES MNS OBTENUS ´ Elles ont pu ˆetre supprim´ees grˆace `a cette m´ethode de fusion. De plus, les zones masqu´ees sont r´eduites par rapport `a la fusion par la moyenne pr´esent´ee en figure 3.6(c), permettant d’obtenir un r´esultat contenant une plus grande quantit´e d’informations car c’est la somme des informations pertinentes des MNS1 et MNS2. Enfin, il est `a noter que, bien que ces zones masqu´ees puissent ˆetre interpol´ees `a partir des valeurs qui les entourent, nous avons choisi de ne pas le faire afin de ne pas g´en´erer d’erreurs d’interpolation qui pourraient engendrer des erreurs dans la carte finale des changements d’´el´evation. Ces zones sont alors consid´er´ees comme des zones de “non–information” et prises en compte lors de la d´etection des changements d’´el´evation. 3.4 Qualit´e et pr´ecision des MNS obtenus Afin d’observer l’apport de la m´ethode de g´en´eration des MNS par fusion par rapport `a la g´en´eration de MNS asym´etriques par mise en correspondance simple, le MNS g´en´er´e sur la ville de Christchurch (Nouvelle-Z´elande) est compar´e avec une v´erit´e terrain obtenue avec un LiDAR. Ce LiDAR 1 a ´et´e acquis en 2011, ann´ee d’acquisition des images WorldView-2 sur la mˆeme zone (voir tableau 1.1, chapitre 1, section 1.4). La comparaison a ´et´e effectu´ee sur une zone commune entre le LiDAR et les MNS d’environ 2300 × 2600 pixels. 3.4.1 Co–localisation LiDAR et MNS Le LiDAR dont nous disposons a ´et´e r´e–´echantillonn´e `a 1 m de r´esolution spatiale. Comme discut´e dans le chapitre 2, section 2.1, les images ayant permis la g´en´eration des MNS ont ´et´e affin´ees simultan´ement permettant leur co–localisation pr´ecise entre elles et ainsi, la co–localisation pr´ecise entre les MNS. Cependant, cette co–localisation est effectu´ee en relatif et la localisation absolue des mod`eles n’est pas garantie. Ainsi, les MNS et le LiDAR ne peuvent ˆetre nativement co–localis´es (on observe des biais 1. Pour des raisons de confidentialit´e, le LiDAR et les informations associ´ees ne peuvent ˆetre pr´esent´es dans ce manuscrit. Nous nous excusons pour cette restriction aupr`es des lecteurs. 82CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ jusqu’`a 12 m en longitude et 25 m en latitude entre le MNS et le LiDAR). Afin de permettre la comparaison pr´ecise entre le LiDAR et les MNS, il est alors n´ecessaire de recaler ces donn´ees entre elles. Cette op´eration est effectu´ee de fa¸con classique, en prenant des points de liaison entre les donn´ees (ces points sont s´electionn´es au milieu des toits afin d’obtenir une meilleure pr´ecision). L’erreur r´esiduelle sur ces points est d’environ 0,7 pixels RMS (erreur moyenne quadratique). Puis, un mod`ele de d´eformation affine du MNS est calcul´e en fonction de ces points de liaison afin d’obtenir un MNS recal´e (au pixel pr`es) sur le LiDAR. 3.4.2 Crit`eres de qualit´e La comparaison entre le LiDAR et les MNS a ´et´e effectu´ee `a plusieurs niveaux : une diff´erence globale a ´et´e r´ealis´ee entre les donn´ees afin d’observer le bruit de ces derni`eres. Puis, une comparaison a ´et´e effectu´ee entre les zones masqu´ees des MNS afin d’observer les erreurs r´esiduelles sur ces zones et leurs diff´erences entre le MNS asym´etrique et le MNS fusionn´e. Enfin, la comparaison de profils s´electionn´es sur les diff´erentes donn´ees va permettre d’observer comment les structures telles que les bords de bˆatiments, les toits mais aussi les zones homog`enes sont g´er´ees dans les MNS. Diff´erence globale Dans un premier temps, l’image des diff´erences entre le LiDAR et le MNS asym´etrique (MNS obtenu `a partir de la g´eom´etrie image puis bascul´e dans un espace terrain)a ´et´e calcul´ee. La moyenne des diff´erences obtenue est d’environ −0, 4 m avec un ´ecart–type d’environ 3, 1 m. Cet ´ecart–type est particuli`erement important et illustre le bruit pr´esent dans le MNS. La diff´erence calcul´ee entre le MNS fusionn´e (par la technique d´ecrite en section 3.3) montre, elle, une moyenne d’environ −0, 25 m avec un ´ecart–type d’environ 2, 4 m. Ces valeurs, largement plus faibles que les r´esultats obtenus avec le MNS asym´etrique attestent que la proportion d’erreur a diminu´e sur le MNS fusionn´e. 833.4. QUALITE ET PR ´ ECISION DES MNS OBTENUS ´ Diff´erences entre les masques des MNS asym´etrique et fusionn´e Les zones masqu´ees sur le MNS asym´etrique et pas sur le MNS fusionn´e, ou inversement, repr´esentent les zones o`u la probabilit´e d’erreur est la plus forte. Dans la section 3.3, nous expliquons que la fusion de deux MNS g´en´er´es `a partir du mˆeme couple st´er´eoscopique, mais avec inversion des rˆoles maˆıtre et esclave, permet de prendre en compte les zones d’occlusion situ´ees sur les deux images du couple st´er´eoscopique. Cependant, nous avons pu noter, dans la section 3.2, que les erreurs de corr´elation g´en´er´ees lors de la mise en correspondance peuvent engendrer des fausses zones d’occlusion. Ainsi, le masque du MNS fusionn´e peut contenir des pixels faussement enregistr´es comme occlusion. La comparaison de la taille de ces masques donne une premi`ere id´ee sur la qualit´e des MNS et la pr´ecision des masques : en effet, on observe que 19,3% des pixels appartenant au MNS asym´etrique sont enregistr´es dans le masque, tandis que cette quantit´e baisse `a 15,5% pour le MNS fusionn´e. Cette diff´erence indique qu’une plus petite quantit´e de pixels a ´et´e enregistr´ee dans le masque du MNS fusionn´e. Ce ph´enom`ene est paradoxal puisque le MNS fusionn´e permet d’enregistrer les occlusions appartenant aux deux images du couple st´er´eoscopique au contraire du MNS asym´etrique. On peut donc en d´eduire que le masque du MNS fusionn´e est plus pr´ecis sur les zones d’occlusion et limite le nombre de pixels masqu´es. De plus, les masques des MNS prennent aussi en compte les scores de corr´elation les plus faibles obtenus lors de la mise en correspondance. Or, nous avons vu que la fusion des MNS permet de r´eduire le nombre de pixels masqu´es `a cause de ce seuil. En effet, lorsqu’un pixel est masqu´e dans l’un des MNS mais poss`ede un score de corr´elation suffisamment ´elev´e dans l’autre MNS tout en r´epondant `a la contrainte de r´egularisation, cette valeur de pixel est alors privil´egi´ee dans le MNS final plutˆot que la valeur masqu´ee. Ces contraintes de calcul sur le MNS final permettent ainsi de r´eduire les zones masqu´ees. Afin de comparer la qualit´e des masques des MNS asym´etrique et fusionn´e, tous les pixels enregistr´es dans un masque pour l’un des MNS et ayant une valeur d´efinie dans l’autre MNS, sont compar´es avec la v´erit´e LiDAR. 84CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ (a) Histogramme des diff´erences entre le LiDAR et les pixels masqu´es dans le MNS fusionn´e mais d´efinis dans le MNS asym´etrique (b) Histogramme des diff´erences entre le LiDAR et les pixels masqu´es dans le MNS asym´etrique mais d´efinis dans le MNS fusionn´e Figure 3.9 – 3.9(a) et 3.9(b) : Histogrammes des cartes de diff´erences calcul´ees entre le liDAR et le MNS asym´etrique et MNS fusionn´e, respectivement. L’histogramme pr´esent´e en figure 3.9(a) int`egre les pixels masqu´es dans le MNS fusionn´e et ayant une valeur d’´el´evation d´efinie dans le MNS asym´etrique. Ces pixels repr´esentent 11,9% de l’image. On observe une moyenne des diff´erences entre ces valeurs dans le MNS asym´etrique et le LiDAR de −2, 32 m avec un ´ecart–type de 6, 14 m. L’histogramme confirme cette tendance de fortes diff´erences entre ces valeurs et le LiDAR. Nous pouvons ainsi en d´eduire que ces valeurs d´efinies dans le MNS asym´etrique mais pas dans le MNS fusionn´e repr´esentent principalement des erreurs d’´el´evation du MNS asym´etrique. L’histogramme pr´esent´e en figure 3.9(b) correspond aux pixels masqu´es dans le MNS asym´etrique mais ayant une valeur d´efinie dans le MNS fusionn´e. On recense 8% des pixels de l’image appartenant `a cette cat´egorie. La diff´erence calcul´ee entre ces pixels appartenant au MNS fusionn´e et la v´erit´e LiDAR est en moyenne de −1, 1 m avec un ´ecart–type de 3, 9 m. Ces chiffres montrent un r´esultat bien meilleur sur ces pixels bien que des erreurs subsistent. Ce r´esultat indique qu’un grand nombre de ces pixels, recens´es dans le masque du MNS asym´etrique, poss´edaient en r´ealit´e une altitude d´efinie et correcte, car proche du LiDAR, dans l’autre MNS asym´etrique. Ces valeurs sont donc maintenant des valeurs correctes dans le MNS 853.4. QUALITE ET PR ´ ECISION DES MNS OBTENUS ´ fusionn´e. Cependant, certaines erreurs r´esiduelles pourraient ˆetre corrig´ees, par exemple, grˆace `a l’utilisation de plus de deux images st´er´eoscopiques afin d’am´eliorer la pr´ecision de ce masque. Comparaison de profils d’´el´evation Les figures 3.10(a) et 3.10(b) permettent de comparer des profils d’´el´evation obtenus entre le LiDAR, le MNS asym´etrique et le MNS fusionn´e. Ce profil, qui s’´etend sur une distance de 1000 m (la r´esolution spatiale des pixels ´etant de 1 m), montre de nombreux bˆatiments, de hauteurs variables entre 4 et 9 m environ. Globalement, les profils des MNS asym´etrique et fusionn´e suivent la tendance du profil LiDAR, on observe cependant un biais entre le LiDAR et les MNS, ces derniers pr´esentent en effet une altitude plus faible de plusieurs dizaine de centim`etres d’apr`es la zone basse entre 1900 m et 2100 m. Ce biais est aussi visible sur les bˆatiments situ´es entre 1800 m et 1900 m. Ce biais reste n´eanmoins dans la r´esolution altim´etrique donn´ee pour les MNS qui est de 1 m. On observe, malgr´e le bruit pr´esent sur les MNS, que le toit gondol´e du bˆatiment situ´e entre 2100 m et 2200 m est particuli`erement bien rendu dans les deux MNS. De mˆeme, les bˆatiments, pourtant proches les uns des autres entre 1700 m et 1800 m apparaissent tr`es bien d´emarqu´es. On note que le MNS asym´etrique semble g´en´erer un bruit plus important, avec de plus fortes variations d’´el´evations, que celui g´en´er´e par le MNS fusionn´e. Les bords de bˆatiment (correspondant `a des zones d’occlusion) sont aussi mieux g´er´es par le MNS fusionn´e. En effet, on observe, notamment pour les bˆatiments entre 2100 m et 2300 m, que le MNS asym´etrique a tendance `a ´elargir les bˆatiments et `a g´en´erer des ´el´evations tr`es fortes aux abords des bˆatiments. Ce ph´enom`ene est corrig´e dans le MNS fusionn´e dans lequel tous les bords de bˆatiments sont supprim´es car consid´er´es comme des zones d’occlusion. Ce comportement montre l’int´erˆet de g´erer les zones d’occlusion dans les MNS puisque des bords de bˆatiments ´elargis sont de fortes sources de fausses alarmes dans la carte finale des changements. 86CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ (a) Comparaison des profils LiDAR et MNS asym´etrique. (b) Comparaison des profils LiDAR et MNS fusionn´e. Figure 3.10 – Profils d’´el´evation compar´es entre le MNS asym´etrique (en vert), le MNS fusionn´e (en bleu) et le Lidar (en rouge). 3.5 Application au cas de la multi–st´er´eoscopie L’algorithme que nous avons d´evelopp´e pr´ec´edemment permet le calcul d’un MNS pr´ecis `a partir d’un couple st´er´eoscopique. Or, les nouveaux satellites tels que Pl´eiades permettent aujourd’hui l’acquisition d’images en n–uplet st´er´eoscopiques, avec n ∈ [2 : 25] pour Pl´eiades. Chaque image est alors acquise avec un angle d’incidence et d’azimut diff´erent. Dans ce cas, il est n´ecessaire de prendre en compte tout ou partie des images produites pour le calcul d’un MNS. L’algorithme de fusion des MNS est alors une solution int´eressante pour g´erer les n-uplets st´er´eoscopiques. 873.5. APPLICATION AU CAS DE LA MULTI–STER´ EOSCOPIE ´ Dans ce contexte, la solution propos´ee est la cr´eation de tous les MNS possibles provenant de la mise en correspondance de toutes les images 2 `a 2 avec inversion des rˆoles maˆıtre et esclave et la fusion de tous les MNS obtenus afin de calculer un MNS final. Pour un n–uplet st´er´eoscopique, le nombre de MNS `a g´en´erer est alors de NMNS = n ∗ (n − 1). Le nombre de labels pr´esents dans la fusion est ensuite ´egal au nombre total des MNS g´en´er´es, additionn´e du label Occlusion. Dans le calcul de la fusion, effectu´e selon l’algorithme d´ecrit pr´ec´edemment, la seule diff´erence notable est le calcul de l’attache aux donn´ees pour le label Occlusion (´equation 3.6). Dans le cas de la st´er´eoscopie simple, il est n´ecessaire de calculer la diff´erence entre les deux valeurs de MNS obtenues au mˆeme pixel xi . Dans le cas de la multi–st´er´eoscopie, le nombre de MNS en jeu ´etant sup´erieur `a 2, toutes les diff´erences entre les MNS g´en´er´es sont calcul´ees et l’attache aux donn´ees est alors fonction de la diff´erence minimale obtenue (en dehors des diff´erences ´egales `a 0 qui proviennent de la diff´erence entre deux masques de MNS). Ce choix d’utiliser la diff´erence minimum est orient´e par le fait qu’en un pixel, les valeurs de MNS doivent ˆetre similaires. Ainsi, plus des valeurs seront proches, plus la probabilit´e que les valeurs de MNS soient pertinentes est ´elev´ee. La figure 3.12 pr´esente le r´esultat du calcul d’un MNS `a partir de deux images d’un triplet st´er´eoscopique 3.12(a) et des trois images du triplet 3.12(b). Ce triplet d’images Pl´eiades a ´et´e acquis sur la ville de Toulouse en mai 2012 (figure 3.11(a)). La figure 3.11(b) permet de montrer les conditions d’acquisition de ce triplet. Dans cette figure, la position d’un point sur le p´erim`etre du cercle repr´esente l’angle d’azimut de l’acquisition de l’image consid´er´ee tandis que la position sur le rayon du cercle repr´esente l’angle d’incidence de l’acquisition. Selon cette figure, on observe que le triplet st´er´eoscopique a ´et´e acquis avec un angle d’incidence assez ´elev´e (environ 25˚) et selon un seul passage du satellite. Ce syst`eme d’acquisition n’apparaˆıt pas id´eal pour limiter les zones d’occlusion puisque les angles azimutaux des trois images sont particuli`erement proches entre eux. En effet, le MNS calcul´e `a partir de deux images contient de nombreuses zones masqu´ees `a cause des nombreuses zones d’occlusion, particuli`erement importantes du fait des angles d’acquisition des images, mais aussi des erreurs de corr´elation (sur les toits de bˆatiments, par exemple). Tandis 88CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ (a) Partie d’une image panchromatique du triplet st´er´eoscopique Pl´eiades acquis sur la ville de Toulouse le 07/05/2012. (b) Illustration de la g´eom´etrie d’acquisition du triplet st´er´eoscopique. Figure 3.11 – Illustration du triplet st´er´eoscopique Pl´eiades acquis sur la ville de Toulouse. 893.5. APPLICATION AU CAS DE LA MULTI–STER´ EOSCOPIE ´ (a) Toulouse, MNS fusionn´e `a partir d’un couple st´er´eoscopique. (b) Toulouse, MNS fusionn´e `a partir d’un triplet st´er´eoscopique. Figure 3.12 – MNS calcul´es `a partir de 2 images puis 3 images du mˆeme uplet st´er´eoscopique. 90CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´ GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´ que le MNS tri-st´er´eoscopiques apparaˆıt beaucoup plus lisse et seules les vraies zones d’occlusion (zones vues par aucune des images), situ´ees, comme attendues, au nord–ouest des bˆatiments, sont masqu´ees. De fa¸con quantitative, on observe que sur le MNS form´e `a partir de deux images st´er´eoscopiques, 19,2% des valeurs du MNS appartiennent au masque tandis que sur le MNS obtenu avec le triplet st´er´eoscopique complet, seule 8,3% des valeurs appartiennent au masque. Ce r´esultat montre l’apport de la multi–st´er´eoscopie pour la g´en´eration des MNS, mˆeme lorsque les conditions d’acquisition st´er´eoscopiques ne sont pas id´eales, c’est–`a–dire que les images ne sont pas acquises selon des angles d’azimut tr`es diff´erents. Cette comparaison permet de d´emontrer non seulement la capacit´e de la m´ethode pour la multi–st´er´eoscopie mais aussi le fort int´erˆet de la multi-st´er´eoscopie pour la pr´ecision des MNS. 3.6 Conclusion La m´ethode de g´en´eration d´evelopp´ee dans notre chaˆıne de traitements est bas´ee sur trois ´etapes de calcul. La premi`ere est la mise en correspondance des images, selon une g´eom´etrie image et donc bas´ee sur le calcul de l’´el´evation de tous les points d’une image maˆıtre, calcul effectu´e par l’outil MicMac. La seconde ´etape est le basculement des ´el´evations, de la g´eom´etrie image `a une g´eom´etrie terrain d´efinie. Cette op´eration, d´evelopp´ee au cours de cette th`ese, a permis de mettre en place une meilleure gestion des points terrain situ´es dans des zones d’occlusion de l’image maˆıtre, et de filtrer les points dont le score de corr´elation est particuli`erement bas. Cette technique de mise en correspondance ´etant asym´etrique, les erreurs dues notamment aux zones d’occlusion de l’image esclave ne sont pas prises en compte. La troisi`eme ´etape de calcul a donc pour objectif de g´en´erer un MNS final dans lequel les zones d’occlusion appartenant `a l’une ou l’autre des images du couple sont prises en compte tout en limitant les erreurs ponctuelles de corr´elation pr´esentes sur l’un des MNS seulement. Pour cela, la mise en correspondance est r´ealis´ee deux fois, avec inversion des images maˆıtre et esclave et les MNS obtenus sont fusionn´es selon une technique formul´ee comme un probl`eme de labellisation dans lequel les labels de chaque pixel correspondent aux valeurs de chacun des MNS en pr´esence ou `a un label occlusion. Ce probl`eme est alors r´esolu `a partir de l’algorithme de programmation dynamique impl´ement´e, dont les fonctions de coˆuts ont ´et´e adapt´ees afin de privil´egier les meilleurs coefficients de corr´elation 913.6. CONCLUSION obtenus et les valeurs permettant de lisser les variations du MNS final. Tous les param`etres et seuils de la m´ethode compl`ete de g´en´eration des MNS sont r´esum´es dans le tableau 3.1. La comparaison des MNS r´esultats avec un LiDAR acquis sur la mˆeme zone a permis de pr´esenter l’apport de cette fusion de MNS par rapport `a un MNS asym´etrique, notamment envers les zones d’occlusion ou les zones de mauvaise corr´elation. Enfin, nous avons montr´e que cette m´ethode et l’algorithme d´evelopp´e ´etaient parfaitement adaptables au cas de la multi–st´er´eoscopie quels que soient les angles d’acquisition des images. Etape Param`etre impact sur le r´esultat Valeur recommand´ee MicMac R´egularisation Impact important D´epend de la zone trait´ee : des MNS sur les variations du MNS en milieu urbain λ = 0.02 Nombre de direction Impact mod´er´e d`es 12 directions de calcul 12 directions Basculement R´esolution de la grille Impact sur la r´esolution 2 fois la r´esolution terrain du MNS du r´esultat native des images Seuil sur le score de Impact sur la qualit´e du 2σ corr´elation MNS r´esultat Fusion Seuil t1 Impact sur la quantit´e D´epend des scores de corr´elation de pixels d´efinis en label occlusion obtenus t1 5 m Seuil t2 Impact faible D´efini `a 2,5 m sur la r´egularisation du MNS β et γ Impact faible D´efinies arbitrairement `a 0,5 Nombre de directions Impact tr`es mod´er´e G´en´eralement pos´e `a 12 de calcul sur le r´esultat R´egularisation Impact mod´er´e D´efini exp´erimentalement `a 5,0 sur la r´egularisation du MNS Table 3.1 – Tableau de synth`ese des param`etres de la m´ethode compl`ete de g´en´eration des MNS. 92Chapitre 4 D´eveloppement d’une m´ethode de d´etection des changements d’´el´evation La derni`ere ´etape de la chaˆıne de traitements, d´evelopp´ee au cours de cette th`ese, consiste `a d´etecter les changements d’´el´evation r´eels et pertinents de la sc`ene. Dans un contexte urbain, ces changements correspondent `a toutes les constructions, destructions ou modifications de bˆatiments ou d’infrastructures apparues entre les deux dates d’int´erˆet. La m´ethode employ´ee pour la d´etection de changement est bas´ee sur l’analyse de la diff´erence des MNS obtenus pour les dates t1 et t2. Cependant, `a la diff´erence de Tian [26] qui filtre le MNS diff´erentiel `a partir d’op´erations morphologiques et de connaissances a priori sur les tailles et formes des objets recherch´es, notre analyse est bas´ee sur une classification par une m´ethode d’optimisation semi–globale des pixels de l’image. Dans cette section, nous pr´esenterons tout d’abord l’int´erˆet du filtrage du MNS diff´erentiel pour la mise en ´evidence des changements d’´el´evation puis nous d´etaillerons la m´ethode que nous avons d´evelopp´ee afin de mettre en ´evidence les changements les plus pertinents. 934.1. CALCUL ET ANALYSE DU MNS DIFFERENTIEL ´ 4.1 Calcul et analyse du MNS diff´erentiel Comme d´ecrit dans le sch´ema global de la chaˆıne de traitements (chapitre 1, section 1.3, figure 1.2), une fois les MNS g´en´er´es pour les dates t1 et t2, leur diff´erence dMNS est calcul´ee telle que : dMNS = MNSt2 − MNSt1 . (4.1) Ainsi, les constructions apparues entre t1 et t2 apparaissent avec des pixels de valeurs positives sur le MNS diff´erentiel tandis que les destructions correspondent `a des valeurs n´egatives. L’union des zones masqu´ees de chacun des MNS, sont, quant `a elles d´efinies `a z´ero dans le MNS diff´erentiel. Cependant, certaines erreurs r´esiduelles de corr´elation restent attach´ees `a chacun des MNS, comme nous l’avons illustr´e dans le chapitre 3, section 3.4 lors de la comparaison avec la v´erit´e LiDAR et ce, malgr´e l’am´elioration de la pr´ecision des MNS. Ces erreurs de corr´elation proviennent le plus souvent de la mise en correspondance sur des zones difficiles telles que : – les structures 3D complexes comme celles de la v´eg´etation, – les zones homog`enes ou tr`es p´eriodiques, – les bords de bˆatiments, – les cibles mobiles, – les zones d’occlusion. Or, toute erreur dans un des MNS peut g´en´erer une diff´erence d’´el´evation potentiellement importante dans le MNS diff´erentiel et ainsi provoquer une fausse d´etection dans la carte finale des changements. La seule segmentation du MNS diff´erentiel ne permet donc pas de mettre en ´evidence les changements pertinents d’´el´evation dans le bˆati car le nombre d’alarmes de d´etection provenant des erreurs du MNS est alors trop grand. Les figures 4.1(a) et 4.1(b) repr´esentent les MNS obtenus sur la ville de Phoenix aux dates t1 = 2008 et t2 = 2011. La figure 4.2(a) montre le MNS diff´erentiel calcul´e `a partir de ces deux MNS. Enfin, la figure 4.2(b) pr´esente un exemple de seuillage du MNS diff´erentiel. Sur cet exemple toutes les diff´erences d’´el´evation inf´erieures `a -2,5 m sont repr´esent´ees en rouge et celle sup´erieures `a 2,5 m, en bleu. 94CHAPITRE 4. DEVELOPPEMENT D’UNE M ´ ETHODE DE D ´ ETECTION DES ´ CHANGEMENTS D’EL´ EVATION ´ (a) MNS ombr´e calcul´e `a partir des images WorldView-1 de 2008. (b) MNS ombr´e calcul´e `a partir des images WorldView-1 de 2011. Figure 4.1 – 4.1(a) et 4.1(b) MNS de 2008 et 2011 calcul´es sur la zone 1 d´efinie sur la ville de Phoenix. 954.1. CALCUL ET ANALYSE DU MNS DIFFERENTIEL ´ (a) MNS diff´erentiel calcul´e `a partir des MNS 2008 et 2011. (b) MNS diff´erentiel segment´e `a 2,5 m (changements positifs en bleus) et `a -2,5 m (changements n´egatifs en rouge). Figure 4.2 – 4.2(a) MNS diff´erentiel. 4.2(b) MNS diff´erentiel seuill´e. 96CHAPITRE 4. DEVELOPPEMENT D’UNE M ´ ETHODE DE D ´ ETECTION DES ´ CHANGEMENTS D’EL´ EVATION ´ Notons que ce seuil `a 2,5 m repr´esente le seuil que nous utiliserons pour toutes les d´etections de changements effectu´ees `a partir des MNS calcul´es `a 1 m de r´esolution altim´etrique et planim´etrique. Ce seuil correspond `a la hauteur standard d’un ´etage de bˆatiment et paraˆıt tout `a fait adapt´e pour la r´esolution des MNS (1 m de r´esolution altim´etrique et planim´etrique). Sur cette figure, de tr`es nombreuses alarmes de changements sont visibles. Ces alarmes de changements, souvent repr´esent´ees par quelques pixels, sont r´eparties sur toute l’image. Les changements r´eels et pertinents du bˆati sont pourtant ais´ement rep´erables (pour les plus importants) sur la carte seuill´ee. En effet, ces changements sont g´en´eralement repr´esent´es par des amas de pixels, homog`enes spatialement et bien d´elimit´es contrairement au bruit. C’est pourquoi, nous avons choisi de mettre en ´evidence ces changements pertinents `a partir d’une technique de classification r´esolue `a travers une optimisation globale du MNS diff´erentiel, associ´ee `a une contrainte de r´egularisation spatiale. Cette technique permet en effet de prendre en compte la coh´erence locale du MNS diff´erentiel afin d’´eliminer le bruit tout en conservant les changements coh´erents du bˆati. 4.2 M´ethode de d´etection des changements La m´ethode choisie pour la d´etection des changements d’´el´evation consiste en une classification des pixels du MNS diff´erentiel. A chaque pixel est attribu´e un label ` r provenant du jeu de labels R et qui correspond `a un changement positif (construction), `a un changement n´egatif (destruction) ou `a un non–changement, en fonction de sa valeur mais aussi de celle des ses voisins afin de satisfaire la contrainte de r´egularisation spatiale (R ∈ {Changementpositif, Changementngatif, Nonchangement}). Ce probl`eme s’apparente alors aux probl`emes d’optimisations globales, introduits dans le chapitre 2.2, et r´esolus `a partir de l’´equation g´en´erale 2.2.3. La fonction d’attache aux donn´ees utilis´ee dans cette optimisation, CData(xi , r(xi)), correspond au coˆut pour attribuer un label r au pixel xi du MNS diff´erentiel, i ´etant la valeur de 974.2. METHODE DE D ´ ETECTION DES CHANGEMENTS ´ diff´erence d’´el´evation au pixel xi . Ce coˆut, pour chaque label, d´epend de la valeur de diff´erence d’´el´evation obtenue dans le MNS diff´erentiel et normalis´ee par une fonction sigmo¨ıde (repr´esent´ee en figure 4.3). Il est d´efini par : CData(xi , r(xi)) =    1 1+exp−L(|i|−T ) si r(xi) = {non changement}, 1 − 1 1+exp−L(i−T ) si r(xi) = {changement positif}, 1 − 1 1+exp−L(−i−T ) si r(xi) = {changement n´egatif}. (4.2) Dans l’´equation 4.2, le param`etre T est fix´e `a 2,5 m, seuil de la d´etection de changements d´efini pr´ec´edemment. La normalisation des valeurs du MNS diff´erentiel dans la fonction d’attache aux donn´ees permet de rendre comparable entre eux les coˆuts obtenus par un pixel et pour chaque label. Si de nombreuses techniques permettent la normalisation des valeurs, nous avons choisi une fonction sigmo¨ıde qui permet un seuillage ”flexible” des coˆuts de chacun des labels selon la valeur du pixel. En effet, une fonction concave (ou “marche”) calculerait un coˆut `a 0 ou `a 1 sans aucun interm´ediaire pour chaque label, une fonction lin´eaire, au contraire, ne serait pas suffisamment d´eterminante pour des valeurs de pixels trop diff´erentes du seuil fix´e. Tandis que la fonction sigmo¨ıde permet un seuillage plus doux. Le param`etre L est li´e `a la courbure de la fonction sigmo¨ıde. La figure 4.3 pr´esente diff´erentes sigmo¨ıdes calcul´ees avec des valeurs de L allant de L = 1, 0 `a L = 4, 0. D’apr`es cette figure, on observe que la valeur de L s´electionn´ee permet d’obtenir des coˆuts diff´erents de 0 et 1 pour des valeurs de diff´erence d’´el´evation situ´ees entre 0,5 m et 4,5 m tandis qu’une valeur de L plus forte telle que L = 4, 0 restreint ce seuillage `a des valeurs de diff´erences entre 1,0 m et 4,0 m. Au contraire, une valeur de L plus faible n’est pas suffisamment restrictive car on observe alors des valeurs de coˆut encore importantes (et donc une probabilit´e plus faible de changements positifs) pour une diff´erence d’´el´evation de 4,0 m qui est pourtant une diff´erence d’´el´evation non n´egligeable. Le param`etre L a ainsi ´et´e choisi `a L = 3, 0, cette valeur paraˆıt plus adapt´ee aux diff´erences d’´el´evation recherch´ees. 98CHAPITRE 4. DEVELOPPEMENT D’UNE M ´ ETHODE DE D ´ ETECTION DES ´ CHANGEMENTS D’EL´ EVATION ´ Figure 4.3 – Fonction sigmo¨ıde permettant le calcul des coˆuts d’attache aux donn´ees pour le label changement positif. Les quatre courbes illustrent les r´esultats pour diff´erentes valeurs de L utilis´ees. Il faut noter cependant que l’impact de L sur le r´esultat final est plutˆot faible. Nous rappelons que tous les pixels appartenant `a l’un ou l’autre des masques des MNS g´en´er´es `a t1 et t2 sont d´efinis `a z´ero dans le MNS diff´erentiel. Leur probabilit´e de changement est donc fix´ee `a z´ero tandis que leur probabilit´e de non–changement est tr`es ´elev´ee. Le label de ces pixels n’est cependant pas fix´e de fa¸con d´efinitive, ainsi, selon la r´egularisation employ´ee et le voisinage de ces pixels, leur labellisation en changement est autoris´ee si les conditions sont favorables. Le terme de r´egularisation, CReg((xi , r(xi)),(xi+1, r(xi+1))) correspond `a un coˆut de transition seulement et calcul´e selon le mod`ele de Potts [68]. Ce terme d´epend ainsi de la variation de labels entre deux pixels cons´ecutifs xi et xi+1 de la s´equence. Il est d´efini par : C T ((xi , r(xi)),(xi+1, r(xi+1))) =    0 si r(xi) = r(xi+1) 1 si r(xi) 6= r(xi+1) (4.3) Enfin, le param`etre λ repr´esente, dans ce contexte, une variable particuli`erement importante puisqu’elle d´efinit le poids accord´e `a la fonction de r´egularisation par rapport `a celui de la 994.3. CONCLUSION fonction d’attache aux donn´ees. Plus cette valeur est ´elev´ee, plus la contrainte de r´egularisation sera importante et aura tendance `a supprimer les variations fines de labels et donc les alarmes de changements les plus petites spatialement et inversement. Le param`etre λ permet alors le contrˆole de l’´equilibre entre la pr´ecision de la d´etection et la sensibilit´e aux changements r´eels de la sc`ene. 4.3 Conclusion La m´ethode d’analyse du MNS diff´erentiel que nous avons d´evelopp´ee est bas´ee sur la classification des pixels selon des labels changements positifs, changements n´egatifs ou non–changement en fonction de la valeur du pixel et de son voisinage, pris en compte `a travers une contrainte de r´egularisation spatiale. Les param`etres de la m´ethode sont d´ecrits dans le tableau 4.1. Cette m´ethode de filtrage global permet ainsi le contrˆole de la pr´ecision et de la sensibilit´e du r´esultat grˆace au param`etre de r´egularisation λ, contrˆole d’autant plus important qu’il va permettre `a l’utilisateur de moduler le r´esultat en fonction des changements recherch´es. Les r´esultats obtenus par cette m´ethode de d´etection des changements d’´el´evation et selon diff´erents param`etres seront analys´es dans la section 5 Param`etre impact Valeur Seuil T Impact important D´epend de la r´esolution alti. du MNS sur la hauteur des changements d´etect´es pour 1 m : seuil = 2,5 m R´egularisation Impact important sur la pr´ecision D´epend des r´esultats recherch´es et sensibilit´e du r´esultat g´en´eralement entre 2 et 7 Directions Impact mod´er´e sur le r´esultat G´en´eralement pos´ee `a 12 Courbure L Impact n´egligeable D´epend du seuil en ´el´evation des changements recherch´es Table 4.1 – Tableau de synth`ese des param`etres n´ecessaires `a la m´ethode de d´etection des changements d’´el´evation. 100Chapitre 5 Exp´erimentation et discussion des r´esultats de la m´ethode de d´etection des changements d’´el´evation Afin d’analyser les performances de la m´ethode de d´etection des changements, trois sites sont analys´es `a travers la pr´ecision de la m´ethode (quantit´e de fausses alarmes d´etect´ees par rapport au nombre total de d´etections) et sa sensibilit´e, aussi appel´ee rappel, (quantit´e de bonnes d´etections retrouv´ees par rapport au nombre total de changements de la sc`ene). Les deux premiers sites sont repr´esent´es par plusieurs zones choisies sur les villes de Phoenix (Arizona, USA) et de Christchurch (Nouvelle–Z´elande), villes dynamiques `a d´eveloppement continu. Le troisi`eme site se trouve dans la r´egion de Tohoku (Japon), et plus particuli`erement sur la ville de Sendai. Cette zone, qui a ´et´e d´evast´ee par une catastrophe majeure, permet en effet d’analyser les r´esultats de la m´ethode dans un contexte de crise. 1015.1. PRESENTATION DES ZONES DE TEST ´ 5.1 Pr´esentation des zones de test 5.1.1 Phoenix Sur la ville de Phoenix, deux couples st´er´eoscopiques ont ´et´e acquis en 2008 et 2011 par le capteur WorldView-1 (cf. tableau 1.1, chapitre 1, section 1.4). Trois zones d’´etudes ont ´et´e d´efinies `a partir de ces images. Ces zones, d’une taille de 2000 × 2000 pixels ont ´et´e s´electionn´ees sur l’image en fonction du nombre de changements qui ont ´et´e retrouv´es mais aussi en fonction de la vari´et´e de bˆatiments et infrastructures qu’elles contiennent. Les figures 5.1(a), 5.1(b) et 5.1(c) repr´esentent ces diff´erentes zones. La zone 1 (figure 5.1(a)) comprend de petits pavillons r´esidentiels, de nombreux parcs ainsi que des quartiers d’affaires. La zone 2 (figure 5.1(b)) contient plutˆot des quartiers d’affaires avec quelques tr`es hauts bˆatiments. Enfin, la zone 3 (figure 5.1(c)) pr´esente plutˆot des zones industrielles. Sur ces zones, on note aussi la pr´esence d’autoroutes avec de nombreux v´ehicules mobiles, de la v´eg´etation, ou encore des pavillons tr`es proches les uns des autres. Tous ces ´el´ements repr´esentent des sources d’erreurs potentiellement importantes pour les MNS, qui se r´epercutent dans la d´etection de changements. Ces diff´erentes difficult´es permettent ainsi de tester au mieux les performances de notre chaˆıne de traitements. Aucune v´erit´e terrain de type cadastrale n’´etant disponible sur la ville de Phoenix, une carte de r´ef´erence a ´et´e g´en´er´ee manuellement pour chacune des trois zones d’´etude. Plus pr´ecis´ement, cette carte a ´et´e cr´e´ee par comparaison visuelle entre les images acquises aux dates t1 et t2. Tous les changements du bˆati visibles ont ´et´e rep´er´es et localis´es dans cette carte de r´ef´erence, qu’ils soient de quelques m`etres carr´es (taille d’un conteneur) ou de plusieurs centaines de m`etres carr´es (bˆatiment industriel). Cependant, afin de mieux analyser les r´esultats, les changements ont ´et´e divis´es en deux cat´egories : les changements sup´erieurs ou ´egaux `a 15×15 pixels, soit 100 m2 pour des images `a 60 cm de r´esolution, et tous les changements de l’image. Ce seuil repr´esente la taille g´en´eralement d´etectable par les m´ethodes de d´etection de changements sur des images tr`es haute r´esolution d´ecrites par ailleurs [26]. Or, l’analyse des performances de la m´ethode lorsque toutes les tailles 102CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ (a) Illustration de la zone #1 de Phoenix. (b) Illustration de la zone #2 de Phoenix. (c) Illustration de la zone #3 de Phoenix. (d) Illustration de la zone de Christchurch. Figure 5.1 – Orthoimages provenant des images panchromatiques WorldView–1 repr´esentant les trois zones test´ees sur la ville de Phoenix et la zone de Christchurch. 1035.1. PRESENTATION DES ZONES DE TEST ´ (a) Orthoimage WorldView-1, 2008, Phoenix zone 1. (b) Donn´ee de r´ef´erence. En vert les changements de taille > 100 m2 , en noir les changements inf´erieurs `a 100 m2 Figure 5.2 – 5.2(a)Orthoimage calcul´ee et 5.2(b) donn´ee de r´ef´erence des changements de la zone 1 de Phoenix. de changements sont recherch´ees permet de mieux appr´ehender les limites de la m´ethode. Au cours de ces analyses de sensibilit´e, nous parlerons plutˆot de ce seuil `a 100 m2 mais nous pr´ecisons que ce seuil d´epend avant tout de la r´esolution des images native. Pour des images haute r´esolution `a 2 m, ce seuil serait calcul´e `a 15×15 pixels soit 300m2 . Finalement, sur la zone 1 de Phoenix, 126 changements de toutes tailles ont ´et´e recens´es dont 55 changements sup´erieurs `a 100 m2 (figure 5.2(b)). Sur la zone 2 de Phoenix, 71 changements ont ´et´e recens´es dont 22 larges changements. Enfin, sur la zone 3, 138 changements ont ´et´e retrouv´es dont 34 sup´erieurs `a 100 m2 . 5.1.2 Christchurch Sur la ville de Christchurch, en Nouvelle-Z´elande, nous disposons de deux acquisitions st´er´eoscopiques de 2009 et 2011 (cf. tableau 1.1, chapitre 1, section 1.4). A ces donn´ees s’ajoutent deux acquisitions LiDAR de 2010 et 2011. La zone commune aux donn´ees optiques et LiDAR a ´et´e s´electionn´ee pour tester la m´ethode de d´etection de changement. Cette zone, d’une superficie de 1200 km2 environ, est repr´esent´ee en figure 5.1(d). 104CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ Le LiDAR a ´et´e pr´ealablement r´e–´echantillonn´e `a une r´esolution planim´etrique identique `a celle des MNS (1 m). Cependant, la pr´ecision d’acquisition du LiDAR est largement meilleure que celle des MNS g´en´er´es. Les petites structures, les bˆatiments et tous les objets de la sc`ene sont donc plus nets 1 . Une d´etection des changements d’´el´evation entre les deux acquisitions LiDAR a donc ´et´e r´ealis´ee avec une r´egularisation faible (λ = 2, 0) et un seuil classique `a 2,5 m. L’objectif est de faire ressortir tous les changements de la sc`ene. Ainsi, les changements d´etect´es entre les deux acquisitions LiDAR sont consid´er´es comme suffisamment pr´ecis et exhaustifs pour repr´esenter une v´erit´e terrain qui permettra l’analyse des r´esultats obtenus sur cette zone par la d´etection de changements appliqu´ee entre les MNS g´en´er´es. Cependant, les LiDAR ayant ´et´e acquis `a des saisons diff´erentes, une faible r´egularisation a aussi fait ressortir tous les changements li´es `a la v´eg´etation. Ces changements ont dˆu ˆetre manuellement supprim´es de la v´erit´e terrain g´en´er´ee. De plus, une ann´ee s´epare la premi`ere acquisition satellite st´er´eoscopique de la premi`ere acquisition LiDAR (cf tableau 1.1, section 1.4). Afin de prendre en compte cet ´ecart et les changements ayant eu lieu entre ces acquisitions, ces derniers ont ´et´e d´etect´es en appliquant la m´ethode de d´etection entre l’acquisition satellite de 2009 et LiDAR de 2010, `a faible r´egularisation spatiale. Puis, ces changements ont ´et´e manuellement filtr´es des fausses alarmes telles que celles provenant de la v´eg´etation. La carte des changements ainsi obtenue a ensuite ´et´e additionn´ee `a la v´erit´e terrain. Tout comme pour les trois zones de Phoenix, les changements rep´er´es ont ´et´e divis´es selon les deux cat´egories : ceux de taille sup´erieure `a 100 m2 et tous les changements. Finalement, 43 changements de toutes tailles ont ´et´es rep´er´es sur la zone, dont 35 de taille sup´erieure `a 100 m2 . 5.1.3 R´egion de Tohoku : analyse d’une zone catastroph´ee La r´egion de Tohoku est situ´ee au Nord Est du Japon, sur la pr´efecture de Miyagi. 1. Nous rappelons que pour des raisons de confidentialit´e des donnn´ees, les donn´ees LiDAR ne peuvent ˆetre pr´esent´ees ici. 1055.1. PRESENTATION DES ZONES DE TEST ´ (a) Orthoimage Ikonos de 2010, Sendai. (b) Orthoimage Ikonos de 2011, Sendai. (c) MNS obtenu `a partir du couple Ikonos 2010. (d) MNS obtenu `a partir du couple Ikonos 2011. Figure 5.3 – Ortho images et MNS calcul´es avant et apr`es la catastrophe de Sendai du 11/03/2011. 106CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ Cette r´egion a ´et´e frapp´ee le 11 mars 2011 par un s´eisme de magnitude 9 qui a ´et´e suivi par l’un des plus puissants tsunamis jamais connus au Japon puisque la vague a atteint 7,6 m de haut pr`es de la pr´efecture de Miyagi et plus de 40 m plus au Nord [70]. Un rapport de police fait ´etat de plus de 15 000 personnes d´ec´ed´ees et 2800 disparus. Le tsunami a aussi g´en´er´e de tr`es importants d´egˆats avec pr`es de 240 000 bˆatiments d´etruits et 224 000 partiellement endommag´es. Les images pr´esent´ees en figures 5.3(a) et 5.3(b) montrent une partie de la r´egion touch´ee par cette catastrophe, avant et apr`es le 11 mars 2011. Ces images proviennent de couples st´er´eoscopiques acquis par le capteur Ikonos le 11 d´ecembre 2010 et le 13 aoˆut 2011 (cf. tableau 1.1, chapitre 1, section 1.4). Contrairement aux zones de Phoenix et Christchurch pr´ec´edemment pr´esent´ees, la zone de Sendai montre un paysage totalement diff´erent entre les acquisitions avant et apr`es le passage du tsunami. La zone habitable a ´et´e presque totalement d´etruite de mˆeme que tous les terrains agricoles aux alentours. Ce type de paysage rendrait totalement impossible une d´etection de changements radiom´etriques qui g´en`ererait alors un tr`es grand nombre de fausses alarmes. Les MNS pr´esent´es en figures 5.3(c) et 5.3(d) font ´etat de l’ampleur de la catastrophe et des destructions g´en´er´ees. Afin de tester les performances du syst`eme pour la d´etection des d´egˆats, une large zone, d’environ 360 km2 a ´et´e s´electionn´ee parmi les zones les plus touch´ees (repr´esent´ee par le rectangle rouge dans les figures 5.3(a) et 5.3(b). Cette zone ainsi que la carte de r´ef´erence des changements sont illustr´ees en figure 5.4. On peut observer sur cette zone la destruction totale de la partie la plus proche de la cˆote, puis, plus au nord–ouest, des bˆatiments qui semblent avoir r´esist´e. Le nombre de bˆatiments chang´es est alors largement sup´erieur `a celui des bˆatiments inchang´es. L’objectif est donc de tester notre chaˆıne de traitements sur une zone sinistr´ee afin d’observer les r´esultats obtenus en d´etection de changements du bˆati. Comme pour les zones urbaines pr´ec´edentes, une carte de r´ef´erence des changements a ´et´e r´ealis´ee sur la zone. Cependant, les d´egˆats importants et donc les changements massifs rendent difficile la quantification des r´esultats, notamment par le coefficient Kappa (que nous 1075.1. PRESENTATION DES ZONES DE TEST ´ expliquerons section 5.2.2). Pour r´esoudre ce probl`eme et quantifier pr´ecis´ement les performances de la m´ethode, la carte de r´ef´erence contient tous les changements (bˆatiments d´etruits) mais aussi les non–changements (bˆatiments intacts) de la sc`ene. Au total, 220 bˆatiments d´etruits ont ´et´e r´epertori´es et 76 bˆatiments intacts. Nous pr´ecisons cependant que cette carte de r´ef´erence, r´ealis´ee manuellement `a partir des images panchromatiques avant et apr`es la catastrophe, regroupe parfois plusieurs bˆatiments adoss´es les uns aux autres en un seul ´el´ement (d´etruit ou non), ce qui entraˆıne une diminution de sa pr´ecision. (a) Orthoimage Ikonos de 2010, Sendai. (b) Orthoimage Ikonos de 2011, Sendai. (c) Carte de r´ef´erence des bˆatiments d´etruits (en rouge) et intacts(en vert). Figure 5.4 – Zone partiellement d´etruite par le Tsunami et quantifi´ee `a travers la carte de r´ef´erence des bˆatiments d´etruits et intacts. 108CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ 5.2 M´etriques d’analyse des r´esultats de la d´etection de changements 5.2.1 Variables calcul´ees Afin d’analyser les performances de la m´ethode, les alarmes, vraies ou fausses, d´etect´ees par la m´ethode sont compt´ees `a l’´echelle de l’objet et non du pixel. En effet, la qualit´e de nos donn´ees de r´ef´erence, et notamment le d´etourage des changements dans les cartes de r´ef´erence g´en´er´ees manuellement, ne permet pas une correspondance au pixel pr`es entre les d´etections sur la carte des changements d´etect´es et les changements d´etour´es sur la carte de r´ef´erence. De plus, la m´ethode de d´etection des changements mise en place est bas´ee sur une r´egularisation spatiale ce qui tend `a ´eroder les bords des alarmes de changements dans la carte r´esultat. Le d´ecompte des pixels bien ou mal class´es ne repr´esenterait alors pas la r´ealit´e de la d´etection. Le d´ecompte des vraies et fausses d´etections est donc effectu´e au niveau objet, c’est–`a–dire que tout pixel isol´e ou amas de pixels connexes (avec 8 connexes consid´er´es autour de chaque pixel) rencontr´e dans la carte des changements r´esultante est compt´e comme une alarme de changement. Ainsi, une vraie d´etection est confirm´ee d´es lors qu’un, ou plusieurs pixels, labellis´es en changement dans la carte des changements, correspondent `a un changement r´eel dans la carte de r´ef´erence. Inversement, si un pixel isol´e, ou un amas de pixels, labellis´e changement dans la carte des changements, ne correspond `a aucun changement de la carte de r´ef´erence, cette d´etection est consid´er´ee comme une fausse alarme. Nous noterons enfin que dans la carte de r´ef´erence des changements, les changements r´eels sont marqu´es sans consid´eration de leur sens (changement positif ou n´egatif). Le d´ecompte des changements r´eels bien d´etect´es par la m´ethode se fait donc sans cette consid´eration (on parlera des classes changement et non–changement). En effet, le d´ecompte s´epar´e des changements positifs et n´egatifs n’apporte pas d’indice sur les performances de la m´ethode. La d´etection distincte de ces changements lors du calcul de la carte des changements est n´ecessaire au fonctionnement de la m´ethode de d´etection mais pas `a l’analyse des r´esultats. La quantification des r´esultats est effectu´ee `a travers le calcul de plusieurs variables : 1095.2. METRIQUES D’ANALYSE DES R ´ ESULTATS DE LA D ´ ETECTION DE ´ CHANGEMENTS – TP (True Positives ou vrai positifs) : nombre de changements r´eels bien d´etect´es, – TN (True Negatives ou vrai n´egatifs) : nombre de non–changements bien d´etect´es, – FP (False Positives ou faux positifs) : nombre de non–changements d´etect´es comme changement (aussi appel´e fausse alarme), – FN (False Negatives ou faux n´egatifs) : nombre de changements r´eels omis (ou omissions). Le calcul de la quantit´e TN est difficile et n’a jamais ´et´e r´ealis´e, `a notre connaissance, `a l’´echelle objet dans la litt´erature. Pourtant cette variable est essentielle pour le calcul d’une de nos m´etriques d’analyse, le coefficient Kappa. Lors de ce travail, nous avons choisi de calculer cette valeur selon une d´efinition empirique, bas´ee sur le nombre de pixels total de l’image divis´e par la taille moyenne d’un objet (´equation 5.1). De cette fa¸con, l’image est consid´er´ee comme si elle ´etait totalement constitu´ee d’objets `a d´etecter. T N = (l × c) moyenneobjet − T P − F N − F P. (5.1) Dans l’´equation 5.1, l et c repr´esentent le nombre de lignes et de colonnes de l’image respectivement, moyenneobjet repr´esente la taille moyenne d’un objet d’une sc`ene urbaine. Il est d´etermin´e ici `a environ 15 × 15 pixels, valeur consid´er´ee comme une taille moyenne de d´etections si toutes les d´etections (vraies et fausses) sont compt´ees `a faible r´egularisation. Avec cette d´efinition particuli`ere de TN, toute l’emprise de l’image est alors prise en compte, quelle que soit la densit´e des habitations. En effet, si le TN devait ˆetre repr´esent´e par le nombre de bˆatiment uniquement, alors, dans une sc`ene contenant moins de 10 bˆatiments mais de nombreuses sources de fausses alarmes, le nombre de fausses alarmes serait particuli`erement ´elev´e et le TN tr`es faible, diminuant la pr´ecision de la m´ethode sans pour autant repr´esenter la r´ealit´e de la d´etection. La consid´eration de la sc`ene comme recouverte d’objets permet ainsi d’am´eliorer la pr´ecision du calcul des performances de la m´ethode. Il est cependant `a noter que cette variable TN sera utilis´ee dans une m´etrique particuli`ere permettant la comparaison, entre elles, des classifications r´ealis´ees dans ce travail et la recherche des param`etres de la m´ethode les plus adapt´es. La d´efinition de TN est alors la mˆeme pour tous les r´esultats de classification qui seront compar´es lors de ce travail. 110CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ 5.2.2 M´etriques d’analyse Les m´etriques d’analyse des r´esultats utilis´ees sont des m´etriques standards qui permettent l’´evaluation des performances de la d´etection de changements par rapport aux donn´ees de r´ef´erence. Les m´etriques les plus classiques correspondent aux taux de bonnes d´etections (ou True Positive Rate, TPR) et de fausses d´etections (ou False Positive Rate, FPR), calcul´ees selon les ´equations 5.2. T P R = T P T P + F N × 100, F P R = F P F P + T P × 100. (5.2) Une autre m´etrique importante est repr´esent´ee par le coefficient Kappa (´equation 5.3) qui correspond au calcul de l’accord entre la v´erit´e terrain et le r´esultat de classification obtenu. La premi`ere description et utilisation de ce coefficient provient de Cohen [71] et a permis de calculer le degr´e de coh´erence entre deux jugements psychiatriques ind´ependants. Plus r´ecemment et dans notre domaine d’´etude, ce coefficient a ´et´e employ´e notamment par Wilkinson [72] pour l’analyse et l’inter–comparaison des r´esultats de diff´erentes m´ethodes de classification d’images recens´es sur 15 ans. L’objectif de cette analyse ´etait l’´evaluation des performances de nombreuses m´ethodes de classification supervis´ees ou non, utilisant des donn´ees externes ou non et quel que soit le nombre de classes ou la r´esolution initiale de l’image. Dans ce contexte, l’utilisation du coefficient Kappa, dont les donn´ees d’entr´ees correspondent au nombre de classes et aux variables TP, TN, FP et FN d´ecrites pr´ec´edemment, apparaˆıt alors particuli`erement adapt´ee. Ce coefficient est calcul´e selon l’´equation suivante : K = OA − Pe 1 − Pe , (5.3) OA = T P T P + F P + F N , (5.4) Pe = M (T P + F P + T N + F N) 2 , (5.5) M = (T P + F P) × (T P + F N) + (F N + T N) × (F P + T N). (5.6) 1115.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´ OA correspond `a la pr´ecision g´en´erale de la classification (Overall Accuracy). Pe est d´ecrit comme le taux de concordance al´eatoire. Cette valeur est ´egale `a 1 si la correspondance entre la v´erit´e terrain et le r´esultat de classification obtenu est uniquement le fait du hasard et `a 0 sinon. L’avantage de cette m´etrique est d’ˆetre particuli`erement adapt´ee lorsque les classes en pr´esence sont d´es´equilibr´ees, c’est–`a–dire, dans notre contexte, lorsque la classe des non– changements est tr`es grande par rapport `a la classe changement. De plus, les taux de vraies et de fausses d´etections ne permettent pas de d´efinir la r´egularisation qui entraˆınera le meilleur ´equilibre entre fausses alarmes et bonnes d´etections. En effet, ces m´etriques, ind´ependantes l’une de l’autre, indiquent le meilleur param´etrage de l’algorithme en fonction du taux de bonnes d´etections recherch´ees ou bien du taux de fausses alarmes maximum accept´e. Le coefficient Kappa prend en compte tous les termes de la matrice de confusion de la d´etection de changement (TP, TN, FP, FN). Cette m´etrique permet ainsi la comparaison pr´ecise de plusieurs classifications tout en mettant en ´evidence le param´etrage de l’algorithme le plus adapt´e, qui correspond alors `a la meilleure correspondance entre la carte de r´ef´erence des changements et la carte calcul´ee et donc au meilleur ´equilibre entre bonnes d´etections et fausses alarmes. Le calcul du coefficient Kappa est donc particuli`erement important pour l’analyse compl`ete des r´esultats obtenus par la m´ethode de d´etection tandis que l’analyse des diff´erents taux de bonne ou fausse d´etection est importante pour expliquer le comportement du Kappa. Ces deux m´etriques sont tr`es compl´ementaires entre elles. 5.3 Analyse de sensibilit´e des r´esultats obtenus Dans cette section, plusieurs analyses de sensibilit´e sont effectu´ees. Elles concernent les diff´erents param`etres de la m´ethode et leur impact sur les r´esultats mais aussi l’analyse de l’impact de la qualit´e des donn´ees d’entr´ee (MNS) ou des changements recherch´es ou encore l’analyse des performances en fonction des caract´eristiques de la zone ´etudi´ee. Les cartes de d´etections de changements calcul´ees en vue de ces analyses de sensibilit´e ont, 112CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ pour la plupart, ´et´e g´en´er´ees `a partir de la zone 1 de Phoenix. Cette zone pr´esente en effet de tr`es nombreux changements et des sources r´eduites de fausses alarmes ce qui en fait une zone test int´eressante pour la mesure de l’influence des param`etres ou des donn´ees d’entr´ee. 5.3.1 Influence des param`etres de la m´ethode sur les r´esultats Nombre de directions de la programmation dynamique Le premier param`etre de la d´etection de changements que nous ´etudions est le nombre de directions utilis´ees dans le calcul. En effet, comme d´ecrit dans le chapitre 2, section 2.2.3, l’algorithme de programmation dynamique, con¸cu au cours de cette th`ese, n´ecessite le calcul des coˆuts de labellisation selon plusieurs directions dans l’image, coˆuts calcul´es ind´ependamment pour chaque direction puis fusionn´es afin de retrouver la solution finale de labellisation. Nous avons montr´e en effet que l’utilisation de nombreuses directions permet de limiter les effets de streaking sur le r´esultat final. Les figures 5.5(c), 5.5(d), 5.5(e) et 5.5(f) illustrent les r´esultats obtenus avec 1, 8, 12 et 16 directions respectivement et une r´egularisation moyenne λ = 3, 0. On observe que lorsqu’une seule direction est calcul´ee, les effets de streaking sont particuli`erement importants (visible le long des lignes de l’image 5.5(c)). D’apr`es la figure 5.5(d), le calcul de 8 directions r´eduit l’effet de streaking. Puis, de 12 `a 16 directions, le r´esultat est globalement identique et l’effet de streaking est quasi nul. La figure 5.6 pr´esente les taux de bonnes et fausses d´etections obtenues avec une r´egularisation fix´ee `a λ = 3, 0 et un nombre variable de directions de calcul, de 1 `a 16 directions. La r´egularisation a ´et´e fix´ee `a une valeur relativement faible afin de bien observer l’impact de ce nombre de directions sur un grand nombre de d´etections. Comme attendu d’apr`es les figures pr´ec´edentes, on observe une tr`es forte diminution des fausses alarmes (mais aussi des bonnes d´etections) entre 1 et 4 directions de calcul. A partir de 4 ` directions, les taux diminuent de fa¸con moins flagrante puis ils semblent se stabiliser entre 12 et 16 directions. 1135.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´ (a) Orthoimage WorldView-1, 2008. (b) Orthoimage WorldView-1, 2011. (c) Carte des changements calcul´ee avec 1 direction de calcul. (d) Carte des changements calcul´ee avec 8 directions de calcul. (e) Carte des changements calcul´ee avec 12 directions de calcul. (f) Carte des changements calcul´ee avec 16 directions de calcul. Figure 5.5 – Cartes de d´etection de changements obtenues `a partir d’un nombre variable de directions de calcul et une r´egularisation λ = 3, 0. R´esultats calcul´es sur la zone 1 de Phoenix. 114CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ Figure 5.6 – Illustration de l’impact du nombre de directions de calcul sur les taux de bonnes et fausses d´etections. R´esultats calcul´es sur la zone 1 de Phoenix avec une r´egularisation λ = 3, 0. La d´etection de changements est donc g´en´eralement calcul´ee avec 12 directions. Le calcul `a 16 directions n’apportant pas de diff´erences significative au r´esultat mais augmente le temps de traitement. Param`etre de r´egularisation Le param`etre λ est le param`etre ayant le plus d’influence sur le r´esultat de d´etection de changements. Les figures 5.7(c), 5.7(d), 5.7(e) et 5.7(f) illustrent qualitativement l’effet de ce param`etre. Chacune de ces figures repr´esente une carte de d´etection de changements obtenue `a partir d’un λ ´egal `a 2,0, 3,0, 4,5 et 6,0, respectivement. D’apr`es ces figures, les alarmes de changements disparaissent en fonction de leur taille, que ce soit les fausses alarmes (situ´ees principalement dans la carte obtenue avec une tr`es faible r´egularisation) ou les vrais changements, et ce, de la plus faible `a la plus forte r´egularisation. On note, par exemple, que de nombreux changements r´eels marqu´es dans la carte de r´ef´erence ne sont pas d´etect´es `a λ = 6, 0. Afin d’observer les effets de la r´egularisation sur les r´esultats de d´etection de changement, les taux de bonnes d´etections (TPR) et de fausses alarmes (FPR) ont ´et´e trac´es en fonction du 1155.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´ param`etre de r´egularisation sur les figures 5.8(a) `a 5.8(d). (a) Orthoimage WorldView-1 de 2008, Phoenix zone #1. (b) Orthoimage WorldView-1 de 2011, Phoenix zone #1. (c) Carte des d´etections obtenue avec λ = 2. (d) Carte des d´etections obtenue avec λ = 3. (e) Carte des d´etections obtenue avec λ = 5. (f) Carte des d´etections obtenue avec λ = 6. Figure 5.7 – Cartes des d´etections calcul´ee avec diff´erentes valeurs de λ et 12 directions. R´esultats calcul´es sur la zone 1 de Phoenix avec une r´egularisation λ = 3, 0 116CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ Ces figures pr´esentent le comportement des m´etriques avec l’augmentation de la r´egularisation. Dans un premier temps, les TPR (figures 5.8(a) et 5.8(c)) marquent un palier proche de 100% de bonnes d´etections tandis que les taux de FPR, d’abord tout aussi haut, diminuent de fa¸con presque lin´eaire. Puis, pour des λ entre 2,5 et 3,5, le taux de bonnes d´etections commence `a d´ecroˆıtre mais plus faiblement que le taux de fausses alarmes qui baisse drastiquement. Puis la courbe des fausses alarmes atteint un pallier vers λ = 4, 0 de mˆeme que celle des TPR qui ne d´ecroit que faiblement. Ce comportement r´esulte en fait de la suppression des petites fausses alarmes, souvent tr`es nombreuses `a faible r´egularisation, ce qui entraˆıne une tr`es forte baisse des taux FPR. Les petits changements pertinents, eux aussi supprim´es, sont cependant moins nombreux, expliquant la d´ecroissance moins rapide de la courbe des TPR. Lorsque toutes ces petites d´etections sont supprim´ees, les d´etections restantes sont alors des fausses alarmes ou des vraies d´etections de taille importante et donc tr`es difficiles `a supprimer `a moins d’augmenter tr`es fortement la r´egularisation, ceci explique le palier `a la fin des courbes. Autres param`etres de la m´ethode Nous avons vu, dans la section 4, que d’autres param`etres interviennent dans la m´ethode de d´etection de changements d´evelopp´ee. Ces param`etres sont notamment le seuil T, fix´e `a 2,5 m et la courbure L, fix´ee `a 3,0. Des analyses de sensibilit´e pourraient ˆetre r´ealis´ees pour observer les performances de la m´ethode en fonction de ces deux param`etres. Cependant, le seuil a ´et´e fix´e ici d’apr`es une valeur standard et en consid´erant la r´esolution altim´etrique obtenue pour les MNS. C’est pourquoi aucune ´etude n’a ´et´e men´ee quant `a la sensibilit´e de ce param`etre. La courbure L permet, comme nous l’avons montr´e, de contrˆoler les coˆuts pour chaque label en fonction de la proximit´e entre la valeur du pixel et le seuil. Ce param`etre n’a cependant que peu d’impact d’apr`es les quelques tests que nous avons r´ealis´es cependant aucune analyse compl`ete n’a encore ´et´e effectu´ee. 1175.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´ 5.3.2 Impact de la qualit´e des donn´ees d’entr´ee Influence de la qualit´e des MNS Afin d’observer la sensibilit´e de la m´ethode de d´etection des changements envers les donn´ees d’entr´ee qui lui sont inject´ees, c’est–`a–dire les MNS utilis´es, l’algorithme a ´et´e test´e sur des MNS de qualit´e diff´erente : les MNS obtenus apr`es une mise en correspondance asym´etrique simple et les MNS obtenus apr`es fusion de MNS asym´etriques (technique d´ecrite dans le chapitre 3, section 3.3). La qualit´e de ces MNS a ´et´e discut´ee dans section 3.4. Les figures 5.8 pr´esentent les r´esultats obtenus pour la zone 1 de Phoenix, dont les changements ont ´et´e d´etect´es `a partir des MNS asym´etriques (courbes vertes et turquoises pointill´ees) et des MNS fusionn´es (courbes bleues et rouges pleines). Les r´esultats ont ´et´e calcul´es sur la zone 1 de Phoenix puis trac´es en fonction du param`etre λ utilis´e. Les figures 5.8(a) et 5.8(c) pr´esentent les taux de bonnes et de fausses d´etections lorsque seuls les changements sup´erieurs `a 100 m2 sont consid´er´es et lorsque tous les changements sont consid´er´es. D’apr`es ces figures, les taux de bonnes d´etections obtenues avec les MNS fusionn´es apparaissent sensiblement plus ´elev´es que ceux obtenus avec les MNS asym´etriques : une diff´erence de 5% `a 20% est not´ee. De mˆeme, les taux de fausses alarmes d´etect´ees `a partir des MNS fusionn´es sont plus faibles que ceux obtenus avec les MNS asym´etriques. L’´ecart constat´e est de 0 `a plus de 10%. Les figures 5.8(b) et 5.8(d) pr´esentent les coefficients Kappa obtenus pour tous les changements ou les changements sup´erieurs `a 100 m2 uniquement, pour le MNS fusionn´e et pour le MNS asym´etrique pr´esent´es. D’apr`es ces figures, le Kappa apparaˆıt fortement corr´el´e aux taux de fausses et bonnes d´etections : plus les taux de vraies d´etections et de fausses d´etections sont proches l’un de l’autre (c’est–`a–dire autant de bonnes d´etections que de fausses alarmes) plus le Kappa est faible, indiquant une mauvaise classification et inversement un taux de bonnes d´etections tr`es sup´erieur `a un taux de fausses alarmes entraine un fort coefficient Kappa et donc une bonne classification. 118CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ (a) Taux de vrais et faux positifs calcul´es pour les changements sup´erieurs `a 100 m2 . (b) Coefficient Kappa calcul´e pour les changements sup´erieurs `a 100 m2 . (c) Taux de vrais et faux positifs calcul´es pour tous les changements de la sc`ene. (d) Coefficient Kappa calcul´e pour tous les changements de la sc`ene. Figure 5.8 – 5.8(a) et 5.8(c) variation des taux de fausses et vraies d´etection en fonction de la r´egularisation λ. 5.8(b) et 5.8(d) : Variations du coefficient Kappa en fonction de la r´egularisation λ. R´esultats calcul´es pour la zone 1 de Phoenix. Comme attendu ici, les valeurs de Kappa obtenues `a partir des MNS fusionn´es sont largement plus hautes que celles provenant des r´esultats de MNS asym´etriques, quelle que soit la taille des changements recherch´es. D’apr`es les diff´erents taux TPR et FPR calcul´es, cela s’explique par le nombre important 1195.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´ des fausses alarmes par rapport au nombre total de d´etections lorsque les MNS utilis´es sont asym´etriques. En effet, les MNS fusionn´es pr´esentent une meilleure pr´ecision sur les fines structures de la sc`ene et moins d’erreurs de corr´elation, entraˆınant un taux de fausses alarmes plus faible. Cette diff´erence a n´eanmoins tendance `a disparaˆıtre avec des r´egularisations plus importantes puisque ce param`etre agit comme un filtre qui supprime les plus fines erreurs des MNS. Le r´esultat final `a haute r´egularisation est alors tr`es similaire que ce soit pour les MNS fusionn´es ou pour les MNS asym´etriques. Influence de la taille de changements recherch´ee Les figures 5.8 pr´esentent les r´esultats obtenus pour la zone 1 de Phoenix lorsque l’on consid`ere les changements sup´erieurs `a 100 m2 (figures 5.8(a) et 5.8(b)). Dans ce cas, le taux de bonnes d´etections observ´e est de 100% `a plus de 75% pour des r´egularisations de 1 `a 6,5. A la valeur de Kappa maximum (soit `a une r´egularisation `a ` λ = 5, 0 d’apr`es la figure 5.8(b)), le taux de bonnes d´etections est de 90%, avec moins de 10% de fausses alarmes. Lorsque les changements de toutes tailles sont consid´er´es, la valeur maximale du kappa atteint seulement 0,76 pour une r´egularisation `a λ = 3, 0. D’apr`es la figure 5.8(c), cela correspond `a environ 80% des changements bien d´etect´es et 35% de fausses alarmes. En effet, les changements inf´erieurs `a 100 m2 repr´esentent les deux tiers de tous les changements mais sont tr`es difficiles `a d´etecter et ont tendance `a ˆetre supprim´es rapidement lorsque la r´egularisation augmente. Une plus faible r´egularisation est donc n´ecessaire pour les rep´erer ce qui implique alors un taux de fausses alarmes r´esiduelles plus important et donc un coefficient Kappa plus faible. Nous rappelons que la taille des changements recherch´es d´epend en premier lieu de la r´esolution des images (puis des MNS) en entr´ee de la chaˆıne de traitements. En effet, la taille de 100 m2 (soit 15 × 15 pixels) est adapt´ee pour des images acquises `a 60 cm de r´esolution permettant la g´en´eration de MNS `a 1 m de r´esolution spatiale. Cette taille doit ˆetre red´efinie en fonction de la r´esolution des images d’entr´ee du syst`eme. 120CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ 5.3.3 Int´erˆet d’une m´ethode globale : comparaison avec un filtrage local Cette section pr´esente la comparaison de la m´ethode de classification des changements employ´ee avec une m´ethode plus classique, repr´esent´ee par un filtrage morphologique. Ce type de filtrage local est en effet souvent utilis´e dans la litt´erature et plus particuli`erement par Tian [26] et Chaabouni [22] pour l’analyse de MNS diff´erentiels en vue de la d´etection des changements d’´el´evation. Le filtrage local test´e est appliqu´e sur le r´esultat d’une segmentation (`a +2,5 m et -2,5 m, valeur de seuil identique `a celle utilis´ee dans le filtrage global) du MNS diff´erentiel. Ce filtrage est bas´e sur l’application d’une op´eration morphologique sur l’image segment´ee, sous forme d’une ouverture. Pour rappel, une ouverture (binaire), en morphologie math´ematique, correspond `a l’´erosion des amas de pixels connexes portant une valeur ´egale `a 1 (donc un label changement dans notre cas) `a l’aide d’un ´el´ement structurant, suivi par la dilatation de ces mˆemes amas avec le mˆeme ´el´ement [73]. Cette op´eration permet de supprimer les d´etections (vraies ou fausses) de taille inf´erieure `a l’objet structurant. Ainsi, la variation de la taille de l’objet structurant permet de contrˆoler le nombre de fausses d´etections mais aussi celui des vraies d´etections en fonction de leur taille. Cette technique se rapproche ainsi du filtrage global dont le param`etre de r´egularisation permet aussi le contrˆole des taux de fausses alarmes et de vrais positifs. Les r´esultats de ce filtrage morphologique sont pr´esent´es dans les figures 5.9 et compar´es aux r´esultats obtenus avec le filtrage global. Sur les figures, les courbes noires repr´esentent les r´esultats obtenus avec le filtrage morphologique. Les courbes bleues et rouges pr´esentent les r´esultats obtenus avec le filtrage global pour les changements sup´erieurs `a 100 m2 et tous les changements, respectivement. Lorsque seuls les changements importants (sup´erieurs `a 100 m2 ) sont consid´er´es, les taux de bonnes d´etections des deux types de filtrage atteignent tous les deux les 100% (`a faible r´egularisation) mais avec des taux de fausses alarmes de 78% environ pour le filtrage morphologique et de 50% pour le filtrage optimis´e (figure 5.9(a)). 1215.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´ (a) Taux de vrais et faux positifs calcul´es pour les changements sup´erieurs `a 100 m2 . (b) Coefficient Kappa calcul´e pour les changements sup´erieurs 100 m2 . (c) Taux de vrais et faux positifs calcul´es pour tous les changements de la sc`ene. (d) Coefficient Kappa calcul´e pour tous les changements de la sc`ene. Figure 5.9 – 5.9(a) et 5.9(c) : Variations des taux de fausses et vraies d´etections en fonction de la r´egularisation λ ou de la taille de l’´el´ement structurant. 5.9(b) et 5.9(d) : Variations du coefficient Kappa en fonction de la r´egularisation λ ou de la taille de l’´el´ement structurant. R´esultats calcul´es sur la zone 1 de Phoenix Si un faible taux de fausses alarmes est recherch´e (moins de 10%), le taux de bonnes d´etections descend alors `a 58% pour le filtrage morphologique tandis qu’il se maintient au–dessus des 90% pour le filtrage optimis´e. Les courbes Kappa (figure 5.9(b)) confirment une diff´erence importante entre les r´esultats des 122CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ filtrages puisque la valeur maximale du Kappa atteint par le filtrage optimis´e est de 0,92 tandis qu’elle atteint seulement 0,72 pour le filtrage morphologique. Lorsque tous les changements sont consid´er´es, le taux de bonnes d´etections du filtrage morphologique apparaˆıt globalement plus ´elev´e que celui du filtrage optimis´e mais le taux de fausses alarmes est plutˆot ´elev´e par rapport `a celui du filtrage optimis´e (figure 5.9(c)). Les courbes Kappa montrent en effet que certains r´esultats des filtrages optimal et morphologique sont comparables lorsqu’une r´egularisation de λ = 4, 0 est utilis´ee pour le filtrage optimis´e et un ´el´ement structurant de taille 5 × 5 est utilis´e pour le filtrage morphologique. Avec ces param`etres, le filtrage optimis´e pr´esente un TPR d’environ 58% et un FPR d’environ 10% tandis que le filtrage morphologique pr´esente un TPR d’environ 61% pour un taux FPR d’environ 20%, entraˆınant une valeur de Kappa de 0,68. Cependant, pour une r´egularisation `a λ = 3, 5, r´egularisation donnant les meilleurs r´esultats pour le filtrage optimis´e d’apr`es les courbes Kappa en figure 5.9(d), le TPR obtenu est d’environ 72% pour un FPR de moins de 30% et une valeur de kappa `a 0,71, l´eg`erement meilleure que celle obtenu par filtrage morphologique. Les r´esultats obtenus pour le filtrage morphologique apparaissent ainsi d’une qualit´e presque semblable `a celle du filtrage optimis´e lorsque tous les changements sont recherch´es mais tr`es en dessous des r´esultats du filtrage optimis´e lorsque la d´etection se concentre sur les changements les plus larges uniquement. Les taux de bonnes d´etections et de fausses alarmes ´etant `a chaque fois inf´erieurs en qualit´e `a ceux du filtrage optimis´e. Si nous ne r´efutons pas que les r´esultats obtenus, particuli`erement pour les changements larges, peuvent ˆetre dus `a l’utilisation non optimale des op´erations morphologiques, nous montrons cependant ici que le filtrage optimis´e et son param´etrage peuvent ˆetre utilis´es de fa¸con tr`es simple et efficacement pour la recherche des changements quelle que soit leur taille. Tandis que les op´erations morphologiques peuvent ˆetre complexes `a param´etrer afin d’ˆetre adapt´ees aux changements recherch´es et montrer des performances ´equivalentes. 1235.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´ 5.3.4 Influence du paysage de la zone d’´etude Dans cette section, les performances obtenues sur les diff´erentes zones tests pr´esent´ees au d´ebut de ce chapitre seront compar´ees entre elles afin d’analyser les r´esultats en fonction des zones, des difficult´es qu’elles pr´esentent et du nombre de fausses alarmes qu’elles g´en`erent. Phoenix Les r´esultats obtenus sur les trois zones de Phoenix sont pr´esent´es en figure 5.10 avec, comme pr´ec´edemment le calcul des taux de bonnes (TPR) et fausses (FPR) d´etections et le calcul du coefficient Kappa pour tous les changements et pour les changements sup´erieurs `a 100 m2 . Lorsque seuls les grands changements sont pris en compte, globalement et selon les zones, les taux de bonnes d´etections se situent entre 100% et 75%, avec un taux de fausses alarmes variant alors de 100% `a moins de 5%. Malgr´e les variations de paysage de ces zones, la r´egularisation optimale pour ces changements se situe toujours approximativement `a λ = 5, 0, d’apr`es les courbes Kappa pr´esent´ees dans les figures 5.10(b), 5.10(d) et 5.10(f). Ainsi, `a cette r´egularisation, la valeur du Kappa est alors ´egale `a 0,93 pour la zone 1, avec 90% de bonnes d´etections et 5,6% de fausses alarmes. Pour la zone 2, on obtient une valeur de Kappa ´egale `a 0,82 pour λ = 5, 0 pour des taux de 81% de bonnes d´etections et de 18% de fausses alarmes. Enfin, concernant la zone 3, la valeur du Kappa est `a 0,87 pour λ = 5, 0 et les taux de bonnes et fausses d´etections atteignent 79,5% et 3,57%, respectivement. Lorsque tous les changements sont consid´er´es, en revanche, la r´egularisation optimale est d’environ λ = 3, 5. Les coefficients Kappa, calcul´es pour chacune des zones sont alors de 0,72, 0,50 et 0,59, respectivement pour les zones 1, 2 et 3. Les taux de bonnes d´etections atteignent alors 72% pour les zones 1 et 2 et 53% pour la zone 3 tandis que les taux de fausses alarmes sont de 28,3% pour la zone 1, 62% pour la zone 2 et 34% pour la zone 3. D’apr`es tous ces r´esultats, la zone 1 semble pr´esenter les meilleurs taux de bonnes et fausses d´etections. Cette zone contient en fait de tr`es nombreux changements (126) dont pr`es de la moiti´e sont des changements de grande taille. 124CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ (a) Taux de vrais et faux positifs pour la zone #1. (b) Coefficient Kappa calcul´e pour la zone #1. (c) Taux de vrais et faux positifs pour la zone #2. (d) Coefficient Kappa calcul´e pour la zone #2. (e) Taux de vrais et faux positifs pour la zone #3. (f) Coefficient Kappa calcul´e pour la zone #3. Figure 5.10 – 5.10(a), 5.10(c) et 5.10(e) Variations des taux de bonnes et fausses d´etections en fonction du λ. 5.10(b), 5.10(d) et 5.10(f ) Variations du coefficient Kappa. R´esultats calcul´es pour chacune des zones de Phoenix 1255.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´ De plus, les sources de fausses alarmes sont assez r´eduites par rapport aux autres zones. La zone 2 de Phoenix pr´esente des r´esultats de moins bonne qualit´e. Ceci s’explique par le fait que cette zone contient de nombreux bˆatiments particuli`erement hauts. Ces bˆatiments g´en`erent de grandes zones d’occlusion et donc de nombreuses erreurs qui ne sont pas totalement filtr´ees lors de la g´en´eration des MNS. De plus, cette zone contient plusieurs zones de v´eg´etation qui entraˆınent de nombreuses fausses alarmes. Enfin, seulement 71 changements sont recens´es dans cette zone dont moins d’un tiers sont de grands changements bien d´etectables. Finalement, la zone 3 pr´esente des r´esultats situ´es qualitativement entre la zone 1 et la zone 2. Cette zone contient de nombreux changements (138) mais seul un quart correspond `a des changements larges, ce qui explique les taux plus faibles de bonnes d´etections. Cette zone contient aussi une voie express avec de nombreux v´ehicules g´en´erant un certain nombre de fausses alarmes. Cependant, `a forte r´egularisation, les nombreuses fausses alarmes g´en´er´ees, (qui sont de petite taille) sont supprim´ees permettant d’atteindre un tr`es faible taux de fausses alarmes `a λ = 5. Christchurch Les r´esultats obtenus pour la zone de Christchurch sont pr´esent´es en figure 5.11. Comme pr´ec´edemment, les changements de taille sup´erieure `a 100 m2 sont repr´esent´es par la courbe bleue et les changements toutes tailles confondues par la courbe rouge. Au vu du tr`es faible nombre de changements inf´erieurs `a 100 m2 (8 seulement), les courbes sont tr`es proches, que ce soit les courbes de bonnes d´etections ou de fausses alarmes. Dans les deux cas, le coefficient Kappa atteint plus de 0,8 (0,8 pour tous les changements et 0,85 pour les changements sup´erieurs `a 100 m2 ). Lorsque tous les changements sont consid´er´es, ce coefficient apparaˆıt tr`es haut par rapport `a celui obtenu sur les zones de Phoenix (il est de 0,72 dans le meilleur r´esultat de Phoenix). Ceci s’explique par le faible nombre de changements de petite taille. Lorsque seuls les grands changements sont consid´er´es, le coefficient Kappa est de 0,85, coefficient proche des meilleurs r´esultats de Phoenix. Cependant, d’apr`es la figure 5.11(a), si le taux de bonne d´etection est haut (il va de 100% `a 80% pour les changements larges), on observe un taux de fausses alarmes assez haut. 126CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ (a) Taux de vrais et faux positifs calcul´es pour la zone de Christchurch. (b) Coefficient Kappa calcul´es pour la zone de Christchurch. Figure 5.11 – 5.11(a) : Variations des taux de bonnes et fausses d´etections en fonction du λ. 5.11(b) : Variation du coefficient Kappa. R´esultats calcul´es pour la zone de Christchurch. En effet, la zone s´electionn´ee dans Christchurch contient beaucoup de v´eg´etation sous la forme d’arbres imposants et tr`es proches des habitations. Cet ´el´ement est souvent source de fausses alarmes, notamment lorsque des arbres sont coup´es ou des haies sont plant´ees entre deux acquisitions. Cette zone, assez diff´erente en terme de paysage et contenant des d´efauts plus prononc´es que les zones de Phoenix, montre tout de mˆeme une r´egularisation optimale aux environs d’un λ = 5, 0 pour des changements sup´erieurs `a 100 m2 . Cette valeur de r´egularisation, identique `a celle trouv´ee pour les 3 zones de Phoenix apparaˆıt ainsi bien adapt´ee au contexte urbain. 5.4 Analyse des r´esultats sur la zone de Sendai Les r´esultats obtenus sur la zone de Sendai sont pr´esent´es en figure 5.12. Sur cette figure, la courbe des bonnes d´etections est trac´ee en bleue, la courbe des fausses alarmes en rouge et la courbe du coefficient Kappa en vert. Contrairement aux zones pr´esent´ees pr´ec´edemment, la courbe des bonnes d´etections d´ecroˆıt doucement, de fa¸con presque lin´eaire, tandis que la courbe des fausses alarmes, tr`es basse mˆeme `a faible r´egularisation, ne d´ecroˆıt que tr`es peu puis semble se stabiliser `a moins de 10% de fausses alarmes. 1275.4. ANALYSE DES RESULTATS SUR LA ZONE DE SENDAI ´ La courbe Kappa, quant `a elle, pr´esente un maximum `a environ 6,5 pour une r´egularisation `a λ = 3, 0. Le fort taux de bonnes d´etections, mˆeme `a haute r´egularisation, s’explique par le nombre tr`es important de changements contigus de la sc`ene. En effet, pr`es de 300 bˆatiments ont ´et´e recens´es sur une zone de 270 km2 soit une densit´e d’habitation de plus d’un bˆatiment pour 1 000 m2 . Densit´e indiquant des bˆatiments tr`es proches entre eux. De plus, ces bˆatiments sont tr`es peu ´elev´es par rapport `a ceux des villes pr´ec´edemment ´etudi´ees puisque leur hauteur n’exc`ede pas 5 m. Or, la m´ethode d´evelopp´ee, bas´ee sur la notion de coh´erence locale traduite par l’utilisation d’une r´egularisation spatiale, a tendance `a lisser les variations de labels hautes fr´equences. Dans le cas du suivi urbain, cette caract´eristique permet de supprimer les fines variations de labels qui repr´esentent alors g´en´eralement des fausses alarmes puisque la grande majorit´e de l’image est labellis´ee non–changement. Dans le cas de Sendai, au contraire, la majorit´e de l’image est labellis´ee en changement. Ainsi, `a l’int´erieur de la zone d´etruite, ce sont les pixels labellis´es non–changements qui apparaissent comme des variations fines de labels et qui auront donc tendance `a ˆetre supprim´es. Ce ph´enom`ene tend `a limiter la pr´esence de fausses alarmes de changements sous forme d’amas de pixels isol´es et `a maintenir un taux de bonnes d´etections tr`es haut. Ainsi, la m´ethode d´evelopp´ee ne permet pas de discriminer chacun des bˆatiments d´etruits dans la zone totalement sinistr´ee mais elle va plutˆot d´elimiter cette zone sinistr´ee. Toutefois, la m´ethode peut s’av´erer tr`es int´eressante pour localiser les bˆatiments d´etruits isol´es et plus difficiles `a retrouver visuellement car noy´es au milieu des tr`es nombreux changements radiom´etriques. La courbe Kappa pr´esente une forte augmentation partant d’une r´egularisation λ = 1, 0 `a λ = 3, 5, augmentation due `a la baisse du nombre de fausses alarmes et au maintien des bonnes d´etections `a un taux ´elev´e. Puis, entre λ = 3, 5 et λ = 5, 0, le kappa montre une diminution qui s’explique par un palier et mˆeme une l´eg`ere augmentation du nombre de fausses alarmes (ph´enom`ene qui apparait lorsque la r´egularisation va diviser une alarme importante de changement en deux alarmes distinctes) et la baisse du taux de bonnes d´etections. 128CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ Figure 5.12 – Courbes des taux de bonnes d´etections, fausses alarmes et coefficient Kappa. Enfin, lorsque la r´egularisation atteint λ = 5, 0, le Kappa baisse de fa¸con quasi lin´eaire en suivant la tendance du taux de bonnes d´etections. Finalement, les courbes pr´esent´ees montrent de nouveau une r´egularisation optimale proche de λ = 3, 0 lorsque des changements de toutes les tailles (mais majoritairement inf´erieurs `a 100 m2 ) sont recherch´es, mˆeme dans un contexte aussi particulier que celui d’une destruction massive du bˆati et surtout avec des images provenant d’un capteur tr`es haute r´esolution diff´erent de celui utilis´e pour les zones exp´erimentales pr´ec´edentes. La figure 5.13 pr´esente la carte des changements obtenue sur une emprise importante de la r´egion de Sendai. Cette carte a ´et´e obtenue avec une r´egularisation λ = 3, 0, r´egularisation optimale d´efinie pr´ec´edemment. L’ampleur de la destruction est particuli`erement visible sur cette carte qui laisse pourtant apparaˆıtre des zones en changements positifs. Ces zones ne sont pas des erreurs mais correspondent en fait `a des amas, tr`es probablement de d´ebris, apparus entre les acquisitions avant et apr`es la catastrophe. Nous rappelons que l’image post–´ev`enement a ´et´e acquise 5 mois apr`es la catastrophe. La zone d´etruite a donc ´et´e en grande partie d´eblay´ee durant ces 5 mois. Cet intervalle d’acquisition peut alors repr´esenter un inconv´enient pour la mesure de la performance de notre m´ethode, le r´esultat de la carte de changement serait peut ˆetre diff´erent si la zone n’avait pas ´et´e d´eblay´ee. 1295.4. ANALYSE DES RESULTATS SUR LA ZONE DE SENDAI ´ (a) Ortho image Ikonos de 2010. (b) Ortho image Ikonos de 2011. (c) Carte des changements d’´el´evation obtenue avec λ = 3. Figure 5.13 – Images ortho rectifi´ees de la r´egion de Tohoku et carte des changements r´esultante. 130CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´ METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´ Cette carte de changements met aussi clairement en ´evidence les destructions apparues dans la v´eg´etation, notamment sur la partie sud de l’image o`u une forˆet enti`ere a ´et´e d´evast´ee par le tsunami. Bien que les changements sur la v´eg´etation soient g´en´eralement compt´es en fausses alarmes, ceux–ci apparaissent pertinents puisque les d´egˆats environnementaux peuvent aussi avoir un fort impact ´economique pour une r´egion et n´ecessiter une ´evaluation. 5.5 Conclusion Ce chapitre a permis de tester les performances de la m´ethode d´evelopp´ee pour la d´etection des changements d’´el´evation ainsi que sa sensibilit´e envers les param`etres utilis´es ou les donn´ees d’entr´ee. Ces ´evaluations ont ´et´e r´ealis´ees grˆace `a la comparaison des cartes de changements obtenues avec des cartes de r´ef´erences g´en´er´ees manuellement (ou `a l’aide d’un LiDAR) et `a travers l’utilisation de plusieurs m´etriques classiques de la litt´erature : les taux de bonnes d´etections et de fausses alarmes ainsi que le coefficient Kappa. Comme attendu, la r´egularisation est le param`etre ayant la plus forte influence sur le r´esultat. Les diff´erents cas test pr´esent´es (Phoenix, Christchurch et Sendai) ont permis de montrer que lorsque des changements de toutes tailles sont recherch´es, la r´egularisation optimale se situe `a environ λ = 3, 0 et permet d’obtenir 100% des changements d´etect´es pour 70% `a 80% de fausses alarmes. Lorsque seuls les changements sup´erieurs `a 100 m2 sont cibl´es, une r´egularisation λ = 5, 0 est recommand´e et permet d’obtenir plus de 80% de bonnes d´etections et moins de 20% de fausses alarmes. Nous avons aussi pu observer que la qualit´e du MNS avait un impact important sur la qualit´e du r´esultat, notamment `a faible r´egularisation lorsque les changements de petite taille sont consid´er´es et que le taux de fausses alarmes g´en´er´ees par les erreurs des MNS est ´elev´e. Enfin, dans le cas d’une sc`ene pr´esentant des changements tr`es important dus `a une catastrophe majeure, nous avons pu montrer les performances de la m´ethode en termes de bonnes d´etections et de fausses alarmes tout en confirmant une r´egularisation optimale `a λ = 3, 0 lorsque les changements de toutes les tailles sont recherch´es. Si ces analyses permettent d´ej`a une bonne ´evaluation des performances de la m´ethode envers diff´erents param`etres, elles pourraient 1315.5. CONCLUSION cependant ˆetre compl´et´ees par des analyses portant sur l’impact de la r´esolution native et la qualit´e (contraste et piqu´e) des images d’entr´ee sur la taille des changements d´etectables et leur taux de d´etection. 132Chapitre 6 Conclusion g´en´erale 6.1 Conclusion Nous pr´esentons, dans ce travail de th`ese, une chaˆıne de traitements automatique, non supervis´ee et efficace pour la recherche des changements d’´el´evation apparus entre deux dates d’int´erˆet. Cette chaˆıne est bas´ee sur la g´en´eration de MNS `a chaque date `a partir de couples d’images satellites st´er´eoscopiques tr`es haute r´esolution puis sur l’analyse de leur diff´erences. L’un des avantages de cette chaˆıne est d’ˆetre totalement automatique, c’est–`a–dire qu’aucune information externe n’est n´ecessaire. Cet avantage permet de garantir l’efficacit´e de la m´ethode sur n’importe quelle zone du globe, pourvu que des couples st´er´eoscopiques soient pr´esents aux dates d’int´erˆet. Nous avons montr´e au cours de cette th`ese que l’un des ´el´ements les plus sensibles de la m´ethode est la qualit´e du MNS, c’est pourquoi une grande partie de ce travail est d´edi´ee `a l’am´elioration de la pr´ecision des MNS produits par imagerie spatiale. Une technique innovante, bas´ee sur la fusion de tous les MNS asym´etriques r´ealisables `a partir d’un mˆeme couple st´er´eoscopique a ´et´e d´evelopp´ee dans cet objectif. Cette m´ethode s’est av´er´ee particuli`erement efficace pour diminuer les erreurs de corr´elations dans le MNS final, qu’elles proviennent de la mise en correspondance sur des objets difficiles de la sc`ene ou des zones d’occlusion de l’une ou l’autre image du couple. Enfin, nous avons montr´e que cette m´ethode ´etait aussi avantageuse pour traiter la multi–st´er´eoscopie. 1336.1. CONCLUSION La m´ethode de d´etection des changements d’´el´evation d´evelopp´ee dans la chaˆıne de traitements est bas´ee sur une classification optimis´ee de tous les pixels du MNS diff´erentiel, classification qui d´epend de la valeur de diff´erence d’´el´evation des pixels mais aussi d’une contrainte spatiale permettant de limiter les variations de labels affect´es `a des pixels connexes. Cette m´ethode de classification permet ainsi de mettre en avant les changements coh´erents de la sc`ene tout en supprimant le bruit de corr´elation tandis que l’´equilibre fausses alarmes et bonnes d´etections est alors contrˆol´e par le param`etre de r´egularisation λ. Cette m´ethode a ´et´e test´ee sur plusieurs zones diff´erentes et dans un contexte de recherche des changements urbains typiques d’une ville. Ces zones ont ´et´e s´electionn´ees dans les villes de Phoenix (Arizona, Etats-Unis) et de Christchurch (Nouvelle-Z´elande). ´ Les r´esultats montrent que, lorsque un taux de d´etection de plus de 80% est attendu et pour des changements de taille sup´erieure `a 15×15 pixels, les taux de fausses alarmes varient alors de 20% `a 35% seulement et avec une r´egularisation optimale d´efinie `a λ = 5, 0. Lorsque des changements de toutes tailles sont recherch´es, la r´egularisation optimale est alors abaiss´ee `a environ λ = 3, 0 et permet la d´etection de 60% `a 80% des changements avec de 40% `a 60% de fausses alarmes. Ces r´esultats sont cependant particuli`erement sensibles aux sources d’erreurs de corr´elation pr´esentes dans la sc`ene. Dans un contexte plus particulier de destruction urbaine importante, apr`es une catastrophe majeure, nous montrons que les mˆemes r´egularisations peuvent s’appliquer et entraˆınent un taux de plus de 95% de bonnes d´etections et moins de 10% de fausses alarmes, valeurs obtenues pour la r´egion de Tohoku, touch´ee par un tsunami le 11 mars 2011. La chaˆıne de traitement d´evelopp´ee n´ecessite cependant l’utilisation de nombreux param`etres, que ce soit pour la g´en´eration des MNS ou la d´etection des changements. On montre pourtant que, quel que soit le contexte ou le capteur tr`es haute r´esolution (ville de Phoenix en image WorldView-1 ou r´egion d´etruite de Sendai en images Ikonos) les mˆeme param`etres peuvent ˆetre utilis´es. Nous montrons ainsi que seule la r´esolution du capteur ou le contexte de la zone d’´etude (urbaine ou rurale vallonn´ee) doivent ˆetre pris en compte pour la g´en´eration des MNS tandis que la r´esolution des images, la taille des changements ou la pr´ecision recherch´ee 134CHAPITRE 6. CONCLUSION GEN´ ERALE ´ sont les seules v´eritables contraintes du syst`eme de d´etection de changements. Enfin, le syst`eme fonctionne sur un seul et mˆeme “noyau” algorithmique, noyau que nous avons r´ealis´e de fa¸con `a le rendre adaptable `a de nombreux probl`emes de labellisation tandis que les probl`emes rencontr´es dans la chaˆıne de traitements sont eux–mˆemes tous formul´es en termes de labellisation des pixels d’une image selon des contraintes de probabilit´e et une contrainte de r´egularisation spatiale. 6.2 Perspectives Nous pouvons mettre en ´evidence trois perspectives d’´evolution `a fort int´erˆet pour la chaˆıne de traitements d´evelopp´ee. La premi`ere consiste en la cr´eation d’un masque de v´eg´etation. En effet, nous avons montr´e, lors des ´etapes de g´en´eration de MNS, que la mise en correspondance avait une forte tendance `a produire des erreurs sur des textures 3D aussi complexes que la v´eg´etation. Dans l’´etape de basculement des MNS, la v´eg´etation est partiellement supprim´ee grˆace aux contraintes sur le score de corr´elation et dans l’´etape suivante de fusion des MNS, d’autres erreurs dues `a la v´eg´etation peuvent ˆetre ´elimin´ees grˆace `a la r´egularisation sur le MNS. Mais ces erreurs restent n´eanmoins une des sources principales de fausses alarmes dans la d´etection des changements, notamment lorsque les couples ou n-uplets st´er´eoscopiques n’ont pas ´et´e acquis `a la mˆeme saison et que la v´eg´etation est alors plus ou moins d´evelopp´ee entre les images. Ce ph´enom`ene a notamment ´et´e illustr´e sur les cartes de changements obtenues sur la zone de Christchurch. Cependant, nous avons aussi pu montrer les d´egˆats importants sur la v´eg´etation apr`es la catastrophe de Sendai grˆace aux changements d´etect´es sur la v´eg´etation. Les changements apparus sur la v´eg´etation peuvent ainsi, selon le contexte ou l’application demand´ee, ˆetre recherch´es ou ˆetre consid´er´es en fausses alarmes. C’est pourquoi une perspective int´eressante `a ce travail est la cr´eation de masques de v´eg´etation afin de diminuer les fausses alarmes g´en´er´ees ou bien afin de mettre en ´evidence les alarmes de changements que la v´eg´etation produit. 1356.2. PERSPECTIVES Afin d’´eviter les cas o`u une zone de v´eg´etation serait transform´ee en zone bˆatie ou inversement, il serait alors n´ecessaire de g´en´erer des masques de v´eg´etation correspondant `a chacune des dates d’´etude. Deux solutions pourraient ensuite ˆetre envisag´ees pour la prise en compte de ces masques dans la d´etection des changements. Une premi`ere approche serait le filtrage post–traitement des alarmes de changements lorsque qu’une alarme correspond, `a chacune des dates, `a une zone de v´eg´etation. Une seconde approche, certainement plus pr´ecise, consisterait `a consid´erer la v´eg´etation comme un label `a part enti`ere lors de la classification des pixels. Une autre perspective d’am´elioration de la pr´ecision des r´esultats peut ˆetre repr´esent´ee par le couplage de la m´ethode de d´etection des changements d’´el´evation, telle que nous l’avons con¸cue, avec une m´ethode de d´etection des changements radiom´etriques. Nous avons pr´ecis´e, au d´ebut de ce travail, que les m´ethodes de d´etection des changements radiom´etriques ´etaient tr`es sensibles aux conditions d’acquisitions des images et d´etectaient ainsi des changements d’illumination non pertinents pour notre contexte. Cependant, nous avons aussi montr´e que notre m´ethode peut aussi g´en´erer des fausses alarmes mais sur des zones trop homog`enes ou trop p´eriodiques qui sont une gˆene pour la mise en correspondance. Ainsi, le filtrage, par exemple, des alarmes de changements 3D par une m´ethode de d´etection des changements radiom´etriques pourrait s’av´erer tr`es avantageux pour la pr´ecision des r´esultats finaux. Enfin, une derni`ere perspective `a ce travail est la g´en´eration de MNS `a partir d’images satellites monososcopiques, n’ayant pas ´et´e acquises simultan´ement. En effet, la chaˆıne de traitements d´evelopp´ee est bas´ee sur l’utilisation de couple ou uplets st´er´eoscopiques n´ecessaires pour les deux dates t1 et t2. Cette condition, requise pour tout traitement, n’est pourtant pas toujours satisfaite sur toutes les r´egions du globe car si les satellites aujourd’hui font preuve d’une grande r´eactivit´e et peuvent acqu´erir des images st´er´eoscopiques dans un court d´elai et n’importe o`u, les archives st´er´eoscopiques ne sont, elles, pas toujours disponibles. Une piste importante consisterait donc `a d´evelopper une m´ethode capable de g´en´erer des MNS `a partir de nombreuses images monoscopiques acquises dans les mois qui entourent la date d’int´erˆet t1 et avec n’importe quel capteur tr`es haute r´esolution. La mise en correspondance de 136CHAPITRE 6. CONCLUSION GEN´ ERALE ´ toutes les images n´ecessiterait alors la prise en compte de leurs diff´erences qu’elles soient dues `a l’acquisition des images comme les diff´erences d’illumination ou aux changements survenus entre les acquisitions. Cette piste pr´esente ainsi un fort int´erˆet dans de nombreux domaines n´ecessitant la cr´eation de MNS. 1376.2. PERSPECTIVES 138Table des figures 1.1 Sch´ema de principe des diff´erentes g´eom´etries de mise en correspondance. . . . . 34 1.2 Illustration des diff´erentes ´etapes de la chaˆıne globale de traitements. . . . . . . . 36 2.1 Illustration du syst`eme d’acquisition en barrette push–broom et des angles d’attitude du satellite. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.2 Illustration du r´esultat de la spatio–triangulation pour le recalage des images. . . 44 2.3 Illustration du r´esultat de la spatio–triangulation pour le recalage des images (´echelle en pixels). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.4 Illustration du calcul des r´esidus de la spatio–triangulation. . . . . . . . . . . . . 46 2.5 Illustration de la m´ethode des graph–cuts appliqu´ee `a une image. . . . . . . . . . 50 2.6 Illustration d’un effet de streaking le long des lignes d’une image trait´ee par programmation dynamique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.7 Illustration du parcours des diff´erentes directions pour la programmation dynamique afin de calculer le coˆut ”semi–global”. . . . . . . . . . . . . . . . . . . . . . 55 2.8 Illustration du calcul des coˆuts obtenus pour chaque label et chaque pixel de la s´equence selon l’´equation 2.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.1 Illustration de l’impact de la r´egularisation pour la g´en´eration de MNS. . . . . . 64 3.2 Principe de parcours de la grille image maˆıtre pour l’interpolation des points de la grille r´eguli`ere. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.3 Illustration du principe de l’interpolation d’une grille r´eguli`ere terrain `a partir des points obtenus dans la g´eom´etrie de l’image maˆıtre. . . . . . . . . . . . . . . . . . 69 3.4 Illustration du r´esultat du basculement d’un MNS WorldView-1 `a partir de la carte des ´el´evations en g´eom´etrie image. . . . . . . . . . . . . . . . . . . . . . . . 70 139TABLE DES FIGURES 3.5 MNS asym´etriques provenant du mˆeme couple d’images st´er´eoscopiques. . . . . . 73 3.6 MNS provenant du mˆeme couple st´er´eoscopique et r´esultat de leur fusion par la moyenne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.7 Sch´ema r´ecapitulatif de la proc´edure de fusion des MNS en fonction des valeurs initiales et de l’attache aux donn´ees. . . . . . . . . . . . . . . . . . . . . . . . . . 80 3.8 3.8(a) et 3.8(b) : MNS calcul´es `a partir du mˆeme couple st´er´eoscopique et r´esultats de leur fusion par optimisation globale 3.8(c). . . . . . . . . . . . . . . . . . . . . 81 3.9 3.9(a) et 3.9(b) : Histogrammes des cartes de diff´erences calcul´ees entre le liDAR et le MNS asym´etrique et MNS fusionn´e, respectivement. . . . . . . . . . . . . . . 85 3.10 Profils d’´el´evation compar´es entre le MNS asym´etrique (en vert), le MNS fusionn´e (en bleu) et le Lidar (en rouge). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 3.11 Illustration du triplet st´er´eoscopique Pl´eiades acquis sur la ville de Toulouse. . . 89 3.12 MNS calcul´es `a partir de 2 images puis 3 images du mˆeme uplet st´er´eoscopique. . 90 4.1 4.1(a) et 4.1(b) MNS de 2008 et 2011 calcul´es sur la zone 1 d´efinie sur la ville de Phoenix. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.2 4.2(a) MNS diff´erentiel. 4.2(b) MNS diff´erentiel seuill´e. . . . . . . . . . . . . . . 96 4.3 Fonction sigmo¨ıdale permettant le calcul des coˆuts d’attache aux donn´ees pour le label changement positif. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 5.1 Orthoimages provenant des images panchromatiques WorldView–1 repr´esentant les trois zones test´ees sur la ville de Phoenix et la zone de Christchurch. . . . . . 103 5.2 5.2(a)Orthoimage calcul´ee et 5.2(b) donn´ee de r´ef´erence des changements de la zone 1 de Phoenix. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.3 Ortho images et MNS calcul´es avant et apr`es la catastrophe de Sendai du 11/03/2011. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5.4 Zone partiellement d´etruite par le Tsunami et quantifi´ee `a travers la carte de r´ef´erence des bˆatiments d´etruits et intacts. . . . . . . . . . . . . . . . . . . . . . 108 5.5 Cartes de d´etection de changement obtenues `a partir d’un nombre variable de directions de calcul et une r´egularisation λ = 3, 0. . . . . . . . . . . . . . . . . . . 114 5.6 Illustration de l’impact du nombre de directions de calcul sur les taux de bonnes et fausses d´etections. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 140TABLE DES FIGURES 5.7 Cartes des d´etections calcul´ee avec diff´erentes valeurs de λ et 12 directions. . . . 116 5.8 5.8(a) et 5.8(c) : Variations des taux de fausses et vraies d´etections en fonction de la r´egularisation λ. 5.8(b) et 5.8(d) : Variation du coefficient Kappa en fonction de la r´egularisation λ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 5.9 5.9(a) et 5.9(c) : Variations des taux de fausses et vraies d´etections en fonction de la r´egularisation λ ou de la taille de l’´el´ement structurant. 5.9(b) et 5.9(d) : Variations du coefficient Kappa en fonction de la r´egularisation λ ou de la taille de l’´el´ement structurant. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.10 5.10(a), 5.10(c) et 5.10(e) Variations des taux de bonnes et fausses d´etections en fonction du λ ; 5.10(b), 5.10(d) et 5.10(f ) Variations du coefficient Kappa pour chacune des zones test de Phoenix. . . . . . . . . . . . . . . . . . . . . . . . . . . 125 5.11 5.11(a) : Variations des taux de bonnes et fausses d´etections en fonction du λ. 5.11(b) : Variation du coefficient Kappa. R´esultats calcul´es pour la zone de Christchurch. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5.12 Courbes des taux de bonnes d´etections, fausses alarmes et coefficient Kappa. . . . 129 5.13 Images ortho rectifi´ees de la r´egion de Tohoku et carte des changements r´esultante. 130 141TABLE DES FIGURES 142Liste des tableaux 1.1 M´etadonn´ees des images utilis´ees lors des diff´erentes ´etudes. . . . . . . . . . . . . 38 3.1 Tableau de synth`ese des param`etres de la m´ethode compl`ete de g´en´eration des MNS. 92 4.1 Tableau de synth`ese des param`etres n´ecessaires `a la m´ethode de d´etection des changements d’´el´evation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 143LISTE DES TABLEAUX 144Bibliographie [1] E. Berthier, Y. Arnaud, R. Kumar, S. Ahmad, P. Wagnon, and P. Chevallier. Remote sensing estimates of glacier mass balances in the Himachal Pradesh (Western Himalaya, India). In Remote Sensing of Environment, vol. 108 no. 3 pp. 327–338, 2007. [2] P. Baldi, M. Fabris, M. Marsella, and R. Monticelli. Monitoring the morphological evolution of the sciara del fuoco during the 2002 – 2003 Stromboli eruption using multi–temporal photogrammetry. In ISPRS Journal of Photogrammetry and Remote Sensing, vol. 59 no. 4 pp. 199–211, 2005. [3] M. Koga and A. Iwasaki. Improving the measurement accuracy of three-dimensional topography changes using optical satellite stereo image data. In IEEE Transactions on Geoscience and Remote Sensing, vol. 49 no. 8 pp. 2918–2923, Aug. 2011. [4] K. Tsutsui, S. Rokugawa, H. Nakagawa, S. Miyazaki, C. Cheng, T. Shiraishi, and Shiun-Der Yang. Detection and volume estimation of large-scale landslides based on elevation–change analysis using DEMs extracted from high–resolution satellite stereo imagery. In IEEE Transactions on Geoscience and Remote Sensing , vol. 45 no. 6 pp. 1681–1696, Jun. 2007. [5] N. Champion, D. Boldo, M. Pierrot-Deseilligny, and G. Stamon. 2D Change detection from satellite imagery : performance analysis and impact of the spatial resolution of input images. In IEEE International Geoscience and Remote Sensing Symposium (IGARSS), pp. 1421–1424, Jul. 2011. [6] P. Reinartz, J. Tian, and A.A. Nielsen. Building damage assessment after the earthquake in Haiti using two post–event satellite stereo imagery and dsms. In Joint Urban Remote Sensing Event (JURSE), pp. 057–060, 2013. 145BIBLIOGRAPHIE [7] R.J. Radke, S. Andra, O. Al-Kofahi, and B. Roysam. Image change detection algorithms : a systematic survey. In IEEE Transactions on Image Processing, vol. 14, no. 3, pp. 294–307, Mar. 2005. [8] J. Tian, H. Chaabouni-Chouayakh, P. Reinartz, T. Krauss, and P. d Angelo. Automatic 3D change detection based on optical satellite stereo imagery. In ISPRS TC VII Symposium, Vienna, 2010. [9] P. J. Deer. Digital change detection techniques : Civilian and military applications. In International Symposium on Spectral Sensing Research, 1995. [10] A. Singh. Review article digital change detection techniques using remotely–sensed data. In International Journal of Remote Sensing, vol. 10, no. 6, pp. 989–1003, 1989. [11] M. Volpi, D. Tuia, M. Kanevski, F. Bovolo, and L. Bruzzone. Supervised change detection in VHR images : a comparative analysis. In IEEE International Workshop on Machine Learning for Signal Processing, pp. 1–6, Sept. 2009. [12] L. Bruzzone and F. Bovolo. A conceptual framework for change detection in very high resolution remote sensing images. In IEEE International Geoscience and Remote Sensing Symposium (IGARSS), pp. 2555–2558, Jul. 2010. [13] P.L. Rosin and E. Ioannidis. Evaluation of global image thresholding for change detection. In Pattern Recognition Letters, vol. 24, no. 14, pp. 2345–2356, 2003. [14] F. Bovolo, L. Bruzzone, and M. Marconcini. A novel approach to unsupervised change detection based on a semi–supervised SVM and similarity measure. In IEEE Transaction on Geoscience and Remote Sensing Letters, vol. 46, no. 7, pp. 2070–2082, 2008. [15] D.H.A. Al-Khudhairy, I. Caravaggi, and S. Clada. Structural damage assessments from Ikonos data using change detection, object–oriented segmentation and classification techniques. In Photogrammetric Engineering and Remote Sensing, vol. 71, pp. 825–837, 2005. [16] L. Bruzzone and D.F. Prieto. Automatic analysis of the difference image for unsupervised change detection. In IEEE Transactions on Geoscience and Remote Sensing, vol. 38, no. 3, pp. 1171–1182, May 2000. 146BIBLIOGRAPHIE [17] T.T. Vu, M. Matsuoka, and F. Yamazaki. Lidar–based change detection of buildings in dense urban areas. In IEEE International Geoscience and Remote Sensing Symposium (IGARSS), vol. 5, pp. 3413–3416, Sep. 2004. [18] G. Sithole and G. Vosselman. Automatic structure detection in a point–cloud of an urban landscape. In 2nd GRSS/ISPRS Joint Workshop on Remote Sensing and Data Fusion over Urban Areas, pp 67–71, May 2003. [19] F. Rottensteiner. Automated updating of building data bases from digital surface models and multi–spectral images : Potential and limitations. In ISPRS Congress, Beijing, China, vol. 37, pp. 265–270, Dec. 2008. [20] G. Vosselman, B. G. H. Gorte, and G. Sithole. Change detection for updating medium scale maps using laser altimetry. In Proceedings of the 20th ISPRS Congress, pp. 12–23, 2004. [21] L. Matikainen, J. Hyyppa, E. Ahokas, L. Markelin, and H. Kaartinen. Automatic detection of buildings and changes in buildings for updating of maps. In Remote Sensing, vol. 2, no. 5, pp. 1217–1248, 2010. [22] H. Chaabouni-Chouayakh, P. d’Angelo, T. Krauss, and P. Reinartz. Automatic urban area monitoring using digital surface models and shape features. In Joint Urban Remote Sensing Event (JURSE), pp. 85–88, Apr. 2011. [23] F. Jung. Detecting building changes from multitemporal aerial stereopairs. In ISPRS Journal of Photogrammetry and Remote Sensing, vol. 58, no. 4, pp. 187–201, 2004. [24] J. Tian, H. Chaabouni-Chouayakh, and P. Reinartz. 3D Building change detection from high resolution spaceborne stereo imagery. In International Workshop on Multi-Platform/MultiSensor Remote Sensing and Mapping (M2RSM), pp. 1–7, 2011. [25] J. A. Marchant and C. M. Onyango. Shadow-invariant classification for scenes illuminated by daylight. In Journal of the Optical Society of America A, vol. 17, no. 11, pp. 1952–1961, Nov. 2000. [26] J. Tian, S. Cui, and P. Reinartz. Building change detection based on satellite stereo imagery and digital surface models. In IEEE Transactions on Geoscience and Remote Sensing, pp. 1–12, 2013. 147BIBLIOGRAPHIE [27] A.A. Nielsen. The regularized iteratively reweighted mad method for change detection in multi- and hyperspectral data. In IEEE Transactions on Image Processing, vol. 16, no. 2, pp. 463–478, 2007. [28] D. Scharstein and R. Szeliski. A taxonomy and evaluation of dense two–frame stereo correspondence algorithms. In International Journal of Computer Vision, vol. 47, pp. 7–42, 2002. [29] M.Z. Brown, D. Burschka, and G.D. Hager. Advances in computational stereo. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 25, no. 8, pp. 993–1008, 2003. [30] N. Lazaros, G.C. Sirakoulis, and A. Gasteratos. Review of stereo vision algorithms : from software to hardware. In International Journal of Optomechatronics, vol. 2, no. 4, pp. 435–462, 2008. [31] H. Hirschmuller. Accurate and efficient stereo processing by semi–global matching and mutual information. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), vol. 2, pp. 807–814, Jun. 2005. [32] M. Pierrot-Deseilligny and N. Paparoditis. A multiresolution and optimization–based image matching approach : an application to surface reconstruction from SPOT5-HRS stereo imagery. In Internationales Archives of Photogrammetry and Remote Sensing, 2006. [33] Q. Yang, L. Wang, R. Yang, H. Stewenius, and D. Nister. Stereo matching with colorweighted correlation, hierarchical belief propagation, and occlusion handling. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 3, pp. 492–504, 2009. [34] A.F. Bobick and S.S. Intille. Large occlusion stereo. In International Journal of Computer Vision, pp. 181–200, 1999. [35] C. Baillard and A. Zisserman. Automatic reconstruction of piecewise planar models from multiple views. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), vol. 2, pp. 559–65, Jun. 1999. 148BIBLIOGRAPHIE [36] L. Zhang and A. Gruen. Multi–image matching for dsm generation from ikonos imagery. In ISPRS Journal of Photogrammetry and Remote Sensing, vol. 60, no. 3, pp. 195–211, 2006. [37] R. Zabih and J. Woodfill. Non–parametric local transforms for computing visual correspondence. In Computer Vision ECCV’94, pp. 151–158, 1994. [38] A. Klaus, M. Sormann, and K. Karner. Segment-based stereo matching using belief propagation and a self–adapting dissimilarity measure. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CPVR), vol. 2, Jun. 2006. [39] J. Sun, Y. Li, S.B. Kang, and H.Y. Shum. Symmetric stereo matching for occlusion handling. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), vol. 2, pp. 399–406, 2005. [40] M. Sizintsev and R.P. Wildes. Coarse-to-fine stereo vision with accurate 3d boundaries. In Image and Vision Computing, vol. 28, no. 3, pp. 352–366, 2010. [41] Y. Boykov and V. Kolmogorov. An experimental comparison of min-cut/max- flow algorithms for energy minimization in vision. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 26, no. 9, pp. 1124–1137, Sep. 2004. [42] K Schindler. An overview and comparison of smooth labeling methods for land–cover classification. In IEEE Transactions on Geoscience and Remote Sensing, vol. 50, no. 11, pp. 4534–4545, Nov. 2012. [43] P.F. Felzenszwalb and D.R. Huttenlocher. Efficient belief propagation for early vision. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), vol. 1, pp. 261–268, Jul. 2004. [44] O. Veksler. Stereo correspondence by dynamic programming on a tree. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CPVR), vol. 2, pp. 384– 390, Jun. 2005. [45] H. Hirschmuller and D. Scharstein. Evaluation of cost functions for stereo matching. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1–8, Jun. 2007. 149BIBLIOGRAPHIE [46] S. Birchfield and C. Tomasi. Depth discontinuities by pixel–to–pixel stereo. In International Journal of Computer Vision, vol. 35, pp. 269–293, 1999. [47] H. Hirschmuller, P. R Innocent, and J. Garibaldi. Real–time correlation based stereo vision with reduced border errors. In International Journal of Computer Vision, vol. 47, no. 3, pp. 229–246, 2002. [48] M. Pierrot-Deseilligny L. Penard, N. Paparoditis. 3d building facade reconstruction under mesh form from multiple wide angle views. In Proceedings of the 20th ISPRS Congress, 2005. [49] P. Fua. A parallel stereo algorithm that produces dense depth maps and preserves image features. In Machine Vision and Applications, vol. 6, pp. 35–49, 1993. [50] G. Egnal and R.P. Wildes. Detecting binocular half-occlusions : empirical comparisons of five approaches. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 8, pp. 1127–1133, 2002. [51] S. Chambon and A. Crouzil. Towards correlation-based matching algorithms that are robust near occlusions. In Proceedings of the 17th International Conference on Pattern Recognition (ICPR), vol. 3, pp. 20–23, 2004. [52] P. N. Belhumeur. A bayesian approach to binocular steropsis. In International Journal of Computer Vision, vol. 19, no. 3, pp. 237–260, 1996. [53] Y. Furukawa and J. Ponce. Accurate dense and robust multi–view stereopsis. In IEEE Transactions Pattern Analysis and Machine Intelligence, vol. 32, pp. 1362–1376, 2010. [54] F De Lussy, D. Greslou, C Dechoz, V. Amberg, J. M. Delvit, L. Lebegue, G. Blanchet, and S. Fourest. Pleiades HR in flight geometrical calibration : location and mapping of the focal plane. In ISPRS International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, vol. 39, pp. 519–523, 2012. [55] J. Grodecki and G. Dial. Block adjustment of high-resolution satellite images by rational polynomials. In Photogrammetric Engineering and Remote Sensing, vol. 69, pp. 59–68, 2003. 150BIBLIOGRAPHIE [56] C.S. Fraser, G. Dial, and J. Grodecki. Sensor orientation via RPCs. In ISPRS Journal of Photogrammetry and Remote Sensing, vol. 60, pp. 182–194, 2006. [57] S. Geman and D. Geman. Stochastic relaxation, gibbs distributions, and the bayesian restoration of images. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 6, no. 6, pp. 721–741, Nov. 1984. [58] Y. Boykov, O. Veksler, and R. Zabih. Fast approximate energy minimization via graph– cuts. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, no. 11, pp. 1222–1239, Nov. 2001. [59] S. Roy and I.J. Cox. A maximum–flow formulation of the n-camera stereo correspondence problem. In Sixth International Conference on Computer Vision, pp. 492–499, Jan. 1998. [60] Y. Weiss and W.T. Freeman. On the optimaly of solutions of the max-product belief propagation algorithm in arbitrary graphs. In IEEE Transactions Information Theory, vol. 47, pp. 723–735, 2001. [61] Daniel Scharstein and Richard Szeliski. vision.middlebury, 2012. [62] L. Randolph Ford and D.R. Fulkerson. A simple algorithm for finding maximal network flows and an application to the Hitchcock problem. Rand Corporation, 1955. [63] V. Kolmogorov and R. Zabih. What energy functions can be minimized via graph–cuts. In IEEE Transactions Pattern Analysis and Machine Intelligence, vol. 26, pp. 147–159, 2004. [64] R. Szeliski, R. Zabih, D. Scharstein, O Veksler, V Kolmogorov, A. Agarwala, and C. Rother. A comparative study of energy minimization methods for markov random fields. In Computer Vision-ECCV, pp. 16–29, 2006. [65] V. Kolmogorov. Convergent tree–reweighted message passing for energy minimization. In IEEE Transactions Pattern Analysis and Machine Intelligence, vol. 28, pp. 1568–1583, 2006. [66] P.F. Felzenszwalb and R. Zabih. Dynamic programming and graph algorithms in computer vision. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 33, no. 4, pp. 721–740, Apr. 2011. 151BIBLIOGRAPHIE [67] Y. Otha and T. Kanade. Stereo by intra- and inter–scanline search using dynamic programming. In IEEE Transactions Pattern Analysis and Machine Intelligence, vol. 2, pp. 139–154, 1985. [68] R. B. Potts. Some generalized order–disorder transformations. Cambridge Philos. Soc. Math. Proc., vol. 48, pp. 106–109, 1952. [69] A. Fahmi, J. Jansa, C. Ries, et al. The generation of true orthophotos using a 3D building model in conjunction with conventional DTM. In International Archives of Photogrammetry and Remote Sensing, vol. 32, 1998. [70] G. Singh, Y. Yamaguchi, W.-M. Boerner, and Sang-Eun Park. Monitoring of the March 11, 2011, off-tohoku 9.0 earthquake with super–tsunami disaster by implementing fully polarimetric high–resolution polsar techniques. In Proceedings of the IEEE, vol. 101, no. 3, pp. 831–846, 2013. [71] J. Cohen. A coefficient of agreement for nominal scales. In Educational and psychological measurement, vol. 20, no. 1, pp. 37–46, 1960. [72] G.G. Wilkinson. Results and implications of a study of fifteen years of satellite image classification experiments. In IEEE Transactions on Geoscience and Remote Sensing, vol. 43, no. 3, pp. 433–440, Mar. 2005. [73] R.M. Haralick, S.R. Sternberg, and X. Zhuang. Image analysis using mathematical morphology. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 9, no. 4, pp. 532–550, 1987. 152 Une approche d’alignement `a la probl´ematique de la d´etection des activit´es habituelles Rick Moritz To cite this version: Rick Moritz. Une approche d’alignement `a la probl´ematique de la d´etection des activit´es habituelles. Computers and Society. INSA de Rouen, 2014. French. . HAL Id: tel-00944105 https://tel.archives-ouvertes.fr/tel-00944105 Submitted on 10 Feb 2014 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destin´ee au d´epˆot et `a la diffusion de documents scientifiques de niveau recherche, publi´es ou non, ´emanant des ´etablissements d’enseignement et de recherche fran¸cais ou ´etrangers, des laboratoires publics ou priv´es.THESE Pr´esent´ee `a : L’Institut National des Sciences Appliqu´ees de Rouen En vue de l’obtention du grade de : Docteur en Informatique Par Rick P. C. MORITZ Routine Activity Extraction from Local Alignments in Mobile Phone Context Data Soutenance le 05/02/2014 Devant le jury compos´e de : Pr´esident Christophe Garcia Professeur des Universit´es LIRIS, INSA Lyon Rapporteurs Bruno Cr´emilleux Professeur des Universit´es GREYC, Universit´e de Caen Philippe Leray Professeur des Universit´es LINA, Universit´e de Nantes Directeur de Th`ese Michel Mainguenaud Professeur des Universit´es LITIS, INSA de Rouen Co-Encadrants Alexandre Pauchet Maˆıtre de Conf´erences LITIS, INSA de Rouen Gr´egoire Lefebvre Ing´enieur R&D, Docteur Orange Labs MeylanAbstract Humans are creatures of habit, often developing a routine for their day-to-day life. We propose a way to identify routine as regularities extracted from the context data of mobile phones. Mobile phones have become the de facto wearable sensor device, used and carried on person over most of the day. We study existing approaches to this problem, and deem past results not satisfactory, with regard to the ever richer context data available, that is not being exploited. Subsequently, we choose Lecroq et al.’s existing state of the art algorithm as basis for a set of modifications that render it suitable for the task, foremostly addressing performance issues. This algorithm is itself an evolution of a dynamic programming based local alignment algorithm, which is frequently used in biological sequence analysis. Our approach searches alignments in sequences of n-tuples of context data, which correspond to the user traces of routine activity. Our key enhancements to this algorithm are exploiting the sequential nature of the data to reduce algorithmic complexity by a factor equal to the number of data sources available, and using an early maximisation approach to reject non-optimal alignments in favour of optimal alignments. We develop a generator of context-like data to allow us to evaluate our approach automatically, without relying on manual annotation of ground truth. Additionally, we collect and manually annotate a mobile phone context dataset to facilitate the evaluation of our algorithm. The results are promising, allowing us to prove the concept of our approach, while also outlining the limitations. Our contribution can be used as a filter for a domain expert (e.g. the user of the mobile phone himself) to determine whether a certain interval of data corresponds to an actual activity based habit, reducing the workload compared to a pure manual approach. The configurability of the algorithm allows the expert to have control over which patterns are filtered or retained.Contents Nomenclature . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii 1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 State of the Art . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1 Context Datasets . . . . . . . . . . . . . . . . . . . . . . . . 6 2.1.1 Reality Mining Dataset . . . . . . . . . . . . . . . . . . . . . . . . 6 2.1.2 Lausanne Data Collection Campaign . . . . . . . . . . . . . . . . . 7 2.1.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2 Machine Learning and Statistical Analysis . . . . . . . . . . . . . . 9 2.2.1 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.3 Probabilistic State Machines . . . . . . . . . . . . . . . . . . . . . 12 2.2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Sequence Mining . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.1 Itemset Mining and Sequential Pattern Mining . . . . . . . . . . . 14 2.3.2 String Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3.3 Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.4 Conclusion and Direction . . . . . . . . . . . . . . . . . . . . . 46 3 Alignment of Sequences of n-Tuples . . . . . . . . . . . . . . . . . . . 47 3.1 Context Model . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.1.1 Sequence of n-tuples . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.1.2 Blocking and Sampling . . . . . . . . . . . . . . . . . . . . . . . . 49 3.1.3 Meta-data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.1.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.2 Alignment Algorithm. . . . . . . . . . . . . . . . . . . . . . . 55 iv3.2.1 Contribution I: Reduction to n-tuple Problem . . . . . . . . . . . . 57 3.2.2 Contribution II: Locally Optimal Alignments . . . . . . . . . . . . 63 3.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4 Experimental Validation and Results . . . . . . . . . . . . . . . . . . 69 4.1 Synthetic Data Evaluation. . . . . . . . . . . . . . . . . . . . . 69 4.1.1 Synthetic Data Generator and Dataset . . . . . . . . . . . . . . . . 69 4.1.2 Synthetic Data Pattern Extraction Evaluation . . . . . . . . . . . 89 4.1.3 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.2 Real World Data Evaluation . . . . . . . . . . . . . . . . . . . . 96 4.2.1 Data Collection Campaign . . . . . . . . . . . . . . . . . . . . . . . 96 4.2.2 Evaluation of Alignment Approach on Real Data . . . . . . . . . . 102 4.2.3 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5 Conclusions and Future Work . . . . . . . . . . . . . . . . . . . . . 109 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 A Benchmarks of Supervised Classification Algorithms for Next Place Prediction . . 130 A.1 The Next Place Prediction Problem . . . . . . . . . . . . . . . . . 130 A.2 Dataset Analysis . . . . . . . . . . . . . . . . . . . . . . . . 130 A.3 Next Visit Prediction. . . . . . . . . . . . . . . . . . . . . . . 132 A.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 B Details on the evaluation processes . . . . . . . . . . . . . . . . . . . 138 B.1 Real world data . . . . . . . . . . . . . . . . . . . . . . . . . 138 B.1.1 Similarity score tables . . . . . . . . . . . . . . . . . . . . . . . . . 138 B.1.2 Detailed results of the alignment algorithm evaluation on synthetic data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 B.1.3 Expert annotated patterns . . . . . . . . . . . . . . . . . . . . . . 145 vList of Figures 2.3.1 A WAP-tree and conditional WAP-trees for two subsequences c and ac (Source: Pei et al. [2000]) . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.2 Examples of different types of repeat-related features in a string. . . . . . 26 2.3.3 Construction of a suffix tree from abcbcabc%. The numbers indicate both the order and the index of the current suffix being added. New leaves and nodes at each step are shaded. . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3.4 Identification of longest repeats using Baker’s algorithm in the complete suffix tree from Fig. 2.3.3. Steps 7, 8 and 9 of the tree construction are performed, adding the three shaded leaves. The order in which the leaves are added is given by the nodes and indicated by the superscripts of the vertex labels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.5 Original Needleman-Wunsch algorithm, as introduced by Needleman and Wunsch [1970]. The left table is filled with incrementation markers (“1”) at each location where a pair of values match. In the right table, the values for all the cells have been determined, and the alignment highlighted by arrows and bold values. The alignment (arrows) starts at the maximum value and then follows the maximum values, upwards and to the left in the table. The “skips” between values 5 and 4, and 3 and 2 are indicative of deletions in the row-string. . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3.6 Calculation of the local similarity using the dynamic programming approach. The preceding values in the table are either incremented by the substitution score, in the case of the diagonal predecessor, or decremented by the indel penalty. The maximum value is carried over for all successive operations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 vi2.3.7 Dynamic programming version of the Needleman-Wunsch algorithm. Nonmatching substitutions have no penalty, matching substitutions score a value of 1 and insertions and deletions are penalised with a value of - 1. The left table shows how a particular cell value is calculated from three predecessor values, the right table shows the complete table and highlights the series of maximal values which indicate the alignment operations. Note that the traceback follows substitutions over indels in cases of ambiguity (e.g. the 4→3 transition marked in the right table), as the value that was used to calculate the current value defines the path for the traceback, and not necessarily the maximum value. . . . . . . . . . . . . . 36 2.3.8 Two accumulated similarity tables obtained using the Smith-Waterman algorithm. The left has been calculated using a similarity score of 1 for matches, and dissimilarity penalties of -2 for non-matching substitutions and indels. The right table has this penalty reduced to -1. In each case, the alignments with a similarity score of at least 3 have been highlighted. Note how the higher penalty leads to smaller, more local alignments. . . . 38 2.3.9 Row and column prefixes, and accompanying notation. . . . . . . . . . . 40 2.3.10Three different ways of modelling context for different sequence mining approaches. “Data synchronisation” refers to the need to have a full set of sensor readings available at every time step, irrespective of different sampling frequencies of the actual sensors. . . . . . . . . . . . . . . . . . . 42 3.1.1 The transformation of continuous context C(t) into context data in a sequential model. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.1.2 Linking w- and z-axes into a single dimension, due to translational symmetry (i.e.: every set of discrete steps taken along the z-axis is replicated identically in the w-axis). . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.1.3 Splitting a long sequence of context data into blocks of roughly equal (but not necessarily equal) lengths. . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.1.4 The reduction of the size of individual accumulated similarity score tables which can be obtained by blocking. a and b are two sequences, with the local similarity scores contained in the volume spanned between them. . . 51 3.1.5 A sample substitution similarity score table from the set of n tables. . . . 52 3.1.6 Two intervals of identical values but different lengths can be aligned by assigning positive similarity score to insertions and deletions of identical values. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 vii3.2.1 Two example context sequences, the resulting context data sequences and an alignment (cells underlaid in grey) that corresponds to two similar subsequences. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.2.2 Alignment of two context sequences a and b from a corpus. . . . . . . . . 56 3.2.3 Selection of tuple elements in a sequence using reverse addressing. The origin of the coordinate system used here is in the lower right end of the sequence. From there the first coordinate is incremented when moving one element to left, and the second when moving one element upwards. . 58 3.2.4 Example of the •i,,j operator. If the operator is used on the same sequence of n-tuples, with one pair of indices being higher than the other, the smaller result is a subset of the larger one. In this case the result underlaid in black is a subset of the result underlaid in grey. . . . . . . . . . . . . . 59 3.2.5 Selection of a column and row using the ↑ and ← operators. . . . . . . . . 60 3.2.6 Calculation of a column similarity score. Two columns are extracted from two sequences, then aligned in inverse order, up to the point where the similarity score reaches zero. The maximum similarity from this interval is the similarity value we assign these two columns. . . . . . . . . . . . . . 61 3.2.7 The local dependencies of the calculation of a local similarity value. To the left in the three-dimensional table of accumulated similarity scores T and to the right the equivalent representation in the domain of the two sequences a and b. Operations V and VI – insertion and deletion – are one-dimensional operations and therefore appear only either in a or on b. 63 3.2.8 The rightmost (n-th) z-slice of a table T. The axes of the plane correspond to the temporal axes of the sequences. The height and colour are representations of the accumulated similarity value in the cell in T. The white profile line denotes the plane of an arbitrarily chosen MASS. The highest value is denoted by an X. . . . . . . . . . . . . . . . . . . . . . . . 64 3.2.9 The local neighbourhood of a node (in the centre of the shown cube) in the accumulated score table T. The shown cube consists of 27 sub cubes, the one at the centre being the “home node”. The other 26 surrounding it, are the direct neighbours. A partial spatial subdivision is shown in the lower left corner to illustrate the notion of “radius”. . . . . . . . . . . . . 66 viii3.2.10Accumulated similarity score table for the alignment operations of the context data corresponding to two consecutive days. Each graph represents one of the five slices (n = 5) of the z-axis, starting at one at the top, incrementing to five at the bottom right. Height and colour correspond to local similarity values. The x - y plane is spanned by the temporal axes of the sequences. Note multiple peaks at different heights. . . . . . . . . . 67 4.1.1 Stream, pattern and cell for a simulated 4-tuple dataset. The stream consists of patterns (coloured) and random data (light grey). Each pattern consists of defined values (blue) and undefined values (white). . . . . . . . 71 4.1.2 Four alphabets A1, A2, A3, A4 with respective spectra 5, 6, 4 and 2. N.B.: Different symbols across different sensors (e.g. “A”, “1”, “a”, “0”) are used here for illustration purposes only, symbols are actually represented by their indices (i.e. as in A2). . . . . . . . . . . . . . . . . . . . . . . . . 72 4.1.3 A set of patterns, P = {X1, . . . , Xm}, with n data sources and lengths l1, . . . , lm, and a pattern element x = Xm,n,1 ∈ An. . . . . . . . . . . . . . 74 4.1.4 Illustration of dependence coefficient determination during creation of similar patterns. The right vectors are created from the values of the left vectors, through linear interpolation and scaling. . . . . . . . . . . . . 79 4.1.5 Noise is applied to symbol x from alphabet A1 using transition cost matrix T1 and transition cost vectors ~b1, ~d1, ~e1. The resulting value is y = 4. This example uses integer values for easier reading and comprehension, in general the random values are real values. The process starts with value x2,1,1 = 2 from pattern X2, extracts the corresponding row from T1 and selects the smallest absolute value in the sum of the extracted row and a random vector, to determine the index of the element to replace x. . . . . 84 4.1.6 Extract of a possible resulting stream with n = 4 and m = 3 different patterns (blue, yellow and green) and noise (red). I and D indicate cells in which insertions or deletions have happened. y is the symbol that has been generated in Fig. 4.1.5. . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.1.7 Evaluation scoring example. . . . . . . . . . . . . . . . . . . . . . . . . . . 90 ix4.1.8 The ratios of the number of alignments to the combinatorially expected number of identical pairs of patterns in two different files, for all five datasets and all 27 experiments. As the number of patterns rises, the expected number of pairs gets lower, and the rate of alignments gets closer to the number of pairs. *Note: The values for dataset 3 are on another scale than the others. . . . 93 4.2.1 Clustering of locations into places of the data gathered by one subject over a one week timespan. Artificial jitter has been introduced to the data, to better visualise data density. Note how nine incidences in the top left are clustered together with the other points towards the top left. The low number of incidences renders this error negligible. . . . . . . . . . 100 4.2.2 Visualisation of an extract of the captured data, with similar intervals marked. This extract covers the morning period of two consecutive days. The y-axis represents the different discretised context values. The values shown in this extract are light intensity on a logarithmic scale (loglux), the state of the proximity sensor (prox), the location cluster id (place), the battery level (batt) and the orientation of the phone (ori). . . . . . . . 101 4.2.3 Alignment of three pre-selected patterns with campaign data in 58 slices corresponding to 24-hour periods of 5-tuples. . . . . . . . . . . . . . . . . 103 4.2.4 Mean precision and recall for the instances in the corpus (“B” - part of the alignment) for the 24 test configurations. From left to right are the different values of MASS used. With rising MASS, both precision and recall increase. The rightmost bars are fewer, as no alignments were made with MASS values 1,700 and above for pattern 3, and no alignments were made with MASS values 3,000 for pattern 1. Due to the smaller number of elements contained in pattern 3, it has higher values than patterns 1 and 2 for the same MASS. . . . . . . . . . . . . . . . . . . . . . . . . . . 107 A.3.1Results for the Naive Bayes Classification Algorithm . . . . . . . . . . . . 134 A.3.2Results for the LogitBoost Adaptive Decision Tree Classification Algorithm135 A.3.3Results for the SMO Classification Algorithm without Feature Selection Filters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 A.3.4Results for the SMO Classification Algorithm with Feature Selection Filters136 B.1.1Reference pattern 1 - evening and night at the week-end home. . . . . . . 146 B.1.2Reference pattern 2 - morning and transit to work on a week-day. . . . . . 147 B.1.3Reference pattern 3 - at work, telephone stored or turned over. . . . . . . 148 xList of Tables 2.1 Comparison of SPM and string mining . . . . . . . . . . . . . . . . . . . . 45 4.1 Configuration of the five datasets. . . . . . . . . . . . . . . . . . . . . . . 87 4.2 Configuration values for the 27 experiments making up a dataset. . . . . . 88 4.3 Transition matrix T used for the generation of the test datasets. . . . . . 88 4.4 Key results: averages and standard deviations across all configurations. . 91 4.5 Average Pattern Size for Dataset One . . . . . . . . . . . . . . . . . . . . 92 4.6 Key results: averages and standard deviations across all configurations for the state of the art algorithm . . . . . . . . . . . . . . . . . . . . . . . 95 4.7 Evaluation results. A is the search pattern, B is the instance in the corpus.105 A.1 Classifier and Filter Configurations Tested . . . . . . . . . . . . . . . . . . . . 133 B.1 Similarity score table for luminance . . . . . . . . . . . . . . . . . . . . . . 139 B.2 Similarity score table for proximity . . . . . . . . . . . . . . . . . . . . . . 139 B.3 Similarity score table for places . . . . . . . . . . . . . . . . . . . . . . . . 139 B.4 Similarity score table for battery levels . . . . . . . . . . . . . . . . . . . . 140 B.5 Similarity score table for orientation values . . . . . . . . . . . . . . . . . 140 xiNomenclature API Application Programming Interface. A set of exposed functions available to programmers to make use of an established software platform. BIDE BI-Directional Extension based frequent closed sequence mining. A closed sequential pattern mining algorithm by Wang and Han (2004) BLAST Basic Local Alignment Search Tool. An approximative but fast local alignment algorithm by Altschul et al. (1990). BLOSUM BLOcks SUbstitution Matrix - A substitution scoring matrix for the alignment of proteins. The matrix entries are determined by statistical analysis of a database of evolutionary observations. BT Backtrack - Second step of a dynamic programming algorithm; in our case a trace along elements in a score table, marking the operations required to convert one sequence into another. DNA Desoxyribonucleic acid. A molecule that encodes genetic information in a sequence. FASTA fast - All. A sequence mining software suite developed by Lipman and Pearson (1985). FP-growth Frequent Pattern; Introduced with the FP-growth algorithm by Han et al. (2000). GPS Global Positioning System – Satellite based time-of-flight positioning system xiiGSM Global System for Mobile communication – European standard for second generation digital cellular networks for mobile phones. GSP Generalized Sequential Patterns. An Apriori-type sequential pattern mining algorithm developed by Agrawal and Srikant (1996) indel Insertions and deletions in sequences. A single term is sufficient to describe both these inverse operations, due to the symmetry of the alignment operation with respect to the order of the input sequences. LAN Local Area Network - a computer network with scope limited to a small geographic entity and using local addressing. LZ A set of compression algorithms proposed by Ziv and Lempel in 1977 and 1978. MASS Minimum Accumulated Similarity Score. This value is the criterium whether two sequences are to be considered similar or not. MDC Nokia Mobile Data Challenge. A data mining and visualisation competition held over the first half of 2012, on a mobile phone dataset gathered by Nokia. The dataset is explained in Subsection 2.1.2, and one of the competition tasks is presented in Annex A. RMD Reality Mining Dataset. See subsection 2.1.1. RNA Ribonucleic acid. A functional molecule that encodes genetic information in a sequence. sensor In this work: a source of discrete context data. This can be anything from a Boolean indicator to a fusion of multiple semantically linked context data readings, such as orientation, linking the data of an accelerometer and magnetometer. SPADE Sequential PAttern Discovery using Equivalence classes. A sequential pattern mining algorithm proposed by Zaki (1998) SPAM Sequential PAttern Mining. An algorithm proposed by Ayres et al. (2002) for finding all frequent sequences within a transactional database. SPM Sequential Pattern Mining xiiiWAP Web Access Pattern. A user’s trace when navigating across websites. WLAN Wireless Local Area Network. A term encompassing networking as defined in IEEE standards group 802.11. xivIntroduction Multiple studies have shown that humans are creatures of habit – from Heidegger’s musings in “Sein und Zeit” to the more concrete works of Gonzalez et al. [2008] and Eagle and Pentland [2009]. Although routine is not universal, for those that adhere to it, it provides a stable framework of activities. If a computer system can be made to be aware of this routine, then it can be proactive and anticipatory in nature, preparing for commonly encountered situations, or even alerting the user when routine is unexpectedly broken at some point. Routine can also be used to enhance a computing system which adapts itself to current events. When historical data can be linked to the present state, activities and contexts can be recognised with increased certainty. All this is beneficial, when developing ubiquitous computing systems – specifically with regard to ambient, passive interfaces. We assume that habits (i.e. activity patterns indicating routine) can be derived from user context data. “Context” classically refers to the entirety of the environment of a human-computer interaction – slightly varying definitions have been proposed by Schmidt et al. [1999], Chalmers [2004] and Dourish [2004]. Examples of context data are factors such as physical environment (e.g. place, light, noise), social environment, system status and simultaneous tasks. For the purpose of determining routine, we are primarily interested in specific aspects of context, that are characteristic to an activity. This does not necessarily imply that the context data allows one to infer the actual activity, but it is sufficient to identify recurrences. One theme of this thesis is in fact that of the title of Schmidt et al. [1999] “There is more to context than location”: there exists a large body of work on spatio-temporal routine detection, but our aim is to go further, and include other context data to obtain a model of routine that is richer in information and higher in resolution. 1Currently, the most widespread device in use with the capability to observe a reasonable amount of context, is the mobile phone. These phones are equipped with a number of sensors and an almost constant network connectivity which allows queries to nearby fixed sensors. For many people, their mobile phone is a constant companion allowing the capture of context data for a large number of activities. Furthermore, as multi-purpose mobile computing terminals, these same phones also form the interface to the computing system that benefits the most from having access to routine information. With regard to the definitions of context previously given, there is one further remark to make: context is defined as being linked to an interaction. At first glance, capturing data over the course of a day, to observe routine, is a passive process and does not fall under the traditional view of an interaction. But – within the concept of ambient interfaces – even just carrying a mobile phone (or in fact, even not carrying it) becomes an interaction, because we instrument the phone. Therefore, this implicit interaction happens within a context, which is duly recorded. Routine conveys important information all by itself, but can also be used to enhance current context information. A key use of context data is directly on mobile devices, which are situated within a certain context, used within a certain context and thus ideally exploit this data to better fulfil their purpose, as well as adapt and respond to changes in context. One pertinent example for such a mobile application that uses routine and current context data, is the Magitti leisure guide [Bellotti et al., 2008]. Similar applications in the domain of prediction and recommendation are presented by Anand and Mobasher [2007]. Wesson et al. [2010] discuss the benefits of adapting the mobile user interface of a computing system to the current context. Baldauf et al. [2007]’s survey of context aware systems essentially covers many more examples, where having additional context information based on a routine model can improve the user experience. The spectrum of approaches covers safety, security, entertainment and education. Mobile guidance and navigation systems can also be made to be context sensitive and routine dependent [Brush et al., 2010, Li and Willis, 2006]. Our technical goal is to detect patterns in the context data of a mobile phone user, with the expectation that patterns in the data correspond to routine activities. Raw context data can be understood to be a number of time series of physical values. Based on this representation, there exist multiple ways to analyse the data: Statistical approaches based on state transition probabilities (e.g. Ashbrook and Starner [2002]), database oriented approaches based on sequential apparition frequency (e.g. Giannotti et al. [2007]) and sequence based approaches based on edit distances and similarity measures (e.g. Sigg et al. [2010]). As the title of the work suggests, we ultimately pursue an 2approach that performs approximate string matching by aligning pairs of sequences. This algorithm determines local similarity scores for sequences of context data – we suppose that highly similar sequences of context data correspond to similar contexts and thus to actions of the same type. But we must also consider potential shortcomings of the data on which we base our study: sensor noise may render an activity difficult to recognise, and an activity is not repeated identically every time, leading to potential variations in duration and values in the corresponding context data, which must also be accounted for. Our alignment algorithm – an adapted version of the algorithm introduced by Lecroq et al. [2012] – is based on a representation of context data as a sequence of n-tuples. In this structure we calculate local alignments. To determine if these alignments correspond to context patterns, we devise an evaluation procedure. This procedure is in one case applied to synthetic data, generated according to predefined parameters, and in another to real world data which we gathered during a data collection campaign. The results from a large spectrum of test conditions allows us to characterise the suitability of our algorithm for the routine activity detection problem. The final results indicate that the algorithm reliably performs as a filter for context data, to limit the function of a domain expert to approving or rejecting the extracted data as being correspondent to a routine activity. Conversely, there are limitations to using it as a general, fully automated routine extraction approach. This work is structured as follows: ❼ In the second chapter, we examine the state of the art for both available context datasets and pattern detection approaches. We study the datasets for their suitability for routine context extraction and their data collection methods. The pattern detection approaches are divided into statistical and sequence mining approaches. We briefly discuss statistical approaches, and explore the various sequence mining approaches in more detail. We split the latter field into sequential pattern mining approaches, which take a database oriented view on sequences, and on string mining, which is focused on comparing long, individual sequences. We conclude this chapter with a direct comparison of the most promising approaches and an argumentation for our choice of approach, as well as identifying the limitations upon which our solution has to improve. ❼ The third chapter introduces our context model and algorithmic contributions. The context model defines a similarity measure for a pair of context sequences, which the alignment algorithm then uses to find maximally similar subsequences 3from a pair of sequences. Our algorithmic contribution is divided into two parts. The first part reduces algorithmic complexity by simplifying the state of the art approach, the second part details our local maximisation approach to further increase performance. ❼ The fourth chapter is dedicated to the experimental evaluation of our approach, on synthetic and real world data. It describes a data generator we developed with the goal of creating well-understood data with context-data-like characteristics and a high degree of configurability to allow the reproduction of a variety of scenarios. We also document our results obtained on five different such scenarios. A set of variable parameters for each scenario allows us to gain a further insight on the theoretical performance of our algorithm and its behaviour under varied conditions. We also present our data collection campaign in some detail. We used part of that data for a second evaluation, which is also described in this chapter. ❼ The final section gives a summary of our contributions and results, presents our conclusions and discusses limitations to our approach as well as potential future work to address these limitations and propose extensions. 4State of the Art As we laid out in the introduction, our approach to identifying routine activities is to find patterns in time series of context data. In this section we present and discuss different possible approaches, which should theoretically reveal such temporal patterns. We briefly revisit the notion of “context” and examine how context data is represented in actual context datasets. By class of approach, we present existing routine activity detection solutions. We examine the varying approaches for a number of criteria, relevant to our task. These criteria are: 1. The ability to process data that has the volumetric characteristics of context data, regarding both algorithmic complexity and real world constraints; 2. The degree of pre-treatment of context data required; 3. The flexibility of the underlying model, to accept situation-specific tuning; 4. The resilience of the approach against the inherent noise and unreliability in sensors and slight variations in how activities are repeated; 5. The impact of temporal effects, such as desynchronisation of data and dilation or contraction of the time-scale of an activity; 6. The effort required to parametrize the underlying model and 7. The suitability to a (partial) deployment on mobile platforms. We will refer to these criteria by their number in the following sections, whenever a relevant bit of information is touched upon. 5Our examination of the state of the art is split into three sections. First, we take a look at existing context datasets, to situate our goal with regard to available data. Then, we survey the state of the art for relevant methods that allow us to match, compare or extract patterns in time series data, by studying two fields of specific interest: Statistical approaches to pattern mining and sequence mining based approaches. Finally, we crosscompare the most suitable approaches and datasets, to determine the course for this work. 2.1 Context Datasets When examining user behaviour over the long term, a large dataset of context data is crucial to verify our hypothesis. In this section, we look at a number of different context datasets to learn more about available context data, and the utility of this data for our task. A small dataset, that can be understood to be a pioneering precursor, is that of Raento [2004]. Another early dataset by M¨antyj¨arvi et al. [2004] was limited to a strict set of scenarios, and did not actually consist of a recording of real world data. Kotz and Essien [2005] present a simple location-focused dataset, obtained by studying the movement of wireless network users of Dartmouth college. Two specific context data sets have caught our attention, the reality mining dataset (RMD [Eagle and Pentland, 2005]), and the Nokia mobile data challenge (MDC [Kiukkonen et al., 2010]) dataset. They represent, respectively, the first large scale mobile phone dataset ever published as well as the largest and most complete dataset currently available. 2.1.1 Reality Mining Dataset The RMD is the first large scale mobile phone context data set that has been collected. Due to its public availability, it stands as a reference dataset when it comes to the detection of routine user behaviour. It was designed with this goal in mind and used in the work of Eagle and Pentland [2009] to determine behavioural routines. The dataset is the result of a broad (100 participants) mobile phone data acquisition campaign the data from which was made available to the scientific community. The RMD was established using the Context Phone application developed by Raento et al. [2005]. It contains primarily finely grained location information, but also application and communication use logs and relative proximity indicators among study subjects. 6The specific protocol was established as follows: One hundred MIT students and members of faculty staff were given Nokia smart phones, pre-installed with several applications that track context. This context data comprises call meta data, the set of Bluetooth devices in range, the ID of the connected cellular radio tower, application usage and some phone status variables, such as whether the phone is idling or charging. This data was collected over an academic year, aggregating 450,000 hours of data, with Bluetooth data being logged in five minute intervals. The researchers report some data loss (around 15%) due to some subjects deactivating their phones during the night, and also due to some data corruption events. Finally, there are incidents of forgotten phones, where the phone records data, which has no association with the actual activities of the test subject. In addition to the context data, there is data from surveys of subsets of the test group to establish some meta-data (relationships between study participants and social activities) to the main data gathered by the phones. Some subjects also kept more detailed activity diaries over part of the data gathering period. 2.1.2 Lausanne Data Collection Campaign This dataset [Kiukkonen et al., 2010] includes data from 200 users from the Lake Geneva region in Switzerland and consists of the data from around 80 different smart phone context data sources, recorded over a period of over one year. This data was made available to researchers within the framework of the Mobile Data Challenge [Laurila et al., 2012], but is not readily available to the public. The gathered data can be divided into four groups: Location data, media-related data, social interaction data and behavioural data. The central physical data present in the set are 3D accelerometer readings, location and sound measurements. Additionally logs of applications, communications and the operating system are kept, alongside the agenda and contact list. A key distinction of this dataset is the heterogeneous study group. Where the RMD only studied students and faculty staff members from the Media Lab, as well as students of one other lab, this campaign stretches much wider. By consequence, the social graph among the participants is much less dense. Another difference lies in the precision of the location data. Cell tower data is notoriously imprecise, discriminating at around the city block level, whereas more powerful modern phones are equipped with GPS which can reduce this to roughly the street address level, even without further augmentation with wireless networks. Using WLAN access points – as done for this study – increases this precision further, especially in 7urban zones. In comparison, the Bluetooth augmentation chosen for the RMD only works in select installations outfitted with a beacon. This much higher fidelity of the data leads to a much larger challenge, when distributing this data, as pure anonymisation no longer suffices to protect the identity of the subjects. Furthermore, the higher potential fidelity also implies a potential higher use of the battery. Non-intrusiveness in the routine usage of the phone is a key requirement, as otherwise the impact of adapting to the measuring device would create behaviours and data not corresponding to the reality of the test subject’s day to day life. In an attempt to mitigate these effects, each data source has its own update frequency, in an adaptive event-based system. This allows the sampling to run throughout the day. To minimise data losses, collected data is transmitted to a database server via wireless networks twice a day. With regard to ground truth, an initial questionnaire establishes some demographic and social information, but no further information is acquired. 2.1.3 Discussion A key limitation to the present datasets, is that none of the bases contains any ground truth regarding context routine. Most do not include any manual annotation with semantic data at all. In fact, the large scale nature is somewhat at odds with such demands, as the effort to manually annotate a large dataset by someone other than the subject is immense. Conversely, asking a subject to annotate his or her own data introduces a higher level of effort required to take part in such a campaign and decreases the number of participants. Another problem is that most datasets are limited to location data, and lack many of the physical sensors present in more modern phones, that we presume to capture physical context more accurately. Although the Nokia MDC-dataset does provide accelerometric data and some sound samples, modern smart phones are also equipped with gyroscopes, compasses, light meters and proximity sensors. Conversely, the approach taken by Nokia for the Lausanne data collection campaign includes a vast number of sensors, some of which are not necessarily of interest for the routine activity detection task, increasing the complexity of the required pre-treatment (2). The asynchronous nature of data collection preserves relative temporal structures in high detail (5). Finally, the acquisition platforms used for these two previous datasets have been obsoleted by the development of the mobile phone market. Therefore, if a new dataset would be a requirement, this would entail a new development of the data collection software 8suite. The creation of a new mobile context dataset that contains at least sufficient physical sensor values therefore appears possible and necessary. Many of the paradigms put forward for the different collection campaigns remain valid, such as the principle of nonintrusiveness and the need to assure data integrity. Alternatively, it is common to use synthetic data to verify the behaviour of an algorithm. For this type of data, ground truth of the generation step can be used to address the lack of ground truth in real context datasets. Once a solution to gather the required physical context data is achieved, the next challenge is to find routine data within it. 2.2 Machine Learning and Statistical Analysis Classic statistical machine learning approaches are a mainstay of much of the work of context data analysis. We focus on three key categories: classification as a means of context and activity recognition and prediction, clustering to determine similarities in data and probabilistic state machines – specifically (hidden) Markov models – as a means of modelling routine. 2.2.1 Classification Classification algorithms are a class of algorithms that use a set of examples to learn rules that are then applied to determine which label is to be associated to a measurement. Typically, this is represented by the determination of a characteristic vector over the feature space of the observed events. We discuss two different usages of these types of algorithm, within the scope of the routine activity detection problem: in activity recognition, a current set of measurements of context data are used to determine the current activity; in activity or place prediction, the current state of system is used as a characteristic vector for predicting a future state. 2.2.1.1 Activity Recognition Supervised classification is the principal component in most activity recognition systems. They function by assigning a characteristic vector to each element of a set of activities, and then estimating from actual measurements the current activity. In the field of mobile device based activity recognition, supervised classification has been used (for example) in the works of Choudhury et al. [2008], Lester et al. [2006], 9Berchtold et al. [2010] and Sigg et al. [2010]. Activity recognition by itself does not solve the routine activity detection problem, but a well functioning activity detector can reduce the complexity of the problem by orders of magnitude by transforming it from a multi-dimensional problem into a uni-dimensional one (1,2). We can nonetheless state a limitation to this approach, in that a supervised activity detection requires knowledge of each of the activities that are to be discerned (6). This renders this approach of limited use, when trying to solve a general version of the routine activity detection problem. Furthermore, feature vectors are understood as a unit, therefore algorithms based on them cannot work around desynchronized data (4,5). 2.2.1.2 Activity and Place Prediction Another potential application of supervised classification is in the field of predicting future activities. The approach is similar to activity detection, with the difference that characteristic vectors are assigned to subsequent activities or places. This type of approach was frequently chosen by entries for the MDC “next location prediction” task [Etter et al., 2012, Wang and Prabhala, 2012, Gao et al., 2012], as for that task the known data was restricted to the context data obtained during the “visit” to the directly preceding place. The most successful approaches relies on heuristics which reject certain subsets of the data by declaring it out-of-date information with regard to the prediction task. The benchmarks of three state of the art algorithms – naive Bayes [John and Langley, 1995], alternating decision trees [Holmes et al., 2002] and a sequential minimal optimization based approach [Platt, 1999] – on the MDC prediction task are available in Annex A. The Magitti [Bellotti et al., 2008] recommendation system predicts next activities using a supervised classification approach [Partridge and Price, 2009]. The system is based on the assignment of a leisure activity (e.g. “eat” or “watch”) to corresponding locations in town instead of having a location specific activity model. This meta-activity approach avoids the problem of being limited to recognising specific activities, but consequently the result is too general for many applications outside the activity adviser use case they target (3). 2.2.2 Clustering Where classification assigns one of a pre-defined set of labels to a sample of data, clustering attempts to group a set of data points via a pre-defined distance metric. There are three aspects to clustering that are of relevance to the routine activity detection prob- 10lem: Using clustering to segment sensor data, using clustering to segment sequences and clustering entire sequences. The first is an important step towards obtaining a discrete context model, the second helps identifying atomic activities, and the third is a routine activity extraction approach. 2.2.2.1 Context Data Clustering Context data clustering is a useful first pre-treatment step to reduce the complexity of the routine activity detection problem (1), by transforming the problem from one on continuous data (and essentially a signal processing problem) into a problem over discrete data (2,4). This has been used by Ashbrook and Starner [2002] to derive semantically relevant places from a user’s spatio-temporal positioning data, which then allows the construction of a state-based predictor on the transformed data. Their choice of clustering algorithm was the k-means clustering algorithm. In their article they also meet one of the limitations inherent to clustering algorithms: the results often have to be manually verified, or selected from a number of different configurations (3,6). 2.2.2.2 Sequence Segmentation Sequence clustering can be performed to segment long sequences of context data into locally self-similar subsequences [Clarkson and Pentland, 1999, Himberg et al., 2001]. This can be used as a semi-automatic pre-treatment step to address (1,2,6,7) in routine activity detection approaches, at some potential disadvantage to (4,5). In general, sequence clustering with a simple Euclidean distance does not produce meaningful results [Keogh et al., 2003], requiring the choice of a meaningful metric, before implementation. 2.2.2.3 Sequence Clustering Clustering can also be used to group subsequences by inter-similarity and thus identify patterns. This has been shown by Laasonen [2005] to be a potential avenue of establishing a routine based user model and subsequently recognising and predicting a mobile user’s routes. This works by classifying some of the locations visited by a user as bases, which are locations where a user rests, and others as transient points. In this case, a place corresponds to the currently connected network cell. An edit distance and item similarity measure serves as basis for the clustering model. Katsaros et al. [2003] have shown a similar sequence clustering solution to predict locations, but without the distinction of location classes. The distance measure for the hierarchical clustering which they employ, is a weighted edit distance. This can have good performance with regard to (4,5) at some 11cost to (6). As a statistical approach, there is also a limitation with regard to (1), in that a certain minimal amount of data is required to obtain clusters with acceptable confidence values. 2.2.3 Probabilistic State Machines In the third type of approach, we look at different kinds of probabilistic state machines, which are relevant for user activity recognition and prediction. A relevant example of using hidden Markov models [Baum et al., 1970] to find routine in context is the work of Clarkson [2003], who studied video streams taken from two worn cameras, with the goal of identifying context recurrences. They use an alignment based approach, similar to dynamic time warping [Myers and Rabiner, 1981]. Ashbrook and Starner [2002] use second order Markov models to predict next locations. This required clustering of geolocation data into discrete locations, which where then studied for transition probabilities. In the work of Song et al. [2004], multiple predictors based on probabilistic state machines (Markov models and LZ compression [Ziv and Lempel, 1978]) are evaluated on a common dataset from the Dartmouth campus wireless network [Kotz and Essien, 2005]. A state machine approach requires a sequence segmentation to be viable (6). This means that activities are identified either based on supervised activity recognition or based on sequence segmentation. A common drawback to all approaches outlined in this subsection, is that they are not truly suited to treating multiple data sources in parallel (1,5). 2.2.4 Discussion Within the frame of the routine activity detection problem, statistical approaches can be divided into two categories of application: on the one hand there are data pre-treatment approaches, that reduce the complexity of the actual routine extraction process, and on the other hand there are statistical models that encode routine activity. The former can be used at different levels of granularity, and comprise classification, clustering and segmentation. A high abstraction approach – as often chosen in the literature we presented – can simplify the routine activity detection problem to the point where it is merely the extraction of frequent state transitions. While in theory this is advantageous with regard to (1), (6) and (7), it invariably has drawbacks, when applying criteria (2), (3) and (5). A low abstraction level has the inverse consequences. Therefore, the choice of abstraction level has to be carefully weighed, when developing 12a discrete model. The routine activity detection approaches – using sequence clustering or probabilistic state machines – are relatively simple propositions (1) which depend heavily on accurate preprocessing (2). The central weakness of these approaches – when used on rich context data – is that they use a simple model derived from data that has been heavily preprocessed and abstracted, which results in abstract routine models. These are easy to interpret but hard to validate against the actual data. Furthermore, there is a whole host of limitations to automatic context data abstraction that essentially make this class of approaches not suitable for context data that has multiple independent data sources. When working at a finely grained level, with less abstraction, the models become harder to interpret, and lose their appealing simplicity. This downside leads us to examine approaches that are more suited to this kind of data representation: sequence mining algorithms. 2.3 Sequence Mining Context data is inherently of sequential nature: for each aspect of context, one state follows another and each activity is followed by another. Sequence mining is a subset of data mining, which consists of approaches specifically targeted at sequential data. The field of sequence mining offers a variety of algorithms designed to discover all kinds of features in sequences of discrete elements. As laid out in the introduction, our primary interest is pattern detection. There are two schools of thought, with regard to this problem: 1. Sequential pattern mining (SPM) takes an itemset mining and association rule learning approach to finding such patterns, by looking at the frequency of occurrence of subsequences in a corpus. 2. String mining is an approach that has its roots in bioinformatics, and can be seen as a generalisation of Hamming and Levenshtein distances. We are particularly interested in alignment problems, where the goal is the identification of similar sequences. In the following two sections, we will present different approaches and applications of sequential pattern mining and string mining. In the third subsection we will compare the particular advantages and challenges of each class of approach, and evaluate them against our set of criteria. 132.3.1 Itemset Mining and Sequential Pattern Mining The aim of sequential pattern mining (SPM) is to find within a database of sequences of itemsets (i.e. sets of discrete elements) a subset of interesting sequences. Within the context of the routine activity detection problem, this criterion of interest is that the sequences appear frequently. Sequences in this case are not limited to consecutive elements, but are based on the notion “event Y occurs after event X, within an interval window δ”. There are several ways to formulate the routine activity detection problem in terms of an SPM problem, each suited to a specific group of algorithms from the field. First, context could be abstracted to fit the “sequence of itemsets” paradigm. There is a wealth of classic approaches that find potentially non-consecutive exact sequential patterns. A first challenge in adapting the problem to this formulation lies in finding a useful time-discretisation and temporal splitting interval. The former is achieved by having each sensor value discretised into an item, and by grouping measurements during a predefined time interval into itemsets. The latter requires study of how gravely nonconsecutive patterns impact the results. By shortening the sequences, such patterns become less of an issue, but other, larger patterns may disappear. Additionally, there is the question of which level of support is desired as basis for the result. An early review of examination of patterns in sequential data was performed by Laird [1993]. At this stage, the focus of research was mainly on prediction, extrapolation and modelling of time series. In the same year, itemset mining was introduced by Agrawal et al. [1993]. This forms the basis for all of the following SPM approaches, which is why we take a closer look at the key approaches of the field. The following classification of the approaches is based on the taxonomies proposed by Mabroukeh and Ezeife [2010] and Mooney and Roddick [2013]. We assign the following classes to differentiate between approaches: ❼ Apriori-based (including variants for closed patterns or hierarchical data), ❼ Pattern-growth (including variants for closed patterns), ❼ Vertical data structures, ❼ Early-Pruning and ❼ Hybrid; and then we also discuss variations of these which take into account hierarchical metadata, specifically and exclusively mine closed or maximal frequent patterns, or mine multidi- 14mensional or approximate patterns. All algorithms and challenges identified in the field of itemset mining can be transferred almost exactly to sequential pattern mining. 2.3.1.1 Itemset Mining Itemset mining has as prerequisite the presence of a database which is partitioned according to a primary criterion (e.g. a user ID or a calendar day). The goal is to find subsets of data that occur multiple times among the sets of data points connected to each instance of the criterion. An example relevant to the field of mobile and context sensitive computing is a database consisting of entries that have been generated by logging discretised context data of a user over time. Splitting the database to obtain individual data per hour, and then searching for co-occurrences of certain context values in these sets across different hours, shall determine which context states are frequently encountered together in temporal proximity. Once the frequency of appearance of such an item combination is above a certain threshold, the set is considered to be significant. Furthermore, there is an interest in maximising these sets: a single element that appears across multiple sets is of little interest, whereas large sets carry more information. Once these sets are identified, association rules can be created among them. Association rules can be understood as a way to encode the conditional probability of the presence of an element in an itemset, given a set of elements already present in that set. For example, let there be three context states a, b and c(e.g. loud noise, bright light and medium movement speed) that were recorded during one hour. Furthermore, let the set (a, b, c) appear frequently (and maximally) in a database. Then, it is possible to predict that if a and c are present in one set, that b might also be present in this set (e.g. because all three are present when the user rides his motorcycle on a sunny day) based on the support of the set (a, b, c) (i.e. how often the elements appear together, relative to the overall number of sets created by splitting the database along the key criterion). In terms of context prediction, this means that it is possible to predict context event b as a function of the presence of context events a and c. Clearly, this is limited in scope with regard to the routine activity detection problem, but the close link to sequential pattern mining makes it deserving of a study, to introduce the concepts used further on. Apriori-Based Algorithms The itemset mining problem has first been approached by means of the Apriori-class of algorithms [Agrawal and Srikant, 1994, Mannila et al., 1994]. The key property on which the Apriori-class algorithms are built is the downward closure: the fact that each frequent itemset consists of sub-itemsets that are all frequent, 15and inversely, extending a non-frequent itemset by any item results in another infrequent itemset. This can be exploited to first find frequent elements, and then iteratively extend these candidates to sets, element by element, until the support frequency-threshold is no longer attained. Han et al. [2007] offer an extensive list of further improvements to this approach, with regard to distributed and parallel approaches, as well as general efficiency improvements. The key limitation to this approach lies in the high number of database scans – one for each growth operation – that are necessary to determine the support value for each of the valid candidates that have been generated. Compared to the naive approach, the Apriori property enables the rejection of all subsets which are an extension of subsets that by themselves do not have sufficient support in the database. Pattern-Growth Algorithms Another class of approaches avoids the expensive candidate generation aspect of the Aprior-type algorithms. FP-growth is one such algorithm, introduced by Han et al. [2000b]. This approach uses a divide-and-conquer technique. First, the database is transformed into a list of frequent ordered according to of descending support, and by key-criterion. From this list, a tree is constructed: a node is created for each frequent element, and they are arranged in the tree by their direct prefix item. If an element with an existing identical prefix is found, it is merged into the existing node and the frequency counter of that node is incremented. From every node in this tree, it is then possible to identify frequent itemsets, by following a path of nodes toward the root, from each leaf corresponding to an item. Each such leaf defines a specific sub-itemset. The support of the itemsets are represented by the support of each leaf. A similar tree-based algorithm has been presented by Agarwal et al. [2001]. Vertical Data Structure Algorithms A third way to approach the problem of frequent itemset mining, is to take an orthogonal view at the database [Zaki, 2000]: Instead of assigning to each key criterion a set of items, assign to each item a set of elements from the key criterion. In an example, this would mean that instead of having a set of activities (items) assigned to each day (criterion), to instead assign to each activity the list of days where they occurred. Using this representation, the Apriori property can still be used to generate set extension candidates. Support for a candidate is determined by intersecting the sets that are created by the inversion of the database table. A key advantage is that determining support is as easy as counting the number of elements that are assigned to an item. What is notable about this approach, is that the corresponding sequential pattern 16mining algorithm SPADE [Zaki, 1998] was developed before this idea was ported to itemset mining. Concept Hierarchy-Aware Algorithms An important extension to itemset mining is the acknowledgement that items may be related, and that at times it is useful to mine sets not only of items, but of classes of items. By using concept hierarchies, these classes can be established and (hierarchically) interrelated. One approach to mining such itemsets is a top-down specialisation approach, where first top-level general sets are mined, and then their specialisations are examined for sufficient frequency/support. This is possible if the minimal support threshold is constant across all abstraction levels of the concept hierarchy [Han and Fu, 1995, Srikant and Agrawal, 1995]. Han et al. [2006] present a variation of this approach to problems where minimal support varies by level. Closed and Maximal Frequent Patterns Two further important concepts that restrict the scope of the problem to obtain more expressive results are the concepts of closed frequent patterns and maximal frequent patterns. The former are patterns for which no pattern exists that encompasses it, where both have the same support. This eliminates from the results the most trivial subsets of frequent patterns, without reducing the overall information contained in the results compared to mining all frequent patterns. Any two patterns with different support remain separate. Maximal frequent patterns on the other hand restrict this even further: all frequent itemsets that are subsets of another pattern that is frequent, are discarded. This means that the frequency information for these sub-patterns is lost. There exist Apriori-type algorithms optimised for closed itemsets (e.g. A-Close by Pasquier et al. [1999]) as well as FP-based algorithms (e.g. FPClose by Grahne and Zhu [2003]). Yang [2004] showed that enumerating maximal patterns is an NP-hard problem. 2.3.1.2 Sequential Pattern Mining Sequential pattern mining, when compared to itemset mining, adds the additional dimension of (temporal) order to the problem. Itemset mining examines merely the co-presence of items with respect to the key criterion, whereas sequential pattern mining respects the order of appearance of the itemsets in the data. A naive approach to pattern mining is to count the number of instances of every imaginable subsequence of a database (database being used synonymous with databank, 17i.e. restricted to the physical storage of data). A subsequence in the context of sequence mining consists of itemsets, therefore the presence of multiple items in such an itemset produces ever more possible subsequences to test against the database. Therefore, much as for itemset mining, the goal remains to reduce the number of subsequences to test and the complexity of counting support. Sequential pattern mining has relatively frequently been the subject of extensive surveys. Zhao and Bhowmick [2003] present some of the earlier developments in the field, Mabroukeh and Ezeife [2010] have established a taxonomy and cross-comparison of the key approaches to sequential pattern mining and more recently Mooney and Roddick [2013] have proposed a slightly differing classification and comparison on the same subject. Han et al. [2007] present a survey of approaches to the more general frequent pattern mining problem. All four surveys discuss in more detail what has been introduced here. The following are the main approaches to sequential pattern mining, for the most part mirroring the concepts used in itemset mining: Apriori-Based Algorithms On the base of the Apriori property, Agrawal and Srikant [1995] developed an Apriori-type SPM-algorithm, which has then been extended into the “Generalized Sequential Patterns” (GSP) algorithm in Srikant and Agrawal [1996]. This approach uses a similar minimal starting point, and then iterative growth of candidates, but with a fixed and predefined order for the sequential aspect. An approach that integrates ideas from other algorithms is SPAM by Ayres et al. [2002]. SPAM generates a lexicographic tree and descends along the nodes in depth-first order. The Apriori property determines that any children of a node that does not have minimum support can be discarded from the search. Support is determined by counting incidences in a vertical data structure, which consists of a binary bit map of the sequence, upon which a binary and operation is executed. Pattern-Growth Algorithms The divide and conquer approach has also been applied to sequence mining in the PrefixSpan algorithm [Pei et al., 2001, 2004]. PrefixSpan first determines the set of frequent patterns of length one, and then extends the patterns by determining possible prefixes from within this set, in a similar approach to FP-growth. To do this efficiently, the database is transformed into a more suitable representation. In the case of PrefixSpan, this is a projected database, as introduced in FreeSpan [Han et al., 2000a]. The projection mechanism for sequences and subsequences functions as follows: A sequence S 0 is a projection of its supersequence S with respect to a prefix P if there exists no other supersequence of S 0 that is also a subsequence of S which shares 18the prefix P. This means that the extension of S 0 to S is done purely by extending the prefix P. The database is rearranged according to the prefixes (which are the frequent items in the first step), where each prefix is assigned all occurrences of its postfixes by projection. By matching all postfixes with possible extensions of the prefix – to find frequent patterns – it is possible to determine a new set of prefixes upon which to project the database. A new scan if the database is not necessary, as the relevant sequences to project are already assigned to the prefix used in the previous step. This makes PrefixSpan fast, but the construction of the projected database becomes a major influence on the overall complexity of the algorithm. Another Pattern-Growth approach uses tree projection instead of database projection. One representative from this group is WAP-mine Pei et al. [2000]. Similarly to the database projection approach, there are very few scans of the database - in this case two. The first determines the frequent items, the second builds the tree of frequent subsequences related to these items. The initial tree consists of an empty root, to which the frequent elements are added as nodes. The first element to be added is the first frequent item of the first sequence in the database. The second frequent item is added as a child. This is followed through for all frequent elements in their order of appearance in the first sequence. The same is done for the other sequences, but whenever an element is already present in the correct order in the tree, the existing element is used instead. In parallel, a header link table is established. It links each occurrence of an itemset to the next occurrences of the same itemset within the tree, beginning with the first. To mine this tree, the least frequent item in the tree is chosen, and set as a conditional suffix. Based on this suffix, an intermediate tree is constructed, which consists of those branches that end (whether on a leaf or a node) on this suffix. These are identified by following the header links previously established. The new conditional tree therefore consists of the old tree, minus all the nodes header-linked to the corresponding suffix, and minus the branches that do not contain the suffix at all. For the next step, the suffix is grown by the least frequent item of the new tree, and the process repeated, until only a suffix and the root node are left. Each suffix generated this way is a frequent sequential pattern. This process is demonstrated in Fig. 2.3.1, with the sequences abdac, eaebcac, babf aec and af bacfc, using the example from Pei et al. [2000]. Hybrid Algorithms SPADE [Zaki, 2001] can be considered as a hybrid approach, combining Apriori-based and Pattern-Growth characteristics. It uses an orthogonal view approach to itemset mining for sequential pattern mining. Similarly to Apriori-based 19Figure 2.3.1.: A WAP-tree and conditional WAP-trees for two subsequences c and ac (Source: Pei et al. [2000]) approaches, this approach generates a large amount of candidate sequences that are then reduced by growing the length of the sequences progressively. SPADE transforms a database into a set of key-value pairs, where a list of pairs of sequences (in which it appears) and partition IDs of the key distinction criterion (e.g. a day) is assigned to each itemset (element of a sequence). The algorithm consists of three steps: first, the frequent sequences of length one are identified, then these sequences are extended to frequent sequences of length two. These are arranged in a lattice1 structure, which is traversed in the third step, to count support and enumerate frequent sequences. This lattice structure can grow very large, as it defines an order across all frequent patterns. The authors propose to partition the lattice into smaller subsets, that are sufficiently self contained to be given the term equivalence classes. The strength of SPADE is mining maximal sequences, as when mining all frequent sequential patterns the performance is no better than GSP [Mabroukeh and Ezeife, 2010]. Early-Pruning Techniques This class of approaches exploits the sequential nature of the data, by tracking the positions of items that appear in the sequence. Specifically, if the (absolute) last position of an item is smaller than the position of the current sequence under consideration, then that item cannot occur behind this current sequence [Yang and Kitsuregawa, 2005]. LAPIN [Yang et al., 2007] maintains both a list of the last positions of frequent items, as well as a set of prefix border positions for each frequent item to achieve this. The former is a straight forward table, assigning each sequence a 1A lattice is a specific way to represent a (partially) ordered set, with operations defined to determine infima and suprema for pairs of set elements. See Davey and Priestley [2002] for a complete introduction. 20list of indices corresponding to items that are frequent over all the database; the latter is generated from this list, and consists of all occurrences that have last appearances after the first instance of the item they are related to. By counting the elements in the second set – and determining whether they have sufficient support – it is possible to find the frequent patterns without searching the database. Notable about this approach is that the data structure used is relatively static and has to be regenerated whenever new entries are added to the database. This makes determining the update frequency an engineering challenge when used in conjunction with high frequency data sources. Closed Sequential Pattern Mining These basic approaches return all frequent patterns, particularly including all single elements that are frequent. In most applications this is undesirable, hence closed sequential pattern mining algorithms such as CloSpan [Yan et al., 2003] and BIDE [Wang and Han, 2004] have been developed. CloSpan exploits the property that when projecting a database of sequences with respect to two sequence prefixes, where one prefix is a subsequence of the other, the resulting two projected databases are equivalent if and only if the number of items of each of the projected databases is equal. This allows CloSpan to determine whether extending a sequence by an additional item creates an equivalent sequence or a sequence with different support. This permits the algorithm to distinguish between redundant candidate sequences and those that form a separate result. BIDE is an extension to this approach, that uses projections in two directions to remove non-closed frequent patterns. This covers the most basic approaches to sequential pattern mining. With regard to the routine activity mining problem, there are two further characteristics of interest: multi-dimensional approaches and approximate approaches. Multi-dimensional Sequential Pattern Mining The previously presented notion of “sequence” covers sequences of itemsets, which could comprise the information from multiple context data streams in parallel. Adding a clear notion of orthogonality between the different types of data allows for a more discerning treatment. By assigning each context data source its own dimension, there is no interaction between different states of different sensors. The first “multi-dimensional” sequential pattern mining approach by Pinto et al. [2001] was so only with regard to allowing multiple key criteria according to which support is calculated. This allowed a multi-dimensional notion of support, but the actual itemsets where still restrained to consist of elements of a single dimension. This work has 21been extended with an optimisation for closed multidimensional patterns in the work of Songram et al. [2006] and Boonjing and Songram [2007]. Plantevit et al. [2010] undertook the next logical effort, to treat sequences of multidimensional, multi-level data. They develop the bottom-up approach described by Beyer and Ramakrishnan [1999] to mine maximally atomic frequent sequences, which are sequences consisting of a single (hence atomic) multi-dimensional item. This item must be the most specific – with regard to the concept hierarchy model – item that is still frequent in the database. From this point, the sequences of length one are built up to longer sequences using the SPADE algorithm [Zaki, 2001]. Approximate Sequential Pattern Mining The realisation that exact pattern mining is too restrictive for real world problems has been reached by Wang et al. [2000]. The first approach to mining long sequential patterns from noisy data by Yang et al. [2002] uses a probabilistic model to account for the noise: a compatibility matrix consisting of the conditional probabilities, that x is the real value, given that y has been observed, gives a notion of relative proximity of values, with regard to the measurement (or data generation) process. The notion of support is adapted to become noise-tolerant. The actual significance criterion under noisy influences on the data is termed match, and is defined as the maximum conditional probability of an occurrence of a pattern, given any one subsequence of a sequence, averaged across the database. A slightly modified Apriori-property holds for the match measure as it does for support, if subpatterns are defined as a pattern that lacks some symbols present in the respective superpattern. Although theoretically it is possible to use classical algorithm with this model, the large number of candidates and database scans generated using Apriori-/support-based approaches makes them impractical. Instead, the authors propose a statistical filtering approach to reduce the number of passes, which is based on two criteria: First the additive Chernoff bound [Hoeffding, 1963, Domingos and Hulten, 2000] is used to estimate the size of a pattern (i.e. the points beyond which extending a subsequence reduces its match below the relevance threshold) based on the results of random sampling. This divides the set of candidates into three (probable) classes: frequent, infrequent and ambiguous patterns. The second optimisation deals with the ambiguous patterns – which require further attention – to determine the frequent and infrequent patterns contained within. The specific approach refines the borders (left and right limits of the end of the ambiguously frequent subsequence) obtained during the random sampling approach by collapsing them down to the actual borders. This is done using a hierarchical division of the two estimated borders, which takes at worst O(log(n)) steps to find the correct 22border, where a classic linear algorithm would take n steps. Overall performance of the approach depends very much on the data and the number of ambiguous patterns that cannot be identified during the first probabilistic step. ApproxMAP [Kum et al., 2003] – another approximate method – borrows some notions from string mining. This algorithm mines consensus patterns (i.e. short patterns that appear in similar fashion across many of the examined sequences) through multiple pattern alignment. It uses a hierarchical edit distance as a similarity measure for pairs of sequences, and thus determines clusters of similar sequences. In a second step, a representative for each cluster is selected. A consensus pattern is determined to be present whenever a sufficient number of sequences in the cluster share this representative to achieve a strength threshold – a notion similar to “minimum support”. Applications in Context Pattern Mining The main application to context data mining is the field of trajectory mining and more generally spatio-temporal data mining. Due to the limited scope of this problem, compared to the routine activity detection problem, we only briefly introduce a few key approaches. Rashad et al. [2007b] developed a multi-dimensional PrefixSpan [Pei et al., 2001] specialisation called MobilePrefixSpan (based on the work of Pinto et al. [2001]), to mine movement patterns of mobile users. Their database consists of entries, describing which user was present in which mobile phone network cell, at which time. Using the generated movement profiles, they try to predict future positions of users, with the goal of providing better resource management in the wireless network itself. Compared to the original PrefixSpan, they restrict sequences to consecutive sequences, as they argue that the exact order in which cells are visited is more important than the more global trends that traditional sequence mining detects. Giannotti et al. [2007] also perform pattern mining on GSM or GPS location data. They extend the basic SPM model with annotations indicating the typical transition times between elements (see also the previous work of Yoshida et al. [2000]) and replace itemsets by spatial points. The calculation of support is not done by exact matching, but instead by an error tolerant neighbourhood function. One of the key problems of this approach, is that of determining Regions-of-Interest – i.e. semantically similar regions, to determine the neighbourhood function – for which they provide a seed-and-growth approach, using popular spatial points as starting points. The actual mining algorithm is introduced in Giannotti et al. [2006] and uses prefix projection (like PrefixSpan [Pei et al., 2001]), but modified to accept time-stamped sequences. Further work in this field can be found in the works of Kang and Yong [2010], Lei and 23Wong [2009], Nanni et al. [2010], Zhao et al. [2013], Zheng et al. [2011]. 2.3.1.3 Discussion SPM, at first glance, presents a suitable approach to the routine activity detection problem. The blocking metaphor (selecting sequences from a database by a key criterion) works well with the notion of days and weeks structuring human activity. The performance is compatible with the volumetry of context data (1). Although actual algorithmic complexity largely depends on the data, the sample data presented usually scales up to hundreds of thousands of itemsets in the sequences. The notion of closed patterns and maximal patterns allow refining the result to those patterns that should be the most interesting. The traditional SPM is limited, in that it can only identify exact patterns. Semantic hierarchical models can help with this (3,6). In this case, similar sensor values are grouped under a more general label, to allow for more general patterns to be mined. Additionally, approximative approaches exist, that are able to find patters in noisy data, or use string mining approaches to identify similar sequences, thus addressing criterion (4). Although these hierarchical approaches are more realistically employed to solve the routine activity detection problem, there still persists one problem. Treating each sensor merely as one source of items that are all fundamentally equivalent, in that in theory each item can be replaced by any other, leads to a large number of comparisons that can be prevented, if from the start the data is considered multidimensional. Plantevit et al. [2010]’s multilevel and multi-dimensional approach is capable of eliminating these ambiguities, which should in theory allow an optimized treatment of such truly parallel data. On the other hand, this approach is limited to exact matches, which puts higher demands on the preprocessing of the context data. As with the other approaches, the non-consecutive sequences that do not make sense need to be removed from the results. Lastly, tuples (i.e. multi-dimensional datasets) are treated as a unit, so desynchronised context data would prove problematic (5). A notable drawback then, across almost all SPM algorithms – when dealing with context data – is that in the classical retail shopping scenario, items are numerous and sequences are short, but for the context scenario, sequences are long, and “items” are relatively few. This is the foremost limitation, as non-consecutive patterns can appear by coincidence much more easily in these conditions, without actually indicating a recurring activity. The consecutive approach by Rashad et al. [2007b] provides a solution to this, but inversely the increased requirement for exactness (as now erroneous values are not 24skipped) requires more intense preprocessing, which renders an adoption problematic. The time-interval supporting approaches by Yoshida et al. [2000] and Giannotti et al. [2006] allow to quantify these intervals between items and use them to determine patterns that take these intervals into account. Compared to SPM, string mining addresses approximate approaches much more comprehensively, and with less inherent complexity. 2.3.2 String Mining Strings are finite length character sequences. By assigning to each state of a context or sensor a specific character, it is possible to represent context data sequences with strings. String mining, as a discipline, is closely linked to bioinformatics and computational biology. With the discovery of the structure of DNA, RNA and protein structure, and the ability to obtain base pair sequences and amino acid sequences from cells, the search for meaning in these sequences became a major research topic. This so-called “biological revolution” has motivated a large parallel effort in the development of effective and efficient sequence analysis (i.e. string mining) algorithms. In their survey of string mining in bioinformatics, Abouelhoda and Ghanem [2010] provide a taxonomy of the field, discerning principally between repeat-related problems and string comparison problems. Repeat-related problems try to find repeated or otherwise interesting subsequences within larger sequences, whereas string comparison problems are based on comparisons between two separate strings, and often inspired by a need to determine a similarity metric. Each of these two categories is explored in the following, with a closer look at approaches that are of relevance to our routine activity detection problem. 2.3.2.1 Repeat-Related Problem Repeat-related problems can be divided into the following subclasses (c.f. Fig. 2.3.2): Dispersed Repeats i.e. finding repeats through a sequence. These repeats can be either approximate or exact, with fixed or variable length. Tandem Repeats i.e. repeats that occur in an adjacent manner. These repeats can also be either exact or approximate in nature. Unique Subsequences i.e subsequences that do not have repeats and appear only once in a sequence. 25Absent Words i.e. subsequences that do not exist at all in the original sequence. Only the shortest absent words are of interest, as generally there is an infinite number of subsequences not contained within a sequence. With regard to the class of repeat-related problems, our task falls within the scope of a dispersed longest repeat problem: Find a pair of sub-strings that match, where neither the pairs of preceding elements nor the pairs of succeeding elements match. Alternatively, if a sufficiently powerful classifier were to exist, which could consistently assign a correct activity label to a set of sensor readings, the routine activity detection task could be expressed as an exact repeat problem; otherwise it would be a more general approximate repeat problem. The approximate repeat problem is solved by a local alignment algorithm in O(n 2 ) [Smith and Waterman, 1981], which technically belongs to the class of comparison problems, and is described in the corresponding – next – subsection. A naive, brute-force approach to finding (longest) pairs of exact repeats would be to create a scatter plot, and scan along its diagonals for series of matches. Given n lines of input, this type of approach would use O(n 2 ) time and O(n) space. a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c {aaa,aab,aad,aba,abb,acb,acc,adb,add,baa,bab,bba,bbd,bca,bcb,bcd, bda,bdc,bdd,caa,cbc,cbd,cdc,dab,dad,dba, dbd,dca,dcc} dispersed exact repeats of size 3 tandem exact repeats of size 2 unique subsequences of size 2 absent words of size 3: a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c dispersed approximate repeats of size ~5 a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c tandem approximate repeats of size ~3 Figure 2.3.2.: Examples of different types of repeat-related features in a string. 26Suffix Tree Approach A suffix tree [McCreight, 1976] based approach appears more suited for large volumes of data. Baker [1992] proposes an exact matching algorithm using the suffix tree structure, that finds pairs of maximal repeats in a sequence of length n and m repeats in O(n + m) time. It follows a description of this approach and an illustration on the example input string abcbcabc% (% is the string termination symbol). The algorithm consists of four steps: 1. A suffix tree is generated, as follows: a) An empty tree is generated (as in Fig. 2.3.3-0); b) A leaf containing the entire string (appended with a termination symbol “%”) is created (as in Fig. 2.3.3-1); c) A new leaf containing the first suffix (comprising all but the first element) is created (as in Fig. 2.3.3-2 to -6, and Fig. 2.3.4 for the final three leaves); d) If the head (i.e. the first elements of this suffix) is present in an existing leaf, a new node representing this head is created, and two leaves representing each of the possible suffixes to this head are added to it (e.g. in Fig. 2.3.3-4 for bc, when the suffix bcabc% is added to the tree which already contains a leaf bcbcabc%); e) Repeat (c) and (d) with the first suffix of the remaining string (as in Fig. 2.3.3- 3 to -6 and Fig. 2.3.4 for the final three leaves, 7, 8 and 9). Each newly added leaf representing a new suffix is assigned the index of its first element in the original string. 2. In the suffix tree, identify head nodes (circular nodes in Fig. 2.3.4) which satisfy a minimum length condition (≥ 2 for this example). They correspond to repeating sub-strings, with differing right elements (as otherwise the head node would already comprise this right element). The left element may still be identical. In the example these are the nodes bc and abc. 3. Build a list of suffixes, grouped by left elements: For each possible element to the left of the node “head” element, a list is created. Each leaf is added to the corresponding list. In the example, this is shown for node bc in Fig. 2.3.4, with the left elements a (in the case ∗abc∗, leaves 2 and 7) and c (in the case ∗cbc∗, leaf 4). The leaves are emphasised by being enclosed within the dashed ellipses, and labelled with the prefixes. 27root 0 root abcbcabc% 1 root abcbcabc% 2 bcbcabc% root abcbcabc% bcbcabc% cbcabc% 3 root cbcabc% 4 root 5 abcbcabc% c bc bc root 6 c bc % abc Figure 2.3.3.: Construction of a suffix tree from abcbcabc%. The numbers indicate both the order and the index of the current suffix being added. New leaves and nodes at each step are shaded. 4. Form the cross-product of each distinct pair of lists for all nodes. In the example this is the cross-product of the lists (2, 7) × (4) = (2, 4),(7, 4) for the node bc, meaning that bc is the longest repeat for the instances of bc in the fourth position in the string, with the instances in the second and seventh position. The pair of leaves 2 and 7 of the node bc in the example are not longest matches, as the preceding character is an a each time. Therefore the actual longest match is to be found elsewhere: in the node abc and the pair of leaves 1 and 6. Applications to User Modelling Within the context of routine activity detection, this approach has been used by Pitkow and Pirolli [1999] to mine users’ web access logs, with the goal of predicting websites that a user will visit in the near future. After extraction of the longest matching subsequences, these subsequences are split, and Markov models (of different orders) are used to obtain transition probabilities. The key use of the longest repeat problem in this case was to optimize performance over a previous approach, by limiting the generation of Markov models to the data contained within longest matching subsequences, while maintaining similar prediction performance. Similarly, Pauchet et al. [2009] use suffix-tree based repeat-mining to identify recurring 28root 7 + 8 + 9 % c bc %(7) %(8) abc %(9) 1 6 2 4 7 8 5 9 3 example for node bc: 2 7 x 4 bc in position 4 has longest match with bc in positions 2 and 7 left prefix leaves a 2,7 c 4 prefix a prefix c Figure 2.3.4.: Identification of longest repeats using Baker’s algorithm in the complete suffix tree from Fig. 2.3.3. Steps 7, 8 and 9 of the tree construction are performed, adding the three shaded leaves. The order in which the leaves are added is given by the nodes and indicated by the superscripts of the vertex labels. behaviour of users of medical catalogues. This information is then used to present a subset of works from the catalogue to the user, which contains elements which are expected to be part of the desired search result. In the field of pervasive and mobile computing, Katsaros and Manolopoulos [2005] propose an approach to – for example – track the location of a client in a wireless cellular network. They describe a prediction task, and also use a suffix tree to find longest exact matches, from which they construct a probabilistic model of transitions. Sigg et al. [2010] use exact (or approximate) repeat search as the first stage of their context prediction algorithm. This stage is used to determine “typical” contexts. Suffixes of the observed context are then aligned with these typical contexts, to find the best match. They then predict the next context to be the continuation of the identified typical context. 2.3.2.2 String Comparison Problem String comparison problems can be categorized as follows: global i.e. compare entire strings; 29semi-global i.e. search problems – finding short strings within a larger one; local i.e. problems on sets of sub-strings. Local problems can further be subdivided into problems with variable length and fixed length of these sub-strings. Furthermore, each of these problems has exact and approximate variations. When approaching the task of identifying routine activities from context data as a comparison problem, then this problem should be interpreted as local comparison problem, either of exact or approximate nature, and of variable length. Additionally, a dispersed approximate repeat problem can be reformulated in terms of an equivalent comparison problem: comparing pairs of subsequences of the sequence in which approximate repeats are sought. Exact Matching Local exact matches (i.e. identical sub-strings within two larger strings) can be found in a brute force way: Pair all sub-strings of one string of length n and the other, and check for identity. Due to the identical length requirement, this implies O(n 3 ) string comparisons. Search space reduction to strings of length l further reduces this to O(n 2 l). To render the problem more tractable, it is possible to limit the search to maximal exact matches. In this case, Baker’s suffix tree algorithm for finding maximal repeats (see subsubsection 2.3.2.1) can be modified to find maximal exact matches instead. The modifications are the following: The lists of positions (shown in the right part of Fig. 2.3.4) are split into two subsets, one containing those suffixes belonging to the first of the input strings, the other containing those that belong to the second input string. The result is then obtained by forming the Cartesian product of each pair of lists, where both the input string and the left element are distinct. This minimal modification has no effect on algorithmic time and space complexity. A complete survey of a large number of both recent and early approaches to exact on-line string matching (i.e. finding a known pattern in a string) can be found in a review of the field by Faro and Lecroq [2013]. Each of the algorithms in the survey has been tested against a battery of synthetic and real world data, and characterised in how well it suits two problem characteristics, pattern size and alphabet size. We voluntarily omit detailed study of these approaches, as expressing the routine activity detection problem as a search problem is highly inefficient, due to the combinatorial scale of the possible, unknown, patterns. The identification problem (“Is the current context a known context?”), which these algorithms address, is much less complex than the routine mining problem, and even a worst case O(n) algorithm [Knuth et al., 1977] 30has little impact on the overall performance. Applications to User Modelling One application of this algorithm in the field of context data, is the SHIP algorithm by Cook et al. [2003], which uses exact matching to determine frequencies of following activities, with the goal of predicting future context from recognising frequent sequences. This approach can also be classified as a sequential pattern mining approach, given the fact that the exact matching is used to extract a frequency measure for a part of a sequence. The approach requires permanent access to a history of past activities, in order to perform a matching of the current subsequence with historic data. SHIP is one of multiple algorithms of the MavHome smart home architecture. This is an agent-based multilayer architecture, which uses a predefined set of concepts to transform physical sensor data (“lowest” layer) into abstract, discrete context data, before it is treated by the learning and decision-making modules (“highest” layer). String matching algorithms have also been adapted to two- or multidimensional data. This is possible through an extension of the string-matching paradigm to “wider” data structures (i.e. where each string element itself is a string of length greater than one) which has been proposed by Baker [1978]. The problem is reduced back to a string matching problem, which allows the use of efficient, well known algorithms. First rows from the search pattern are matched with rows from the subject array, then a table of matches annotated with a row ID is created. In this table, the row IDs are matched with the order of row IDs in the pattern array, column-wise. Therefore, the algorithm effectively represents the problem as the concatenation of two string matching problems. A similar approach is taken by Zhu and Takaoka [1989]. They use the hashing pattern matching approach of Karp and Rabin [1987] on the columns of the input data to first reduce the array problem to a string problem, and then use the algorithm of Knuth et al. [1977] row by row to find the array patterns. To the best of our knowledge, these approaches have not been used within the field of context data mining or applied to related fields, but could be considered as candidates, given a suitable framework. The k-Error Problem The k-error problem (explored in depth in the work of Navarro [2001]) is a quite specific approximate string comparison problem, where the goal is to match a pattern to a string, without incurring more than a fixed number of modifications, and the more general alignment problem, in either global or local flavour. A global alignment of two strings is the ideal ordered set of operations to transform one string to 31another, whereas local alignments are based on the same principle, but look instead to find maximally similar sub-strings within the pair of input strings. The k-error problem is too limited in scope, to be of use in the simple string case, as it is restricted to a search functionality, and the constraints of the fixed number of changes make no sense when dealing with context data. Nonetheless, further on we cover some variants of this approach, that generalize it to two dimensions, where the reasonable complexity of the solutions has some more interest. The class of alignment problems on the other hand is more flexible, and thus more interesting of analysis, and can also be used to solve the k-error problem. Global Alignment The first foray into the field was led by two biologists, Needleman and Wunsch [1970]. They propose a method to find the largest similar subsequence of a pair of amino acid sequences. More specifically, their algorithm finds similar subsequences of maximum length. Their original algorithm – which has largely been surpassed by a dynamic programming version – is illustrated for an example in Fig. 2.3.5. Two input strings are orthogonally arranged, so that a table can be spanned between them. In this version, every match of two symbols is given a score (1) in a table – as shown in the left table in Fig. 2.3.5. This value is added to the largest value in the top left sub-table – the empty table is assumed to contain the score 0 – this process is detailed in the right table of Fig. 2.3.5 . Following the increases in score across the table, gives the operations required to perform an alignment (denoted by arrows in the example). Non-deterministic configurations can be encountered, for example when one string contains a sub-string in inverse order as the other string (e.g. abcd and acbd). In that case, the following value can be based on either of the two previous rows of the table. This is because the incremented value for the b-b-match is not in the sub-table from which the maximum is chosen when examining the c-c-match. This leads to two equal values, one in each row of the table, and a common value in the following table. Because the top-most of the equal values is to the right of the lower-most, it is not possible to traverse both values, leading to the non-deterministic situation, where one of the two equally valid paths (deletion of b or deletion of c) has to be chosen. Dynamic Programming Algorithm The formalisation of the dynamic programming algorithm for global sequence alignment [Sankoff, 1972], requires the definition of a few terms. Let Σ be an alphabet of characters and let Σ∗ be the set of all possible combinations of characters into sequences. Let ε be the empty word. Let a ∈ Σ 32A C G T C G A C G A 1 0 0 0 0 0 1 0 0 C 0 2 1 1 2 1 1 2 1 T 0 1 2 3 2 2 2 2 2 C 0 2 2 2 4 3 3 4 3 A 1 1 2 2 3 4 5 4 4 C 0 2 2 2 4 4 4 6 5 G 0 1 3 2 3 5 4 5 7 A C G T C G A C G A 1 1 C 1 1 1 T 1 C 1 1 1 A 1 1 C 1 1 1 G 1 1 1 Figure 2.3.5.: Original Needleman-Wunsch algorithm, as introduced by Needleman and Wunsch [1970]. The left table is filled with incrementation markers (“1”) at each location where a pair of values match. In the right table, the values for all the cells have been determined, and the alignment highlighted by arrows and bold values. The alignment (arrows) starts at the maximum value and then follows the maximum values, upwards and to the left in the table. The “skips” between values 5 and 4, and 3 and 2 are indicative of deletions in the row-string. 333 3 2 3 2 1 insertion -1 -1 ±0 deletion Figure 2.3.6.: Calculation of the local similarity using the dynamic programming approach. The preceding values in the table are either incremented by the substitution score, in the case of the diagonal predecessor, or decremented by the indel penalty. The maximum value is carried over for all successive operations. and b ∈ Σ (a 6= b) be two such characters. For each pair of (a, b), define an elementwise replacement edit distance or substitution distance sub(a, b) ∈ R where it holds sub(a, a) 6= sub(a, b). In the original paper, the proposed values were 1 for a match and 0 for a mismatch. An alignment can comprise insertions and deletions (indels). These operations are assigned a penalty value indel ∈ R (= −1 in the original paper). The next step is the accumulation of these values in an array (“accumulated similarity score table”) spanned by the two input sequences. Row by row, the array is filled. Each cell in the array is calculated as the maximum of the sum of values in the directly adjacent cells with already determined values and the indel penalty, and the sum of the value in the diagonally adjacent cell with already determined value and the appropriate substitution score for the position of the cell (cf. Fig. 2.3.6 ). Formally: For two sequences S1 and S2 with last elements a and b respectively, the similarity score sim(S1, S2) is recursively defined as: sim(S1, S2) := max   sim(S −1 1 , S−1 2 ) + sub(a, b) sim(S −1 1 , S2) + indel sim(S1, S−1 2 ) + indel   (2.3.1) 34where S −1 is the prefix of length |S| − 1 of a sequence S. The initial condition is sim(S, ε) = sim(ε, S) = 0. Once the array has been completely populated, the maximum value in the last row or column is selected as origin. From this point, a trace of maximum values in the array is followed in the opposite direction of its generation. The direction taken at each step corresponds to an alignment operation. A diagonal movement corresponds to a substitution, whereas a movement into a directly adjacent cell corresponds to an indel. The sequence of operations that is returned this way is the sequence of operations required to align one of the input strings with the other. Using a dynamic programming approach, the algorithm can be implemented within the constraints of O(n 2 ) time and space. When comparing k sequences (of average length n), the complexity is of the order of O(n k ). Optimal Global Alignment Hirschberg [1975] proposes a linear space algorithm, which computes only the optimal score, and returns only the optimal sequence of alignment operations. This is achieved through a divide and conquer approach. Let S i be the suffix consisting of the last i elements of a sequence S and S −i be the corresponding prefix. Given sequences S1, S2 ∈ Σ ∗ , with |S1| = n and |S2| = m, it holds: ∀0≤i≤n : M(i) := max 0≤j≤m {sim(S −i 1 , S−j) 2 ) + sim(S i 1 , Sj 2 )} → M(i) = sim(S1, S2) This means that, for each position i in S1, there exists a position j in S2 such that the sum of similarity values of the pair of prefixes and the pair for suffixes from these positions is equal to the similarity value of the pair of sequences. Splitting S1 approximately in half (at index i) therefore implies an optimal split of S2 at the j where the minimum M(i) is calculated. Repeat this process on the pairs of first and second subsequences generated by the split until only a trivial problem (such as S2 being empty, or S1 containing only a single symbol and S2 being not empty) remains. The dynamic programming approach is illustrated – for the same pair of strings as in the previous example – in Fig. 2.3.7. Note how the value in each cell depends only on the three neighbouring values (as indicated in equation 2.3.1), which is crucial to Hirschberg’s approach. Local Alignment Global alignments are of interest, when a corpus of known interesting subsequences exists. As referenced above, Sigg et al. [2010] use global alignment 35A C G T C G A C G A 1 0 - 1 - 2 - 3 - 4 - 5 - 6 - 7 C 0 2 1 0 - 1 - 2 - 3 - 4 - 5 T - 1 1 2 2 1 0 - 1 - 2 - 3 C - 2 0 1 2 3 2 1 0 - 1 A - 3 - 1 0 1 2 3 3 2 1 C - 4 - 2 - 1 0 2 2 3 4 3 G - 5 - 3 - 1 - 1 1 3 2 3 5 A C G T C G A C G A 1 0 - 1 - 2 - 3 - 4 - 5 - 6 - 7 C 0 2 1 0 - 1 - 2 - 3 - 4 - 5 T - 1 1 2 2 1 0 - 1 - 2 - 3 C - 2 0 1 2 3 2 1 0 - 1 A - 3 - 1 0 1 2 GC - 1 - 1 ± 0 Figure 2.3.7.: Note that the traceback follows substitutions over indels in cases of ambiguity (e.g. the 4 shows the complete table and highlights the series of maximal values which indicate the alignment operations. -1. The left table shows how a particular cell value is calculated from three predecessor values, the right table penalty, matching substitutions score a value of 1 and insertions and deletions are penalised with a value of Dynamic programming version of the Needleman-Wunsch algorithm. Non-matching substitutions have no →3 transition marked and not necessarily the maximum value. in the right table), as the value that was used to calculate the current value defines the path for the traceback, 36to identify known context sequences in a stream of real-time context data. In order to actually identify such repeating patterns in sequences, local alignments need to be found. The reference local alignment algorithm is Smith and Waterman’s algorithm [Smith and Waterman, 1981], a variation on the dynamic programming Needleman-Wunsch optimal matching algorithm described earlier. The key differences are that negative values are used to represent the similarity of different values, and that in the accumulated similarity score table all negative values are truncated to zero. The similarity function above is modified to: sim(S1, S2) := max   0 sim(S −1 1 , S−1 2 ) + sub(a, b) sim(S −1 1 , S2) + indel sim(S1, S−1 2 ) + indel   (2.3.2) and furthermore, a backtrack halts when a zero value is encountered. The result is that – in the accumulated similarity score table – the score rises along pairs of local subsequences that are similar, then drops as they become dissimilar further on, and finally reaches zero. This zero value then serves as a delimiter: any similarity elsewhere is not impacted by the previous values, and thus locality is introduced. The degree of locality is directly dependent on how quickly similarity scores are accumulated to reach zero, from the point that the two subsequences diverge. This means: the dissimilarity of a pair of intervals between two pairs of similar intervals determines whether the two intervals are treated as a single pair of similar sub-strings containing the dissimilar substrings, or as two separate pairs. An example of this is given in Fig. 2.3.8, with two different penalties (-2 and -1 for left and right tables respectively) used to calculate the two tables. The result is that the smaller alignments are each time reset (to a zero score) in the left table, before they can form a larger alignment. Although Myers and Miller [1988] showed that it is possible to apply Hirschberg’s approach to local alignments, this is not always desirable, as reducing the result to the optimal alignment, discards all other local alignments present in the data. Fast Search Algorithms In bioinformatics, one of the key challenges is to check for the presence of medium length sequences within a genome. This is best achieved by algorithms that are optimized for search, such as FASTA by Lipman and Pearson [1985] and BLAST by Altschul et al. [1990]. These algorithms use heuristics to achieve 37A C G T C G A C G A 1 0 0 0 0 0 1 0 0 C 0 2 1 0 1 0 0 2 1 T 0 1 2 2 1 1 0 1 2 C 0 1 1 2 3 2 1 1 1 A 1 0 1 1 2 3 3 2 1 C 0 2 1 1 2 2 3 4 3 G 0 1 3 2 1 3 2 3 5 A C G T C G A C G A 1 0 0 0 0 0 1 0 0 C 0 2 0 0 1 0 0 2 0 T 0 0 0 1 0 0 0 0 0 C 0 1 0 0 2 0 0 1 0 A 1 0 0 0 0 0 1 0 0 C 0 2 0 0 1 0 0 2 0 G 0 0 3 1 0 2 0 0 3 Figure 2.3.8.: Two accumulated similarity tables obtained using the Smith-Waterman algorithm. The left has been calculated using a similarity score of 1 for matches, and dissimilarity penalties of -2 for non-matching substitutions and indels. The right table has this penalty reduced to -1. In each case, the alignments with a similarity score of at least 3 have been highlighted. Note how the higher penalty leads to smaller, more local alignments. much better search performance than exact methods, at the cost of a guarantee that the obtained results are correct. By being limited to search, these approaches do not offer themselves to the more exploratory nature of the routine activity detection problem pursued in this work. A further number of approximate on-line string matching algorithms is exposed in a survey by Navarro [2001], which introduces algorithms that are also based on statistical approaches, automata based approaches, filtering approaches and bit-parallelism based approaches. Two-Dimensional Pattern Matching Approximate pattern matching approaches for multiple dimensions can be divided into two classes: error-tolerance-based approaches and alignment-based approaches. The former use a simple model, that merely counts the number of modifications required to transform one structure into the pattern that is being sought. If the number of operations required exceeds a limit, a mismatch between data and pattern is assumed, similar to the k-mismatch approach for strings. Krithivasan and Sitalakshmi [1987] present a row-based approach to this problem, and a simple generalisation of the dynamic programming algorithm. Their model of a pattern is rectangular. The algorithm consists of two steps: first patterns are represented in an optimized fashion, by reducing rows that are identical or similar to a differential representation. Then, the data is searched for occurrences of the first row of the pattern, and for each occurrence it is 38verified whether the second row of the pattern follows. The number of required modi- fications is tracked for the set of occurrences, and whenever the error-limit is exceeded, the occurrence is discarded. Amir and Farach [1991] present an early algorithm that takes into account general structures, as opposed to merely rectangular ones. To achieve reasonable run time, they use numerical convolutions to perform the approximate matching. Baeza-Yates and Navarro [1998] present an approach of identical optimal complexity, that consists of a filtering step, discarding all rows in the text that cannot possibly contain a pattern, before using a standard dynamic programming algorithm for the final matching. Two-Dimensional Motif Extraction The previously introduced two-dimensional matching approaches do not allow the extraction of patterns from data, but instead solve the problem of finding a known pattern within data. As in the one-dimensional case, matching alone is not the key issue of the routine activity detection problem. Instead, the identification of common patterns in input data, is the key problem of the routine activity detection problem. Such extraction algorithms have first been proposed by Apostolico et al. [2008]. The notion of a pattern in their work is still essentially rectangular, but through the use of “don’t care”-symbols (symbols in patterns that match any symbol in the input data) the actual informational content of a pattern can take arbitrary shapes. Their approach primarily searches for autocorrelations of a single input array. An autocorrelation in their nomenclature is a similarity between the array and its transposed array. They propose an incremental combinatoric approach to detecting a base of patterns. A base is a set of maximally sized and maximally dense patterns, which comprises all patterns of an autocorrelation. Within the framework of the routine activity detection problem, such a base would correspond to a set of recurring contexts of maximal length and specificity, that describes all recurring contexts in a specified time frame. The incremental algorithm functions as follows: iterating over the cells of the array, in a row-major order, from the lower right corner to the upper right, a base is found for each sub-set of elements contained up to the current position. During the iteration step, new base element patterns are generated, through inclusion of the new symbol. Some of these patterns are novel – i.e. have not been generated previously – and render some old patterns obsolete, either by rendering them more specific, or by extending them in size. New patterns can be not novel, for example when a novel pattern removes an old pattern through extension from the base, but a previously removed pattern does then again become a valid base element, through this removal. Iterating this process across 39data of size N = m × n requires O(N3 ) time. By reducing the alphabet to a binary alphabet, complexity can be reduced to O(N2 ) [Rombo, 2009]. Two-Dimensional Local Alignment A generalizations of the local alignment by dynamic programming paradigm to two dimensions is presented in Lecroq et al. [2012]. This approach can be seen as an extension of the Smith-Waterman algorithm. It computes similarity scores for each pair of “prefixes” (in the two-dimensional case, this is the array to the top and left of the chosen position) in a table, that has now gained four dimensions. Two of these dimensions correspond to the widths and the other two dimensions correspond to the lengths of the two arrays being locally aligned. S 1 2 .. i .. n-1 n 1 C1 A2 Ai Bn-1 An 2 C1 A2 Bi Cn-1 An 3 A1 B2 Ci Bn-1 Cn 4 A1 A2 Ai Bn-1 Cn … … … … … … … j A1 A2 … Ci … Bn-1 Cn … … … … … … … l-4 C1 C2 Ai An-1 Bn l-3 B1 B2 Ci An-1 Cn l-2 C1 B2 Ai An-1 An l-1 C1 B2 Ci An-1 Bn l C1 A2 Ai An-1 Cn S S Figure 2.3.9.: Row and column prefixes, and accompanying notation. The similarity value in the table entry is computed as a function of the preceding values, much as in the Smith-Waterman dynamic programming algorithm. The difference in the two-dimensional case is that the preceding values now number eight instead of three. First of all, the number of possible deletion and insertion operations has doubled (lines V to VIII in equation 2.3.3), as they can be either in vertical (VII, VIII) or horizontal (V,VI) direction, and furthermore substitutions can be accompanied by different movements in the top-left direction. These directions are either top (IV), left (III) or top-left (in both arrays simultaneously - I and II). Finally, in the case of the top-left movement, the order of the submovements (top-left (II) or left-top (I)) influences the score. This is the case, because row prefix and column prefix similarities play a role in the calculation of the substitution scores, taking the place of the per-element substitution scores used in the one-dimensional case. In the following, let S ← and S ↑ denote the row prefix and column prefix of the bottom-right element of a sequence S (cf. Fig. 2.3.9) Column-prefix similarities are added to the similarity score, when doing an in-row substitution movement, and row prefix similarities are added, when doing an in-column 40substitution movement. In the case of the combined diagonal movement, the order then impacts which row prefix and which column prefix is considered. Let the upper index in S −i,−j denote which array prefix is used: S −1,0 is S without the last row, S 0,−1 is S without the last (rightmost) column, and S −1,−1 is S without both last row and column. indel(S) is the indel score of the bottom right element of S. To formalize (compare with equation 2.3.2), the similarity of two arrays S1 and S2 is defined as: sim(S1, S2) := max   0 sim(S −1,−1 1 , S−1,−1 2 ) + sim(S1 ↑, S2 ↑) + sim(S 0,−1 1 ←, S0,−1 2 ←) (I) sim(S −1,−1 1 , S−1,−1 2 ) + sim(S −1,0 1 ↑, S−1,0 2 ↑) + sim(S1 ←, S2 ←) (II) sim(S 0,−1 1 , S0,−1 2 ) + sim(S1 ↑, S2 ↑) (III) sim(S −1,0 1 , S−1,0 2 ) + sim(S1 ←, S2 ←) (IV) sim(S1, S−1,0 2 ) + indel(S2) (V) sim(S1, S0,−1 2 ) + indel(S2) (VI) sim(S −1,0 1 , S2) + indel(S1) (VII) sim(S 0,−1 1 , S2) + indel(S1) (VIII)   (2.3.3) This similarity is then implemented in the same way as the standard Smith-Waterman approach, with time complexity in O(N × M), where N is the number of elements in S1 and M is the number of elements in S2. Although this algorithm is generally designed to detect patterns in arrays, the actual use in Lecroq et al. [2012] is to identify similar passages of annotated conversations. This kind of data is notably sequential only in the time dimension, whereas the annotation dimension is fixed, and each column has its own alphabet. Therefore, the application is to a problem of finding similar subsequences in sequences of tuples. With these different approaches having been exposed, we can now compare their suitability for the routine activity detection problem. 2.3.2.3 Discussion Our look at string mining is focused on alignment techniques, as this class of approaches returns pairs of similar subsequences from two input sequences of symbols and thus allows us to extract information from the data. There are three identifiable ways how to apply this to our routine activity detection problem: 41❼ reduce the sensor data to discrete context states, and obtain a single sequence of such states – each similar pair of subsequences should correspond to a routine activity; ❼ formulate the task as a multi-sequence task (to remain coherent with multiple sources of context data) and seek alignments on each sequence – merged similar subsequences should correspond to routine activities; or ❼ consider context to be a sequence of n-tuples, with each tuple corresponding to a context state, consisting of multiple discrete context factors – pairwise locally similar subsets should correspond to routine activities. These three different conceptual approaches are illustrated in Fig. 2.3.10. In each case, it is required that the context is represented in a discrete format. The difference between the first and following two approaches lies in the alphabet size and tolerance to desynchronisation. A single value that encodes multiple values cannot encode certain intricacies in context data, such as one sensor reading leading or lagging the same sensor reading in another instance (5), with regard to the other sensor data. This restricts the appeal of the single string approach. t sensor data context state abstraction sensor state abstraction sensor state abstraction data synchronisation Pattern-mining a single sequence Pattern-mining multiple sequences and merging Pattern-mining an n-dimensional sequence Figure 2.3.10.: Three different ways of modelling context for different sequence mining approaches. “Data synchronisation” refers to the need to have a full set of sensor readings available at every time step, irrespective of different sampling frequencies of the actual sensors. 42The multi-sequence approach is excellent with regard to desynchronisations, as each sensor is studied at an independent temporal time scale from the others, to find patterns. On the other hand, this complete uncoupling means that coupling effects only get introduced after the first pattern mining pass, introducing additional model parameters (6) to characterise the merge operations. The multi-dimensional approach is limited, in that there are no efficient ways of mining such patterns. On the other hand – as the illustration makes readily apparent – it is possible to project the data into the plane, which induces “neighbourhood artefacts” where the link between neighbouring sensors is stronger than between those that are projected into areas that are further apart. The Smith-Waterman based two-dimensional local alignment algorithm can find patterns in this data, but at the cost of relatively high complexity (1). The exact motif-extraction approach of Apostolico et al. [2008] is also capable of extracting information from such projected context data, but the time complexity of its combinatorial approach is even higher (1). Additionally, it will only extract exact patterns, having only the freedom of the don’t care symbol, but not permitting structural variation between pattern instances (5). Although the exact approach means that initial parametrisation is not required, by consequence it is not possible to obtain an intrinsic distance between two patterns, or to allow for substituted elements outside of replacements with the don’t care symbol, which removes all information of the subset of symbols that can appear in those positions. With sufficient pre-treatment of the context data, in theory it could be possible to reliably extract patterns, of flexible shapes. In comparison to the alignment approach the complexity is too limiting, and the amount of pre-treatment too vast, for this approach to be considered suitable for the routine activity detection problem. Similarly, although the suffix-tree solution to the dispersed repeat problem has efficient solutions (1,7), the fact that it merely covers exact repeats, means that the pre-treatment has to deliver a sequence of activities as input (2,3). Otherwise the variations which one can expect in context data, render the approach unsuitable (4,5). Such a pre-treatment is difficult to obtain in a sufficiently general manner, which renders exact repeat solutions more difficult to apply to the routine activity detection problem than alignment solutions. 2.3.3 Comparison For each of the two approaches, we have presented similar classes of approaches. Looking back at the list of seven criteria we initially defined, we can rank features of classes of approaches for each one: 43Complexity (1) The first criterion favours approaches which have low algorithmic complexity and also an inherent capacity to deal with multidimensional data. Whereas the former is an obvious implication, the latter judgement is based on the fact that any other approach would either require a merging post-processing step or projecting pre-processing, both of which may have unexpected implications on complexity. Preprocessing (2) The second criterion similarly favours multi-dimensional approaches, as pre-treatment can be reduced to the per-element level and possibly a simple synchronisation. Adaptability (3) The third criterion is somewhat in opposition with criteria (2) and (6). Complex models are able to closer match the actual data, and give a richer representation. Approaches using multi-level hierarchical or substitution score based models have advantages under this criterion. Noise (4) Extraction from noisy data is best performed by approximate approaches. Exact approaches require additional pre-treatment to fulfil this criterion. Time Effects (5) This criterion also favours approximate approaches, specifically those that allow skipping or ignoring individual entries when mining for patterns, as well as treating each sensor with a certain amount of individuality. Parametrisation Effort (6) The parametrisation effort is lower for substitution based models compared to hierarchical models, as there is no need to define cross-sensor relations. Partial Mobile Deployment (7) This final criterion mostly an engineering challenge, as all sequence mining based approaches require a large off-line component, that does not need to be based on the mobile device. On the other hand, a recognition or prediction algorithm based on an established model can be deployed on a mobile device with little worry about platform constraints. For both string mining and SPM, we can at this stage discard the exact one-dimensional approaches – exact repeat mining and the standard sequential pattern mining algorithms – as the demands this would put on the pre-treatment of the data cannot reasonably expected to be met. 44Table 2.1.: Comparison of SPM and string mining sequential pattern mining string mining approximative Y N Y N multi-dimensional Y N Y N Y2 N Y N (1) complexity X high med. low high med. high low (2) preprocessing high med. high low high med. high (3) adaptability med. med. low high med. low low (4) noise tolerance high med. low high med. med. low (5) time effects tolerance low med. low high low low low (6) parametrisation effort med. high low high med. low low (7) mobile deployment no no yes no yes no yes The approximate methods of string mining have a larger maturity compared to the approximate approaches of sequential pattern mining, or in the case of the approach by Kum et al. [2003] is even based on a string mining paradigm. Additionally, there remains a drawback of sequential pattern mining, in that there is no consecutivity criterion present in most algorithms. Plantevit et al. [2010]’s multi-dimensional approach based on the M3SP algorithm is the only true multi-dimensional algorithm in both fields. To some degree, it shares the drawbacks of the exact sequential pattern mining approaches, but due to the multidimensionality, the pre-treatment of the data becomes much less of an issue, and the underlying hierarchical model can be used to give a semblance of an approximate approach. A way to render it more suitable to the routine activity detection, would be to add a consecutivity criterion, as has been done with the algorithm of Pinto et al. [2001] by Rashad et al. [2007a] or take into account temporal data [Giannotti et al., 2006, Yoshida et al., 2000]. The two-dimensional approach by Lecroq et al. [2012] appears to be similarly suitable. The key drawback lies in the required projection of the multi-dimensional context data into the plane in which the algorithm operates, but it takes into account desynchronisations across different sensors, and could be reduced to a lower complexity by taking into account the projection, and thus the incompatibility of data that is adjacent in the sensor-dimension. A side-by-side comparison of the general approaches with regard to the seven criteria is presented in Table 2.1. 2This is an estimate based on a naive extension of the approach of [Lecroq et al., 2012] to multiple dimensions. 452.4 Conclusion and Direction Our survey of available context datasets has shown that none of them is truly suitable to quantifiably verify that detected patterns correspond to routine activity. The lack of ground truth is the prime limitation, but there is also only a small subset of physical context data present in the existing datasets. This leads us to pursue two strategies to address – separately – each of the shortcomings: A generation algorithm can give us true ground truth knowledge, whereas our own data collection campaign would provide us with as much physical information as required. We also need to annotate some of the real world data with routine activities, to quantitatively verify our claims. With regard to the algorithms and approaches we studied, none matches our task directly. All require either modification or extensive adaptation to a specific dataset. A common drawback is the substantial effort required to prepare context data for the data model used in conjunction with the algorithms; alignment based approaches minimise this aspect, by only requiring tables of similarity scores, which can be determined using statistical analysis. Alignment approaches are also uniquely tolerant to desynchronisations between sensor streams. In the above comparison to SPM, the alignment approaches win out, barely. Compared to a clustering or a probabilistic state machine approach, the simpler pre-processing of the alignment approach is the deciding factor in its favour. This leads us to pursue an approach based on n-tuple sequence alignment. 46Alignment of Sequences of n-Tuples Overview This chapter presents our algorithmic contributions towards an answer to the routine activity detection problem. First we introduce a model that presents context in a way that an alignment algorithm can use. Next we cover our algorithmic contributions to the alignment algorithms of the state of the art, and finally we discuss the implications of our approach. 3.1 Context Model Fundamentally, context data is the set of values of a number of context factors, at a specific moment in time. Assuming there are n context factors, this is most accurately reflected as a vector-valued function over time, of the type C(t) = (c1(t), c2(t), . . . , cn(t)). Of course, a digital computer can impossibly treat continuous data of any kind, and a digital sensor can never capture data in a continuous manner. Any context data therefore is a discrete valued time series, unless different context factors are sampled at different rates, in which case the data is in the form of multiple time series. We adhere closely to this natural representation in the following. 3.1.1 Sequence of n-tuples We postulated in the introduction that routine activities correspond to recurrent motives in context data. The state of the art approaches to finding such motives favour the use of a sequence based approach. Consequently, we adopt a model that represents context as a sequence of context states. In specific, we structure context as a sequence of n-tuples. 471.1 0.3 0.2 0.8 0.7 0.2 0.4 0.5 0.3 0.4 0.6 0.4 0.6 0.5 0.5 0.8 0.3 0.2 0.5 0.6 0.2 C = C(t) ℝ  ℝn t discretisation t synchronisation and classification t A1 A2 A3 A4 B1 A2 A3 A4 C1 B2 A3 A4 C1 B2 B3 A4 B1 B2 B3 B4 B1 A2 A3 B4 C1 B2 A3 B4 C = (c1 (t1 ), c2 (t2 ),…, cn (tn )) ℕn  ℕ n C = (c1 , c2 ,…, cn)(t) ℕ  ℕ n Figure 3.1.1.: The transformation of continuous context C(t) into context data in a sequential model. With regard to the natural time series representation, this requires that our context data sources are synchronized and sampled at constant and equal intervals. Each position in a tuple contains a (coarsely – e.g. at a semantically relevant level) discretised or classified reading from one of n context data sources. These context data sources each measure one context factor and are referred to as sensors in the following. Each tuple represents context at a moment in time, which we assume to be valid over the constant interval of time, until the next set of values becomes available. In Fig. 3.1.1 the process of transformation from physical context into context data and finally into a synchronized and coarsely discretised n-tuple representation is illustrated. Discretisation (at the physical digital sensor level) transforms context from the continuous function over time into a number of time series. This is then synchronised into a single time series, and the values are replaced with abstract representative class IDs, column by column. In the example, we excluded possible expansions or contractions in the “width”, due to a single sensor measuring multiple physical properties, or data from multiple sensor being used to determine a class based on multidimensional data. This is merely to aid comprehension — in reality these characteristics may appear in the process chain. By choosing an n-tuple approach to alignment, over a 2D-approach, we can eliminate a degree of freedom from the latter. The fact that each sensor has its own, separate set of values, allows us to fuse the two in-tuple dimensions into a single one, by requiring that any operation performed along one axis has to be equally performed along the other. This enforced translational (across sequences) symmetry not only prevents us from having to define similarity values for nonsensical configurations (e.g.: How similar 48x y z w z C C determine local similarities fuse dimensions T∈ℕ4 3 Figure 3.1.2.: Linking w- and z-axes into a single dimension, due to translational symmetry (i.e.: every set of discrete steps taken along the z-axis is replicated identically in the w-axis). is a bright light to an upside down mobile device?) but also reduces complexity of the alignment algorithm. The specific consequences are discussed in subsection 3.2.1. Fig. 3.1.2 shows how the four-dimensional alignment problem has been reduced to a three-dimensional one, by linking the in-tuple dimensions. 3.1.2 Blocking and Sampling Although it is generally possible to find pairs of similar subsequences by searching for local alignments of a sequence with itself, the time and memory required to do so grow by the square of the length of the sequence (cf. paragraph Local Alignment on page 35). There exists a limit from which on it is no longer possible to calculate local alignments, because no computer system has sufficient memory available to perform the computation. We have identified two means of managing the issues that arise from an increased volume of data: ❼ A first variable that we can control a priori is the sampling frequency of context data. Depending on the granularity of context patterns we wish to identify, we can reduce or increase the sampling frequency. This also reduces or increases the sequence length, for a given time interval of context data. 49… … l i l i+1 ≠ corpus context C Figure 3.1.3.: Splitting a long sequence of context data into blocks of roughly equal (but not necessarily equal) lengths. ❼ Another way to address this problem is by splitting the sequence along regular (time-)intervals into subsequences of n-tuples. It is often sensible to do this along semantically relevant lines, for example by choosing 24 hour intervals or seven day intervals. This is illustrated in Fig. 3.1.3 where a long sequence of context data is divided into a set of subsequences with potentially different lengths. The different lengths are artefacts of the data collection, and do not affect the alignment calculation. Memory constrained situations are defused by using this approach, as the accumulated score tables for each pair of subsequences are much smaller. Fig. 3.1.4 shows how the large table spanned between two long sequences a and b is reduced to many smaller tables, when the long sequences are divided into blocks. The impact on total computation time is negligible, due to high number of alignment operations that result, which also scales to the square of the number of segments. On the other hand, it is trivial to parallelise across pairs of blocks, which reduces the real duration (i.e. wall time) of performing an alignment when more than one processor is available. 50Blocking into N Blocks Volume = N2 small volumes a b Figure 3.1.4.: The reduction of the size of individual accumulated similarity score tables which can be obtained by blocking. a and b are two sequences, with the local similarity scores contained in the volume spanned between them. Another advantage to blocking, lies in that fact that blocks are crucial for a sequence mining approach. Conversely, a downside is that there is an accuracy penalty, even when choosing “convenient” intervals (i.e. such that periods of interest are well away from the beginning or end of a block). Notably, patterns that fall across these boundaries could be represented as two separate alignments, or not at all, because each half might be too short to meet an imposed similarity criterion. One possible means of addressing this shortcoming, is to allow overlaps between adjacent blocks. This practice introduces some overhead, when alignments that can be found in the overlap are “stitched together”. 3.1.3 Meta-data As we pursue a local alignment-based approach, we need to be able to determine local similarities of subsequences. A key requirement is that we define the relation between each pair of discrete states of each sensor by means of a set of similarity scores. These similarity scores are by nature positive, when describing the similarity of identical values, and negative when describing the similarity of non-identical values. We chose to represent these values in the form of n (one for each element of an n-tuple) symmetrical tables, containing positive values in the main diagonal, and negative values elsewhere. A small example is given in Fig. 3.1.5. 513 -1 -1 -2 -2 -1 3 -1 -2 -2 -1 -1 3 -2 -2 -2 -2 -2 5 1 -2 -2 -2 1 5 n A B C D E A B C D E S Figure 3.1.5.: A sample substitution similarity score table from the set of n tables. We can imagine four ways, how such a set of meta-data can be obtained. The first two are based on statistical analysis of an existing dataset: transition frequencies between sensor states are a possible indicator to an underlying system, but the same can be claimed of substitution probabilities between sensor states for hand-selected patterns. A third approach is to base the values on the physical distances of the underlying classes. In the case of two places, the distance of the shortest route between the two, or the time required to cover that distance, could be such physical pointers. Finally, in absence of such data, a simple model that does not assign different scores at all, except one positive and one negative score to differentiate between same and different values can be used. Each approach requires expert supervision, and of course it is also possible for an expert to project his own view of the problem onto a manually crafted set of meta data that does not directly reference any of the above approaches, or mixes them. Besides these substitution scores, an alignment-oriented model also requires insertion and deletion scores. Contrary to the affine (for length) and constant (for deleted/inserted value) approach chosen in bioinformatics (cf. BLOSUM-type block transition score tables by Henikoff and Henikoff [1992] and the work of Altschul and Erickson [1986]), we decide to use scores which are a fixed offset of the substitution similarity score. Our reasoning behind this choice is as follows: in context data it is common for context sources to return a constant value, for a different length of time. Particularly, periods of inactivity (with regard to the mobile device) show this characteristic. An example: 52constant value constant value locally optimal alignment with negative deletion score desired locally optimal alignment aligns if insertion/deletion of constant values has positive similarity Figure 3.1.6.: Two intervals of identical values but different lengths can be aligned by assigning positive similarity score to insertions and deletions of identical values. a user sleeps for different lengths of time during two different nights in a week. Our goal in this case is to align the entirety of both instances of “user sleeps”, instead of just the closest matching sub-sequence of the longer interval. The score offset gives a high similarity score for alignments of a subsequence of constant values with another subsequence of identical values but different length, while also penalising non-identical deletions and insertions over substitutions. This concept is illustrated in Fig. 3.1.6, where two intervals of constant values but different lengths are shown side by side, with two possible ways of defining similarity being shown: To the right, the state-of-the-art approach of assigning negative scores to all deletions and insertions, and to the left an example where the sum of deletion score and substitution score of the two constant values is positive. This allows the inclusion of the entire interval. In practice, a positive score would usually be undesirable, as problems of scale might arise. Often it is sufficient to allow a similarity score to bridge across such intervals without penalizing the accumulated score too much, as activities following longer series of constant values are usually also similar, if the constant values are part of the trace of a significant routine activity. In this case a lightly negative score-sum is preferred. 533.1.4 Discussion This model – and particularly the definition of a similarity measure – is specific to alignment approaches. Data that is presented according to this model can be transformed to conform to another model, as long as the granularity of the discretisation is not too coarse, and the classification key which is used to map raw values to abstract context values is available. Of specific interest to us, is the transformation to a model that is compatible to a sequential pattern mining approach, because it would enable a direct comparison. Such a conversion would require that the similarity tables are transformed into a similarity hierarchy. We consider the absence of semantic and physical information in data that conforms to this model to be an advantage: it protects the privacy of the user whose data is being treated. Despite it being possible to infer some semantic information (e.g. which location IDs correspond to home and work) from a stream of data formatted according to this model, there is very little risk of physical information (i.e. where the previously mentioned places are located) to become compromised. This makes our model suitable for data storage and processing on distributed systems, that are not necessarily under direct control of the user, with little risk of a breach of privacy. This hypothesis is reinforced by the evaluation of Voigtmann et al. [2012] of different context analysis approaches and models. The adaptation of raw data to our model requires some amount of intervention by an expert, but automation is possible to a degree. The influence of this expert in the creation of the model is pivotal. Assuming that an expert has derived a perfect context model, we cannot guarantee that he can transform this model with perfect accuracy into a set of meta-data. This limitation is due to the fact that similarity values are limited in precision and difficult to scale across multiple sensors. Anecdotally, in the field of biological sequence alignment, research showed that incorrectly obtained substitution score tables (Styczynski et al. [2008]) can in fact increase the accuracy of the used alignment algorithm. In this case an error in the statistical determination of similarity values from a reference dataset was present. We therefore theorise that our similar model would display similar resilience to slight inaccuracies in the similarity value tables. We also have to emphasise that the parametrisation of a model that performs exactly as expected is far from a well understood or intuitive practice. With this model in place, we examine in more detail our approach to process this data for routine context. 541 2 .. n-1 n A1 B2 An-1 Bn B1 C2 An-1 Cn C1 C2 Cn-1 An A1 A2 Bn-1 An A1 A2 … Bn-1 Cn C1 C2 Bn-1 Bn C1 B2 Cn-1 Cn B1 B2 An-1 Cn B1 A2 Cn-1 Bn A1 C2 Bn-1 An 1 2 .. n-1 n C1 A2 Bn-1 An C1 A2 Cn-1 An A1 B2 Bn-1 Cn A1 A2 Bn-1 Cn A1 A2 … Bn-1 Cn C1 C2 An-1 Bn B1 B2 An-1 Cn C1 B2 An-1 An C1 B2 An-1 Bn C1 A2 An-1 Cn alignment Figure 3.2.1.: Two example context sequences, the resulting context data sequences and an alignment (cells underlaid in grey) that corresponds to two similar subsequences. 3.2 Alignment Algorithm It is our declared goal to find patterns in context data. As we have laid out in our survey of the state of the art (cf. section 2.4 on page 46), the search for local alignments appears to be the most suitable approach to this task. Any such alignment (i.e. a pair of similar subsequences of two sequences from a corpus of context data) corresponds to two instances of similar activities or contexts. Fig. 3.2.1 reprises how context sequences correspond to alignments. Two similar sequences of activities (being at home, working at the hospital in the morning and the laboratory in the afternoon, before playing hockey on one hand and the same activities in a different order on the other) result in two similar sets of context data. A subset of this data attains a locally optimal similarity score and is therefore considered to be in alignment. This alignment then serves as pointer for the original similarity in the activities. Fig. 3.2.2 illustrates how pairs of context sequences from a corpus (i.e. an established set of subsequences of context data - cf. subsection 3.1.2 on page 49) are generally aligned. This is the key operation to find frequently appearing similar subsequences in 55x y z w z a b determine local similarities Figure 3.2.2.: Alignment of two context sequences a and b from a corpus. this corpus, which we then understand to be representatives of routine activities. Before we continue, we briefly discuss the two key terms that we use so frequently in this work: alignment and similarity. An alignment is defined as a result of an alignment algorithm with a specific configuration. More generally, it is a subsequence and the associated operations to transform it into another similar subsequence (cf. subsection 2.3.2 on page 25). On the other hand, the – rather abstract – notion of similarity is less obvious. With regard to sequences, we can define four key criteria of similarity: Substitution similarity at the elemental level is the most atomic criterion. It stems from the pair-wise similarity values defined beforehand (cf. subsection 3.1.3 on page 51). Another similarity criterion is the density of positive substitution similarities. A high density means a high similarity of a set of values. A third similarity criterion is size: at the same density, a larger set of values can be considered to be more similar, than a smaller one. Finally, we impose a synchronicity criterion. The less gaps need to be opened or filled in a pair of subsequences, given the same size and density, the higher the similarity score for the overall sequence. In the following, we implement this notion of similarity with a recursively accumulated similarity measure. Basically, we call a sequence “similar” to another, if the last row and column of both sequences are similar, and the remaining sequence is also similar 56(cf. subsection 2.3.2 on page 25 and the next subsection for formal descriptions), while using a standard one-dimensional similarity measure for rows and columns. This measure allows us to describe a very precise notion of what similarity is. By parametrising the context model appropriately, we can craft a measure that corresponds to specific expectations. An expert – who defines a set of rules that effectively links certain kinds of patterns in the data to routine activities – can therefore tune the parameters on a case-by-case basis. A similarity measure based on this concept lies at the heart of the work of Lecroq et al. [2012] on aligning annotated dialogues to find similar structures. We extend and adapt this approach for use on context data and our context model. Our modifications to their algorithm, which primarily address significant performance issues that arise when attempting to use their approach on long sequences of context data, are detailed in the following. 3.2.1 Contribution I: Reduction to n-tuple Problem Our first angle of approach lies in the elimination of unnecessary size of the table of accumulated scores. In the original approach, this table spans four dimensions, to take into account insertions and deletions in horizontal and vertical directions in the plane. As our context model does not allow for any interaction between different elements of the same tuple, we restrict permitted operations from the 2D approach (cf. subsection 3.1.1 on page 47 and Fig. 3.2.2 on the preceding page). When determining the similarity of a pair of tuples we now only allow substitutions between elements with identical indices. This brings our approach closer to a true ntuple approach. As a consequence, insertion and deletion operations are restricted to the sequence dimension, but are not limited to entire n-tuples at a time. This optimisation reduces the local similarity score table T to three dimensions, and thereby each cell only depends upon five “predecessor cells”. Each of these cells corresponds to a vertex in the cube marked T in Fig. 3.2.7. This step also simplifies and thereby optimises some ancillary calculations. It is often required to calculate row and column similarity scores locally; for the row case, only substitutions are of interest. The local column alignments also mean that the algorithm retains full flexibility when working with data that has a tendency to de-synchronise, by being able to “break up” tuples to form alignments. As the calculation of the score table is naturally defined in a recursive manner, we will first define ways of selecting individual tuple elements in a sequence with a reference point in the bottom right. For the following, let s be a sequence of n-tuples of length l. 57Definition 1. s [i, j] , i < l ∈ N, j < n ∈ N is the element in the j-th position from the end of the n-tuple in the i-th position from the rear (l-th row) of the sequence s. In Fig. 3.2.3, we present three examples (one general, and two similar to the common usage in the following) of how this inverted addressing of elements of a sequence works. s 1 2 .. i .. n-1 n 1 C1 A2 Ai Bn-1 An 2 C1 A2 Bi Cn-1 An 3 A1 B2 Ci Bn-1 Cn 4 A1 A2 Ai Bn-1 Cn … … … … … … … j A1 A2 … Ci … Bn-1 Cn … … … … … … … l-4 C1 C2 Ai An-1 Bn l-3 B1 B2 Ci An-1 Cn l-2 C1 B2 Ai An-1 An l-1 C1 B2 Ci An-1 Bn l C1 A2 Ai An-1 Cn s[n-i,l-j] s[1,1] s[0,1] Figure 3.2.3.: Selection of tuple elements in a sequence using reverse addressing. The origin of the coordinate system used here is in the lower right end of the sequence. From there the first coordinate is incremented when moving one element to left, and the second when moving one element upwards. Next, we define a way to express the recursive reduction of the sequence: Definition 2. The •i,,j operator represents the sub-sequence consisting of the original sequence, minus the last i tuples and the last j tuple elements. If we understand s to be an ordered set of coordinate-value pairs, this can be expressed as si,,j := s \ s [x, y] ∀x < i ∨ y < j. This operator is illustrated in Fig. 3.2.4, where both a general case is shown, and the 58usage that is most common in the following, with indices in the [0,1] range. s 1 2 .. i .. n-1 n 1 C1 A2 Ai Bn-1 An 2 C1 A2 Bi Cn-1 An 3 A1 B2 Ci Bn-1 Cn 4 A1 A2 Ai Bn-1 Cn … … … … … … … j A1 A2 … Ci … Bn-1 Cn … … … … … … … l-4 C1 C2 Ai An-1 Bn l-3 B1 B2 Ci An-1 Cn l-2 C1 B2 Ai An-1 An l-1 C1 B2 Ci An-1 Bn l C1 A2 Ai An-1 Cn sn-i,l-j s1,1 Figure 3.2.4.: Example of the •i,,j operator. If the operator is used on the same sequence of n-tuples, with one pair of indices being higher than the other, the smaller result is a subset of the larger one. In this case the result underlaid in black is a subset of the result underlaid in grey. To calculate in-tuple and in-column similarity values, we define two operators: Definition 3. s [i, j]← := {s [i, j + 1] , s [i, j + 2] , . . . , s [i, n]} is the right-to-left sequence of elements to the left of a position in a tuple, and s [i, j]↑ := {s [i + 1, j] , s [i + 2, j] , . . . , s [l, j]} is the bottom-to-top sequence of all prior elements in a column (i.e. all elements with the same tuple index). One example of each of these operations is illustrated in Fig. 3.2.5. 59s 1 2 .. i .. n-1 n 1 C1 A2 Ai Bn-1 An 2 C1 A2 Bi Cn-1 An 3 A1 B2 Ci Bn-1 Cn 4 A1 A2 Ai Bn-1 Cn … … … … … … … j A1 A2 … Ci … Bn-1 Cn … … … … … … … l-4 C1 C2 Ai An-1 Bn l-3 B1 B2 Ci An-1 Cn l-2 C1 B2 Ai An-1 An l-1 C1 B2 Ci An-1 Bn l C1 A2 Ai An-1 Cn s[2,1] s[1,0] Figure 3.2.5.: Selection of a column and row using the ↑ and ← operators. Lastly, we require a uni-dimensional similarity measure, to determine what used to be row and column scores: Definition 4. For two sequences x, y of single elements, sim(x, y) is the ❼ locally (i.e. before the similarity reaches a zero value) maximum similarity score of the Smith-Waterman algorithm on the reversed column sequences, if x and y are both sequences generated with the ↑ operator. ❼ maximum accumulated value of substitution similarity scores, if x and y are sequences generated by the ← operator. Fig. 3.2.6 shows an example to illustrate this, based on 4 steps: First a pair of columns is extracted from a sequence of n-tuples, then reversely aligned, one with the other. Once the similarity score reaches zero, the alignment is aborted, and the local maximum in the aligned interval is the score returned by the sim operator. 60s 1 2 .. i .. n-1 n 1 C1 A2 Ai Bn-1 An 2 C1 A2 Bi Cn-1 An 3 A1 B2 Ci Bn-1 Cn 4 A1 A2 Ai Bn-1 Cn … … … … … … … j A1 A2 … Ci … Bn-1 Cn … … … … … … … l-4 C1 C2 Ai An-1 Bn l-3 B1 B2 Ci An-1 Cn l-2 C1 B2 Ai An-1 An l-1 C1 B2 Ci An-1 Bn l C1 A2 Ai An-1 Cn Bn-1 Cn-1 Bn-1 Bn-1 … Bn-1 … An-1 An-1 An-1 An-1 An-1 Cn-1 Bn-1 … Bn-1 … Bn-1 Cn-1 An-1 2 - align 3 - accumulated similarity reaches 0 1- extract 4 – sim is the maximum accumulated similarity score in this interval Figure 3.2.6.: Calculation of a column similarity score. Two columns are extracted from two sequences, then aligned in inverse order, up to the point where the similarity score reaches zero. The maximum similarity from this interval is the similarity value we assign these two columns. With these prerequisites in place, we can express the accumulated similarity score for two subsequences a and b recursively as follows: Definition 5. For two sequences of n-tuples a, b and the accumulated similarity score is: sim(a, b) = max   0 sim(a1,1, b1,1) + sim(a [0, 0] ↑, b [0, 0] ↑) + sim(a [0, 1] ←, b [0, 1] ←) (I) sim(a1,1, b1,1) + sim(a [1, 0] ↑, b [1, 0] ↑) + sim(a [0, 0] ←, b [0, 0] ←) (II) sim(a0,1, b0,1) + sim(a [0, 0] ↑, b [0, 0] ↑) (III) sim(a1,0, b1,0) + sim(a [0, 0] ←, b [0, 0] ←) (IV) sim(a0,0, b1,0) + indel(b[0, 0]) + sim(a[0, 0] ←, b[1, 0] ←) (V) sim(a1,0, b0,0) + indel(b[0, 0]) + sim(a[1, 0] ←, b[0, 0] ←) (VI)   (3.2.1) The similarity score sim(a, b) is 0, if a = ∅ ∨ b = ∅. 61In the domain of the accumulated local similarity score table T, each cell contains the similarity values of the subsequences (of sub-tuples) defined by the coordinates (cf. subsection 2.3.2). The iterative algorithm of determining each value in T is started by initialising the first plane in each dimension of the table with zeroes, to satisfy the end condition of the recursive definition of the similarity scoring function. The other cells are calculated as illustrated in Fig. 3.2.7: Each arrow (labelled I-VI) corresponds to an operation in equation 3.2.1, excluding the column and row similarities. These are the operations that are performed in each case, before choosing the maximum value amongst them: (I) Substitution and movement to the left (column-row-order): The space diagonal predecessor value is added to the column similarity of the predecessor and the row similarity of the current rows. (II) Substitution and movement to the left (row-column-order): The space diagonal predecessor value is added to the column similarity of the current columns and the row similarity of the predecessor. (III) Movement to the left: The z-axis predecessor value is added to the column similarity of the current columns. (IV) Substitution: The x-y-diagonal predecessor value is added to the row similarity of the current rows. (V) Insertion: The y-axis predecessor value is added to the row similarity of the current row and preceding row. (VI) Deletion: The x-axis predecessor value is added to the row similarity of the preceding row and current row. The dynamic programming paradigm of the approach is therefore maintained, despite our recursive definition of local similarity. 62a b z z z x y x y i-1 plane j-1 plane k-1 plane i,j,k i,k j,k I,II III IV V VI i lies on the x-axis j lies on the y-axis k lies on the z-axis T Figure 3.2.7.: The local dependencies of the calculation of a local similarity value. To the left in the three-dimensional table of accumulated similarity scores T and to the right the equivalent representation in the domain of the two sequences a and b. Operations V and VI – insertion and deletion – are one-dimensional operations and therefore appear only either in a or on b. 3.2.2 Contribution II: Locally Optimal Alignments The state-of-the-art approach selects every position in the accumulated score table where the score is above a minimum similarity threshold as a candidate for a backtrack (BT) – and by extension as an alignment. This leads to a large number of alignments being calculated, especially if high-scoring alignments (i.e. large alignments with a high similarity density) are present in the data. In such a high-scoring alignment, the minimal score is reached long before the end of the alignment. Each cell with a similarity score above this minimum generates a new BT and eventually the corresponding alignment, none of which are in any way meaningful. Alignments can branch in three (four, in the original algorithm) dimensions, which results in a very large number of BTs, as large volumes of cells containing high similarity values exist in the 3D scoring table. Whereas an individual BT operation is not extremely costly from a computational point of view, this high number of BTs effectively – and severely – limits either the usable problem size or the usable minimal accumulated similarity score (MASS). 63Figure 3.2.8.: The rightmost (n-th) z-slice of a table T. The axes of the plane correspond to the temporal axes of the sequences. line denotes the plane of an arbitrarily chosen MASS. The highest value is denoted by an X. The height and colour are representations of the accumulated similarity value in the cell in T. The white profile 64In Fig. 3.2.8, we look at an extract of the n-th slice of the table T, where typically accumulated scores are highest compared to other z-slices. Any point above the reference plane at MASS-level is a potential candidate for a BT. This volume is visibly of considerable size. To alleviate this problem, we retain only the most meaningful alignments. The inspiration for this choice can be found in bioinformatics, where the algorithm of Smith and Waterman [1981] is often used to identify only the optimum local alignment (Myers and Miller [1988]). This goes so far, that many evolutionary optimisations have focused exclusively on this problem. In fact, in Lecroq et al. [2012], reference is also made to a maximal element for the BT, but also in a global sense. Although this approach is too radical for our problem, we still perform a similar optimisation, but on a local scale. We calculate BTs exclusively from the locally highest accumulated scores– as opposed to from every score higher than the MASS. This corresponds to the peak in Fig. 3.2.8. A simple check whether any one of the 26 adjacent values is higher than the value in the current position determines if the current position in the accumulated score table is retained as a candidate for a BT. The number 26 stems from the fact that each cell has six directly neighbouring cells (one per surface of a cube), as well as three times four in-plane diagonal neighbours (one per vertex) and eight “node diagonal” neighbours (one per node), in the 3D table. Although this introduces a large number of branches into the execution, it reduces the number of candidates (and therefore of expensive BTs) drastically. All of the removed backtracks are in essence redundant: The higher scoring alignment includes all elements a smaller alignment would include, and a larger alignment with a lower score would have an overall lower similarity, and therefore the added elements are not similar. We restrict ourselves to a maximum search radius of 1 (√ 2 for in-plane diagonals and √ 3 for space diagonals). Fig. 3.2.9 visualises how we obtain the number of 26 neighbours, and what these distances mean in the 3D geometry of the accumulated score table. Though there is a benefit to extending the search radius, in that “double peaks” would no longer lead to twin alignments of largely similar nature, the added cost of extending the search radius would quadratically (surface of a sphere) increase the number of branches, and the additional reduction in candidates would be comparatively small. On the other hand, the number 26 is also the minimal number of checks required for this approach to be functional, as otherwise for large accumulated similarity values there would always be greater-than-MASS values in one of the adjacent positions. For an illustration of the scale of this issue, Fig. 3.2.10 shows an example similarity score table. It shows that selecting a small MASS is necessary to detect smaller similar 653 3=27 cubes 26 neighbours to central cube l = 1 l 2 = 2 l 2 = 3 Figure 3.2.9.: The local neighbourhood of a node (in the centre of the shown cube) in the accumulated score table T. The shown cube consists of 27 sub cubes, the one at the centre being the “home node”. The other 26 surrounding it, are the direct neighbours. A partial spatial subdivision is shown in the lower left corner to illustrate the notion of “radius”. structures (values above 1500 in this case are of significant interest), but large similar structures generate huge amounts of potential candidates at this smaller value. We reduce the volume of BTs from the volume around each of the peaks to just the number of peaks themselves. The side-by-side representation of the third dimension obscures somewhat that the 5 surfaces in the figure actually form a volume, but each point in a surface is neighbouring to the point in the same coordinates in a neighbouring surface, and they are all considered for the selection of final candidates for a BT. 3.3 Discussion Reducing the degrees of freedom from the two-dimensional approach leads to a lowered complexity. Where originally the accumulated score table required O(lmn2 ) (where l and m are the sequence lengths, n the number of elements in a tuple) space (and time to calculate), this has now been reduced to O(lmn), without any reduction in relevant capability. This means that we can now work with sequences that are n-times longer than previously, within the same system constraints. The two-dimensional basis for the algorithm means that the order of columns still has 66Figure 3.2.10.: Accumulated similarity score table for the alignment operations of the context data corresponding to two consecutive days. Each graph represents one of the five slices (n = 5) of the z-axis, starting at one at the top, incrementing to five at the bottom right. Height and colour correspond to local similarity values. The x - y plane is spanned by the temporal axes of the sequences. Note multiple peaks at different heights. 67an impact on the accumulated similarity scores. A notion of single-step cursor movement is still present in our approach (cf. equation 3.2.1), and thus accumulated scores depend only and directly on the scores of the left tuple neighbour and the accumulated similarity score of the sequences to the left of the elements under consideration. Reducing the number of BT candidates by local optimization can drastically increase performance, especially when the MASS is a small fraction of maximum accumulated similarity scores. If the neighbourhood of every peak consists of 5 cells in each direction of each of the three dimensions where the score is above MASS, this reduces the number of BTs by a factor of around 1000. The average worst case (i.e. in an infinitely large table where cells with values higher than MASS are surrounded by exactly one layer of cells with value 0) improvement is by a factor of 7. This optimisation does remove some granularity, as possibly semantically atomic routine elements can be included within larger scale alignments, and thus disappear from view. On the other hand, they would be lost in the noise of meaningless alignments, if the classic approach were to be retained. A way to recover such smaller scale patterns, could be by iteratively locally aligning intervals of interest, with ever decreasing MASS. Beyond this theoretical evaluation, we also performed an experimental validation. There we address whether the alignment approach is valid for context data, as opposed to just general sequential data. 68Experimental Validation and Results Overview This part is dedicated to the evaluation of the alignment-based approach on both automatically annotated synthetic data and manually annotated real-world data. Before getting to the actual evaluation, we first examine the provenance of our test data. Consequently, we detail the synthetic data generation procedure. Additionally, we present the real world data collection campaign and the pre-treatment process required by our context data model. The evaluation of the algorithm on synthetic data is detailed in the following section, and the evaluation on real world data in the subsequent one. 4.1 Synthetic Data Evaluation Testing on “real” data is crucial to being able to judge the “in the wild”-performance of an algorithm, but there are several limitations when solely relying on it. The manual annotation of ground truth is often labour intensive and error-prone. This limits the scope of possible evaluation. Conversely, an evaluation on synthetic data allows us to complement the results we can obtain from real world data, particularly by giving better control over the results and a wider variety of testing conditions. 4.1.1 Synthetic Data Generator and Dataset In the following, we introduce a model and an algorithm that simulates parallel data from multiple sources containing cross-source repetitive patterns. Due to the many parameters that can be set, and the multiple random influences, the overall model for the generator is complex. For this reason, the description is split in five sub-sections, 69of which the first lays out the requirements and design choices, the second some key definitions and terms used in the context of the description of the generation model and algorithm; the third and fourth sub-section detail each of the major sub-routines of generating data. An illustratory example is used throughout this subsection. 4.1.1.1 Data Generation Context Model It is our goal to give the experimenter the greatest possible freedom with regard to the characteristics of the generated data. Some general expectations of what makes up context data guide us in the design of our generator. The basic structure of context is a sequence of n-tuples, when n context data sources are present. Within this sequence, we encounter two different states of context. Either the current context is part of a set of routine contexts, or it is not. A routine context influences a specific subset of context measurements, reproducibly each time it is present in the data. Per sensor, different amounts of data may be relevant to a pattern. How much influence a routine context has on the context data is determined by how much variation there is between different instances of the context. This variation can be expressed as a random process. This random process modifies values between different instances of routine context, or leads to desynchronisation effects when elements are skipped or extended. It is inherent to each routine context. Furthermore, non-routine contexts may also lead to desynchronisation of following routine contexts, due to the global continuity of context. A separate random process determines these effects, and the amount of value modifications in the non-routine data, if a baseline has been defined. A model of probabilistic distances determines how likely it is for a certain value to be modified to another one, or to be extended or skipped. The order of appearance of the routine contexts is usually regular as well, but can also vary under random influences. A real world example could be a person oversleeping, and skipping an entire morning activity, on their way to work. These varying orders can also be modelled by a random process. Finally, different context sources may have interactions. As an example, location and radio signal strength are often correlated. Such correlations need to be taken into account when evaluating the random process which determines the ultimate values of a context. and may also be interesting when defining a set of routine contexts. 70data 1 pattern time pattern cell data 2 data 3 data 4 stream Figure 4.1.1.: Stream, pattern and cell for a simulated 4-tuple dataset. The stream consists of patterns (coloured) and random data (light grey). Each pattern consists of defined values (blue) and undefined values (white). 4.1.1.2 Definitions The model used during the generation process consists of two key structures: the stream is a concept which represents data from multiple independent sensors evolving over time. In terms of the context model, it represents the sequence of n-tuples of sensordata. Patterns are two-dimensional arrangements of data symbols in a rectangular grid (cf. the example in Fig. 4.1.1). The stream is created by alternating intervals of n-tuples of random data and randomly modified instances of these patterns. The output of the data is a direct representation of the stream. The atomic unit of data – the individual grid element – is called a cell. Each cell is specific to a moment in time (horizontal) and a data source (vertical). Data sources in this context are discrete random variables, with a limited set of states (“alphabet”), each element of which is a symbol. The number of different attainable symbols - the cardinality of the alphabet - is called the spectrum of a data source (cf. Fig. 4.1.2). The real-world counter part to these data sources are filtered sensors producing discrete measurement values. Each cell of a pattern contains either a symbol from the corresponding alphabet or is a place holder asterisk “*” value indicating an entry that is not defined by the pattern. 71Figure 4.1.2.: Four alphabets A1, A2, A3, A4 with respective spectra 5, 6, 4 and 2. N.B.: Different symbols across different sensors (e.g. “A”, “1”, “a”, “0”) are used here for illustration purposes only, symbols are actually represented by their indices (i.e. as in A2). Random effects – termed noise in the following – are a key factor in the generation of patterns and the stream. This noise is based on random variables, which are sampled, and the resulting values then transformed into length variations or symbol substitutions. All random variables that are used to generate noise are considered to be normally distributed (except in the limit-case of infinite variance, which is transformed into uniform distribution over an interval). The effect of noise is derived from user defined transition cost matrices (one for each alphabet) with the number of rows and columns equal to the size of the alphabet, and correlation matrices (one for each pattern, and one for non-pattern intervals). The transition cost matrices contain the cost of substitution between symbols. The costs of transitions for the following special symbols * place holder for empty cells in patterns; del delete a cell from the stream; ins add an additional value to the stream. make up a further four vectors: 1. A vector containing the cost of conversion of any symbol to the * value; 2. A vector containing the cost of conversion from * to an alphabet value; 723. A vector associated to ins, which contains the cost of converting any alphabet value or * to an insertion; 4. A vector associated to del, which contains the cost of converting any alphabet value or * to a deletion. These symbols form a global (i.e. across all data sources) alphabet of control-characters Ag = {*, del, ins}. Of these, * can appear in patterns (hence there being both a “to” and “from” vector of transition costs), but none of these symbols appears in the stream. The operations linked to these symbols represent two different kind of noise effects: Temporal noise (del and ins) causes relative shifts in the time domain of data sources by inserting or deleting values, as well as local extension or compression of periods of data. Data noise (values replacing *) introduces random values in predefined areas, which corresponds to variable parts of otherwise fixed patterns and permits us to use rectangular patterns with little loss of generality. The correlation matrices are lower triangular matrices with one line and column for each data source. Each line corresponds to the relative weights given to the calculation of a value by other values in the previous rows. A positive correlation value means that the influence of the random values used to determine the content of the respective cell have a quasi-linear effect on the determination of the current value. A negative correlation value conversely has an inverse quasi-linear effects. Zero values mark independent data sources. In this context “quasi-linearity” is an artificial effect to transform multi-dimensional random values from one space to another. This may not hold up to a comparison to real world data, but provides a reasonably simple model which avoids having to define correlations per pattern and per symbol individually. The following naming conventions are used henceforth: Z>0 = {1, 2, 3, . . .} the natural numbers excluding zero and R≥0 = S x∈R,x≥0 {x} all non-negative real values. The notation xi,h,k represents the element in the h-th line of the k-th column of a matrix (or table) Xi . Let n ∈ Z>0 be the number of data sources, m ∈ Z>0 be the number of patterns, Ai = {x ∈ Z>0|x ≤ si},(1 ≤ i ≤ n) be the (abstracted) alphabet of the i-th data source and lj ∈ Z>0 be the length of the j-th pattern Xj ∈ P ⊂ Sm j=1× n i=1(Ai ∪ {∗}) lj of the indexed set of patterns (cf. Fig 4.1.3 for a complete set of patterns, with empty cells, a sample elements and corresponding dimensions.). Let ~s ∈ N n >0 with components si be the spectra-vector where ∀1≤i≤n : si = |Ai |, with | · | being the cardinality and let lstream ∈ Z>0 be the number of total grid columns of the stream. In the following, x, y ∈ Ai ∪ Ag,(1 ≤ i ≤ n) stand for symbols. 73X1 X2 X3 Xm -1 Xm n lm l1 lm-1 empty cell cell element x Figure 4.1.3.: A set of patterns, P = {X1, . . . , Xm}, with n data sources and lengths l1, . . . , lm, and a pattern element x = Xm,n,1 ∈ An. N (ση), η ∈ {o, p, q, r, u} are Gaussian distributions with variance σ 2 η serving as sources of random values for o value variety of noise intervals between two instances of patterns in the stream, random variable o; p noise applied to pattern-defined values during the instantiation of patterns in the stream, random variable p; q variations in length – unless lengths are predefined for each pattern – and values between two different patterns, random variable q; r variations of the interval length between two instances of the same pattern in the stream, random variable r; u variations of the length of noise intervals in the stream, random variable u. The transition cost matrices are Ti = [ti,h,k],(1 ≤ i ≤ n) ∈ R si×si ≥0 and form the set T := Sn i=1, {Ti}. The entries ti,h,k are the positive real-valued costs of transforming the 74h-th symbol of Ai into the k-th symbol. The costs of transition relative to the elements of Ag are the pattern insertion and deletion cost vectors ~bi , ~ci ∈ R si for the transitions from and to *, and the stream insertion and deletion cost vectors ~di , ~ei ∈ R (si+1) for transitions to del and ins. Transition cost tables are related to the substitution score tables of the algorithms used to align pattern instances. In the alignment algorithm, they indicate similarity based on the way the model is configured. In this generator, they define the probability of random transformations of symbols. An important feature of transition cost tables is that they do not necessarily need to be symmetric, even though a naive approach considering the value spaces as Euclidean spaces with distances would indicate this. Yet, when using probabilities of transition in example data as basis for the cost of state-transitions, the assumption of symmetry is rendered invalid, as the resulting graph of transitions is not necessarily symmetric. For the values in the table to have the expected effect, they need to be scaled in consideration of the variances of p and q. A gappiness vector ~g ∈ R n ≥0 , with ∀ n i=1~gi ≤ 1 contains the ratio of pattern entries to empty cells for each data source, and simulates effects of limited data source availability and information significance and density. Let lower triangular matrices ξi ∈ R n×n , i = {1, .., m} be the correlation matrices for patterns Xi and let ξ0 be the correlation matrix for non-patterned values. These matrices are lower triangular, as each new value can only ever be correlated to values that have already been generated. The entries are normalized so that each row-sum is equal to one. Let ~w ∈ Z m >0 be a representation of the frequency of pattern apparition in the stream. Each value corresponds roughly to the relative period of apparition of a pattern in the stream. Finally, let lnoise ∈ R be the average length and let ¯lnoise ∈ Z>0 be the maximum length of a non-pattern-interval in the stream. For our running example, let n = 4, m = 3, ~s> = (5, 6, 4, 2) and ~l > = (10, 6, 7). Let the corresponding gappiness vector be ~g = (0.1, 0.1, 0.3, 0.3), and let the first of four transition tables be T1 =   0 7 5 4 8 7 0 2 5 3 5 2 0 1 2 4 5 1 0 3 8 3 2 3 0   ∈ T . 75Furthermore, let ~b1 =   3 9 5 9 2   , ~c1 =   4 8 3 4 9   , ~d1 =   5 2 3 9 7 4   , ~e1 =   5 2 4 7 6 6   and the correlation matrices ξ0 = ξ1 =   1 0 0 0 0 1 0 0 1 0 0 0 0.5 0 0 0.5   . Finally, let ~w > = (45,30, 50), lnoise = 4.8 and ¯lnoise = 15. We use these values to demonstrate how to generate pattern values and pattern instances in the stream. 4.1.1.3 Pattern Generation The first step R1 of the algorithm is to generate m different patterns according to the parameters given: X1 = R1(n, l1, ~s, T , ξ1, ~g) Xj = R1(n, lj , ~s, X1, σq, T , ξj ), j = 2, . . . , m A reference pattern X1 is generated first, consisting of randomly selected entries based on vectors ~γl ∈ ×i 1 are then modified to reflect the correlations dictated by ξ1: ψ 0 i,l := X i k=1 ξ1,i,k si + 1 sk + 1 d l(sk+1) si+1 X e j=b (l−1)(sk+1) si+1 c+1 ψ~ k,jωi,j,k (4.1.1) where ωi,j,k :=    j − (l−1)(sk+1) si+1 if j < (l−1)(sk+1) si+1 + 1 ∧ sk > si l(sk+1) si+1 − j + 1 if j > l(sk+1) si+1 ∧ sk > si 1 if (l−1)(sk+1) si+1 + 1 ≤ j ≤ l(sk+1) si+1 l(sk+1) si+1 − j + 1 if j > (l−1)(sk+1) si+1 + 1 ∧ sk < si j − (l−1)(sk+1) si+1 if j < l(sk+1) si+1 ∧ sk < si sk+1 si+1 if l(sk+1) si+1 ≤ j ≤ (l−1)(sk+1) si+1 + 1 which corresponds to a constant resampling, linearising across vector dimensions by treating them as intervals. An example is given in Fig. 4.1.4. The values on each arrow correspond to the scaled value that is used to determine the value at the end of the arrow. In the left case, the values in the left vector are scaled up (by 5/3) and in the right case, the values are scaled down (by 3/5). Then, these scaled values are spread according to the coverage they have on the corresponding parts of the vector. In the case of the middle value (2 - marked with red dashed line) in the left example, this is 1/5 for the second value of the right vector, 1 for the third value, and 1/5 for the fourth value. Scaling is applied accordingly, hence (2 · 5/3 · 1/5) = 2/3 is the influence on the top value of the three values that are marked in the right vector. Let x = x1,i,l be the value of the i-th row and l-th column of X1 and the k-th element of Ai . Let vx ∈ R si+1 be a vector whose components are the l-th of Ti and the l-th element of ~c: vx :=   ti,1,k ti,2,k . . . ti,si,k ci,k   78s+1=3 s+1=5 s+1=5 s+1=3 1 2 3 1 4/3 2 8/3 3 1 2 3 4 5 1.4 3 4.6 0.6 0.8 0.4 1.8 0.8 1.6 3.0 1 2/3 2/3 2 2/3 2 3 Figure 4.1.4.: Illustration of dependence coefficient determination during creation of similar patterns. The right vectors are created from the values of the left vectors, through linear interpolation and scaling. or, in the case of x = *: v* :=   b1 b2 . . . bk 0   The index y of the minimal component of |vx − ψ~0 i |, y = min ] |vx − ψ~0 i | (here | · | is the component-wise absolute value) is the value that takes the place of x in Xj , unless y = si+1 in which case * is inserted into the pattern at this position. This is repeated for all n × lj entries of the pattern. Furthermore, the length lj of the j-th pattern – if not specifically set to a certain value beforehand – is calculated by obtaining a random real value ∆lj from N (σq), adding it to l1 and rounding to the closest integer: 79lj :=    b∆lj + l1 + 0.5c ∆lj + l1 > 0 0 ∆lj + l1 = 0 d∆lj + l1 − 0.5e ∆lj + l1 < 0 Addition or removal of elements is done column-wise: for every column, a random check is performed against |∆lj | max(lj ,l1) (until the lj -th column is reached) to determine whether the current column of X1 is skipped or a column of equally distributed randomly selected symbols inserted. To compute x2,1,1 of the pattern X2 ∈ Z 4×6 >0 of our running example, given σ 2 q = 2 as the variance of the distribution of q, we first determine whether the first line is skipped to make up for the difference in length to X1. This is done by obtaining a random value from the interval [0, 1] and testing whether it is smaller than 10−7 max(10,7) = 0.3. We assume – for the sake of this example – that this is not the case, and instead x2,1,1 is derived from x1,1,1. We obtain a vector ψ~ 1 ∈ R 6 by repeatedly sampling q: ψ > 1 = (0.1, 0.5, −1.6, 1.1, −0.8, 0.3). Then x2,1,1 = min ] |vx1,1,1 − ψ~0 1 | = min ] |v2 − ψ~ 1| = min ]   t1,1,2 t1,2,2 t1,3,2 t1,4,2 t1,5,2 c1,2 − ψ~ 1   = min ]   7 − 0.1 0 − 0.5 2 + 1.6 5 − 1.6 3 + 0.8 8 − 0.3   = 2 The values x2,k,l,(k > 1), are calculated by taking into account the correlation matrix. Let ψ~> 4 = (−1.5, 0.8, −0.3). We determine ψ~0 4 using equation 4.1.1, and the resampling of ψ~ 1 shown in Figure 4.1.4: ψ~0 4 = 0.5   0.3 −0.25 −0.5   + . . . + 0.5   −1.5 0.8 −0.3   =   −0.6 0.275 −0.4   This allows us to calculate x2,4,1 = | min ] ψ~0 4 − vx1,4,1 | as above. 80These steps are repeated until m patterns have been created. These patterns are then integrated into the stream. 4.1.1.4 Stream Generation Streams are generated by interposing modified instances of patterns with blocks of random values. The generation of streams can be considered as a relation R2(n, T , P, σp, σo, σr, σu, ~w, lnoise, ¯lnoise, ξ0) : Z>0 × R n×si×si × [m j=1 n × i=1 (A lj i ∪ {∗}) × R n ≥0 × R n ≥0 × R≥0 × R≥0 × Z m >0 × R × Z>0 → n × i=1 (Zsi+1 \ {0}) lstream This is a projection of the configuration space (dimensions, transition model, patterns, randomness, correlations) into a stream. There are three main tasks to consider: Scheduling Each pattern has a predefined frequency of instantiation, which can be understood as an m-vector ~w ∈ R m. σp determines how much the appearance intervals vary. Noise Noise duration and variety are defined by lnoise, ¯lnoise, σu and σo. Modifications The variance between instances of the same pattern is defined by σr ∈ R n . Scheduling is managed in the following way: 1. During the first run, ~w 0 = ~w is created in order to track changes to ~w without losing the original information. 2. The pattern Xmin]( ~w0) is selected and inserted into the stream, where min]( ~w 0 ) is the index of the minimal component of ~w 0 : min ] ( ~w 0 ) = i|∀| ~w0 | j=1 : w 0 i ≤ w 0 j . If multiple components share the same smallest value, the value of min] is picked at random from the corresponding indices. 3. The vector ~w 0 is updated by adding ~wmin]( ~w0) + r to the component pertaining to Xmin]( ~w0) : w 0 min]( ~w0) = w 0 min]( ~w0) + wmin]( ~w0) + r 81Algorithm 4.1 Scheduling pattern instances input : The scheduling vector ~w ∈ R m output: A scheduled stream ~w 0 ← ~w; l ← 0; while l < lstream do jins ← min]( ~w 0 ) = i|∀| ~w0 | j=1 : w 0 i ≤ w 0 j ; append pattern Xjins to stream; increment l by the length of Xjins ; w 0 jins ← w 0 jins + wjins + r; // update minimal value in ~w 0 for j ← 1 to m do // update other values in ~w 0 if j 6= jins then w 0 j ← w 0 j − wjins m−1 end end append noise interval of length min((lnoise + u), ¯lnoise) to stream; l ← l + min((lnoise + u), ¯lnoise) end 4. ∀j=1,...,m,j6=min]( ~w0) : w 0 j = w 0 j − wmin] ( ~w0) m−1 , which avoids under- and overflows due to incrementation and decrementation, as the decrement of each step is equal to its increment, and E(r) = 0. 5. A noise interval of the length of min((lnoise + u), ¯lnoise) is injected into the stream, containing random values that adhere to the dependencies defined by ξ0. This is also formulated in pseudocode in algorithm 4.1. Within the frame of our example, this has the following effects: First, an interval of noise of length 5 is appended to the stream based on the assumption that the average value of 4.8 is not significantly impacted by the random effects of u. Then, pattern X2 is appended to the stream, as the smallest value in ~w > (30), is in the second position. ~w 0 is then updated as follows: ~w 0 =   w 0 1 − w2 2 w 0 2 + w2 + r w 0 3 − w2 3   =   45 − 15 30 + 30 + r 50 − 15   =   30 60 + r 35   The contents of a noise interval cell are generated by determining the index of the smallest component of the distance ∆o,i = |φi − vˆ0|, where φi ∈ R si+2 is a set of vectors of subsequent results of the event at the base of o, modified according to the method 82proposed in equation 4.1.1 (replacing ξ1 with ξ0 and adjusting sizes) and ˆv0 ∈ R si+2 is ~b appended by the last entries of ~d and ~e respectively: vˆ0 =   b1 b2 . . . bsi dsi+1 esi+1   Thus, the symbol added to the stream is: y = min] |φ − vˆ0| In the case of y = si + 2, the control value ins is generated: a new φ is randomly obtained, ∆o,i re-evaluated, and a new value is inserted after the current position using this very same algorithm. If the minimum index obtained is si + 1, a del control value is generated and no value is written into the i-th row of the stream during this iteration. For all other indices, the resulting index corresponds directly to the symbol of the corresponding alphabet to be written into the stream. Once this is done, the algorithm continues, by performing the same actions on the symbol in the cell to the right, for all columns that are to be generated. The modifications applied to instances of patterns in the stream are calculated in the same way for non-defined cells. For cells of patterns containing symbols, the above algorithm is adapted by calculating min] ∆p,i = min] |ρ − vˆx|, with ρ ∈ R si+2 a vector of random values obtained by sampling p (si + 2)-times, and x being the value in the pattern cell and hence ˆvx being the x-th column of Ti appended by the x-th elements of ~d and ~e: vˆx :=   ti,1,x ti,2,x . . . ti,si,x dx ex   In Figure 4.1.5, we show how the element x2,1,1 = 2 is instantiated into the stream, modified by noise to become the sensor value 4. 83pattern element x = 2 є A1 1 2 3 4 5 ins del * 3 9 5 9 2 5 5 1 0 7 5 4 8 2 2 2 7 0 2 5 3 3 4 3 5 2 0 1 2 9 7 4 4 5 1 0 3 7 6 5 8 3 2 3 0 4 6 4335207 1-204-423 35316-24 output symbol y = 4 T1 0 zero mean noise Gaussian d e b Figure 4.1.5.: Noise is applied to symbol x from alphabet A1 using transition cost matrix T1 and transition cost vectors b ~ 1, d ~ 1, ~e1. The resulting value is y = 4. This example uses integer values for easier reading and comprehension, in general the random values are real values. The process starts with value x2,1,1 = 2 from pattern X2, extracts the corresponding row from T1 and selects the smallest absolute value in the sum of the extracted row and a random vector, to determine the index of the element to replace x. 84I D D I I I I I D I time Figure 4.1.6.: Extract of a possible resulting stream with n = 4 and m = 3 different patterns (blue, yellow and green) and noise (red). I and D indicate cells in which insertions or deletions have happened. y is the symbol that has been generated in Fig. 4.1.5. This process (schedule - noise - pattern) is repeated until the sum over all noiseinterval-lengths and pattern-instance-lengths is equal or larger than lstream. A schematic example of a resulting stream is given in Fig. 4.1.6. With regard to our initially targeted model, this allows us to control most variables precisely. We can generate data that locally or progressively desynchronises, data that has controlled amounts of noisy variation and in any size or shape desirable. To help this latter fact, we also permit the handcrafting and loading of pre-defined patterns. We currently identify the following weaknesses to our approach: we limit ourselves to normally distributed noise for all random aspects of the generation process. We consider this as a safe default choice, especially to model sensor measurement noise, but it may not be an accurate model for variations caused by human actions. In the absence of a better model for this kind of variation, we restricted ourself to Gaussian distributions. Our correlation algorithm between two data sources with different numbers of symbols is not correct, in the sense that we linearise across dimensions which have no actual linear relationship. On the other hand, we see this as the only way to implement correlation. Due to the difficult nature of this feature, we do not use it for the generation of our data, based on the assumption that strongly correlated data is unified to a single sensor reading in real world context data. 85A final problematic issue is that of our multidimensional noise issue, which makes the link between a chosen variance value and the actual effect on value transitions rather unintuitive. Although a probability interval based approach may have had more predictable results, it would be more complex to integrate with the notion of data source correlation, and would require a rather complex calculation of interval limits for each of the possible transitions. Taking into account these limitations, we feel nonetheless confident that it allows us to generate a number of well understood datasets. The ability to retain the information of which pattern is instantiated in which cells of the output stream allows us to evaluate our alignment algorithm against this ground truth. 4.1.1.5 Dataset Generation For the evaluation procedure, we generate 135 datasets, which can be characterised by five different scenarios, each of which has 27 different variations by adjusting three variables. Each scenario serves to link a configuration of the data generator, to a specific type of behaviour of a simulated human exhibiting a certain way of life. These five scenarios are: 1. A scenario without random influences, outside the order of pattern instantiation. This corresponds to a human who reproduces the exact same set of context data every time a certain activity is performed, and always performs activities that are repeated eventually. 2. A scenario with an interval (of length 10) of random data between each two pattern instances. This could represent a person that performs some activities exactly the same way, between which there are intervals of irregular activity. 3. A scenario where each pattern instance is heavily treated with noise. This correspond to a person that acts with regularity, but is insufficiently instrumented to give trustworthy data, or does the same activity in a different way. 4. A scenario where each pattern is instantiated in varying intervals. A user profile exhibiting this behaviour would be a from a person performing activities identically each time, but not in the same order or at the same frequency. 5. A scenario where 75% of the cells of each pattern are undefined. These sparse patterns represent a faulty sensor suite or someone who only has a few key detectable regularities in their daily activities. 86These configurations are summarised in Table 4.1. A number of other configurations parameters are equal across all configurations and scenarios: ❼ All patterns have length 10; ❼ Each simulated sensor has an alphabet size of 10 – a realistic compromise between separation and resolution; ❼ Transition costs are equal for all configurations; ❼ The inter-pattern variance is infinite across all configurations – each pattern is generated independently from the others. Furthermore, we vary three properties in three ways each: ❼ Number of patterns: 2, 5 or 10; ❼ Number of rows: 2, 5 or 10; ❼ Number of columns: 100, 200 or 500 (cf. Table 4.2). In Table 4.2, advancing a column increments from the base index given in the first column. For example, the 15th configuration can be found in the column denoted +5 in the row denoted 10. These latter give us the 27 variations of each of the five principal scenarios and thus we obtain the number of 135 configurations. For each scenario, a set of ten patterns is defined, of which suitable subsets are used for each of the configurations. We define the transition costs for the generator such that the identity transition is assigned a zero cost, whereas a substitution with any other symbol is assigned a cost of one. Substituting a symbol with an insertion or a deletion is given a cost of two (using the classic model of fixed indel scores), and substituting a don’t care symbol with any alphabet symbol is given a cost of one as well. Table 4.3 contains the entire transition cost matrix. Table 4.1.: Configuration of the five datasets. Dataset 1 2 3 4 5 noise interval length (count) 0 10 0 0 0 pattern noise distribution (σ 2 ) 0 0 9 0 0 pattern repetition distribution (σ 2 ) 0 0 0 9 0 gappiness (ratio) 0 0 0 0 0.75 87Table 4.2.: Configuration values for the 27 experiments making up a dataset. index +0 +1 +2 +3 +4 +5 +6 +7 +8 2 5 10 2 5 10 2 5 10 num. of patterns (m) 1 2 2 2 5 5 5 10 10 10 num. of rows (n) 100 100 100 100 100 100 100 100 100 num. of columns (l) 2 5 10 2 5 10 2 5 10 num. of patterns (m) 10 2 2 2 5 5 5 10 10 10 num. of rows (n) 200 200 200 200 200 200 200 200 200 num. of columns (l) 2 5 10 2 5 10 2 5 10 num. of patterns (m) 19 2 2 2 5 5 5 10 10 10 num. of rows (n) 500 500 500 500 500 500 500 500 500 num. of columns (l) Table 4.3.: Transition matrix T used for the generation of the test datasets. ins del 0 1 2 3 4 5 6 7 8 9 * * 2 2 1 1 1 1 1 1 1 1 1 1 0 0 2 2 0 1 1 1 1 1 1 1 1 1 1 1 2 2 1 0 1 1 1 1 1 1 1 1 1 2 2 2 1 1 0 1 1 1 1 1 1 1 1 3 2 2 1 1 1 0 1 1 1 1 1 1 1 4 2 2 1 1 1 1 0 1 1 1 1 1 1 5 2 2 1 1 1 1 1 0 1 1 1 1 1 6 2 2 1 1 1 1 1 1 0 1 1 1 1 7 2 2 1 1 1 1 1 1 1 0 1 1 1 8 2 2 1 1 1 1 1 1 1 1 0 1 1 9 2 2 1 1 1 1 1 1 1 1 1 0 1 The similarity score table for the local alignment algorithm is derived from these values. The identity score is set to 10. The substitution of one symbol with a different one is assigned a penalty of -15. This value is chosen as an optimisation for scenario 2, based on the following consideration: The chance of a random match is 1/10 for each cell. In the two row case, completely bridging the noise interval between two patterns requires an alignment of the 20 cells between two patterns. The expected value of random matches in this interval is two. To improve pattern separation, the penalty value is chosen to prevent over-alignment even for four instances of matches in the interval of noise. This covers 95% of all cases in the two-row configuration. The insertion and deletion penalty are chosen twice as high (-30) as the substitution penalty, mirroring the generation configuration. 88For each one of the 135 configurations, a dataset consisting of ten sequences is generated. Next, we evaluate our alignment approach on this generated data. 4.1.2 Synthetic Data Pattern Extraction Evaluation This subsection presents the results obtained from using our local alignment algorithm (as introduced in Chapter 3) on synthetic data generated according to a number of different scenarios. We have generated a total of 135 different datasets, and use the alignment approach to extract patterns, which are then compared to the actual patterns – as generated – in the test data. We decided to limit ourselves to 135 datasets, as we assume this to be a good compromise between covering some of the breadth of possible configurations, and also allowing us to present all the results. 4.1.2.1 Evaluation Criteria We evaluate the alignments on four criteria. Number How many alignments are made, with regard to the expected number of possible pairings of patterns between the two sequences? Precision How much of an alignment actually covers a pattern? Recall What part of a pattern is covered by an alignment? Alignment size How big are the alignments that are found, compared to the size of the patterns present? We average precision and recall across all alignments for a configuration. If an alignment covers multiple patterns, we only consider the best-covered pattern. In Fig. 4.1.7, the precision and recall measures are presented on an example. 4.1.2.2 Hypotheses With regard to the five scenarios characterising each dataset laid out in the previous section, we can expect the following results: 1. The first dataset, especially in conjunction with low numbers of patterns, should develop “macro-pattern” artefacts (i.e. series of patterns with the same order of individual patterns) and few, but overly large alignments can be expected. 89Aligned cells outside pattern Unaligned pattern cells Total pattern cells: 24 Total aligned cells: 20 Aligned pattern cells = 16 Precision = 16/20 = 4/5 Recall = 16/24 = 2/3 Size ratio = 20/24 = 5/6 Unaligned non-pattern cells Aligned pattern cells Figure 4.1.7.: Evaluation scoring example. 2. The second dataset should have a low incidence rate for complete over-alignments. These occur when two patterns appear in the same order in two input matrices and the random values between patterns are sufficiently similar. Patterns should otherwise be well discerned. Single-row over-alignments can be expected to be more common (over one third for configurations with only two patterns), especially for larger row numbers. 3. Dataset three can be expected to be a case where the algorithm would not be able to identify most of the patterns. The selected configuration means that almost 80% of all values are changed during instantiation. This makes alignable patterns rare. Despite a minimal admissible score of only 60% compared to datasets one, three and four, complete and correct alignments of patterns are unlikely to be made. The contiguous characteristics of the alignments mean that some changed cells of patterns can be included in the alignments. 4. Results on dataset four should also be similar to those on dataset one, but with – on average – shorter alignments, as macro-patterns should be less likely to emerge, when the order of pattern instantiation is less regular. The impact of this is expected to be more noticeable with configurations with a higher number of patterns. Alignments are more likely to match well with patterns. 905. In the fifth dataset finally, the scoring system in place and the extreme gappiness should have a large percentage of false positives among very few, partial alignments of actual patterns. It can be seen to serve as a negative control experiment. In contrast to set three, the alignments should be more likely to span non-pattern cells. 4.1.2.3 Results The average evaluation results for each scenario are contained within Table 4.4. This table contains the ratio of detected alignments to expected number of pairs of patterns in the data, the average precision and recall values across all 27 configurations (which are themselves the averages across all alignments for each configuration) and the size ratio. The values for Dataset 3 and Dataset 5 are not directly comparable to the others, as we used a different MASS base score, to account for the noise in Dataset 3 and the missing data in the case of Dataset 5. MASS in these cases have been reduced to 0.6 (a value we consider to be similar to what may pass as a real world noise tolerance value) and 0.25 (three-quarters of the cells of a pattern are undefined) respectively of the corresponding MASS in the other configurations. For these, MASS is equal to the size of the pattern, as we assign a similarity score of one per identical cell. Table 4.4.: Key results: averages and standard deviations across all configurations. Measure Dataset 1 Dataset 2 Dataset 31 Dataset 4 Dataset 52 #alignments #pairs of pat. 0.31 ± 0.26 0.69 ± 0.29 0.041 ± 0.054 0.31 ± 0.26 0.22 ± 0.32 precision 0.54 ± 0.22 0.77 ± 0.20 0.13 ± 0.06 0.52 ± 0.24 0.54 ± 0.18 recall 1.00 ± 0.00 1.00 ± 0.00 0.56 ± 0.19 1.00 ± 0.01 0.20 ± 0.06 alignment size pattern size 5.66 ± 4.48 2.45 ± 2.51 6.72 ± 3.96 6.65 ± 6.08 1.60 ± 0.24 The runtime for the complete set of alignments is around 4 minutes of real time on a pair of Intel➤ Xeon➤ E5-2560. Across all 135 configurations, we obtained 214,963 alignments. In Fig. 4.1.8, we present the ratios of alignments to expected pairs of patterns per configuration. The most striking trend is that datasets 1 and 4, and to a lesser extent dataset 2, show a series of this measure rising in patterns of three. This can be directly attributed to the macro-patterns that are created, which are obviously more numerous when the number of patterns in the data is low, and simultaneously 1The results for Sets 3 have been obtained with a MASS of 60% of those of Sets 1,2 and 4. 2The results for Sets 5 have been obtained with a MASS of 25% of those of Sets 1,2 and 4. 91the lack of noise does not allow segmentation of the patterns into their components. Table 4.5.: Average Pattern Size for Dataset One config. mean error 0 4.13 ±2.73 1 1.32 ±0.93 2 1.82 ±1.99 3 1.29 ±0.81 4 5.86 ±5.50 5 5.25 ±5.31 6 2.81 ±3.25 7 8.92 ±5.61 8 8.99 ±5.64 9 4.69 ±5.07 10 1.53 ±1.27 11 1.23 ±0.73 12 3.70 ±2.86 13 3.09 ±2.53 14 1.89 ±1.60 15 4.35 ±2.68 16 3.72 ±2.75 17 2.98 ±2.22 18 8.68 ±10.54 19 2.22 ±3.11 20 11.26 ±12.35 21 8.45 ±11.74 22 4.50 ±8.19 23 17.55 ±14.69 24 17.89 ±14.89 25 8.88 ±12.30 26 5.83 ±4.86 A more subtle trend lies in the reduced number of alignments made, when there are more sensors in the data. This can possibly be ascribed to the higher MASS in use for those scenarios. For dataset one, almost all patterns are covered by alignments and average alignment size is 5.66 times the pattern size (validating our macropattern hypothesis), two outlier configurations (16 and 17) reach an average pattern size over 17 times larger than patterns, with very large deviations in the samples (cf. detailed results in Annex B.1.2 and an extract in Table 4.5). Mean precision across all configurations is 0.55 (standard deviation across means of each configuration: 0.22). Dataset two benefits from the fact that it is the reference for the score matrix. This means good separation of patterns due to the noise between them (alignment size on average 2.45 times the pattern size). The average number of alignments is 0.69 times the number of pairs of patterns. Precision is relatively high, and almost all patterns are completely covered by at least one alignment. Problems with over-alignment arise when a low number of patterns is combined with a high number of sensors. Here the score obtained by aligning a pattern with another is high, and the chance that the following patterns match is also high; this means that an alignment stretches over multiple patterns when the score penalty incurred by the noise interval is not sufficient to prevent overalignment. Dataset three highlights the detrimental effects of noise on alignment quality and quantity. Especially with the equidistant layout of the value space, there are very few alignments made with the provided score matrix. The preci- 920 0,2 0,4 0,6 0,8 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Dataset 1 0 0,2 0,4 0,6 0,8 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Dataset 2 0 0,05 0,1 0,15 0,2 0,25 0,3 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Dataset 3* 0 0,2 0,4 0,6 0,8 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Dataset4 0 0,2 0,4 0,6 0,8 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Dataset 5 Figure 4.1.8.: The ratios of the number of alignments to the combinatorially expected number of identical pairs of patterns in two different files, for all five datasets and all 27 experiments. As the number of patterns rises, the expected number of pairs gets lower, and the rate of alignments gets closer to the number of pairs. *Note: The values for dataset 3 are on another scale than the others. 93sion score is very low, alignment size varies wildly, but is on average very large, despite a 40% reduction in minimal admissible scores, which should favour smaller alignments. The pattern coverage metric is no longer accurate for this case, as its implementation depends on the simultaneous start of a pattern which is no longer guaranteed once insertions and deletions appear. Notably, some patterns were found in all configurations. The results from dataset four are in most aspects very similar to those from dataset one. In comparison, the average size of patterns is higher; recall and precision are lower, and show a slight increase in variability. Dataset five – serving as negative control – has the minimal admissible score of the alignments reduced to one quarter of those of dataset one, to offset the three-quarter loss of information induced by the gappiness value. This visibly does not even out the loss of information due to gappy patterns. The score matrix punishes inequality too heavily for but a few chance alignments to arise, if any at all. Precision is no lower than for datasets one and four, as the low scores of the alignments do not allow the inclusion of a large number of non-matching values in alignments. The average recall for patterns covered by alignments is very low. Alignment sizes reflect the reduced scores and are similar across all configurations (0.05 standard deviation, excluding configurations without alignments). 4.1.2.4 Performance Comparison Our key contributions having as goal performance improvements of an existing algorithm, we compare these results with those obtained with the original algorithm. Where the previous results – with the new algorithm – were obtained in just over 4 minutes, the original algorithm (as described by Lecroq et al., 2012) gave most results after around 10 hours, but eight configurations with large alignments (particularly configurations of datasets 1 and 3 with long sequence lengths and few different patterns) took over a week to give results, under the same testing configuration. To verify that this drastic increase in performance did not negatively influence our performance metrics, they are presented in Table 4.6. Even if initially the values appear better (especially precision for datasets one and four) than what we obtained from the faster algorithm, we argue that this is possibly due to an undesired effect. The key difference in results, is that a total of 291,858 alignments are made using the slower approach. Since these alignments can be assumed to be smaller than the ones we obtain using the fast variant (due to the score maximisation effort), they reduce the impact of macro-patterns on the evaluation scores. On the other hand, they are also likely to be redundant, as they should be covered by or similar to another alignment of the same pair 94Table 4.6.: Key results: averages and standard deviations across all configurations for the state of the art algorithm Measure Dataset 1 Dataset 2 Dataset 33 Dataset 4 Dataset 54 #alignments #pairs of pat. 0.57 ± 0.27 0.867 ± 0.15 0.022 ± 0.024 0.55 ± 0.27 0.15 ± 0.23 precision 0.70 ± 0.24 0.93 ± 0.06 0.22 ± 0.10 0.69 ± 0.26 0.64 ± 0.21 recall 0.98 ± 0.03 1.00 ± 0.00 0.72 ± 0.32 0.95 ± 0.14 0.20 ± 0.05 alignment size pattern size 2.82 ± 2.20 1.12 ± 0.11 6.48 ± 4.21 3.19 ± 3.37 1.40 ± 0.16 of input sequences. The improved average recall values of our new algorithm compared to the older one also are indicative of this. Additionally, our results for the more difficult datasets (three and five) actually show an improvement with regard to the number of alignments found using our new approach over the state of the art algorithm. We therefore claim that the reduction in results and much decreased time required for the calculation make the resulting reduction in average precision an acceptable trade off, especially because there is evidence that the decrease is due to additional, non-maximal patterns in the data, which are of less interest. 4.1.3 Analysis Overall, this evaluation shows that the algorithm works largely as expected, and allows us to judge system constraints. Our optimisations on the state of the art algorithm have reduced run time massively. This renders it capable of realistically dealing with data that has a much larger scale than previously possible. On the dataset for which the algorithm was tuned, the results are acceptable, especially when the presence of many patterns inhibits the formation of macro patterns. Recall values in particular indicate that most of the time an alignment corresponds to a pattern. The results also show the limits of our approach. Although in the ideal case we observe many perfect fits of alignments to patterns, we also observe the tendency of the current configuration to extend alignments beyond pattern boundaries, if identical pattern sequences are present. In sparse data or in noisy data, the simple model we use here prevents reliable extraction of patterns, because all substitutions are equiprobable. This is especially characterised by the low recall values, indicating that most alignments are made from data that is randomly similar to other data. One of the key observations on these results is that the length of the sequence has a detrimental effect on almost all performance measures. This is due to combinatorial 3The results for Sets 3 have been obtained with a MASS of 60% of those of Sets 1,2 and 4. 4The results for Sets 5 have been obtained with a MASS of 25% of those of Sets 1,2 and 4. 95effects which create macro-patterns in a higher number in these long sequences. Minimising length – so that only a few patterns are included in a sequence – allows for better precision. Especially in real world data, when examining data from people with a routine-heavy lifestyle, one would expect to find larger patterns if the search window is sufficiently large. This is reinforced by the number of different patterns countering this combinatorial effect. Another observation is that the wider the dataset, the worse the impact of macropatterns. This is due to the higher accumulated similarity score after each block of identical data, and therefore increased tendency to bridge the gaps between identical blocks. Although this is a problem with ideally replicated pattern instances, in noisy data this increased resiliency might be beneficial. The effect can be controlled by adjusting the similarity scores for the various edit operations. On the other hand, the actual behaviour on context data can only be determined by testing the approach on real world data. This is explored in the next section. 4.2 Real World Data Evaluation The previous synthetic data based evaluation of our algorithm allowed us to determine the runtime of our algorithm under specific, controlled conditions, as well as gain some initial insights on how it performs with regard to our accuracy measures. To truly validate our approach, further evaluation on real data is required. In the following we describe how we obtained the real data we use, present our results and then analyse them for potential conclusions. 4.2.1 Data Collection Campaign The validation of our approach on real world data is a key part of this work. After an examination of available context datasets (cf. section 2.4 on page 46), we come to the conclusion that none of these is suitable for the specific aims of this work. Hence, we designed a specific data collection protocol and launched a data collection campaign in late 2011. This section documents the process of this campaign from conception to an annotated dataset that is in a suitable format for the alignment approach introduced in the previous chapters. 964.2.1.1 Motivation The key limitations we identified in existing datasets, were the absence of ground truth data and the limited scope of the available context data. Our key goal therefore was to address these shortcomings, by including more physical context data and simultaneously maintaining a reasonable volume of data – so that manual annotation with ground truth data would be possible. The key design imperative is a small footprint, in the sense of the context data capture mechanism not impeding the daily routine of the test subjects. Additionally, it is important for the data collection mechanism to maximize the amount of data available, both by implementing safeguards to prevent the loss of already recorded data, and by allowing the subjects to selectively disable individual sensors. The latter follows our reasoning that users would be more open to gathering data if they could selectively disable sensors. It is better to lose some data for an interval, than to lose all of it, in case a user wants to disable tracking. This approach – coupled with visible feedback of the current sensor values – aligns our data capture philosophy with the one proposed by K¨arkk¨ainen et al. [2010]. 4.2.1.2 Data Collection Campaign We decided to use an Android application as mobile segment of our data collection software. This application regularly records sensor data and transmits this data in aggregated batches to a storage database server. The following values are being recorded every ten seconds: ❼ Local time and date, ❼ Geolocation (via the Android Location API: Based on GPS and radio network fingerprints), ❼ Linear acceleration forces (3D Accelerometer), ❼ Angular velocity (3-axis gyroscope), ❼ Magnetic field (3-axis magnetometer), ❼ Luminance, ❼ State of the handset proximity sensor, ❼ Type of data network currently available, 97❼ Signal strength of cellular network and ❼ Remaining battery charge. These values are first written to a local database on each of the phones, and then automatically sent to a central database server every 24 hours, if a wireless LAN connection is available. Otherwise a retransmission is attempted every six hours. A participant in the data collection campaign can also manually trigger a transmission of the locally stored data. Our campaign was centred around Rouen (a major regional town in northern France) and Grenoble (a university town in south-eastern France). We recruited a total of 20 test subjects, from 5 of which we obtained useful amounts of data. The other test subjects did not participate over the entire term of the campaign, possibly due to lack of incentive or usability issues caused by the increased battery drain of their phones. The campaign ran for a duration of two months, from November 2011 until January 2012. The total amount of data we accumulated was around 430 MB, most of which was from 3 of these 5 users, with the remaining users contributing much less data. Most of this variation is either due to early termination of participation in our campaign, or because many sensors were either disabled by the participant or not available on the participant’s hardware. Besides the obvious privacy concerns of such a campaign, one other issue that presented itself to participants was the high battery usage, particularly of the GPS and microelectromechanical sensors (e.g. accelerometer, gyroscope, magnetometer). This reduced the battery run time of most of the handsets used in the campaign to significantly less than 24 hours, meaning that recharging the device every night was recommended and necessary. With regard to the design goals, this was the principal concession we had to make. Using the smart phone as capture platform for the context data, allowed for less disruption in the daily lives than a separate device would have generated. Our other criterion, of capturing a wide variety of physical context data, has been mostly met. Unfortunately many phones lacked gyroscopes and some device specific issues when using the microphone prevented us from reliably capturing environmental noise levels, which ultimately prevented us from including this in our data. Meteorological information also appeared as a promising aspect of context data to us, but at the time of development, thermometers, barometers and hygrometers were not available on phone platforms, and using real time data from a nearby weather station is both unreliable and difficult to implement. Getting this data after the end of the campaign was also an option, but historical data is 98only available at low temporal resolutions and from services implementing strict quotas on queries. 4.2.1.3 Data Preparation The data we collected requires some amount of pre-treatment to fit to the model we have laid out earlier. Although the ten-second acquisition interval gave us a regular time-discrete source of data, most values were still quasi-continuous. Due to the amount of manual intervention required at this stage, we reduce our test dataset to the data of the test subject which contributed the largest amount of data. Examination of this data reveals that this participant’s device lacked a gyroscope, so no angular velocity data is available. Other sensors contain obviously “troublesome” (false readings, singleton outliers) values, which we eliminate. We also discard network type and signal strength data, as they are highly correlated with geolocation. To further reduce the amount of data present – to facilitate manual annotation of patterns – we fuse magnetic and accelerometric orientation data into one single 6-axis sensor. This leaves us with five context data sources: 1. light intensity on a logarithmic scale 2. state of the proximity sensor 3. location 4. battery charge level 5. orientation with regard to the magnetic North Pole and the gravitational centre of the earth. The next step is the actual discretisation, which is performed manually. Clustering algorithms (such as k-means and X-means [Pelleg and Moore, 2000]) serve as an aid to assign 14 place-IDs to all pairs of longitude and latitude values (see Fig. 4.2.1 for an example), 8 orientation IDs to all 6-tuples of accelerometer and magnetometer readings and 8 discrete battery charge levels. The luxmeter only gives 10 different levels of luminance, which are used directly and the proximity sensor returns a binary reading. We then reduce the sampling frequency to one measurement every one hundred seconds, and cut the data into 24-hour segments, from 4 a.m. to 4 a.m. the following day. These segments are around 850 5-tuples long, which renders them tractable both for the alignment algorithm (cf. the runtime of our initial experiments in subsection 4.1.2.4) and – to a much larger degree – manual annotation. The latter is a necessary step to allow 99Figure 4.2.1.: Clustering of locations into places of the data gathered by one subject over a one week timespan. Artificial jitter has been introduced to the data, to better visualise data density. Note how nine incidences in the top left are clustered together with the other points towards the top left. The low number of incidences renders this error negligible. proper evaluation of discovered alignments: Three key patterns (cf. Annex B.1.3) have been selected by visual analysis of graphs of the sensor data (cf. Fig. 4.2.2), and then each occurrence has been labelled by hand, by annotating the raw data with a pattern ID for the sensors and intervals that visually resembled one another. Although this is an inaccurate practice, it does allow us to roughly label some of the features we expect the algorithm to correctly identify and inter-align. As the choice of “ground truth” is somewhat arbitrary, especially with regard to the vast amount of data present even after the sweeping reductions in data volume, it cannot be understood to be a truly ideal measure. Nonetheless, it is the best measure available under the circumstances, especially considering that the envisioned application is as a decision aid. Being able to detect these key features is a good benchmark of whether this capability of the algorithm also persists for similar data. 4.2.1.4 Post Processing Once the discretised data is available, the next step is to determine the additional information required to obtain the metadata information (substitution score tables and indel penalties). We assign each pair of states for each sensor a similarity value, using 10086420 12 10 5:38 5:47 5:57 6:06 6:17 6:28 6:37 6:48 7:01 7:10 7:20 7:31 7:42 9:42 9:53 10:04 10:13 86420 12 10 6:33 6:44 6:55 7:03 7:14 7:23 7:36 7:45 7:56 8:07 8:15 8:26 8:37 8:46 8:57 9:06 9:17 loglux prox place batt ori time Figure 4.2.2.: Visualisation of an extract of the captured data, with similar intervals marked. This extract covers the morning period of two consecutive days. The y-axis represents the different discretised context values. The values shown in this extract are light intensity on a logarithmic scale (loglux), the state of the proximity sensor (prox), the location cluster id (place), the battery level (batt) and the orientation of the phone (ori). 101the approach laid out in the following. For this evaluation, we create a set of similarity scores derived from both external knowledge of the data sources and transition probabilities between each of the different values. Specifically: In the case of the battery level, we used a linear distance function between the discrete levels, and for everything else we based the similarity measure on the transition probability, and then symmetrised these values. The negative values in the latter case correspond to a projection of the transition probabilities onto a quasi-logarithmic scale, with a score of -10 penalizing less than one transition in 10,000 observations, and a score of -4 corresponding to one transition in five observations. The positive values are around 5 times the transition probability. The special case of the missing reading is dealt with, by assigning a weak malus to any substitution of this value with another and a weak bonus when matched, as we do not consider sensor malfunction and deactivation to be a reliable context information, despite the potential significance. For this data, we expect many temporal extensions and compressions of patterns, and therefore wish to align constant similar sections of different length. Due to the combined insertion/deletion+substitution approach, we set a relatively low negative supplement score for insertion and deletion of -2, compared to the maximum negative score of -10 for transition probabilities smaller than 10−5 . The full substitution score tables can be found in Appendix B.1.1. One key relationship in these tables is that of positive scores to negative scores, as it defines the tolerance of alignments to differences in data. Due to the weakly positive to weakly negative effect of “constant” insertions and deletions, as well as the width of the data we are using and the long periods of constant values in the data, it is preferable to penalize non-identical substitutions heavily. This also shapes more compact alignments, preventing “over-alignment”. With the dataset now laid out, we can use it for the evaluation process. 4.2.2 Evaluation of Alignment Approach on Real Data This section quantifies how well the alignment approach works to match the manually selected patterns to the instances of these patterns in the dataset. The key parameters are the substitution score tables, as well as the insertion and deletion scores, and finally the minimal accumulated similarity score (MASS, cf. section 3.2). The generation of the tables is described in the previous section, and the choice of MASS is discussed in the following section. Thereupon follow the results we have obtained. 1021 2 3 campaign data patterns find local alignments for each pairing with different MASS #58 Figure 4.2.3.: Alignment of three pre-selected patterns with campaign data in 58 slices corresponding to 24-hour periods of 5-tuples. 4.2.2.1 Experimental Setup Besides the model parametrisation, the other parameter that we can control is the minimal accumulated similarity score. This has a key impact in this context, as it affects the minimum size of alignments and the tolerance to differences between two aligned pieces of data. To show the effect of different MASS values, in the following we perform an alignment of the three identified patterns (cf. Annex B.1.3) with all 58 days worth of data from the campaign participant we isolated in the previous subsection, with eight different values for MASS. This process is illustrated in Fig. 4.2.3. The number of manually annotated instances per pattern is as follows: ❼ Pattern 1: 13 instances, ❼ Pattern 2: 18 instances, ❼ Pattern 3: 27 instances. As a starting point, we examine the three patterns, and expected accumulated similarity scores. The first pattern is 190 5-tuples in size. By analysing the representing sample that is used for searching instances in the remaining data, we can obtain the 103score of a perfect match with itself, which gives an upper bound. This score is 2,962 for the first pattern, 3,271 for the second (199 5-tuples) and 1,441 for the third (197 2-tuples – this pattern only covers proximity and location data). Our choice of a useful lower bound is based on the assumption that an hour of similar values is the minimum scale of interest. As one hour corresponds to 36 5-tuples, and assuming that we require perfect matches during this hour to meet our minimal criterion of similarity, then the target value is around 500, which corresponds to an average similarity row score of ∼ 2.78; the average score per row – assuming uniform distribution of all symbols – is ∼ 2.65. Using these two extrema as starting points, we select the following values as our reference points: 500 as lower bound, 700, 850, 1000, as a range that should give expected results for the smaller pattern, and 1,300, 1,700 and 2,200 as a spread more useful for the larger patterns; finally, we choose 3,000 as the upper boundary, which can only be expected to give a single alignment – namely the alignment of the extracted pattern 2 with itself in the corpus. 4.2.2.2 Results We use precision and recall (i.e. the ratio of cells correctly aligned in an alignment and ratio of cells of an annotated pattern covered by an alignment) for each of the pair of 5-tuple sequences to be aligned, similarly to the evaluation of the synthetic data results. Additionally we determine the number of alignments made, and for each pattern the number of instances we have manually annotated. For the four values of precision and recall, we calculate mean and standard deviation across all alignments for each MASSconfiguration. These values can be found in table 4.7. An alignment consists of two elements: one in the predefined pattern, and one in one of the 58 day-slices of the campaign data. In this table, “A” identifies the part of the alignment in the search sequence, and “B” represents the corresponding aligned part in a sequence from the corpus. Fig. 4.2.4 visualises these results, by plotting recall and precision across each MASS-value and the B-parts of each pattern. When looking at “B” recall values, it is important to note, that alignments of non-annotated data result in a zero value, which then impacts the mean recall and precision for a result. This is reflected in the high standard error for these values. 104Table 4.7.: Evaluation results. A is the search pattern, B is the instance in the corpus. Dataset Pattern 1 Measure prec. A. rec. A. prec. B. rec. B num. MASS = 500 1 0.277±0.158 0.024±0.114 0.013±0.083 5011 MASS = 700 1 0.397±0.158 0.072±0.208 0.050±0.171 1049 MASS = 850 1 0.440±0.163 0.100±0.242 0.071±0.200 734 MASS = 1000 1 0.514±0.151 0.138±0.290 0.107±0.245 462 MASS = 1300 1 0.585±0.128 0.201±0.332 0.158±0.285 306 MASS = 1700 1 0.657±0.104 0.329±0.379 0.267±0.336 171 MASS = 2200 1 0.802±0.071 0.712±0.247 0.633±0.288 38 MASS = 3000 X X X X 0 5 Dataset Pattern 2 Measure prec. A. rec. A. prec. B. rec. B num. MASS = 500 1 0.358±0.157 0.045±0.184 0.031±0.129 5201 MASS = 700 1 0.432±0.149 0.070±0.227 0.048±0.160 3206 MASS = 850 1 0.486±0.131 0.078±0.245 0.057±0.176 2240 MASS = 1000 1 0.524±0.125 0.085±0.268 0.064±0.195 1516 MASS = 1300 1 0.566±0.138 0.190±0.385 0.137±0.281 563 MASS = 1700 1 0.605±0.138 0.277±0.442 0.193±0.321 286 MASS = 2200 1 1 1 1 1 MASS = 3000 1 1 1 1 1 Dataset Pattern 3 Measure prec. A. rec. A. prec. B. rec. B num. MASS = 500 0.965±0.059 0.574±0.189 0.596±0.387 0.380±0.324 387 MASS = 700 0.955±0.067 0.680±0.146 0.602±0.376 0.357±0.253 248 MASS = 850 0.966±0.054 0.750±0.060 0.744±0.283 0.433±0.209 185 MASS = 1000 0.992±0.014 0.774±0.046 0.820±0.239 0.505±0.216 46 MASS = 1300 1 1 1 1 1 MASS = 1700 X X X X 0 5 MASS = 2200 X X X X 0 5 MASS = 3000 X X X X 0 5 Across all 7,771 alignments made in search for pattern 1 in the corpus, 6,891 alignments are false positives (i.e. with not even partial coverage of the instances). For pattern 2 this is 11,504 out of 13,014 total, and for the third pattern 186 out of 867 alignments do not even partially cover an annotated instance. This allows us to determine an upper bound for the number of partial false positives (880, 1510, 681) – alignments that intersect with annotated pattern instances, consist of subsequences of such instances or are partially 5X denotes the absence of data 105covered by other alignments. These numbers also include the alignments that best cover a pattern, which can not exceed eight times the number of instances per pattern (104, 144, 216) due to the accumulation of the values across all repetitions of the experiment, and the perfectly matching alignments, which number 20 in total (7, 8, 5). Even when the MASS is set to 1,700, we still find 205 alignments of pattern 2 within the corpus, that in fact do not correspond to an annotated instance. Some of the excess can be explained by multiple locally optimal alignments, that partially cover a ground-truth annotated interval, other is in sequences that are simply sufficiently similar according to our measure, but in non-annotated parts of the corpus. The “A” part of the results is less interesting, as the precision values for the first two patterns are necessarily equal to one, due to every element in the search sequence being part of the pattern. In the third pattern, this value indicates how much of the alignment covers the undetermined part of the pattern. Recall values for the first two patterns are directly the ratio of alignment size to pattern size. For the third pattern, this does not hold true, as the alignment can cover non-determined cells. An additional factor to consider is that some of the alignments might qualify as patterns to an expert, when they are discovered by alignment, despite not having been selected in the non-aided, manual annotation process, due to the fuzzy nature of the latter. 4.2.3 Analysis The initial observation on these results is that finding pre-identified patterns by means of aligning n-tuples requires extensive pre-analysis by the expert user to formulate a reasonable expectation of MASS and number of pattern instances in the corpus, based on the scoring tables, size of the pattern and variability between pattern instances. Nonetheless, given the reasonable time of execution for our example (6 minutes for the sequential execution of the 24 samples of this experiment, on an Intel➤ Xeon➤ E5-2650), it is possible to quickly perform a number of alignment processes with different MASS, and discard those that appear to be too inclusive or too restrictive. If the parameters are chosen fortuitously, then the alignments closely match the expert’s expectation of what constitutes a pattern instance, or at the very least point to areas of interest. We also note that although pattern one and pattern two share almost the same amount of alignments made at the base score of 500, the elimination of false positives with increasing MASS differs greatly between them. The number of alignments for pattern one drops drastically at the step from 500 to 700 and then is reduced more gradually, whereas for pattern two the number of alignments drops more evenly at the lower MASS 1060 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,11 500 700 850 1000 1300 1700 2200 3000 prec 1 rec 1 prec 2 rec 2 prec 3 rec 3 MASS score Figure 4.2.4.: Mean precision and recall for the instances in the corpus (“B” - part of the alignment) for the 24 test configurations. From left to right are the different values of MASS used. With rising MASS, both precision and recall increase. The rightmost bars are fewer, as no alignments were made with MASS values 1,700 and above for pattern 3, and no alignments were made with MASS values 3,000 for pattern 1. Due to the smaller number of elements contained in pattern 3, it has higher values than patterns 1 and 2 for the same MASS. 107samples, but then very abruptly at a higher score level. And even though the maximum score is higher for pattern two, at MASS 1,700 there are fewer alignments made than for pattern one. This observation suggests that the larger instances of pattern two are also more varied. The consequence is, that as similarity values are accumulated by the alignment algorithm, they stay lower due to constant penalties. Conversely, instances of pattern one have higher local similarity, leading to a better separation of patterns from lower scoring false positives, as penalty scores are fewer and further between. The similarity based approach can therefore also be used to make qualitative observations on sensor data, especially when using a denser sampling of MASS values, for added precision. Although this evaluation does not cover the alignment of entire day sequences with one another, together with the synthetic evaluation it gives a clear notion of the characteristics of our proposed alignment algorithm, when it is applied on context data. The main challenge to evaluating the algorithm on real data is that this evaluation cannot be done with objective measures, as the notion of what constitutes a “pattern” in context data is not universal, and determining whether an actual routine activity is taking place requires activity diary data in parallel to the data collection campaign, which is unrealistic at relevant scales. Therefore we limit our experimentation to these two aspects. 108Conclusions and Future Work The aim of this work is to determine whether it is possible to detect routine in the dayto-day lives of mobile phone users. We come to the conclusion, that indeed it is possible – if such routine elements are present. We consider this result an extension, refinement and affirmation of existing approaches that detect routine in context data, such as the works of Clarkson [2003] and Eagle and Pentland [2009]. Our results align themselves particularly well with Clarkson’s work, in that our approach uses high resolution data, but is only validated against a single person’s real world data. What we present is to be seen as a proof of concept, as it lacks additional evaluation against a broader dataset. Before we continue to discuss the advantages and limitations to our approach, we briefly resume our contribution and results. We presented in this work an alignment algorithm for sequences of context data, that has been derived from an existing two-dimensional alignment approach, but optimised to take advantage of the characteristics of the data and the desired results, to decrease total calculation time by several orders of magnitude in some cases. To achieve this increased performance, we took into account the structure of context data as a sequence of n-tuples, which allowed us to decrease the original alignment problem complexity by one dimension, and gave a theoretical speed-up of n. Additionally, we used an early discard approach to finding locally optimal alignments in the data, greatly increasing real-wold performance by reducing the amount of backtracking operations required for the dynamic programming algorithm. This algorithm is then evaluated against two types of datasets, one generated by a specially developed simulator, the other an annotated subset of data recorded during a collection campaign. The results on the former show that our approach works largely as expected, with a weakness when attempting to segment patterns that appear in the same 109sequential order in two different input files. On the real world dataset, we used a different evaluation approach to account for the difficulty of obtaining a ground truth reference. The algorithm was used to align known routines with sequences that contained the data of one day each. This result showed that the quality of the results depends directly on the choice of the minimal admissible similarity score, which needs to be optimised to within a small fraction of the ideal value, to obtain results that closely match one’s expectations. One of the main advantages of our approach, is that it can point out from a dataset some candidate intervals that should correspond to pairs of routine elements in context. Our evaluation on synthetic data shows that – if naively configured – the algorithm has a strong tendency to cover multiple patterns, if they appear in the same sequence. It is disputable whether this is always desirable – as it reduces the segmentation of the results – but it follows from our choice to search optimal alignments to reduce the overall number of patterns extracted. An example of where this could be problematic, is when a person frequently does two activities in sequence, but occasionally only one individually. Then – numerically – one routine activity happens more often than the other, but this is not reflected in the result: when aligning two samples that contain the sequence of pairs, the result is a single alignment, with no direct relation to other alignments comprising only one activity. Our real data evaluation was limited in that we only checked for a set of pre-determined patterns – primarily due to the challenge of manually determining a desirable evaluation target, without a specific target application. Nonetheless, we were able to display how the minimal accumulated similarity score is related to the results. Good accuracy can be expected, if one is capable of expressing one’s expectation of what constitutes an alignment in the terms of individual per-element similarity scores and lower accumulated similarity score limits. In the introduction, we listed a wide variety of applications. When comparing the breadth of requirements different applications may have with regards to models of activity routine with our algorithmic results, we realise that our approach is not an all-in one solution to providing a better understanding of context. This is mostly due to the genericness of our approach, linked with the lack of a common, inherent understanding of what truly makes up a routine activity. What we provide then, is primarily an exploratory tool, enabling domain experts – for example application developers – to gauge across large datasets where there is detectable routine in sensor logs and what the general characteristics of the present routine activities are. They can then iteratively adapt 110and parametrise our approach, until they can accurately express their notion of what makes up a routine activity within the design space the alignment paradigm provides. Other potential interest groups include the people generating the data themselves (as a means of introspection and reflection) and researchers in social sciences. Usage in the advertisement industry or intelligence field could also be imagined. Although such a usage entails some preparation of the context data, the process is relatively straightforward: the first step is synchronisation of the different context streams. Next, the data is discretised, which often requires some manual intervention, to estimate a good number of clusters in the data, or determine a set of criteria to evaluate a clustering result. Based on this step, the meta-data (in the form of substitution score tables) is generated. A statistical approach to this can be mostly automated, a semantic approach requires direct intervention, and may provide better results. In each case, subsequent refinements may be necessary, depending on the first alignment results which reveal some consistency characteristics of the data. This iterative approach can provide a flexible – but complex – tool to extract specifically the patterns a user is interested in. False positives are a frequent occurrence which may have to be rejected by hand. Considering the scale of the raw data, this reduction of the problem of finding routine is a significant step forward, even despite the setup complexity. We already touched upon three limitations: the iterative, supervised approach is not completely automatable; there may be unexpected alignments among the results, which are classified as false positives; alignments are always maximised and may not extract discrete smaller patterns. Additionally, there are some limitations on the algorithmic level. Currently, our algorithm produces results which are dependent on the order in which the sensor data is arranged; an artefact carried over from the algorithm upon which we developed our adapted approach. We are also faced with a similar “multilevel”-problematic as Clarkson encountered, in that a single accumulated similarity value may be insufficient to characterise all kinds of patterns as alignments. The value may for example be equal for a large alignment with some errors and a small perfect alignment – no qualitative information, besides the number of aligned symbols and maximum similarity score, is retained. The future work we suggest is threefold. Firstly, there are some ways of modifying the algorithm to improve results and enhance performance. Secondly, there are some means of evaluation that can still be explored to gain an even better understanding of how our approach interacts with context data. Finally, we point to some pre- and post-treatment methods that could render this approach more powerful and simpler to use. 111Although we did improve and adapt the algorithm to our use case from a time and space performance standpoint, a weakness still persists: the in-tuple order of elements remains a factor in the alignments found. Correcting this by calculating and memorising the order in which each tuple element is accessed would result in order-independent alignments, at the cost of increased time and space requirements. A possible solution to the issue of large patterns obscuring smaller ones, can be approached by performing a further pattern extraction step on the results of the first extraction, using a lower MASS. This should reveal whether smaller patterns are present within the larger ones. The algorithm can be parallelised in its implementation in many ways, which can provide great speed-ups. The one-dimensional string alignment approaches exist in versions optimised for stream processing, porting the ideas of these implementations to our methods could increase performance on specialised hardware, such as graphics processors and processors with streaming extensions. Ultimately, the memory limitation will persist. We currently lack evaluation of actual pattern extraction on real world data, due the reasons we stated earlier in this chapter. A possible way to evaluate our approach, as a decision aid, would be to undertake user studies, to see how potential users – interested in finding patterns in context data – would be able to parametrise a model that enables them to do just that. Furthermore, a comparative evaluation against the approach of Plantevit et al. [2010] would be of interest, to see how the ultimate parametrisation efforts compare, as well as to be able to judge the results against a similar approach. Lastly, evaluating the extraction performance against a dataset supported with diary entries would be able to provide further insights – but ultimately be limited by the flexible notion of what makes up a routine activity. Each test subject providing a diary may have a different notion of routine from the other test subjects, or the experimenter ultimately constructing a model, which can lead to data that is nearly impossible to correctly interpret. As a result, either a naive model would be used, with results probably similar to those we obtained on synthetic data, or a properly developed, supervised model, which would again only demonstrate how well the model can be parametrised to correspond to a consistent but arbitrary notion of routine. We have already proposed some pre-treatment methods, to obtain a model that is partly automatically generated from a corpus of known data. Using advanced clustering algorithms, and defining a set of heuristics for the permissible error rates for specific sensors, as well as filtering rules, would further simplify the pre-treatment. From a post- 112treatment perspective, it is interesting to reduce the vast amount of pairs of results into representatives of actual routine activities. This has been done in the work of Pauchet et al. [2013], using a clustering approach. This approach can be extended, by using a variation of Hirschberg’s algorithm [Hirschberg, 1975] to obtain a local cumulative edit distance function across the different aligned elements. This would allow us to cluster multiple inter-similar context episodes to clusters of routine contexts, while also finding similar subsegments. Alternatively, a global alignment can be used, if the further segmentation has already been performed separately. 113Bibliography Mohamed Abouelhoda and Moustafa Ghanem. String Mining in Bioinformatics. In Mohamed Medhat Gaber, editor, Scientific Data Mining and Knowledge Discovery: Principles and Foundations, pages 207–247. Springer Berlin Heidelberg, Berlin, Heidelberg, 2010. ISBN 978-3-642-02787-1. doi: 10.1007/978-3-642-02788-8. URL http://www.springerlink.com/index/10.1007/978-3-642-02788-8. Ramesh C. Agarwal, Charu C. Aggarwal, and V. V. V. Prasad. A Tree Projection Algorithm for Generation of Frequent Item Sets. Journal of Parallel and Distributed Computing, 61(3):350–371, March 2001. ISSN 0743-7315. doi: 10.1006/jpdc.2000.1693. URL http://www.sciencedirect.com/science/article/ pii/S0743731500916939. Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In Jorge B. Bocca, Matthias Jarke, and Carlo Zaniolo, editors, Int’l Conf. Very Large Databases (VLDB ’94), pages 487–499, Santiago de Chile, Chile, 1994. Morgan Kaufmann Publishers Inc. San Francisco, CA, USA. Rakesh Agrawal and Ramakrishnan Srikant. Mining sequential patterns. In Proceedings of the Eleventh International Conference on Data Engineering, pages 3–14. IEEE Comput. Soc. Press, 1995. ISBN 0-8186-6910-1. doi: 10.1109/ICDE.1995.380415. Rakesh Agrawal, Tomasz Imielinski, and Arun Swami. Mining association rules between sets of items in large databases. In Proceedings of the 1993 ACM SIGMOD international conference on Management of data, pages 207–216, Washington, D.C., 1993. ACM New York, NY, USA. Stephen F. Altschul and Bruce W Erickson. Optimal sequence alignment using af- 114fine gap costs. Bulletin of Mathematical Biology, 48(5-6):603–616, 1986. ISSN 0092- 8240. doi: 10.1016/S0092-8240(86)90010-8. URL http://www.sciencedirect.com/ science/article/pii/S0092824086900108. Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers, and David J. Lipman. Basic local alignment search tool. Journal of Molecular Biology, 215:403–410, 1990. URL http://www.cmu.edu/bio/education/courses/03510/LectureNotes/ Altschul1990.pdf. Amihood Amir and Martin Farach. Efficient 2-dimensional approximate matching of non-rectangular figures. In SODA ’91 Proceedings of the second annual ACM-SIAM symposium on Discrete algorithms, number 908, pages 212–223. Society for Industrial and Applied Mathematics Philadelphia, PA, USA, 1991. URL http://dl.acm.org/ citation.cfm?id=127829. Sarabjot Singh Anand and Bamshad Mobasher. Contextual Recommendation. In Bettina Berendt, Andreas Hotho, Dunja Mladenic, and Giovanni Semeraro, editors, From Web to Social Web Discovering and Deploying User and Content Profiles, volume 4737 of Lecture Notes in Computer Science, chapter 8, pages 142–160. Springer Berlin Heidelberg, 2007. ISBN 9783540749509. doi: 10.1007/978-3-540-74951-6 8. URL http://www.springerlink.com/content/r28874294253q051. Alberto Apostolico, Laxmi Parida, and Simona E. Rombo. Motif patterns in 2D. Theoretical Computer Science, 390(1):40–55, January 2008. ISSN 0304-3975. URL http://www.sciencedirect.com/science/article/pii/S0304397507007645. Daniel Ashbrook and Thad Starner. Learning significant locations and predicting user movement with GPS. In Proceedings of the 6th IEEE International Symposium on Wearable Computers, pages 101–108, Seattle, WA, USA, 2002. IEEE Computer Society, Washington, DC, USA. ISBN 0-7695-1816-8. doi: 10.1109/ISWC. 2002.1167224. URL http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm? arnumber=1167224. Jay Ayres, Jason Flannick, Johannes Gehrke, and Tomi Yiu. Sequential Pattern mining using a bitmap representation. In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’02, page 429, New York, New York, USA, 2002. ACM Press. ISBN 158113567X. doi: 10.1145/775107. 775109. URL http://portal.acm.org/citation.cfm?doid=775047.775109. 115Ricardo A. Baeza-Yates and Gonzalo Navarro. Fast two-dimensional approximate pattern matching. In Claudio L. Lucchsei and Arnaldo V. Moura, editors, LATIN’98 Proceedings of the Third Latin American Symposium on Theoretical Informatics, pages 341–351, Campinas, Brazil, 1998. Springer-Verlag London, UK. URL http: //link.springer.com/chapter/10.1007/BFb0054334. Brenda S. Baker. A program for identifying duplicated code. In Computing Science and Statistics, pages 24:49–57, College Station, TX, USA, 1992. Theodore P. Baker. A Technique for Extending Rapid Exact-Match String Matching to Arrays of More than One Dimension. SIAM Journal on Computing, 7(4):533–541, November 1978. ISSN 0097-5397. doi: 10.1137/0207043. URL http://dx.doi.org/ 10.1137/0207043. Matthias Baldauf, Schahram Dustdar, and Florian Rosenberg. A survey on contextaware systems. International Journal of Ad Hoc and Ubiquitous Computing, 2(4): 263–277, 2007. Leonard E. Baum, Ted Petrie, George Soules, and Norman Weiss. A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains. The annals of mathematical statistics, 41(1):164–171, 1970. Victoria Bellotti, Bo Begole, Ed H. Chi, Nicolas Ducheneaut, Ji Fang, Ellen Isaacs, Tracy King, Mark W. Newman, Kurt Partridge, Bob Price, Paul Rasmussen, Michael Roberts, Diane J. Schiano, and Alan Walendowski. Activity-based serendipitous recommendations with the Magitti mobile leisure guide. In Proceeding of the twenty-sixth annual SIGCHI conference on Human factors in computing systems, pages 1157–1166, New York, NY, USA, 2008. ACM. ISBN 9781605580111. doi: 10.1145/1357054.1357237. Martin Berchtold, Matthias Budde, Hedda R. Schmidtke, and Michael Beigl. An extensible modular recognition concept that makes activity recognition practical. In R¨udiger Dillmann, J¨urgen Beyerer, Uwe Hanebeck, and Tanja Schultz, editors, Proceedings of the 33rd annual German conference on Advances in artificial intelligence, pages 400– 409. Springer-Verlag Berlin, Heidelberg, 2010. ISBN 3-642-16110-3 978-3-642-16110-0. doi: 10.1007/978-3-642-16111-7 46. Kevin Beyer and Raghu Ramakrishnan. Bottom-up computation of sparse and Iceberg CUBEs. In SIGMOD ’99 Proceedings of the 1999 ACM SIGMOD international con- 116ference on Management of data, pages 359–370, Philadelphia, PA, 1999. ACM New York, NY, USA. V Boonjing and P Songram. Efficient Algorithms for Mining Closed Multidimensional Sequential Patterns, 2007. A. J. Bernheim Brush, Amy K. Karlson, James Scott, Raman Sarin, Andy Jacobs, Barry Bond, Oscar Murillo, Galen Hunt, Mike Sinclair, Kerry Hammil, and Steven Levi. User experiences with activity-based navigation on mobile devices. In Proceedings of the 12th international conference on Human computer interaction with mobile devices and services, pages 73–82, 2010. doi: 10.1145/1851600.1851616. URL http://portal. acm.org/citation.cfm?id=1851616. Matthew Chalmers. A Historical View of Context. Computer Supported Cooperative Work (CSCW), 13(3-4):223–247, August 2004. ISSN 0925-9724. doi: 10.1007/s10606-004-2802-8. URL http://www.springerlink.com/index/10.1007/ s10606-004-2802-8. Tanzeem Choudhury, Gaetano Borriello, Sunny Consolvo, Dirk Haehnel, Beverly Harrison, Bruce Hemingway, Jeffrey Hightower, Predrag ”Pedja” Klasnja, Karl Koscher, Anthony Lamarca, James A. Landay, Louis LeGrand, Jonathan Lester, Ali Rahimi, Adam Rea, and Denny Wyatt. The mobile sensing platform: An embedded activity recognition system. Pervasive Computing, 7(2):32–41, 2008. Brian Clarkson and Alex (Sandy) Pentland. Unsupervised clustering of ambulatory audio and video. In Proceedings of the 1999 International Conference on Acoustics, Speech, and Signal Processing, pages 3037–3040 vol. 6, Phoenix, Arizona, United States, 1999. IEEE. doi: 10.1109/ICASSP.1999.757481. URL http://ieeexplore. ieee.org/xpls/abs_all.jsp?arnumber=757481. Brian Patrick Clarkson. Life Patterns : structure from wearable sensors. PhD thesis, MIT, 2003. Diane J. Cook, Michael Youngblood, Edwin O. Heierman, Karthik Gopalratnam, Sira Rao, Andrey Litvin, and Farhan Khawaja. MavHome : An Agent-Based Smart Home. In Proceedings of the First IEEE International Conference on Pervasive Computing and Communications (PerCom 2003), pages 521–5244, Fort Worth, TX, 2003. IEEE. ISBN 0769518931. Brian A. Davey and Hilary A. Priestley. Introduction to Lattices and Order (2. ed.). Cambridge University Press, 2002. ISBN 978-0-521-78451-1. 117Pedro Domingos and Geoff Hulten. Mining high-speed data streams. In Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’00, pages 71–80, New York, NY, USA, 2000. ACM. ISBN 1-58113-233-6. doi: 10.1145/347090.347107. URL http://doi.acm.org/10.1145/347090.347107. Paul Dourish. What we talk about when we talk about context. Personal and Ubiquitous Computing, 8(1):19–30, February 2004. ISSN 1617-4909. doi: 10.1007/s00779-003-0253-8. URL http://www.springerlink.com/openurl.asp? genre=article&id=doi:10.1007/s00779-003-0253-8. Nathan Eagle and Alex (Sandy) Pentland. Reality mining: sensing complex social systems. Personal and Ubiquitous Computing, 10(4):255–268, November 2005. ISSN 1617-4909. doi: 10.1007/s00779-005-0046-3. URL http://link.springer.com/10. 1007/s00779-005-0046-3. Nathan Eagle and Alex (Sandy) Pentland. Eigenbehaviors: identifying structure in routine. Behavioral Ecology and Sociobiology, 63(7):1057–1066, April 2009. ISSN 0340-5443. doi: 10.1007/s00265-009-0739-0. URL http://www.springerlink.com/ index/10.1007/s00265-009-0739-0. Vincent Etter, Mohamed Kafsi, and Ehzan Kazemi. Been There, Done That : What Your Mobility Traces Reveal about Your Behavior. In Nokia Mobile Data Challenge - Next Place Prediction, 2012. Simone Faro and Thierry Lecroq. The Exact Online String Matching Problem : a Review of the Most Recent Results. ACM Computing Surveys (CSUR), 45(2):Article No. 13, 2013. doi: 10.1145/0000000.0000000. Huiji Gao, Jiliang Tang, and Huan Liu. Mobile Location Prediction in Spatio-Temporal Context. In Nokia Mobile Data Challenge - Next Place Prediction, number 2, 2012. Fosca Giannotti, Mirco Nanni, and Dino Pedreschi. Efficient mining of temporally annotated sequences. In In Proc. SDM’06, pages 348–359, 2006. Fosca Giannotti, Mirco Nanni, Dino Pedreschi, and Fabio Pinelli. Trajectory pattern mining. In Proceedings of the International Conference on Knowledge Discovery and Data Mining (KDD), pages 330–339, San Jose, CA, 2007. ISBN 9781595936097. Marta C. Gonzalez, Cesar A. Hidalgo, and Albert-Laszlo Barabasi. Understanding individual human mobility patterns. Nature, 453(7196):779–782, June 2008. ISSN 0028- 0836. 118G¨osta Grahne and Jianfei Zhu. Efficiently Using Prefix-trees in Mining Frequent Itemsets. In Proceedings of the ICDM’03 international workshop on requent itemset mining implementations (FIMI ’03), volume 15, pages 123–132, Melbourne, FL, 2003. URL http://ftp.informatik.rwth-aachen.de/Publications/CEUR-WS/ Vol-90/grahne.pdf. M A Hall. Correlation-based feature selection for machine learning. PhD thesis, The University of Waikato, 1999. Mark Hall, Eibe Frank, Geoffrey Hilmes, Bernhard Pfahringer, Peter Reutemann, and Ian H Witten. The WEKA Data Mining Software: An Update. SIGKDD Explorations, 11(1), 2009. Jiawei Han and Yongjian Fu. Discovery of multiple-level association rules from large databases. In Proceeding of the 21st international conference on very large data bases (VLDB’95), pages 420–431, Zurich, Switzerland, 1995. Jiawei Han, Jian Pei, Behzad Mortazavi-Asl, Qiming Chen, Umeshwar Dayal, and MeiChun Hsu. FreeSpan: frequent pattern-projected sequential pattern mining. In KDD ’00 Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 355–259. ACM New York, NY, USA, 2000a. Jiawei Han, Jian Pei, and Yiwen Yin. Mining frequent patterns without candidate generation. In SIGMOD ’00 Proceedings of the 2000 ACM SIGMOD international conference on Management of data, pages 1–12, Dallas, TX, 2000b. ISBN 1581132182. doi: 10.1145/335191.335372. Jiawei Han, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques. Morgan kaufmann, 2006. ISBN 0080475582. Jiawei Han, Hong Cheng, Dong Xin, and Xifeng Yan. Frequent pattern mining: current status and future directions. Data Mining and Knowledge Discovery, 15(1):55–86, January 2007. ISSN 1384-5810. doi: 10.1007/s10618-006-0059-1. URL http://link. springer.com/10.1007/s10618-006-0059-1. Martin Heidegger. Sein und Zeit. Max Niemayer Verlag, T¨ubingen, 10 (1963) edition, 1927. Steven Henikoff and Jorja G. Henikoff. Amino acid substitution matrices from protein blocks. Proceedings of the National Academy of Sciences of the United States of America, 89(22):10915–10919, November 1992. ISSN 0027-8424. 119Johan Himberg, Kalle Korpiaho, Heikki Mannila, Johanna Tikanm¨aki, and Hannu T. T. Toivonen. Time series segmentation for context recognition in mobile devices. In Proceedings 2001 IEEE International Conference on Data Mining, volume c, pages 203–210. IEEE Comput. Soc, 2001. ISBN 0-7695-1119-8. doi: 10.1109/ICDM. 2001.989520. URL http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm? arnumber=989520. Daniel S. Hirschberg. A Linear Space Algorithm for Computing Maximal Common Subsequences. Communications of the ACM, 18(6):341–343, 1975. Wassily Hoeffding. Probability Inequalities for Sums of Bounded Random Variables. Journal of the American Statistical Association, 58(301):13–30, March 1963. ISSN 0162-1459. doi: 10.1080/01621459.1963.10500830. URL http://amstat. tandfonline.com/doi/abs/10.1080/01621459.1963.10500830. Geoffrey Holmes, Bernhard Pfahringer, Richard Kirkby, Eibe Frank, and Mark Hall. Multiclass alternating decision trees. In ECML, pages 161–172. Springer, 2001. Geoffrey Holmes, Bernhard Pfahringer, Richard Kirkby, Eibe Frank, and Mark Hall. Multiclass Alternating Decision Trees. In Proceedings of the 13th European Conference on Machine Learning, ECML ’02, pages 161–172, London, UK, UK, 2002. SpringerVerlag. ISBN 3-540-44036-4. URL http://dl.acm.org/citation.cfm?id=645329. 650070. George H. John and Pat Langley. Estimating Continuous Distributions in Bayesian Classifiers. In Eleventh Conference on Uncertainty in Artificial Intelligence, pages 338–345, San Mateo, 1995. Morgan Kaufmann. Juyoung Kang and Hwan-Seung Yong. Mining spatio-temporal patterns in trajectory data. Journal of Information Processing Systems, 6(4):521–536, 2010. Tuula K¨arkk¨ainen, Tuomas Vaittinen, and Kaisa V¨a¨an¨anen-Vainio-Mattila. I Don’t Mind Being Logged, but Want to Remain in Control: A Field Study of Mobile Activity and Context Logging. In Proceedings of the 28th international conference on Human factors in computing systems - CHI ’10, pages 163–172, Atlanta, GA, USA, 2010. ACM New York, NY, USA. ISBN 9781605589299. Richard M Karp and M O Rabin. Efficient randomized pattern-matching algorithms, 1987. 120Dimitrios Katsaros and Yannis Manolopoulos. A Suffix Tree Based Prediction Scheme for Pervasive Computing Environments. In Panayiotis Bozanis and Elias N. Houstis, editors, 10th Panhellenic Conference on Informatics, PCI 2005, pages 267–277, Volos, Greece, 2005. Dimitrios Katsaros, Alexandros Nanopoulos, Murat Karakaya, Gokhan Yavas, Ozg ur Ulusoy, and Yannis Manolopoulos. Clustering mobile trajectories for resource allocation in mobile environments. In Proceedings of the 5th International Symposium on Intelligent Data Analysis, IDA 2003, number 102, pages 319–329, Berlin, Germany, 2003. Springer Berlin Heidelberg. Eamonn Keogh, Jessica Lin, and Wagner Truppel. Clustering of time-series subsequences is meaningless: implications for previous and future research. In Proceedings of the Third IEEE International Conference on Data Mining (ICDM’03), pages 115–122, 2003. ISBN 0769519784. Niko Kiukkonen, Jan Blom, Olivier Dousse, Daniel Gatica-Perez, and Juha K. Laurila. Towards rich mobile phone datasets: Lausanne data collection campaign. In Proceedings of ACM international conference on pervasive services (ICPS), Berlin, 2010. Donald E. Knuth, James H. Morris, Jr, and Vaughan R. Pratt. Fast pattern matching in strings. SIAM journal on computing, 6(2):323–350, 1977. URL http://epubs.siam. org/doi/abs/10.1137/0206024. David Kotz and Kobby Essien. Analysis of a campus-wide wireless network. Wireless Networks, 11(1-2):115–133, 2005. ISSN 1022-0038. Kamala Krithivasan and R Sitalakshmi. Efficient two-dimensional pattern matching in the presence of errors. Information Sciences, 43(3):169–184, December 1987. ISSN 0020-0255. doi: 10.1016/0020-0255(87)90037-5. URL http://www.sciencedirect. com/science/article/pii/0020025587900375. Hye-Chun Kum, Jian Pei, Wei Wang, and Dean Duncan. ApproxMAP: Approximate mining of consensus sequential patterns. In Third SIAM International Conference on Data Mining (SIAM-DM), pages 311–315, San Francisco, CA, 2003. Kari Laasonen. Clustering and prediction of mobile user routes from cellular data. In Knowledge Discovery in Databases: PKDD 2005, pages 569–576, Porto, Portugal, 2005. 121Philip Laird. Identifying and using patterns in sequential data. In KlausP. Jantke, Shigenobu Kobayashi, Etsuji Tomita, and Takashi Yokomori, editors, Algorithmic Learning Theory SE - 1, volume 744 of Lecture Notes in Computer Science, pages 1–18. Springer Berlin Heidelberg, 1993. ISBN 978-3-540-57370-8. doi: 10.1007/ 3-540-57370-4 33. Juha K. Laurila, Daniel Gatica-Perez, Imad Aad, Jan Blom, Olivier Bornet, TrinhMinh-Tri Do, Olivier Dousse, Julien Eberle, and Markus Miettinen. The mobile data challenge: Big data for mobile computing research. In Mobile Data Challenge by Nokia Workshop in Conjunction with Int. Conf. on Pervasive Computing, Newcastle, UK, 2012. Thierry Lecroq, Alexandre Pauchet, Emilie Chanoni, and Gerardo Solano Ayala. Pattern ´ discovery in annotated dialogues using dynamic programming. International Journal of Intelligent Information and Database Systems, 6(6):603–618, 2012. Philip I. S. Lei and Angus K. Y. Wong. The Multiple-Touch User Interface Revolution. IT Professional, 11(February):42–49, 2009. Jonathan Lester, Tanzeem Choudhury, and Gaetano Borriello. A practical approach to recognizing physical activities. Pervasive Computing, pages 1–16, 2006. doi: 10.1.1. 138.6972. Chao Li and Katharine Willis. Modeling context aware interaction for wayfinding using mobile devices. In Proceedings of the 8th conference on Human-computer interaction with mobile devices and services - MobileHCI ’06, page 97, New York, New York, USA, 2006. ACM. ISBN 1595933905. doi: 10.1145/1152215.1152235. URL http: //portal.acm.org/citation.cfm?doid=1152215.1152235. David J. Lipman and William R. Pearson. Rapid and sensitive protein similarity searches. Science, 227(4693):1435–1441, March 1985. doi: 10.1126/science.2983426. URL http://www.sciencemag.org/content/227/4693/1435.abstract. H Liu and R Setiono. A probabilistic approach to feature selection - A filter solution. In 13th International Conference on Machine Learning, pages 319–327, 1996. Nizar R. Mabroukeh and C. I. Ezeife. A taxonomy of sequential pattern mining algorithms. ACM Computing Surveys, 43(1):3:1–3:41, November 2010. ISSN 03600300. doi: 10.1145/1824795.1824798. URL http://portal.acm.org/citation.cfm?doid= 1824795.1824798. 122Heikki Mannila, Hannu Toivonen, and A. Inkeri Verkamo. Efficient Algorithms for Discovering Association Rules. In AAAI Workshop on Knowledge Discovery in Databases (KDD-94), number July, pages 181–192. AAAI Press, 1994. Jani M¨antyj¨arvi, Johan Himberg, Petri Kangas, Urpo Tuomela, and Pertti Huuskonen. Sensor Signal Data Set for Exploring Context Recognition of Mobile Devices. In Workshop ”Benchmarks and a database for context recognition” in conjuction with the 2nd Int. Conf. on Pervasive Computing (PERVASIVE 2004), Linz/Vienna, Austria, 2004. Edward M. McCreight. A space-economical suffix tree construction algorithm. Journal of the ACM (JACM), 23(2):262–272, 1976. URL http://dl.acm.org/citation.cfm? id=321946. Carl H. Mooney and John F. Roddick. Sequential Pattern Mining - Approaches and Algorithms. ACM Computing Surveys (CSUR), 45(2):19:1–19:39, 2013. doi: 10.1145/ 2431211.2431218. Cory S. Myers and Lawrence R. Rabiner. A Comparative Study of Several Dynamic Time-Warping Algorithms for Connected-Word. Bell System Technical Journal, 60 (7):1389–1409, 1981. Eugene W. Myers and Webb Miller. Optimal alignments in linear space. Computer applications in the biosciences : CABIOS, 4(1):11–17, March 1988. doi: 10. 1093/bioinformatics/4.1.11. URL http://bioinformatics.oxfordjournals.org/ content/4/1/11.abstract. Mirco Nanni, Roberto Trasarti, Chiara Renso, Fosca Giannotti, and Dino Pedreschi. Advanced Knowledge Discovery on Movement Data with the GeoPKDD system. In Proceedings of the 13th International Conference on Extending Database Technology EDBT ’10, pages 693–696. ACM New York, NY, USA, 2010. ISBN 9781605589459. Gonzalo Navarro. A guided tour to approximate string matching. ACM Computing Surveys, 33(1):31–88, March 2001. ISSN 03600300. doi: 10.1145/375360.375365. URL http://portal.acm.org/citation.cfm?doid=375360.375365. Saul B. Needleman and Christian D. Wunsch. A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of molecular biology, 48(3):443–453, 1970. 123Kurt Partridge and Bob Price. Enhancing Mobile Recommender Systems with Activity Inference. User Modeling, Adaptation, and Personalization, pages 307–318, 2009. Nicolas Pasquier, Yves Bastide, Rafik Taouil, and Lotfi Lakhal. Discovering Frequent Closed Itemsets for Association Rules. In Catriel Beeri and Peter Buneman, editors, Database Theory – ICDT ’99 SE - 25, volume 1540 of Lecture Notes in Computer Science, pages 398–416. Springer Berlin Heidelberg, 1999. ISBN 978-3-540-65452-0. doi: 10.1007/3-540-49257-7\ 25. URL http://dx.doi.org/10.1007/3-540-49257-7_25. Alexandre Pauchet, Abed Mohamad El, Tayeb Merabti, Elise Prieur, Thierry Lecroq, ´ and St´efan Darmoni. Identification de r´ep´etitions dans les navigations au sein d’un catalogue de sant´e. Revue d Intelligence Artificielle, 23(1):113–132, 2009. URL http: //hal.archives-ouvertes.fr/hal-00450114. Alexandre Pauchet, Fran¸cois Rioult, Emilie Chanoni, Zacharie Ales, and Ovidiou Serban. ´ Advances on Dialogue Modelling Interactive Narration Requires Prominent Interaction and Emotion. In International Conference on Agents and Artificial Intelligence, pages 527–530, Barcelona, Spain, 2013. Jian Pei, Jiawei Han, Behzad Mortazavi-asl, and Hua Zhu. Mining Access Patterns Ef- ficiently from Web Logs. In Proceedings of the 4th Pacific-Asia Conference on Knowledge Discovery and Data Mining, PAKDD 2000, volume 0, pages 396–407, Kyoto, Japan, 2000. Springer Berlin Heidelberg. Jian Pei, Jiawei Han, Behzad Mortazavi-Asl, Helen Pinto, Qiming Chen, Umeshwar Dayal, and Mei-Chun Hsu. Prefixspan: Mining sequential patterns efficiently by prefixprojected pattern growth. In Proceeding of the 2001 international conference on data engineering (ICDE’01), pages 215–224, Heidelberg, Germany, 2001. Jian Pei, Jiawei Han, Behzad Mortazavi-Asl, Jianyong Wang, Helen Pinto, Qiming Chen, Umeshwar Dayal, and Mei-Chun Hsu. Mining Sequential Patterns by Pattern-Growth : The PrefixSpan Approach. IEEE Transactions on Knowledge and Data Engineering, 16(10):1424–1440, 2004. Dan Pelleg and Andrew Moore. X-means: Extending k-means with efficient estimation of the number of clusters. In Proceedings of the Seventeenth International Conference on Machine Learning, pages 727–734, 2000. Helen Pinto, Jiawei Han, Jian Pei, Ke Wang, Qiming Chen, and Umeshwar Dayal. Multi-dimensional sequential pattern mining. In Proceedings of the tenth international 124conference on Information and knowledge management - CIKM’01, pages 81–88, New York, New York, USA, 2001. ACM. ISBN 1581134363. doi: 10.1145/502598.502600. James Pitkow and Peter Pirolli. Mining longest repeating subsequences to predict world wide web surfing. In Proceedings of USITS ’99: The 2nd USENIX Symposium on Internet Technologies & Systems, pages 139–150, 1999. Marc Plantevit, Anne Laurent, Dominique Laurent, Maguelonne Teisseire, and Yeow Wei Choong. Mining multidimensional and multilevel sequential patterns. ACM Transactions on Knowledge Discovery from Data, 4:4:0–4:37, 2010. doi: 10.1145/1644873. 1644877. URL http://dl.acm.org/citation.cfm?id=1644877. John C. Platt. Advances in kernel methods. chapter Fast train, pages 185–208. MIT Press, Cambridge, MA, USA, 1999. ISBN 0-262-19416-3. URL http://dl.acm.org/ citation.cfm?id=299094.299105. Mika Raento. Mobile communication and context dataset. In Proceedings of the Workshop towards Benchmarks and a Database for Context Recognition, International Conference on Pervasive Computing, Vienna, Austria, 2004. Mika Raento, Antti Oulasvirta, Renaud Petit, and Hannu Toivonen. ContextPhone: A Prototyping Platform for Context-Aware Mobile Applications. IEEE Pervasive Computing, 4(2):51–59, 2005. ISSN 1536-1268. doi: 10.1109/MPRV.2005.29. Sherif Rashad, Mehmed Kantardzic, and Anup Kumar. PAC-WHN: Predictive Admission Control for Wireless Heterogeneous Networks. In 2007 IEEE Symposium on Computers and Communications, pages 139–144. Ieee, July 2007a. ISBN 978-1- 4244-1520-5. doi: 10.1109/ISCC.2007.4381633. URL http://ieeexplore.ieee.org/ lpdocs/epic03/wrapper.htm?arnumber=4381633. Sherif Rashad, Mehmed Kantardzic, and Anup Kumar. MSP-CACRR: Multidimensional Sequential Patterns Based Call Admission Control and Resource Reservation for Next-Generation Wireless Cellular Networks. 2007 IEEE Symposium on Computational Intelligence and Data Mining, (Cidm):552–559, 2007b. doi: 10.1109/ CIDM.2007.368924. URL http://ieeexplore.ieee.org/lpdocs/epic03/wrapper. htm?arnumber=4221348. Simona E. Rombo. Optimal extraction of motif patterns in 2D. Information Processing Letters, 109(17):1015–1020, August 2009. ISSN 0020-0190. URL http: //www.sciencedirect.com/science/article/pii/S0020019009001926. 125D Sankoff. Matching sequences under deletion-insertion constraints. Proceedings of the National Academy of Sciences of the United States of America, 69(1):4–6, January 1972. ISSN 0027-8424. URL http://www.pubmedcentral.nih.gov/articlerender. fcgi?artid=427531&tool=pmcentrez&rendertype=abstract. Albrecht Schmidt, Michael Beigl, and Hans-W. Gellersen. There is more to context than location. Computers & Graphics, 23(6):893–901, December 1999. doi: 10.1016/ S0097-8493(99)00120-X. Stephan Sigg, Sandra Haseloff, and Klaus David. An Alignment Approach for Context Prediction Tasks in UbiComp Environments. IEEE Pervasive Computing, 9(4):90– 97, 2010. ISSN 1536-1268. doi: 10.1109/MPRV.2010.23. URL http://ieeexplore. ieee.org/lpdocs/epic03/wrapper.htm?arnumber=5406495. Temple F. Smith and Michael S. Waterman. Identification of common molecular subsequences. Journal of Molecular Biology, 147(1):195–197, 1981. ISSN 0022-2836. Libo Song, David Kotz, Ravi Jain, and Xiaoning He. Evaluating location predictors with extensive Wi-Fi mobility data. In INFOCOM 2004. Twenty-third AnnualJoint Conference of the IEEE Computer and Communications Societies, volume 00, pages 1414–1424 vol. 2, Hong Kong, China, 2004. ISBN 0780383567. P. Songram, V. Boonjing, and S. Intakosum. Closed Multidimensional Sequential Pattern Mining. In Third International Conference on Information Technology: New Generations (ITNG’06), pages 512–517, Las Vegas, NV, USA, 2006. Ieee. ISBN 0-7695- 2497-4. doi: 10.1109/ITNG.2006.41. URL http://ieeexplore.ieee.org/lpdocs/ epic03/wrapper.htm?arnumber=1611644. Ramakrishnan Srikant and Rakesh Agrawal. Mining generalized association rules. In Proceeding of the 21st international conference on very large data bases (VLDB’95), pages 407–419, Zurich, Switzerland, 1995. Ramakrishnan Srikant and Rakesh Agrawal. Mining sequential patterns: Generalizations and performance improvements. In EDBT’96 Proceeding of the 5th international conference on extending database technology: Advances in Database Technology, pages 3–17, Avignon, France, 1996. Springer-Verlag London, UK. Mark P. Styczynski, Kyle L. Jensen, Isidore Rigoutsos, and Gregory Stephanopoulos. BLOSUM62 miscalculations improve search performance. Nat Biotech, 26(3):274–275, March 2008. ISSN 1087-0156. doi: 10.1038/nbt0308-274. 126Christian Voigtmann, Klaus David, Hendrik Skistims, and Alexander Roßnagel. Legal assessment of context prediction techniques. 2012 IEEE Vehicular Technology Conference (VTC Fall), pages 1–5, September 2012. doi: 10.1109/VTCFall. 2012.6399381. URL http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm? arnumber=6399381. Jianyong Wang and Jiawei Han. BIDE: efficient mining of frequent closed sequences. In Proceedings of the 20th International Conference on Data Engineering, 2004., pages 79–90, 2004. ISBN 1063-6382 VO -. doi: 10.1109/ICDE.2004.1319986. Jingjing Wang and Bhaskar Prabhala. Periodicity Based Next Place Prediction. In Nokia Mobile Data Challenge - Next Place Prediction, 2012. Wei Wang, Jiong Yang, and Philip S. Yu. Mining patterns in long sequential data with noise. ACM SIGKDD Explorations Newsletter, 2(2):28–33, December 2000. ISSN 19310145. doi: 10.1145/380995.381008. URL http://portal.acm.org/citation. cfm?doid=380995.381008. Janet L. Wesson, Akash Singh, and Bradley van Tonder. Can Adaptive Interfaces Improve the Usability of Mobile Applications? Human-Computer Interaction, pages 187–198, 2010. Xifeng Yan, Jiawei Han, and Ramin Afshar. CloSpan: Mining closed sequential patterns in large datasets. In Proc. 2003 SIAM Int’l Conf. Data Mining (SDM’03), pages 166–177, 2003. Guizhen Yang. The complexity of mining maximal frequent itemsets and maximal frequent patterns. In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’04, pages 344–353, New York, NY, USA, 2004. ACM. ISBN 1-58113-888-1. doi: 10.1145/1014052.1014091. URL http://doi.acm.org/10.1145/1014052.1014091. Jiong Yang, Wei Wang, Philip S. Yu, and Jiawei Han. Mining long sequential patterns in a noisy environment. Proceedings of the 2002 ACM SIGMOD international conference on Management of data - SIGMOD ’02, 4(d):406, 2002. doi: 10.1145/564736.564738. URL http://portal.acm.org/citation.cfm?doid=564691.564738. Zhenglu Yang and Masaru Kitsuregawa. LAPIN-SPAM: An Improved Algorithm for Mining Sequential Pattern. In 21st International Conference on Data Engineering Workshops (ICDEW’05), pages 1222–1222. Ieee, 2005. ISBN 0-7695-2657-8. 127doi: 10.1109/ICDE.2005.235. URL http://ieeexplore.ieee.org/lpdocs/epic03/ wrapper.htm?arnumber=1647839. Zhenglu Yang, Yitong Wang, and M Kitsuregawa. LAPIN: effective sequential pattern mining algorithms by last position induction for dense databases. In R. Kotagirim, P. R. Krishna, M. Mohania, and E. Nantajeewarawat, editors, 12th International Conference on Database Systems for Advanced Applications, DASFAA 2007, volume 1, pages 1020–1023, Bangkok, Thailand, 2007. Springer Berlin Heidelberg. URL http: //link.springer.com/chapter/10.1007/978-3-540-71703-4_95. Mariko Yoshida, Tetsuya Iizuka, Hisako Shiohara, and Masanori Ishiguro. Mining sequential patterns including time intervals. volume 4057, pages 213–220, 2000. URL http://dx.doi.org/10.1117/12.381735. Mohammed J. Zaki. Efficient enumeration of frequent sequences. In Proceedings of the seventh international conference on Information and knowledge management, pages 68–75. ACM, 1998. URL http://dl.acm.org/citation.cfm?id=288643. Mohammed J. Zaki. Scalable algorithms for association mining. IEEE Transactions on Knowledge and Data Engineering, 12(3):372–390, 2000. URL http://ieeexplore. ieee.org/xpls/abs_all.jsp?arnumber=846291. Mohammed J. Zaki. SPADE: An Efficient Algorithm for Mining Frequent Sequences. Machine Learning, 42(1-2):31–60, 2001. ISSN 0885-6125. doi: 10.1023/A:1007652502315. URL http://dx.doi.org/10.1023/A:1007652502315. Qiankun Zhao and Sourav S. Bhowmick. Sequential pattern mining: A survey. Technical Report 2003118, CAIS Nayang Technological University Singapore, 2003. URL http: //www.textedu.ru/tw_files2/urls_6/147/d-146938/7z-docs/5.pdf. Zhou Zhao, Da Yan, and Wilfred Ng. Mining Probabilistically Frequent Sequential Patterns in Large Uncertain Databases. IEEE Transactions on Knowledge and Data Engineering, 99(PrePrints):1, July 2013. ISSN 1041-4347. doi: 10.1109/TKDE.2013. 124. URL http://doi.ieeecomputersociety.org/10.1109/TKDE.2013.124. Yu Zheng, Lizhu Zhang, Zhengxin Ma, Xing Xie, and Wei-Ying Ma. Recommending friends and locations based on individual location history. ACM Transactions on the Web, 5(1):1–44, February 2011. ISSN 15591131. doi: 10.1145/1921591.1921596. URL http://portal.acm.org/citation.cfm?doid=1921591.1921596. 128Rui Feng Zhu and Tadao Takaoka. A technique for two-dimensional pattern matching. Communications of the ACM, 32(9):1110–1120, 1989. URL http://dl.acm.org/ citation.cfm?id=66459. Jacob Ziv and Abraham Lempel. Compression of individual sequences via variablerate coding. Information Theory, IEEE Transactions on, 24(5):530–536, 1978. ISSN 0018-9448. 129Benchmarks of Supervised Classification Algorithms for Next Place Prediction A.1 The Next Place Prediction Problem This annex illustrates our efforts undertaken in the context of the Nokia Mobile Data Challenge (MDC, Laurila et al. [2012]) task 2 “Next Place Prediction”. Our aim is to assess the performance of some well explored statistical algorithms chosen according to our expectations of their suitability, as well as classic “benchmark” approaches. This allows the selection of the most accurate algorithm for the prediction task, and a general judgement on the suitability of the approaches for this task. A step of pre-treatment of the MDC dataset is required to generate a subset of data that is suitable for training a statistical model using the algorithms explored. This treatment consists of a combination of two global – being applied equally to all users – filters, the first of which is an a priori “2D” feature selection, and the second a projection of these values into a 1D feature vector. Subsequently two statistical methods of feature selection are evaluated on this vector on per user basis. This pre-processing step is documented in the second section. The third section contains a brief presentation of the algorithms examined and their respective evaluation results. The final section summarizes the results and contains our conclusions. A.2 Dataset Analysis The MDC dataset [Laurila et al., 2012] is highly heterogeneous in nature. This stems both from the peculiarities of the group providing the data, and from the challenges of leading a large scale acquisition campaign. The most obvious heterogeneity lies in the 130difference of sizes of the per-user data sets: around 620 MB±320 MB in human readable, tabulator separated value format. Additionally, different users have made different use of the phone capabilities, leading to different distributions of useful data, e.g. some users not using the calendar functionality of their phone, and others using it extensively. The size of the dataset is also an important quantity: the “width” – i.e. the number of different data sources – is large (around 75 features), but the actual number of training cases (per individual) for the next place prediction task is fairly small (between 100 and 1500). This means that statistical analysis is more likely to be influenced by outliers, potentially leading to inadvertent overfitting of models and in general a higher error for the smaller sub-datasets. The data itself can also be unreliable: there are intervals of missing data and occasionally the data does not pass basic sanity tests, e.g. a time zone changing by many hours, during a single visit. The hardware homogenity at least allows for some transversal coherency of the gathered data, but this is of little consequence for the next place prediction. We propose a three-step approach for the preparation of this data, that consists of two a priori selection, and a final statistic filtering, using either the consistency criterion proposed by Liu and Setiono [1996] or a correlation-based feature selector (Cfs, [Hall, 1999]). In the first step we select twelve features, that should influence or indicate the decision which location is going to be visited next, according to our global conceptual model. From the 75 features available, this is the subset used as base of the model: ❼ hour of the day and day of the week – based on the assumption that certain visits will have a regularity in time, which is the case in non-shift workers and students; ❼ place id – based on the assumption, that some places are visited exclusively after a visit of another place; ❼ bluetooth devices – can link to sub-locations of a visit, transportation choice or the social environment; ❼ applications used – a mapping application may strongly correlate with first-time visits, the messaging application may provide information on a social link; ❼ call / message type – an outgoing or incoming phone call or message influence the choice of next location; ❼ call duration – the length of a phone call is expected to be an indicator of the social link between call participants; ❼ call / message contact – the contact can be an indicator of the next destination; 131❼ movement of the phone – is an indicator of physical activity, which could indicate a destination; ❼ charging state – if the phone is charged at a place, it can be expected that the next place is less likely to have charging facilities available, or that a long transition will follow; ❼ battery level – if the battery level at departure is low, the next location is likely to be a place with charging facilities, and close by; ❼ calendar event titles – both the knowledge that a calendar event is linked to the current place and visit, as well as the next known calendar event are clearly hints at the following destination. As most of these values are time dependant during a visit, the next step is to project the key information of these twelve features into a single characteristic vector. Here again the choices were made based on expected utility and with the goal of minimizing the features to limit noise and computational effort required. Per visit, the hour of day and day of week values were retained for both the beginning and end of the visit. The two most frequently encountered bluetooth addresses were recorded, as well as the two most frequently used phone applications. The details of the last communication (incoming/outgoing, message/call and contact ID), the sum of all acceleration values with a log weighting favouring the end of the visit, the portion of the visit that the phone was connected to the charger, the mean battery level as well as the battery level at the end of the visit and any calendar event during the following 24 hours and the first calendar event planned for the current visit. On average 59.6% (±14.3) of recorded visits were to the two most visited locations. More than one third of visits, 37.2% (±11.2), were to the most visited location. This value represents a lower boundary for prediction precision, when using the training set for evaluation. Around one sixth of the visits were to places that had an incidence rate below one percent. These were grouped as a single location, which, when predicted, are considered to be a new location. A.3 Next Visit Prediction It is currently beyond the scale of physical and logical modelling to emulate the decisionmaking process of a person, even if their complete context and history are known. In addition our knowledge of users and their context are imperfect. Even logical links 132Table A.1.: Classifier and Filter Configurations Tested Classifier Classifier Explicit Multiclass Settings Schemes NaiveBayes [John and Langley, 1995] Kernel estimator none (“NB”) 1-1 (“M3”) 1-all (“M0”) LADTree [Holmes et al., 2001] 10 or 20 Boosts none (“LAD”) 1-1 (“M3”) 1-all (“M0”) SMO [Platt, 1999] Complexity parameter none C = 0.5 or 10 1-1 (“M3”) Polynomial Kernel 1-all (“M0”) with exponent E = 1.0 or 2.0 between a decision and known context cannot be certainly established; at best different correlation measures could be calculated. As a result, there is no clear a priori indication which statistical classification model is best applicable to this process. Hence an empirical, iterative approach is the way we choose to obtain a predictor with optimal accuracy. A common evaluation scenario similar to the test scenario was chosen, dividing the training set along a 90%/10% split. The first 90% were used as training set, which was then evaluated on the other 10%. The evaluation metric is the ratio and number of correct predictions. Our interpretation of the problem as a multi-class classification problem, with asymmetrically sized classes and a mixed characteristic vector, containing both numerical and nominal values, permitted us to evaluate the naive Bayesian approach [John and Langley, 1995], the LogitBoost alternating decision (LAD, [Holmes et al., 2001]) tree classifier and a support vector machine based classifier, the sequential minimal optimization (SMO, [Platt, 1999]) algorithm. These methods represent three different approaches to statistical modelling and are all flexible enough to accept our dataset without modification. The specific configurations are referenced in Table 1. Additionally we tested four configurations of the feature vector, a basic vector using just the time and location information of the previous visit (time of day and day of week of both beginning and end of the visit and location), the extended vector (labeled “full” in the graphs) including the context data mentioned above, and two reduced vectors, using the features selected by either the correlation based feature selection filter (labelled “Cfs”) or consistency based feature selection [Liu and Setiono, 1996] filter (labelled “Consist”). For each filter 13330 35 40 45 50 55 Mean Number of Correct Predictions Relative Accuracy (%) Figure A.3.1.: Results for the Naive Bayes Classification Algorithm we were able to use an exhaustive search algorithm, due to our limited feature set size. These four variants allow us to show the impact of the availability of additional context information as well as what can be achieved by filtering on a per user level. To cater to the multi-class nature of the task, we used each algorithm’s natural multiclass approach, and also put in place two variants that forced the classifiers to function in 1-against-all (labelled M0 in the graphs) and 1-against-1 (labelled M3) mode. For our experiments, we used the Weka statistics suite [Hall et al., 2009]. In the following we present the results of our evaluation of a total of 84 different con- figurations. We constrain ourself to two evaluation scores: mean absolute accuracy, i.e. the average number of correct predictions, and mean relative accuracy, i.e. the average percentage of correct predictions. The former is a closer indicator of the algorithm’s performance for the challenge, the latter is a better measure of overall user experience. Significantly larger numbers of boost iterations for the LADtree could not be used, as the data set for some users is too small. The partial results we did obtain were not indicative of precision enhancements. Similarly, our attempts to run exhaustive error correction multiclass classifiers were foiled by the large size of other user’s data sets, which required more than 4GB of memory. Looking at the results of the naive Bayes classifier (see Fig. A.3.1), it becomes obvious, that it is negatively impacted (losing around 5 percent points of average accuracy) by the additional context information, unless it is filtered. Otherwise, results vary very little: mean accuracy is between 49% and 52%, the average number of correct predictions varies between 30 and 31 for the full feature vector and between 32.5 and 35 in the other configurations. Specifically, the minimalist dataset has the same average accuracy as the feature selection filtered variants of the full dataset. 134Figure A.3.2.: Results for the LogitBoost Adaptive Decision Tree Classification Algorithm Figure A.3.3.: Results for the SMO Classification Algorithm without Feature Selection Filters The LADtree (see Fig. A.3.2) model is the most stable of all tested algorithms, and appears to perform almost independently of the additional data. Mean accuracy is consistently between 49 and 52 percent and there are between 33 and 35 (one outlier at 31.4) average correct predictions. Two configurations (10x Boosting on the full dataset and 10x Boosting on the minimal dataset in a 1 - 1 multiclass classifier) exceed a mean correct prediction count of 35, equivalent to over 2800 correct predictions on our test dataset. Overall, LADtree performs the most consistent manner and is the most accurate, but only barely exceeds the results from the Naive Bayesian approach. Most of the results of our evaluations of the SMO algorithm (see Figs. A.3.3 and A.3.4) are disappointing, especially when using any of the two tested feature selection filters. Also, using a 1 - all multi-class approach decreased accuracy noticeably, leading to some 135Figure A.3.4.: Results for the SMO Classification Algorithm with Feature Selection Filters of the weakest results of our evaluation. Nonetheless, without feature selection filters, on the reduced dataset, and either forced 1 - 1 multi-class classification or the native 1 - 1 multi-class approach of SMO, results exceeding 50% mean accuracy could be achieved. Any additional data in the training set decreased accuracy. A.4 Conclusion The approaches we examined here only show marginal differences in performance, when only the most accurate configurations are taken into account. Nonetheless, the overall best algorithm in our testing set of three is the LADtree classifier. Regarding the feature selection, correlation based feature selection appears to perform consistently better than consistency based filtering. Also, a LogitBoost decision tree model performs slightly better with 10 boosting iterations, than with 20 iterations - in the majority of cases. The around 50% accuracy of the predictions observed during our evaluations, lead us to believe that a dedicated hybrid modelling approach, optimised just to predict the two most frequently visited locations, may achieve higher accuracies than we obtained during our series of evaluations. Given the constrained time resources given by the challenge, and the complexity and heterogeneity of the dataset, we decided to first examine the necessity of following a dedicated modelling approach. One example of a possible adaptation, would be the development of dedicated estimators for each feature, when using a naive Bayes classifier. For example the cyclic nature of the temporal 136features are currently not being correctly taken into account. Another important observation is the fact that adding what appeared to be – from an a priori stand point – a useful set of features extracted from the context to the classification process has little to no value in all three prediction models we examined. The relatively low number of training instances makes observation of strong correlations unlikely, which in turn reduces the predictive capability of any model based on this data. While our examination was by no means exhaustive, we see no basis to expect major gains using a similar approach, with more extensive, iterative tuning. It therefore appears that the extended conceptual model we based our feature extraction process on, was not matched by any of the statistical models we evaluated during this work. 137Details on the evaluation processes B.1 Real world data B.1.1 Similarity score tables These are the similarity scores used for the alignment of our real world dataset. The value 0 in each table represents the place holder value, if a sensor had no (valid) reading at this point in time. 138Table B.1.: Similarity score table for luminance 0 1 2 3 4 5 6 7 8 9 10 0 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 -1 4 -9 -8 -9 -9 -10 -9 -10 -10 -10 2 -1 -9 3 -7 -8 -9 -9 -9 -9 -9 -9 3 -1 -8 -7 3 -8 -9 -10 -9 -9 -9 -10 4 -1 -9 -8 -8 3 -9 -10 -9 -9 -10 -10 5 -1 -9 -9 -9 -9 3 -9 -9 -9 -9 -8 6 -1 -10 -9 -10 -10 -9 1 -10 -7 -10 -7 7 -1 -9 -9 -9 -9 -9 -10 1 -7 -10 -8 8 -1 -10 -9 -9 -9 -9 -7 -7 3 -10 -10 9 -1 -10 -9 -9 -10 -9 -10 -10 -10 2 -7 10 -1 -10 -9 -10 -10 -8 -7 -8 -10 -7 2 Table B.2.: Similarity score table for proximity 0 1 2 0 1 -1 -1 1 -1 2 -5 2 -1 -5 2 Table B.3.: Similarity score table for places 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 -1 6 -9 -10 -9 -9 -10 -10 -9 -10 -10 -10 -9 -9 -10 2 -1 -9 3 -9 -8 -9 -10 -9 -9 -10 -9 -10 -8 -9 -10 3 -1 -10 -9 2 -10 -9 -10 -9 -7 -10 -10 -10 -8 -9 -10 4 -1 -9 -8 -10 3 -8 -9 -9 -8 -10 -10 -10 -8 -9 -10 5 -1 -9 -9 -9 -8 5 -9 -8 -10 -10 -9 -10 -9 -8 -10 6 -1 -10 -10 -10 -9 -9 5 -8 -9 -10 -9 -10 -9 -9 -10 7 -1 -10 -9 -9 -9 -8 -8 5 -9 -10 -10 -10 -10 -9 -10 8 -1 -9 -9 -7 -8 -10 -9 -9 6 -9 -9 -10 -9 -9 -9 9 -1 -10 -10 -10 -10 -10 -10 -10 -9 5 -8 -10 -10 -8 -10 10 -1 -10 -9 -10 -10 -9 -9 -10 -9 -8 6 -10 -10 -8 -10 11 -1 -10 -10 -10 -10 -10 -10 -10 -10 -10 -10 7 -10 -9 -10 12 -1 -9 -9 -8 -8 -9 -9 -10 -9 -10 -10 -10 2 -8 -10 13 -1 -9 -9 -9 -9 -8 -9 -9 -9 -8 -8 -9 -8 5 -9 14 -1 -10 -10 -10 -10 -10 -10 -10 -9 -10 -10 -10 -10 -9 7 139Table B.4.: Similarity score table for battery levels 0 1 2 3 4 5 6 7 8 0 1 -1 -1 -1 -1 -1 -1 -1 -1 1 -1 1 -1 -4 -3 -5 -1 -6 -2 2 -1 -1 1 -5 -4 -6 -2 -7 -3 3 -1 -4 -5 1 -1 -1 -3 -2 -2 4 -1 -3 -4 -1 1 -3 -2 -4 -1 5 -1 -5 -6 -1 -3 1 -4 -1 -2 6 -1 -1 -2 -3 -2 -4 1 -5 -1 7 -1 -6 -7 -2 -4 -1 -5 1 -3 8 -1 -2 -3 -2 -1 -2 -1 -3 1 Table B.5.: Similarity score table for orientation values 0 1 2 3 4 5 6 7 8 0 1 -1 -1 -1 -1 -1 -1 -1 -1 1 -1 2 -8 -7 -8 -4 -7 -7 -9 2 -1 -8 4 -7 -9 -7 -9 -8 -9 3 -1 -7 -7 2 -8 -4 -7 -7 -9 4 -1 -8 -9 -8 4 -8 -9 -9 -8 5 -1 -4 -7 -4 -8 4 -9 -8 -9 6 -1 -7 -9 -7 -9 -9 3 -5 -9 7 -1 -7 -8 -7 -9 -8 -5 4 -9 8 -1 -9 -9 -9 -8 -9 -9 -9 4 140B.1.2 Detailed results of the alignment algorithm evaluation on synthetic data These are the detailed result for the 5 datasets and 27 configurations used for the synthetic evaluation, for the three metrics which have thus far only been presented in aggregated form. 141d-set 1 d-set 2 precision size ratio recall precision size ratio recall index mean err mean err mean err mean err mean err mean err 0 0.42 0.32 4.13 2.73 1.00 0.00 0.91 0.20 1.23 0.65 1.00 0.00 1 0.89 0.21 1.32 0.93 1.00 0.00 0.96 0.10 1.06 0.25 1.00 0.00 2 0.82 0.30 1.82 1.99 1.00 0.00 0.95 0.13 1.09 0.34 1.00 0.00 3 0.89 0.21 1.29 0.81 1.00 0.00 0.97 0.09 1.06 0.24 1.00 0.00 4 0.45 0.39 5.86 5.50 1.00 0.00 0.55 0.33 3.03 2.61 1.00 0.00 5 0.50 0.39 5.25 5.31 1.00 0.04 0.88 0.23 1.38 1.02 1.00 0.00 6 0.68 0.36 2.81 3.25 1.00 0.00 0.92 0.18 1.18 0.55 1.00 0.00 7 0.23 0.26 8.92 5.61 1.00 0.00 0.42 0.33 4.43 3.24 0.98 0.07 8 0.23 0.26 8.99 5.64 1.00 0.00 0.63 0.37 2.97 2.75 0.99 0.06 9 0.54 0.39 4.69 5.07 0.99 0.07 0.79 0.30 1.74 1.46 1.00 0.02 10 0.85 0.27 1.53 1.27 1.00 0.04 0.94 0.15 1.13 0.42 1.00 0.00 11 0.91 0.19 1.23 0.73 1.00 0.00 0.95 0.12 1.08 0.29 1.00 0.00 12 0.51 0.36 3.70 2.86 1.00 0.00 0.70 0.32 1.95 1.24 1.00 0.00 13 0.58 0.37 3.09 2.53 1.00 0.06 0.90 0.20 1.24 0.64 1.00 0.00 14 0.77 0.32 1.89 1.60 1.00 0.00 0.93 0.16 1.16 0.47 1.00 0.00 15 0.39 0.31 4.35 2.68 1.00 0.00 0.58 0.34 2.50 1.51 0.99 0.04 16 0.49 0.36 3.72 2.75 1.00 0.07 0.71 0.32 1.92 1.22 1.00 0.00 17 0.57 0.36 2.98 2.22 1.00 0.02 0.85 0.25 1.41 0.78 1.00 0.01 18 0.39 0.37 8.68 10.54 1.00 0.00 0.89 0.22 1.30 0.77 1.00 0.00 19 0.79 0.32 2.22 3.11 1.00 0.01 0.94 0.14 1.12 0.40 1.00 0.00 20 0.36 0.39 11.26 12.35 1.00 0.00 0.49 0.35 5.38 6.90 1.00 0.00 21 0.48 0.40 8.45 11.74 1.00 0.00 0.86 0.25 1.43 1.14 1.00 0.00 22 0.70 0.38 4.50 8.19 1.00 0.00 0.93 0.17 1.16 0.52 1.00 0.00 23 0.26 0.34 17.55 14.69 1.00 0.00 0.29 0.34 10.44 8.49 0.98 0.08 24 0.26 0.34 17.89 14.89 1.00 0.00 0.30 0.34 10.29 8.45 0.98 0.07 25 0.47 0.40 8.88 12.30 0.99 0.08 0.76 0.32 2.17 2.84 1.00 0.02 26 0.37 0.33 5.83 4.86 1.00 0.00 0.91 0.20 1.24 0.67 1.00 0.00 d-set 3 d-set 4 0 0.17 0.10 6.96 2.66 0.96 0.13 0.45 0.32 3.66 2.56 1.00 0.00 1 0.04 0.06 6.13 7.33 0.21 0.26 0.90 0.22 1.33 1.02 1.00 0.00 2 0.15 0.16 6.52 5.70 0.63 0.37 0.77 0.32 2.11 2.39 1.00 0.02 3 0.08 0.11 5.28 4.58 0.34 0.35 0.91 0.21 1.27 0.81 1.00 0.00 4 0.11 0.10 6.93 4.86 0.68 0.42 0.30 0.33 8.03 5.72 1.00 0.00 5 0.16 0.20 4.17 4.20 0.48 0.44 0.49 0.38 5.33 5.42 0.99 0.10 6 0.13 0.15 4.40 3.29 0.52 0.44 0.70 0.36 2.77 3.16 1.00 0.02 7 0.10 0.05 10.07 6.50 0.78 0.31 0.30 0.31 7.36 5.34 1.00 0.00 8 0.10 0.06 10.34 6.51 0.81 0.28 0.31 0.32 7.34 5.37 1.00 0.009 0.20 0.31 2.80 1.56 0.41 0.47 0.50 0.38 4.97 5.14 0.99 0.09 10 0.09 0.09 4.22 2.58 0.42 0.42 0.82 0.28 1.58 1.22 1.00 0.00 11 0.06 0.12 3.59 2.24 0.25 0.39 0.91 0.21 1.24 0.69 1.00 0.00 12 0.15 0.10 4.33 2.22 0.71 0.43 0.43 0.32 3.98 2.72 1.00 0.00 13 0.23 0.18 3.41 2.15 0.69 0.40 0.60 0.37 2.93 2.35 0.99 0.12 14 0.16 0.20 3.27 2.01 0.46 0.45 0.75 0.32 1.92 1.59 1.00 0.00 15 0.13 0.06 5.94 2.48 0.78 0.33 0.49 0.34 3.60 2.60 1.00 0.00 16 0.23 0.18 2.95 1.49 0.63 0.40 0.50 0.36 3.71 2.75 0.98 0.13 17 0.26 0.28 2.97 1.71 0.60 0.42 0.62 0.37 2.87 2.39 1.00 0.00 18 0.05 0.05 12.08 7.45 0.51 0.18 0.16 0.20 17.17 14.66 1.00 0.00 19 0.06 0.08 7.89 8.96 0.27 0.26 0.73 0.35 2.92 4.75 1.00 0.03 20 0.09 0.09 11.88 11.49 0.64 0.39 0.20 0.29 18.45 14.15 1.00 0.00 21 0.12 0.15 5.31 5.28 0.44 0.41 0.44 0.40 9.92 12.32 1.00 0.04 22 0.10 0.13 5.72 5.24 0.41 0.41 0.67 0.39 5.05 8.81 1.00 0.04 23 0.10 0.09 17.29 16.14 0.83 0.23 0.15 0.24 21.38 14.20 1.00 0.00 24 0.14 0.18 16.43 16.20 0.80 0.26 0.15 0.24 21.37 14.21 1.00 0.00 25 0.17 0.24 3.09 1.96 0.44 0.44 0.44 0.39 9.77 12.88 0.99 0.08 26 0.08 0.07 7.55 3.85 0.56 0.25 0.27 0.28 7.52 5.27 1.00 0.00 d-set 5 0 0.82 0.24 0.33 0.14 0.25 0.06 1 0.48 0.11 0.39 0.12 0.18 0.04 2 0.67 0.34 0.36 0.13 0.24 0.13 3 0.42 0.12 0.41 0.13 0.16 0.04 4 0.46 0.11 0.41 0.14 0.18 0.04 5 0.52 0.10 0.39 0.11 0.19 0.04 6 0.37 0.10 0.48 0.09 0.17 0.03 7 8 9 0.29 0.03 0.49 0.09 0.14 0.02 10 0.77 0.26 0.38 0.16 0.28 0.10 11 0.65 0.36 0.36 0.12 0.24 0.14 12 0.44 0.10 0.38 0.12 0.16 0.04 13 0.46 0.13 0.46 0.15 0.20 0.04 14 0.44 0.10 0.34 0.10 0.15 0.04 15 0.42 0.14 0.48 0.14 0.18 0.01 16 0.81 0.24 0.34 0.17 0.25 0.06 17 0.75 0.26 0.40 0.18 0.28 0.10 18 0.66 0.35 0.36 0.14 0.24 0.13 19 0.43 0.11 0.40 0.13 0.16 0.04 20 0.51 0.11 0.35 0.10 0.17 0.0321 0.33 0.09 0.49 0.13 0.16 0.03 22 0.31 0.11 0.55 0.18 0.15 0.03 23 0.39 0.04 0.36 0.05 0.14 0.03 24 0.82 0.24 0.34 0.16 0.25 0.06 25 0.75 0.27 0.39 0.17 0.28 0.10 26B.1.3 Expert annotated patterns These are the reference patterns identified through visual examination of the dataset of one participant of our data collection campaign. They were selected through side by side comparison of data for all days, and identifying similar visual structures in the bar diagrammes. Pattern 1 (Fig. B.1.1) corresponds to the campaign participant spending a weekend evening and night at the out-of-town second home. Pattern 2 (Fig. B.1.2) is one of the instances of the campaign participant getting up in the morning and going to work. Pattern 3 (Fig. B.1.3) is slightly more tenuous: it covers only the proximity sensor and location, and corresponds to the campaign participant being at work and busy, hence the phone is stored away, with the screen covered. 14502468 10 12 14 23:02 23:08 23:15 23:21 23:28 23:35 23:41 23:48 23:54 0:01 0:09 0:16 0:23 0:29 0:36 0:42 0:49 0:55 1:02 1:11 1:15 1:22 1:28 1:35 1:41 1:50 1:57 2:03 2:10 2:16 2:23 2:29 2:36 2:42 2:49 2:56 3:02 3:09 3:15 3:22 3:28 3:37 3:41 3:50 3:57 Ori Batt Geo prox loglux date