odèle évolutif d’un profil utilisateur
Application à la Recherche d’Information dans une
bibliothèque numérique de thèses
Suela BERISHA-BOHE, Béatrice RUMPLER
INSA - Lyon, LIRIS
7, Avenue Jean Capelle,
Bâtiment 502 – Blaise Pascal
F69621 Villeurbanne Cedex
{suela.bohe; beatrice.rumpler}(à)insa-lyon.fr
RÉSUMÉ. La prise en compte des besoins, des intentions et des spécificités cognitives,
culturelles ou autres, qui caractérisent le profil d’un utilisateur constitue un élément
déterminant pour améliorer la pertinence des réponses lors d’une session de Recherche
d’Information dans de grandes bases de documents. La modélisation des profils et la manière
de les adapter à différents utilisateurs qui n’ont pas une idée précise sur l’information qu’ils
recherchent, nous permet d’offrir un accès personnalisé au contenu de documents
scientifiques fondé sur l’exploitation du profil d’utilisateur. Nous proposons dans cet article,
un modèle de l’utilisateur fondé sur les connaissances et un système implémentant le
raisonnement à partir des cas, pour acquérir ces connaissances, les structurer et les faire
évoluer.
ABSTRACT. Taking into account the needs, the intention and cognitive, cultural or
various specificities to characterize the user profile, is a major challenge to improve
the relevance of information retrieval systems. The users’ models and the way to
adapt them to different users (who need help to build their request during query
processing) allow using a personalised access to scientific documents based on user
profile. So, we propose a user model based on users’ knowledge and users’
preferences. We have defined a system based on CBR to capture users’ preferences
and knowledge, to structure them and to manage the user profile evolution. We
validate some results by means of a prototype.
MOTS-CLÉS : Profil utilisateur, Modèle utilisateur, Recherche d’information, RaPC,
Personnalisation de l’information.
KEYWORDS: User profile, User model, Information Retrieval, CBR, Personalization of
information 1. Introduction
Nous avons exploré diverses pistes pour permettre un accès pertinent au contenu
des thèses scientifiques de la bibliothèque numérique de DOC’INSA de L’INSA de
Lyon, mises en ligne par le système CITHER (http://csidoc.insa-lyon.fr/these/).
Premièrement, nous avons défini un modèle de document fondé sur l’intégration
de balises sémantiques dans le corpus des thèses [Abascal, 2005] [Berisha-Bohé,
2005]. Ainsi, il est devenu possible d’extraire, grâce à ce balisage sémantique, les
parties correspondant au mieux à un concept ou à une thématique recherchée.
En étudiant la structure d’un certain nombre de thèses, nous avons dégagé et
hiérarchisé une base de concepts du domaine de l’informatique [Abascal, 2005]. Elle
permet de structurer notre domaine d’étude. Les auteurs insèrent les concepts dans le
contenu des thèses en tant que « tags sémantiques ». Les utilisateurs en recherche
d’information les utilisent pour faciliter la construction de leurs requêtes.
Afin de mieux prendre en compte les besoins des utilisateurs, nous avons défini
un modèle utilisateur permettant d’exploiter son profil et proposons un système de
recherche d’information personnalisé, qui est l’objet principal de ce papier.
Donc, l’objectif est double. Il s’agit d’une part d’améliorer le système actuel, en
offrant la possibilité d’accéder à plusieurs thèses à la fois, en récupérant des extraits
pertinents et correspondant à une unité de corpus plus fine que le chapitre. D’autre
part, nous souhaitons proposer un accès personnalisé et pertinent au contenu des
thèses scientifiques diffusées et ainsi pouvoir donner des réponses pertinentes et
adaptées à l’utilisateur en l’assistant dans la construction de ses requêtes.
Dans la section 2, nous commençons par un état de l’art sur la notion de profil
utilisateur et continuons par une analyse des connaissances utilisateur et par la
construction d’une arborescence de typologie de profil, dans la section 3. Ensuite, un
modèle de l’utilisateur générique fondé sur l’arbre de typologie et sur le
Raisonnement à Partir des Cas est décrit dans la section 4. L’accumulation des
expériences de Recherche d’Information (RI), enrichit le modèle générique qui se
spécialise pour permettre l’évolution du profil tel qu’indiqué dans la section 5. La
section 6, présente un prototype qui intègre nos propositions. Nous terminons
l’article avec un point sur les limites et les avantages de notre système.
2. Notion de « profil de l’utilisateur »
Selon [Gaussier 2003], « toutes les variations qui caractérisent un utilisateur ou
un groupe d'utilisateurs, peuvent se regrouper sous le terme de profil de
l'utilisateur ». Cette proposition, bien que générale, correspond à nos orientations.
Dans un premier temps, nous nous conformons à un des axes du projet de l’ACI
« APMD » (http://apmd.prism.uvsq.fr/), qui porte sur la modélisation et l’évolution Modèle évolutif d'un profil utilisateur 3
des profils. Ce projet préconise une typologie de profil générique fondée sur six
dimensions : données personnelles, domaines d’intérêt, qualité, préférences de
livraisons, sécurité, historique d’exécution. Une partie de ces dimensions se trouve
au niveau 1 de notre modèle (Figure1), qui de plus, est fondé sur des approches,
retenues lors de notre état de l’art (niveaux 2 à 5, Figure1). Ainsi, à partir de la
littérature [Jeribi, 2001], 3 types d’approches ont attiré notre attention.
L’approche sociologique propose un modèle d’actions [Carberry 1994] ou de
tâches, en construisant une hiérarchie de stéréotypes de l’utilisateur. « Un stéréotype
est un trait (ou une caractéristique com