Méthodes Statistiques pour l'Analyse des Données Génétiques d'Association à Grande Échell

ou juste avant la balise de fermeture -->

 

 

10% de réduction sur vos envois d'emailing --> CLIQUEZ ICI

Retour à l'accueil, cliquez ici

ou juste avant la balise de fermeture -->

Source : http://www.math-info.univ-paris5.fr/~nuel/these_guedj.pdf

Voir également :

TITRE

ou juste avant la balise de fermeture -->

 

 

10% de réduction sur vos envois d'emailing --> CLIQUEZ ICI

Retour à l'accueil, cliquez ici

ou juste avant la balise de fermeture -->

Laboratoire Statistique et Génome 2007EVRY0015 Thèse CIFRE présentée pour l'obtention du titre de Docteur de l'Université d'Évry-Val d'Éssone en Statistique Génétique par Mickaël Guedj Méthodes Statistiques pour l'Analyse des Données Génétiques d'Association à Grande Échelle Soutenue le 13 Juillet 2007 devant le jury composé de : Directeurs de thèse : Grégory Nuel Maître de Conférence en Statistique à l'Université d'Évry-Val D'Éssone Bernard Prum Professeur de Statistique à l'Université d'Évry-Val D'Éssone Encadrant Serono : Jérôme Wojcik Responsable de la Bioinformatique chez Serono, Génève Présidente du jury : Florence Demenais Directrice d'unité INSERM, Evry Rapporteurs : David Balding Professeur de Statistique à l'Imperial College de Londres Avner Bar-Hen Professeur de Statistique à l'Université de Paris XIII Examinateurs : Françoise Clerget Directrice d'unité INSERM, Villejuif Jean-François Zagury Professeur de Bioinformatique au Centre National des Arts et Métiersi Remerciements Je tiens à remercier en premier lieu Grégory Nuel pour avoir dirigé ce travail de thèse en y apportant ses compétences en Statistique et Algorithmique ainsi que son point de vue sur la Génétique. Travailler sous sa direction a été très enrichissant, tant par ses qualités d'enseignant que de chercheur, ainsi que pour l'énergie et l'engouement dont il sait faire preuve. Je remercie également Bernard Prum pour sa pédagogie, sa gentillesse, et pour les responsabilités qu'il m'a conées, me permettant ainsi de prendre pleinement part à l'essor de la thématique Statistique Génétique au sein de son équipe. Je voudrais remercier Jérôme Wojcik pour son encadrement au sein de Serono, ses suggestions, ainsi que pour l'intérêt qu'il a continuellement manifesté envers mon travail en l'intégrant aux projets de recherche de Serono. Je remercie également Hiroaki Tanaka pour avoir largement contribué à initier l'échange scientique entre Serono et le laboratoire Statistique et Génome et donc permis la réalisation de cette thèse à l'interface de ces deux entités de recherche. De manière plus générale, je suis très reconnaissant envers l'ensemble de ces responsables pour le temps et la liberté de travail qu'ils ont su m'accorder. Je remercie les membres du jury pour m'avoir fait l'honneur de leur présence à ma soutenance et m'avoir permis, par leurs conseils et leurs remarques, de terminer la rédaction de ce manuscrit. Je remercie les personnes avec qui j'ai eu l'occasion de discuter ou de collaborer et qui ont ainsi largement contribué à ce travail. En particulier je voudrais remercier K Forner, D Robelin, F Picard, E Della-Chiesa, M Hoebeke, M Lamarine, H Aschard, J Dauvillier, V Mièle, C Ambroise, S Robin, S Lèbre, C Matias, A Guilbot, C Stalens, Y Slaoui, B Junot, M Baudry et M Ilbert ainsi que l'ensemble du personnel du laboratoire Statistique et Génome et de Serono. Je suis très reconnaissant envers le CNRS, l'INRA, l'Université d'Evry-Val d'Essonne, Serono et l'ANRT pour avoir nancé ma thèse ainsi que les nombreux déplacements qu'elle a suscités. Je voudrais remercier une dernière fois les responsables de Serono ainsi que lesii membres du comité GAW-15 1 pour m'avoir permis de disposer librement de leur données. Enn, pour leur soutien non-scientique mais non moins signicatif, je tiens à remercier mes parents, mon frère, la famille Pecnik, Natassia, Arielle, Claire, Émilie, Johanne, William et les BIMs. 1 en la personne de Michael Miller et du support apporté par NIH grants 5RO1-HL049609-14, 1201- AG021917-01A1, l'université du Minnesota, le Minnesota Supercomputing Institute et le GAW grant R01-GM031575.iii Résumé Les avancées en Biologie Moléculaire ont accéléré le développement de techniques de génotypage haut-débit et ainsi permis le lancement des premières études génétiques d'association à grande échelle. La dimension et la complexité des données issues de ce nouveau type d'étude posent aujourd'hui de nouvelles perspectives statistiques et informatiques né- cessaires à leur analyse, constituant le principal axe de recherche de cette thèse. Après une description introductive des principales problématiques liées aux études d'association à grande échelle, nous abordons plus particulièrement les approches simplemarqueur avec une étude de puissance des principaux tests d'association, ainsi que de leur combinaisons. Nous considérons ensuite l'utilisation d'approches multi-marqueurs avec le développement d'une méthode d'analyse fondée à partir de la statistique du Score Local. Celle-ci permet d'identier des associations statistiques à partir de régions génomiques complètes, et non plus des marqueurs pris individuellement. Il s'agit d'une méthode simple, rapide et exible pour laquelle nous évaluons les performances sur des données d'association à grande échelle simulées et réelles. Enn ce travail traite également du problème du test-multiple, lié au nombre de tests à réaliser lors de l'analyse de données génétiques ou génomiques haut-débit. La méthode que nous proposons à partir du Score Local prend en compte ce problème. Nous évoquons par ailleurs l'estimation du Local False Discovery Rate à travers un simple modèle de mélange gaussien. L'ensemble des méthodes décrites dans ce manuscrit ont été implémentées à travers trois logiciels disponibles sur le site du laboratoire Statistique et Génome : fueatest, LHiSA et kerfdr.iv Résumév Abstract The increasing availability of dense Single Nucleotide Polymorphisms (SNPs) maps due to rapid improvements in Molecular Biology and genotyping technologies have recently led geneticists towards genome-wide association studies with hopes of encouraging results concerning our understanding of the genetic basis of complex diseases. The analysis of such high-throughput data implies today new statistical and computational problematics to face, which constitute the main topic of this thesis. After a brief description of the main questions raised by genome-wide association studies, we deal with single-marker approaches by a power study of the main association tests and their combination. We consider then the use of multi-markers approaches by focusing on the method we developed which relies on the Local Score. This sum statistic identies associations between regions and the disease instead of marker considered individually. It represents a simple, fast and exible method for which we assess the eciency based on simulated and real genome-wide association data. Finally, this thesis also deals with the multiple-testing problem attached to the number of independent tests performed for the analysis of high-throughput data. Our Local Score-based approach circumvents this problem by reducing the number of tests. In parallel, we present an estimation of the Local False Discovery Rate by a simple Gaussian mixed model. The methods described in this manuscript are implemented in three softwares available on the website of the Statistique et Génome laboratory : fueatest, LHiSA and kerfdr.vi Abstractvii Table des matières Remerciements i Résumé iii Abstract v Préambule 1 Contexte et objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Plan de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1 Introduction 5 1.1 Préceptes de Statistique : le test d'hypothèse . . . . . . . . . . . . . . . . . 6 1.2 Préceptes de Génétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3 Épidémiologie Génétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.4 Cadres d'étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.5 Déroulement d'une étude d'association genome-wide . . . . . . . . . . . . . 22 1.6 Contrôle qualité : validité et abilité des résultats . . . . . . . . . . . . . . 28 2 Approches simple-marqueur 39 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2 Association statistique et tests d'indépendance . . . . . . . . . . . . . . . . 41 2.3 Tests d'association marqueur-maladie . . . . . . . . . . . . . . . . . . . . . 51 2.4 Étude de puissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.5 Cas particulier du test allélique . . . . . . . . . . . . . . . . . . . . . . . . 69 2.6 Cas particulier du test d'Hardy-Weinberg . . . . . . . . . . . . . . . . . . . 77 2.7 FDR Local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 2.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 3 Approches multi-marqueurs 103 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 3.2 Approches multi-locus existantes . . . . . . . . . . . . . . . . . . . . . . . 106 3.3 Score Local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 3.4 Algorithme LHiSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 3.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 3.6 Discussion sur le Score Local . . . . . . . . . . . . . . . . . . . . . . . . . . 132 3.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134viii Table des matières 4 Conclusions 137 4.1 Conclusions générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 4.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 4.3 De l'Épidémiologie Génétique à l'Épidémiologie Génomique . . . . . . . . . 144 Communication scientique 147 Annexes 189 Bibliographie 2001 Préambule Contexte et objectifs Les industries pharmaceutiques ont toujours eu pour objectif de développer des mé- thodes permettant la production de nouvelles molécules thérapeutiques. Depuis longtemps et encore aujourd'hui, l'approche pharmacologique privilégiée consiste à choisir un grand nombre de molécules en suivant un cahier des charges, de les tester et d'en observer les eets. On parle alors de criblage ou screening. Si celui-ci a dans le passé largement fait ses preuves, il commence à montrer ses limites face à de nouvelles approches s'appuyant sur la compréhension des mécanismes biologiques à l'origine des maladies. En eet, on sait aujourd'hui qu'un grand nombre de pathologies ont une composante génétique. Une séquence d'ADN pouvant être représentée comme une succession de lettres {a,t,g et c} appelées bases, en une même position d'un chromosome ou locus, on pourra trouver diérentes versions du texte génétique ou allèles. Dans le cas le plus simple, le changement d'un allèle en un locus donné peut à lui seul être responsable d'une maladie : on parle alors de maladie monogénique ; de manière moins triviale, la maladie dite multi-factorielle ou complexe est le résultat de composantes multi-géniques et environnementales, ce qui est le cas de la plupart des cancers, des maladies psychiatriques, auto-immunes et bien d'autres. Les études épidémiologiques fondées sur la Génétique cherchent donc à localiser les locus de susceptibilité et à en évaluer la responsabilité. Une approche populaire consiste à collecter un échantillon d'individus appelés cas et d'individus non-aectés appelés témoins et de déterminer les positions dans le génome pour lesquelles le texte génétique dière signicativement entre les cas et les témoins. On parle alors d'étude d'association cas-témoins. Il n'est bien entendu pas question aujourd'hui de séquencer le génome entier de tout individu introduit dans l'étude, bien que la faisabilité d'une telle démarche soit de plus en plus concevable. Il s'agit plutôt de travailler à partir d'un jeu de locus appelés marqueurs génétiques, dont la position sur le génome est connue et la conguration génotypique est techniquement facile à déterminer. Les Single Nucleotide Polymorphisms communément appelés SNPs, sont des marqueurs constituant une source d'information génétique riche et abondante. Dénis comme des positions sur le chromosome où le texte génétique varie d'une seule base d'un individu2 Préambule à un autre, ils sont nombreux, apparaissant en moyenne une fois toutes les 2,000 bases le long des 3 milliards de bases qui constituent le génome humain. La diminution à la fois du coût et du temps de génotypage des SNPs a contribué récemment au lancement d'études génétiques d'association à grande échelle permettant d'explorer une part conséquente des polymorphismes génétiques pouvant être impliqués dans les mécanismes biologiques à l'origine des maladies. L'analyse de telles données n'est pas sans soulever de nombreuses questions méthodologiques. A la suite de résultats encourageants sur la schizophrénie mettant en cause les deux gènes G72 et DAAO (Chumakov et al 2002), l'industriel Serono, par l'intermédiaire de son Serono Genetics Institute localisé à Évry, se lance dans une vaste étude d'association castémoins concernant quatre maladies auto-immunes : la sclérose en plaque, la polyarthrite rhumatoïde, le lupus et le psoriasis. Le but est à la fois de comprendre l'étiologie de chaque maladie an de déterminer de nouvelles cibles thérapeutiques, mais aussi de mettre en avant des mécanismes communs aux quatre maladies. Ce projet porte le nom de projet AIM-Scan. A l'origine de Serono Genetics Institute on trouve l'entreprise française de biotechnologies Genset, fondé en 1989 et l'une des premières grandes entreprises présentes sur le site de la génopole d'Evry. En 2002, Genset rejoint le groupe Serono en devient alors le Serono Genetics Institute, lequel compte 130 employés dont 90% sont rattachés à la recherche. En 2006, Serono ferme le site d'Évry et transfert l'ensemble de ses activités à Genève. Début 2007, Serono fusionne avec l'industriel pharmaceutique Merck pour former le groupe Merck-Serono. Pour le projet AIM-Scan, Serono passe un accord avec Aymetrix an d'utiliser avec un temps d'avance les puces de génotypages 100K et 500K développées par l'industriel. Pour chaque maladie, Serono dispose d'échantillons issus de deux à trois populations indépendantes et dont la taille peut aller jusqu'à 1,000 individus cas et témoins. Avec un tel jeu de données en main et voulant se donner toutes les chances de réussir, Serono Genetics Institute se tourne en 2004 vers le laboratoire Statistique et Génome an de mettre en commun leurs expertises respectives des études d'association pour l'un, et de l'analyse statistique des données génomiques pour l'autre. C'est dans ce contexte que se situe cette thèse CIFRE entre l'industriel et le laboratoire. Les objectifs de cette thèse, tels qu'ils ont été dénis à l'origine, ont été d'apporter un support en Statistique ainsi qu'une connaissance de la littérature dans le but d'améliorer la compréhension des méthodes d'analyse des études d'association cas-témoins existantes. Ils ont également été de contribuer au passage à l'analyse de données à grande échelle en y apportant un développement méthodologique adapté, répondant aux besoins identiés par Serono et essentiellement guidé par les exigences soulevées par l'analyse de telles données. L'analyse de données d'association à grande échelle représente une nouvelle thématique de recherche pour le laboratoire Statistique et Génome. Celle-ci a débuté lors de la collaboration avec Serono et s'est concrétisée avec la mise en place de cette thèse CIFRE.Préambule 3 Plan de la thèse Ce manuscrit s'organise principalement autour de quatre grands chapitres. Chaque chapitre s'ouvre sur un énoncé introductif des diérents points qui y sont abordés et se conclut sur une synthèse. Le travail présenté est par ailleurs accompagné d'un développement logiciel conséquent, avec la mise à disposition des méthodes proposées à la communauté. Dans cette esprit, nous traitons à plusieurs reprises de leur mise en oeuvre pratique ; cet aspect nous semble en eet essentiel lorsqu'on est confronté à l'analyse de données mettant en jeu de sérieuses exigences en terme de complexité algorithmique. En- n cette thèse s'appuie principalement sur les données apportées par Serono. Pour des raisons de condentialité évidentes, l'utilisation des données garde une dimension uniquement illustrative et nous n'indiquons en conséquence aucun résultats biologiques obtenus avec nos méthodes. Nous sommes néanmoins très reconnaissants envers les responsables de Serono de nous avoir permis d'utiliser ces données avec autant de liberté. An de faciliter la lecture de ce manuscrit et de la rendre plus uide, les points les plus techniques de Statistique sont ramenés en annexe. Le chapitre 1 est un chapitre d'introduction. Il permet de poser les fondements statistiques et génétiques nécessaires à la compréhension de la démarche scientique sur laquelle s'appuie toute étude en Épidémiologie Génétique. Nous présentons à cette occasion les diérents cadres d'études possibles en insistant sur les principaux. En particulier l'accent est mis sur les études d'association cas-témoins à grande échelle, dont l'analyse constitue la problématique principale de cette thèse. Nous déroulons également les grandes étapes d'une étude : la génération des données, l'analyse statistique, la formulation d'hypothèses et leur conrmation par réplication. Enn nous introduisons et discutons les principaux facteurs évoqués dans la littérature qui peuvent aecter la qualités des résultats : le manque de puissance, le test-multiple, les erreurs liées au génotypage, les valeurs manquantes dans les données ainsi que la stratication de population. Ce chapitre se termine sur le dé que pose parallèlement toute la complexité intrinsèque aux données auxquelles on s'intéresse. La suite du manuscrit détaille plus spéciquement le travail de recherche réalisé à l'occasion de cette thèse inspiré des problématiques méthodologiques soulevées par Serono pour l'analyse de leurs données d'association cas-témoins genome-wide. Le chapitre 2 réunit l'ensemble du travail réalisé sur les approches dites simplemarqueur qui traitent chaque marqueur individuellement. Il existe un certain nombre de tests d'association et donc de stratégies d'analyse possibles. A travers une étude de puissance nous discutons leur pertinence. En particulier l'accent est mis sur la comparaison des diérents modes d'estimation de la puissance ainsi que sur la validité statistique des tests allélique et d'Hardy-Weinberg pour lesquels on propose plusieurs alternatives. Ensuite nous nous intéressons au problème du test-multiple en présentant une quantité statistique introduite récemment, et qui nous semble apporter une information intéres-4 Préambule sante dans le cadre des études d'association genome-wide : le Local False Discovery Rate. Nous abordons son estimation à travers un modèle de mélange gaussien qui constitue pour nous la méthode la plus simple et la plus intuitive de considérer le problème. Ce chapitre traitant d'aspects assez variés des approches simple-marqueur, il s'achève sur une synthèse qui permet de les lier et de les replacer dans le contexte actuel des études d'association. Le chapitre 3 traite du problème de l'analyse simultanée de plusieurs marqueurs, des principaux enjeux méthodologiques soulevés par ce type d'approches et des diérentes solutions proposées dans la littérature. Il décrit également l'élément qui constitue pour nous le développement méthodologique le plus important réalisé durant cette thèse : une méthode d'analyse multi-marqueurs construite à partir de la statistique du Score Local. S'appuyant sur la détection d'accumulations de signaux d'association élevés autour de locus de susceptibilité, cette approche permet d'eectuer sur un grand nombre de marqueurs ce que l'expert a tendance à réaliser à l'oeil sur de plus petits jeux de données. Cette nouvelle méthode est appliquée sur quatre jeux de données réels et simulés. Enn, sur la base des résultats obtenus, elle est discutée et replacée dans le contexte déni par les approches multi-marqueurs existantes. Le dernier chapitre de conclusion a plusieurs objectifs : il reprend naturellement l'ensemble des points développés dans cette thèse mais ouvre également sur diérentes perspectives scientiques quant à la l'analyse des données d'association genome-wide. Ce chapitre achève ce manuscrit sur une discussion concernant l'apport des études d'association à grande échelle en Épidémiologie Génétique et comment elles s'intègrent dans une dé- marche plus générale d'acquisition de connaissances permettant d'élucider les mécanismes biologiques à l'origine des maladies complexes.5 Chapitre 1 Introduction L'objectif de ce chapitre introductif est de poser les bases nécessaires à la compréhension du travail de recherche réalisé dans le cadre de cette thèse. En particulier il permet de poser le contexte scientique dans lequel se situent aujourd'hui les études génétiques d'association genome-wide. Dans un premier temps nous introduisons un certain nombre de préceptes statistiques et génétiques fondamentaux tels que le test d'hypothèse, la diversité génétique, le déséquilibre de liaison et l'équilibre d'Hardy-Weinberg. Nous présentons ensuite l'ensemble des thématiques scientiques que recouvre l'Épidémiologie Génétique, ainsi que les diérents cadres d'étude possibles : familiale/cas-témoins, liaison/association, gènescandidats/genome-wide. Puis, nous évoquons chacune des étapes d'une étude d'association : (i) le recrutement des individus (à l'occasion duquel nous abordons également des questions d'ordre éthique), (ii) le choix des marqueurs à génotyper ainsi que les techniques modernes de génotypage, (iii) l'analyse statistique, la formulation d'hypothèses et (iv) la vérication des hypothèses énoncées par réplication. Prolongeant la constatation que la réplication de résultats est en pratique dicile à obtenir, la dernière section de cette introduction traite du contrôle qualité d'une étude, c'est à dire de tous les facteurs pouvant aecter la validité et la abilité des résultats. En particulier le manque de puissance, le test-multiple, les erreurs de génotypages, les valeurs manquantes et la stratication de la population, ont été souvent mis en avant dans la littérature. Au delà de ces facteurs relatifs au design de l'étude ou à la qualité des données, la complexité des étiologies pose également un dé pour l'élucidation des mécanismes biologiques mis en cause. Notes bibliographiques : la rédaction de ce chapitre s'est appuyée en partie sur la lecture de Garnier (2007), Balding (2006), Newton-Cheh et Hirschhorn (2005), Hirschhorn et Daly (2005), Shen et al (2005), Jannot (2004), Sillanpaa et Auranen (2004), Page et al (2003) et Elston et al (2002).6 1. Introduction 1.1 Préceptes de Statistique : le test d'hypothèse Dénition Une question essentielle dans une démarche scientique est souvent d'établir une relation entre deux concepts, qu'il s'agisse d'une association ou d'une comparaison. Cette démarche passe dans un premier temps par l'élaboration d'hypothèses, puis par leur validation. Une façon assez naturelle bien que fausse de raisonner est de se dire : A implique B donc B implique A. En réalité ce raisonnement est faux dans la mesure où une alternative A0 permettrait aussi de justier l'observation de B. Une démarche de test d'hypothèse adoptera donc plutôt une stratégie de démonstration par l'absurde en cherchant à montrer la fausseté de B pour en déduire que A n'est pas vrai : non B implique non A. Cette dernière hypothèse, qui réfère à la négation de l'hypothèse de recherche (H1), est l'hypothèse nulle (H0). Prise de décision Compte tenu d'une hypothèse nulle, quatre situations sont possibles quant à l'issue du test de cette hypothèse : on peut décider de rejeter ou non H0, alors qu'en réalité (mais nous ne le savons pas) H0 est vraie ou fausse. On se trouve donc dans l'incertitude quant à la décision à prendre, et l'enjeu sera alors de se convaincre que l'on prend la bonne décision en contrôlant le risque de se tromper. Il existe en réalité deux façons distinctes de se tromper et de fait, deux types de risques. On peut rejeter H0 alors que H0 est vraie, c'est à dire armer une association ou une diérence alors qu'il n'y a rien ; ce type d'erreur est appelé erreur de type-I et le risque associé est le taux d'erreur de type-I noté a 1 . Si d'autre part on décide de ne pas rejeter H0 alors que H1 est vraie, je commets alors une erreur de type-II avec un taux noté ß 2 . H0 non rejetée H0 rejetée H0 vraie 1 - a a (erreur de type-I) H0 fausse ß (erreur de type-II) 1 - ß En pratique, la valeur de ß dépend de l'alternative H1 et il est quasiment impossible de l'estimer en toute généralité. C'est pourquoi, seul a est utilisé comme critère de décision. 1 on parle également d'erreur et de risque de première espèce 2 on parle également d'erreur et de risque de deuxième espèce1.2. Préceptes de Génétique 7 Par ailleurs, 1-ß s'appelle la puissance d'un test. On comparera - quand cela est possible - deux tests en comparant leur puissance. Dans tous les cas, un test d'hypothèse suit un succession d'étapes dénies : (i) énoncé des hypothèses nulle et alternative ; (ii) calcul d'une variable de décision - la statistique (S) - correspondant à une fonction des observations. Elle mesure une distance entre ce que j'observe et ce que j'attends sous l'hypothèse nulle. Plus cette distance est grande et moins H0 est probable ; (iii) calcul de la probabilité critique (ou p-value 3 ) d'obtenir une valeur observée de la statistique (S obs ) au moins aussi élevée que la valeur obtenue si H0 est vraie : pv = PH0(S > S obs ); (iv) conclusion du test en fonction de la valeur de la p-value par rapport à une valeur seuil du risque de première espèce (a) ou niveau du test. La conclusion peut se faire de façon analogue sur la base de la statistique elle-même par rapport à un seuil ta tel que : a = PH0(S > ta). Types de tests La pratique des tests statistiques nécessite que l'on distingue diérentes situations. Celles-ci sont décrites par trois éléments : (i) la forme du test (comparaison bilatérale ou unilatérale), (ii) la possibilité de faire appel à une loi de distribution connue (test paramétrique ou non-paramétrique) et (iii) l'appariement des mesures (une ou plusieurs mesures réalisées sur un même échantillon). 1.2 Préceptes de Génétique Le génome, siège de l'information génétique La Génétique est la science qui étudie la transmission des caractères des parents à leurs enfants. Depuis la n du XIXème siècle, les mécanismes de l'hérédité sont de mieux en mieux compris : chaque individu porte en chacune de ses cellules un patrimoine gé- nétique qui détermine un grand nombre de ses caractéristiques. Ce patrimoine, qui est appelé le génome, est composé d'une ou plusieurs entités appelées les chromosomes. Le nombre de chromosomes dépend de l'espèce ; les bactéries n'ont par exemple qu'un seul chromosome tandis que l'espèce humaine en compte 46 : 22 paires de chromosomes homologues et 2 chromosomes sexuels. 3 notée pv8 1. Introduction Chacun de ces chromosomes est en fait une chaîne orientée le long de laquelle se succèdent quatre molécules diérentes appelées bases ou nucléotides et notées A, C, G et T pour adénine, cytosine, guanine et thymine. On parle alors de séquence d'ADN4 . Un chromosome est donc un texte écrit dans l'alphabet constitué de ces quatre lettres. Une part de ce génome permet, selon un code aujourd'hui parfaitement déchiré, la fabrication par la cellule de molécules participant à tous les mécanismes du vivant (la respiration, l'alimentation...) : les protéines. Ce qui code pour une protéine est appelé un gène. Mais seule une proportion limitée du génome code pour les protéines et un même gène peut coder pour plusieurs protéines. Depuis que l'on connaît la séquence complète du génome humain (Human Genome Project 5 ) on estime entre environ 20,000 et 25,000 le nombre de gènes présents chez l'Homme, ce qui représente à peu près 5% du génome. Les 95% restants contiennent des éléments de régulation de l'expression génique ainsi qu'une grande quantité d'ADN dont la fonction reste à déterminer. Diversité génétique On désigne par locus une position du génome et par allèle une version donnée du texte génétique. Un polymorphisme correspond alors à la présence en un locus de plusieurs allèles. On dénit par haplotype la combinaison de plusieurs allèles situés sur des locus diérents d'un même chromosome. Dans l'espèce humaine, chaque individu possède 22 paires de chromosomes homologues ; on trouvera donc en un locus donné une combinaison de deux allèles que l'on appelle génotype. Ces 44 chromosomes auxquels s'ajoutent 2 chromosomes sexuels, totalisent environ 3 milliards de bases et de fait, seule une in- me partie du génome varie d'un individu à l'autre. La diversité génétique au sein d'une population est essentiellement due à deux événements : la mutation et la recombinaison. - Mutation : l'introduction de polymorphismes dans le patrimoine génétique d'une population est le résultat d'événements de mutation. Une mutation correspond à une modication soudaine et transmissible de la séquence d'ADN, par exemple le changement, l'ajout/insertion ou la suppression/délétion d'une base. En fonction de la base aectée, ces mutations peuvent être silencieuses, c'est à dire n'avoir aucun eet sur la protéine résultante, ou au contraire avoir une incidence positive ou négative sur la protéine et donc sur l'individu. Par exemple la mutation d'un gène peut changer la constitution, la forme et par la même occasion la fonction de la protéine correspondante ; on parle alors de mutation missense. - Recombinaison : une autre source de diversité génétique est la recombinaison. Il s'agit d'un phénomène qui se produit par enjambement des chromosomes homologues 6 . 4Acide Désoxyribo-Nucléique 5 http://www.sanger.ac.uk/HGP 6 crossing-over1.2. Préceptes de Génétique 9 Elle survient au cours du processus de formation des gamètes 7 : la méiose. Chaque chromosome a alors la possibilité d'échanger une partie d'ADN avec son chromosome homologue. La chance qu'un événement de recombinaison se produise entre deux locus augmente avec la distance qui les sépare. Mutation TGA TAA T_A TTGA Recombinaison Déséquilibre de Liaison mutation ancestrale ecombinaisons r x x x x x Fig. 1.1  Mutations : elle peut se traduire par un changement de base, une délétion ou une insertion. Recombinaison : elle est provoquée par l'enjambement de chromosomes homologues au cours de la production des gamètes. Déséquilibre de liaison : il est le résultat d'un événement de mutation ancestral et d'une succession de recombinaisons au cours des générations. Déséquilibre de Liaison - Dénition : le déséquilibre de liaison noté LD pour Linkage Disequilibrium décrit la relation entre deux allèles à deux locus dans une population et existe lorsque la probabilité d'observer un couple d'allèles sur un chromosome n'est pas égale au produit des probabilités d'observer ces allèles individuellement. Il se dénit également entre plus de deux locus. Le LD peut avoir diérentes origines. Le plus fréquemment il survient lorsqu'un nouvel allèle apparaît par mutation dans une région chromosomique caractérisée, dans la population, par un pattern d'allèles ou haplotype spécique sur les locus voisins. Ce pattern d'allèles nouvellement constitué est transmis en bloc de générations en générations, plus ou moins altéré par les recombinaisons successives. Par conséquent, les locus à proximité du locus ayant initialement muté conservent alors une forte association allélique qui caractérise le LD présent dans cette portion du génome. 7 cellules impliquées dans la reproduction10 1. Introduction - Mesures de LD : les mesures de LD sont en fait des mesures d'association (voir chapitre 2 p. 39) qui vont quantier l'écart entre les proportions haplotypiques observées et celles attendues sous l'hypothèse d'indépendance entre les allèles. Il en existe un certain nombre ce qui ne facilite pas les comparaisons entre diérentes études. Nous introduisons ici les trois principales. Soit deux locus bi-alléliques dont les allèles sont a/A et b/B respectivement. Soit pa, pA, pb et pB les proportions alléliques et pab, paB, pAb et pAB les proportions haplotypiques correspondantes. Le coecient de déséquilibre de liaison (D) correspond à la simple diérence entre la proportion d'un haplotype donné et celle attendue sous l'hypothèse d'indépendance : D = pAB - pApB = pab - papb. Ainsi plus D est élevé et plus les locus sont en déséquilibre de liaison. Des standardisations de D ont été proposées an d'avoir des mesures comprises entre -1 et 1. Les plus connues sont le coecient D0 de Lewontin (1964) et le coecient de corrélation r 2 . Le déséquilibre de liaison est dépendant à la fois du temps écoulé depuis la mutation initiale et du taux de recombinaison entre les deux locus. D0 permet d'estimer de combien le déséquilibre a diminué par rapport à sa valeur initiale : D 0 = D Dmax avec Dmax =  min(pApb; papB) si D > 0 min(papb; pApB) si D < 0 D0 a la propriété de prendre les valeurs 1 ou -1 lorsque les deux allèles n'ont pas été séparés au cours de l'histoire de la population. En pratique, cela se traduit par l'absence d'un des haplotypes possibles ; on parle alors de déséquilibre complet. Prenons un exemple : b B a 0.1029 0.0719 A 0.8252 0 Pour cet exemple précis, D = -0.0593 et D0 = -1. Si des valeurs inférieures à 1 indiquent intuitivement que l'association allélique initiale a été dégradée, elle n'ont cependant pas d'interprétation précise et dépendent directement de la taille de l'échantillon, ce qui rend impossible toute comparaison entre diérentes études. Par ailleurs une valeur de 1 pour D ou D0 n'implique pas que deux locus portent exactement la même information. Pour cette raison, on utilise aujourd'hui plutôt un indice de corrélation (r 2 ), lié à la quantité d'information que fournit un locus sur l'autre : r 2 = D2 papApbpB .1.2. Préceptes de Génétique 11 Une valeur de 1 ne peut être observée que si l'information portée par un marqueur apporte une idée complète de celle portée par le second. En pratique cela se traduit par la présence de seulement deux des génotypes possibles et par l'égalité des proportions alléliques (pa = pb). On parle alors de déséquilibre parfait. Prenons un exemple : b B a 0.5763 0 A 0 0.4237 Ici, D = 0.2442, D0 = 1 et r 2 = 1 alors que sur l'exemple précédent (déséquilibre complet) r 2 valait 0.6044. En pratique, on connaît les génotypes pour chaque individu sans indication de phase, c'est à dire sans la connaissance du chromosome sur lequel se trouve chacun des deux allèles. Les proportions haplotypiques observées dans un échantillon ne sont donc pas connues, ce qui pose un problème pour l'estimation du déséquilibre de liaison. Certaines méthodes d'estimation de données incomplètes permettent cependant de les estimer à partir des proportions génotypiques (Excoer et Slatkin 1995, Stephens et al 2001, Coulonges et al 2006). - Blocs de LD : A première vue, on peut penser que le déséquilibre de liaison décroît avec la distance, manifestation des événements de recombinaison ayant eu lieu au cours de l'histoire de la population (Collins et al 2001, gure 1.2-A p. 13). Certaines études fondées sur des simulations montrent qu'un déséquilibre signicatif ne s'étendait généralement pas au delà de 3kb (Goldstein 2001). Cependant en pratique, de fortes valeurs de LD sont observées au delà de 500kb. Il n'existe donc pas vraiment de logique en ce qui concerne le degré de LD entre deux marqueurs plus ou moins distants. Des études plus récentes montrent une structuration du génome en fonction du LD résultant d'un taux de recombinaison inhomogène le long du génome. Certains paquets de locus sont transmis intacts de générations en générations ; ces groupes de marqueurs sont appelés blocs de LD ou bloc haplotypiques ou encore haploblocs en raison du fort degré de LD et de la faible diversité haplotypique qui en résulte (Collins et al 1999, Nordborg and Tavaré 2002, gure 1.2-B p. 13). En conséquence, l'essentiel de l'information concernant le pattern de variation génétique au sein d'un bloc peut se résumer à partir d'un sousensemble de locus. Le projet HapMap 8 a pour objectif de décrire ces patterns de variation génétique commun chez l'Homme, en délimitant les blocs de LD le long du génome. En dehors d'un taux de recombinaison inhomogène, on a montré qu'une structuration du génome en blocs du LD pouvait résulter d'autres phénomènes liés à la population, à son environnement et au génome lui-même : la dérive génétique 9 , la croissance de la 8 http://www.hapmap.org 9 xation allélique aléatoire au sein de la population12 1. Introduction population, la stratication de population 10 , la sélection naturelle, les mutations ainsi que les conversions de gènes (Zavattari et al 2000). Équilibre d'Hardy-Weinberg - Principe : l'équilibre d'Hardy-Weinberg est l'un des principes fondamentaux de la Génétique des Populations. Il prescrit que sous certaines conditions et après quelques générations, les proportions génotypiques d'un locus se xent autour d'un équilibre : l'équilibre d'Hardy-Weinberg. Il spécie aussi ces proportions génotypiques comme une simple fonction des proportions alléliques. Les conditions pour atteindre l'équilibre sont : (i) population innie ou susamment grande pour minimiser les eets de la dérive géné- tique, (ii) population panmictique, c'est à dire que les accouplements se font de manière équiprobables, (iii) pas de sélection, pas de mutation, et pas de migration de population de façon à se prémunir des pertes ou gains d'allèles et enn (iv) les générations successives sont discrètes. Dans le cas le plus simple d'un locus présentant deux allèles (a, A) avec les proportions pa et pA = 1 - pa respectivement, les proportions génotypiques (p0, p1 et p2) à l'équilibre seront alors données par (gure 1.2-C p. 13) : ? ? ? p0 = p 2 a p1 = 2papA p2 = p 2 A - Déviation par rapport à l'équilibre : lorsque les conditions d'Hardy-Weinberg ne sont pas respectées, les proportions observées peuvent dévier des valeurs attendues. Si les contraintes de panmixie et de population innie aectent directement ces proportions, la migration, la sélection et la mutation changeront les proportions alléliques mais la population continuera à respecter les proportions génotypiques prédites à l'équilibre à chaque génération. Le coecient de consanguinité (F) peut-être vu comme une mesure de dé- viation par rapport à l'équilibre, rendant compte de l'excès ou du décit d'hétérozygotes dans une population ; Wright (1921) a proposé un modèle permettant de spécier les proportions génotypiques à partir des proportions alléliques et du coecient de consanguinité quand la population ne suit pas l'équilibre. Dans le cas simple d'un locus à deux allèles (gure 1.2-D p. 13) : ? ? ? p0 = p 2 a + FpapA p1 = 2papA - 2FpapA p2 = p 2 A + FpapA Un coecient de consanguinité positif (F > 0) induira un décit d'hétérozygotes dans la population, un coecient négatif (F < 0) induira un excès. On peut également noter qu'un coecient nul (F = 0) correspond à une population à l'équilibre. 10 la population d'intérêt comporte des sous-groupes d'individus qui sont en moyenne plus apparentés les uns aux autres qu'aux membres des autres sous-groupes1.2. Préceptes de Génétique 13 0 5 10 15 20 0.0 0.2 0.4 0.6 0.8 1.0 A t Dt ! = 0.5 ! = 0.2 ! = 0.1 B SNP SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 C Proportions alléliques Proportions génotypiques AA aA aa !0.4 !0.2 0.0 0.2 0.4 0.0 0.2 0.4 0.6 0.8 1.0 D F Proportions génotypiques Fig. 1.2  A - Décroissance du LD : le LD entre deux locus diminue avec le temps (t) et le taux de recombinaison (?), en fonction de la valuer initiale de LD au moment de la mutation (D0) : Dt = D0(1 - ?) t (modèle de Malecot). B - Blocs de LD : on a représenté l'intensité du LD (r 2 ) entre chaque SNPs d'une région du chromosome 12 pour une population de Français, an de mettre en avant les blocs de LD (en sombre). C - Proportions génotypiques en fonction des proportions alléliques à l'équilibre d'HardyWeinberg. D - Proportions génotypiques en fonction du coecient de consanguinité (pa = 0.4).14 1. Introduction 1.3 Épidémiologie Génétique Dénition L'Épidémiologie est une discipline scientique qui étudie ce qui est relatif à la santé d'une population : maladies, conséquences des maladies, causes de mortalité et éléments de "bonne santé". L'épidémiologie est avant tout utilisée pour agir sur la santé des populations, dans un souci d'évaluation des risques, de prévention et d'intervention ; elle ne peut généralement pas donner la preuve des mécanismes qui provoquent l'apparition des problèmes de santé ; en revanche, elle évalue la vraisemblance statistique d'une relation causale et permet d'agir sur la santé tout en se passant des contraintes expérimentales. Par exemple, on ne va pas inciter des sujets à fumer pour prouver une relation entre le fait de fumer et celui de développer un cancer du poumon. On distinguera : (i) l'Épidémiologie descriptive, qui décrit les phénomènes de santé en fonction des caractéristiques des individus tels que l'âge ou le sexe, (ii) l'Épidémiologie analytique, qui vise à établir les causes et l'ensemble des facteurs liés aux phénomènes décrits, (iii) l'Épidémiologie prospective qui vise à prévoir l'évolution des phénomènes pathologiques en s'appuyant sur des connaissances obtenues, et (iv) l'Épidémiologie d'intervention qui consiste à étudier les conséquences d'une méthodes de prévention sur le développement d'une maladie donnée. On sait aujourd'hui qu'un grand nombre de pathologies a une composante génétique. L'Épidémiologie Génétique se dénit donc comme la description et la compréhension de ces facteurs génétiques, a science that deals with etiology, distribution and control of disease in groups of relatives and with inherited causes of disease in population (Morton 1998). De fait, l'Épidémiologie Génétique se situe à l'interface de l'Épidémiologie et de la Génétique appliquée à l'échelle des populations. Des deux disciplines elle emprunte les objectifs, les problématiques ainsi que les outils d'analyse. Étiologie simple, étiologie complexe L'étiologie d'une maladie représente l'ensemble des mécanismes directement liés à son apparition. D'un point du vue génétique, dans le plus simple des cas, la modication d'un gène majeur est responsable à elle seule de l'apparition de la maladie. On parle alors de maladie monogénique ou d'étiologie simple. Il existe environ 6,000 maladies monogéniques répertoriées à ce jour. Parmi les plus courantes, on trouve par exemple la mucoviscidose, la drépanocytose, la chorée de Huntington, la myopathie de Duchenne ainsi que la dystrophie musculaire. Elles présentent en général un très fort caractère héréditaire.1.3. Épidémiologie Génétique 15 Lorsque la maladie présente des composantes génétiques et environnementales multiples, on parle alors de maladie multifactorielle ou d'étiologie complexe. Leur mode de transmission est bien moins évident et la coexistence d'eets combinés de facteurs génétiques et environnementaux rend dicile la prédiction de la maladie au regard d'un gène seul. On fera alors plutôt référence aux gènes impliqués en tant que gènes de pré- disposition ou de susceptibilité. Parmi les plus courantes, on pourra citer l'asthme, les maladies auto-immunes (e.g. diabète de type-I, sclérose en plaque, polyarthrite rhumatoïde), les maladies psychiatriques (e.g. schizophrénie) et les cancers (e.g. mélanome malin). Des origines de la discipline à nos jours - Les pères fondateurs : la paternité de la Génétique est souvent attribuée à Mendel (1822-1884). Il fut vraisemblablement le premier à utiliser le terme de gène dans le cadre de ses recherches sur la transmission des caractères héréditaires. Selon Mendel, les caractères se transmettent d'une génération à l'autre par le moyen de gènes qui suivent des lois précises de ségrégations, appelées lois de Mendel. Une telle idée était en totale opposition avec la théorie de l'époque qui misait plutôt sur un mélange équiprobable des caractères parentaux. Si les traits monogéniques suivent parfaitement les lois de Mendel et portent en conséquences - de façon un peu simpliste et abusive - aussi le nom de traits mendéliens, les traits complexes ont rapidement montré les limites de ces lois. Au début du 20ème siècle, des scientiques tels que Galton (1822-1911) et Pearson (1857- 1936) commencent à décrire des caractères qui ne semblent pas suivre les lois de Mendel. C'est en 1918 que Fisher (1890-1962) publie un traité sur les caractères polygéniques en introduisant le fait que le phénotype d'un individu peut résulter des eets conjoints de plusieurs gènes, aucun n'ayant par ailleurs d'eet majeur sur le caractère ; il marque ainsi le début de l'étude des traits complexes ou, par opposition aux traits mendéliens et de façon tout aussi abusive, traits non-mendéliens. - L'impact de la Biologie Cellulaire et Moléculaire : l'Épidémiologie Génétique - et plus généralement la Génétique - a bien évidemment évolué en parallèle avec les progrès techniques en Biologie. Le Biologie Cellulaire a dans un premier temps permis de jeter les bases cellulaires de l'hérédité : le chromosome. L'avènement de la Biologie Moléculaire dans les années 1970 a permis ensuite l'élucidation des bases moléculaires de l'hérédité : la séquence d'ADN. Cela a accéléré le développement de marqueurs génétiques 11 à l'origine des premières tentatives de cartographie du génome vers la n des années 1980. De fait, l'Épidémiologie Génétique englobe le concept d'Épidémiologie Moléculaire qui réfère à l'intégration des marqueurs génétiques dans les études épidémiologiques. 11 séquence d'ADN variable dans une population dont la localisation est parfaitement connue16 1. Introduction - L'Épidémiologie Génétique Moderne : appuyée par des projets internationaux de grande envergure (Human Genome Project, HapMap Project 12 , dbSNP 13 ) qui accompagnent l'accumulation d'une quantité importante de données, rendue possible par les ré- cents développement technologiques en matière de génotypage, l'Épidémiologie Génétique réunit aujourd'hui tous les moyens nécessaires à l'élucidation des mécanismes génétiques des principales pathologies multifactorielles. Les chances de réussites dans ce domaines devront s'appuyer parallèlement sur le développement de méthodes mathématiques, statistiques et informatiques permettant le traitement de l'ensemble des informations disponibles. 1.4 Cadres d'étude Les marqueurs génétiques Jusque dans les années 1980, les marqueurs utilisés en Épidémiologie Génétique étaient d'ordre biochimique. Il s'agissait dans un premier temps du groupe sanguin ABO (Race et Sanger 1975) puis de protéines porteuses de polymorphismes, c'est à dire présentent sous plusieurs formes identiables grâce à leur diérence de migration sur gel (Roychoudhuri et Nei 1988). Les avancées en Biologie Moléculaire ont ensuite permis le développement des marqueurs génétiques reposant sur la variabilité de la séquence d'ADN en des positions parfaitement connues 14 . Les premiers furent les Restriction Fragment Length Polymorphisms (RFLPs), les Variable Number of Tandem Repeat (VNTRs ou minisatellites) et les Short Tandem Repeat Polymorphisms (STRPs ou microsatellites). Les plus récents sont les Single Nucleotide Polymorphisms (SNPs). Ils font partie de la famille des RFLPs, mais n'impliquent le changement (i.e. mutation, délétion, insertion) que d'un nucléotide en un locus donné et sont de manière générale bi-alléliques (a, A). Chaque individu sera donc porteur au niveau d'un SNP d'un des trois génotypes possibles, les deux génotypes homozygotes (aa et AA) et le génotype hétérozygote (aA ou Aa indiscernables l'un de l'autre). Les SNPs représentent une source d'information riche et abondante, apparaissant en moyenne jusqu'à une fois toutes les 2,000 bases le long des 3 milliards de lettres constituant le génome humain. La diminution à la fois du coût et du temps de séquençage a récemment ajouté à leur intérêt croissant. On peut aujourd'hui approcher à 0.0007 euros et 0.027 secondes le coût et le temps de génotypage d'un SNP par individu. Les SNPs localisés dans les régions codantes d'un gène peuvent par ailleurs jouer un rôle direct en altérant la forme et ainsi la fonction de la protéine produite à partir du gène en question (SNP missense). 12 http://www.hapmap.org 13 http://www.ncbi.nlm.nih.gov/SNP 14 ou locus-spéciques1.4. Cadres d'étude 17 RFLP aa aA AA ACGTG CCATA ACGTG CCATA ACGTG CCATA ACGTAACATA ACGTAACATA ACGTAACATA sites de restriction enzymatique ...CGCGCG... ...CGCGCG... ...CGCGCG... ...CGCG... ...CGCG... ...CGCG... (CG)3 (CG)2 STRP SNP ...AGTA... ...AGTA... ...AGTA... ...ACTA... ...ACTA... ...ACTA... Fig. 1.3  Marqueurs génétiques : on représente ici trois types de marqueurs géné- tiques (RFLP, STRP et SNP) bi-alléliques pour des individus homozygotes (aa et AA) et hétérozygotes (aA). Données Familiales vs Cas-Témoins - Études familiales : les études familiales traitent conjointement un certain nombre de familles de façon à détecter la transmission préférentielle d'allèles chez les personnes atteintes par la maladie considérée. Parmi les diérents types d'études familiales, on distinguera celles reposant sur des pedigree (ou lignées familiales) plus ou moins larges de celles fondées sur des familles nucléaires (les deux parents et au moins un enfant) qui peuvent se réduire au cas des trios (les deux parents et un seul enfant). On peut de la même façon mener une étude sur la base de fratries (sans les parents), ce qui porte le nom d'étude de paires de germains ou sib-pairs. - Études cas-témoins : aux études familiales on opposera une approche plus épidé- miologique appelée cas-témoins. Une étude cas-témoins cherche à déceler une diérence de distribution des variants génétiques entre une population de cas, constituée d'individus diagnostiqués avec la maladie d'intérêt, et une population de témoins sélectionnés dans la population générale et qui ne sont a priori pas porteurs de la maladie. A première vue, le recrutement de cas et de témoins peut paraître plus facile que celui de familles, du fait de la contrainte imposée dans ce dernier cas par l'obtention des génotypes d'individus apparentés. Il peut en eet s'avérer dicile d'obtenir les parents de chaque patient, en particulier lorsque la maladie se développe à un âge avancé. Cependant, le choix des cas et des témoins peut également soulever certains problèmes. En l'occurrence, il est nécessaire d'assurer l'homogénéité des deux groupes en prenant soin de les assortir sur des covariables18 1. Introduction telles que l'âge ou le sexe, qui peuvent avoir une inuence sur le phénotype observé et ainsi biaiser le facteur génétique que l'on cherche à détecter. Si certains biais comme le sexe ou l'âge sont aisément contrôlables lors du recrutement des individus, d'autres tels que l'origine éthnique le sont plus dicilement (voir Stratication p. 34). Les études cas-témoins présentent par ailleurs une exibilité qui leur permet de s'adapter aux facteurs de susceptibilités recherchés. Par exemple, plutôt que de s'intéresser aux déterminant génétiques impliqués dans le développement d'une maladie, on peut préférer rechercher ceux impliqués dans une forme de la maladie. Sur l'exemple du SIDA, l'idée est de rechercher les gènes responsables d'un développement lent ou rapide de la maladie chez les individus séropositifs. L'étude visera alors à contraster les phénotypes extrêmes (ici développement lent contre rapide), plutôt que d'utiliser des témoins séronégatifs (Hendel et al 1996). trio sib-pair Famille Cas-témoins cas témoins Fig. 1.4  Etudes familiales et cas-témoins. Liaison vs Association Le choix entre une étude familiale ou cas-témoins dépend en partie de la quantité que l'on veut analyser : la liaison et/ou l'association. - Études de Liaison : une étude de liaison vise à quantier l'excès d'allèles identiques par descendance mendélienne que partagent des germains atteints. Un test de liaison (e.g. Lod-Score Test) comparera les proportions génotypiques observées à celles attendues sous l'hypothèse nulle que les recombinaisons entre locus sont équiprobables. Si les études de1.4. Cadres d'étude 19 liaison ont rencontré un certain succès dans le passé, la taille relativement limitée des familles ne permet pas de traiter de petites fractions de recombinaisons 15 , en raison du manque d'individus recombinants dans les échantillons. - Études d'association : les études d'association cherchent à déceler une association entre un variant génétique et la maladie, à un niveau populationnel et non plus familial uniquement. L'association peut-être directe si le marqueur observé est un locus de susceptibilité, ou indirecte si celui-ci se trouve physiquement proche du locus de susceptibilité et que leurs allèles sont statistiquement associés en raison du déséquilibre de liaison. Les études d'association s'inscrivent naturellement dans un cadre cas-témoins : l'association entre variant génétique et statut cas-témoin peut facilement s'établir en utilisant des méthodes épidémiologiques classiques pour les études d'association cas-témoins (Breslow et Day 1982). Le chapitre 2 (p. 39) est dédié à cette thématique. En raison de la diculté liée à l'obtention de témoins appropriés, le recrutement de parents représente une source idéale de témoins et plusieurs méthodes d'analyse d'association misant sur les familles ont été développées. Le Transmission Disequilibrium Test est l'exemple le plus connu : il teste l'association d'un allèle contre un autre dans un échantillon formé de cas et de leurs deux parents. Le génotype de chaque parent est considéré comme un couple de variables appariées - les allèles - dont l'un est transmis et l'autre non. L'hypothèse nulle d'indépendance est alors éprouvée en comparant la distribution des allèles transmis par les parents à celle des allèles non-transmis. Sous H0, on s'attend à ce que ces distributions coïncident. Le test de McNemar (1947) sur les variables appariées est adapté à ce problème et a permis d'aboutir au TDT (Spielman et al 1993). Un avantage prononcé du TDT et qu'il permet de détecter de la liaison seulement en présence d'association. En introduisant des données familiales, l'inuence de potentielles associations liées à un manque d'homogénéité cas-témoins est éliminée. Néanmoins, lorsque la maladie se développe à un âge relativement avancé, il est quasiment impossible d'obtenir les génotypes parentaux. Une alternative raisonnable est alors d'utiliser de germains non aectés comme témoins. A partir du TDT, Spielman et Ewens (1998) ont proposé un test pour comparer les proportions alléliques entre des cas et leur germain non-aecté, appelé sib-TDT. Lorsque l'on amorce une étude en Épidémiologie Génétique, l'on peut se demander quelle approche doit être choisie : liaison ou association ? Très tôt, Risch et Merikangas (1996) ont suggéré, à partir de simulations, que les études d'association sont vraisemblablement plus puissantes que les études de liaison pour identier des eets modestes. Cette idée s'est rapidement installée dans l'esprit de la communauté ; la réponse n'est pourtant pas aussi tranchée. Il existe une diérence d'échelle lorsque l'on considère la liaison ou l'association : échelle de temps tout d'abord puisqu'une étude de liaison s'intéresse à la transmission d'un marqueur avec le locus de susceptibilité sur quelques générations alors qu'une étude d'association repose sur l'association résultante d'un grand nombre de générations ; échelle de distance génétique ensuite puisque du fait de la faible fraction 15 locus très proches20 1. Introduction de recombinants observée dans une étude de liaison liée à la taille limitée des familles, celles-ci vont considérer la transmission de grandes régions génomiques avec le locus de susceptibilité (de l'ordre du cM16 ). Une étude d'association considère le résultat d'un grand nombre de recombinaisons et donc l'association entre un marqueur et le locus de susceptibilité s'opère sur de bien plus petites distances (de l'ordre de quelques dizaines à quelques milliers de paires de bases) ; échelle de parenté enn puisque une étude de liaison focalise sur l'information contenue au niveau familiale alors qu'une étude d'association s'élève à la population entière. On peut d'ailleurs considérer la population comme une grande famille où les individus ont des liens de parenté plus faibles. On comprend donc qu'à l'origine, les études génétiques à grande échelle se faisaient sur la base de la liaison, nécessitant ainsi un nombre plus réduit de marqueurs pour couvrir l'ensemble du génome. Pour revenir à la diérence de puissance entre les deux approches, Tu et Whittemore (1999) ont nuancé les propos tenus par Risch et Merikangas en suggérant que si, de façon générale, les études d'association étaient plus puissantes que les études de liaison, ce gain de puissance dépendait très fortement de paramètres tels que le déséquilibre de liaison entre les marqueurs utilisés et les locus de susceptibilité, ainsi que les proportions alléliques respectives. Dans certaines situations, ils ont observé que l'avantage de la liaison sur l'association n'était pas si net et que cette tendance pouvait quelques fois s'inverser. On peut se poser la même question sur le choix de familles ou d'individus indépendants pour mener une étude d'association. Outre les considérations pratiques évoquées précédemment, les études cas-témoins souvent critiquées pour leur défaut de robustesse face à la stratication de population, semblent cependant généralement montrer plus de puissance que les études familiales, à taille d'échantillon équivalente (Morton 1998, Risch and Teng 1998). Gènes-Candidats vs Genome-Wide - Gènes-candidats : les approches gènes-candidats consistent à sélectionner un ensemble de gènes dont les fonctions pourraient intervenir dans l'étiologie de la maladie étudiée, et à les tester directement par association. Le choix des gènes peut être guidé par des a priori biologiques tels que la fonction ou l'appartenance à une voix métabolique associée à une maladie, ou encore sur la base de la localisation dans une région chromosomique d'intérêt, suggérée par une précédente étude de liaison ou d'association. Même lorsque les connaissances a priori sont larges et que la physiopathologie de la maladie est relativement bien comprise, l'approche gènes-candidats n'identiera qu'une fraction des déterminants génétiques. Dans le cas contraire, elle est alors inadaptée pour appréhender de façon exhaustive les causes génétiques des maladies. 16 le centimorgan noté cM est une unité de distance génétique. Elle représente la probabilité de recombinaison sur une distance : 1cM = une probabilité de 1% de recombiner1.4. Cadres d'étude 21 Association directe Maladie Site étiologique Marqueur Maladie Association indirecte LD Fig. 1.5  Association directe et indirecte. - Genome-Wide : une étude d'association genome-wide (ou systématique) investit une grande partie du génome sans aucun a priori sur l'identité des locus impliqués. Cette approche représente une stratégie impartiale, non dirigée et assez complète pouvant être mise en place en l'absence d'indices sur la fonction ou la position des locus de susceptibilités. Elle a d'abord été utilisée pour des études de liaison utilisant des microsatellites et a permis de mettre en évidence la plupart des gènes responsables des maladies monogéniques connus. Malheureusement, cette approche a eu des dicultés à s'étendre aux maladies multifactorielles, l'excès de transmission chez des apparentés atteints étant plus faible pour des eets modérés. Les études d'association genome-wide sont donc apparues comme une alternative de choix et devaient constituer pour Risch et Merikangas (1996) l'avenir des études génétiques des maladies complexes, catalysées par l'ensemble des avancées technologiques. Du choix de l'approche va dépendre la sélection des marqueurs. Mais il est évident que ce choix est contraint aux moyens dont dispose le laboratoire. De grands centres de séquençage et de génotypages 17 se forment an de centraliser la technologie nécessaire au lancement d'études de grande envergure. 17 par exemple le Centre National de Génotypage, Evry22 1. Introduction 1.5 Déroulement d'une étude d'association genome-wide Étape 1 : Recrutement des individus et questions éthiques associées - Recrutement : le recrutement des individus introduits dans l'étude constitue la première étape de toute étude épidémiologique et dépend du cadre choisi : familles ou castémoins. Le recrutement des cas nécessite un diagnostic précis de la pathlogie fondé sur des indicateurs histologiques, physiologiques, somatiques ou encore comportementaux dans le cas des maladies psychiatriques. Le diagnostic peut s'avérer plus ou moins évident en fonction de la nature de la pathologie et de la précision des indicateurs. - Questions éthiques : la protection des individus est un aspect fondamental de toute étude épidémiologique. La mise en place de ressources génomiques publiques, à partir de populations et d'individus identiés, soulève donc des questions scientiques, sociales et éthiques qui sont inextricablement liées.  I think you need to give conscious consent to having any data, any personal data used, whether you are identied or not. That's certainly a right. That's your information, it's your medical history. Whether it's identied or not, you should control it. Patient 14 dans Willison et al (2003). A partir de l'exemple du projet HapMap 18 nous allons évoquer quelques uns des problèmes éthiques qui se posent aujourd'hui, et comment ce projet y a répondu de manière à concilier les diérentes législations et sensibilités socio-culturelles des pays participants (the International HapMap Consortium, 2004). Le projet HapMap a pour objectif de décrire les patterns de variation génétique communs chez l'homme, en identiant les blocs de LD le long du génome ainsi que les tagSNPs correspondants, c'est à dire les SNPs permettant de résumer l'information contenue dans un bloc. Les chercheurs peuvent alors examiner l'ensemble du génome à partir d'un nombre restreint de tagSNPs (à peu près 500,000) au lieu d'étudier les 10 millions de SNPs qu'il contient, ce qui permet de réduire considérablement le coût des études genome-wide. An d'assurer la prise en compte des questions éthiques à chaque étape du projet, un groupe ELSI (pour Ethical, Legal and Social Implications) a été constitué. La première question concerne bien évidemment la protection des participants : dans les données HapMap, on trouve, avec les génotypes de chaque individu, une indication sur le sexe ainsi que sur la population d'origine. En revanche il n'y a aucune donnée permettant de faire le lien avec les donneurs : si les centres qui récoltent les échantillons 18 http://www.hapmap.org1.5. Déroulement d'une étude d'association genome-wide 23 conservent les identiants, ceux-ci ne sont naturellement pas mis à disposition du public. Les données n'incluent par ailleurs aucune information médicale ou phénotypique sur les donneurs. An de renforcer la protection de l'identité, le projet a recruté plus de donneurs que nécessaire de telle manière que le donneur lui même ne sait pas s'il a participé à la version nale du projet. Il est donc très dicile de faire le lien entre les données génomiques disponibles sur HapMap et l'un des participants. Cela peut très hypothétiquement arriver si l'on obtient les génotypes d'une personne dont on pense qu'elle a participé au projet, et qu'on les compare avec les données disponibles. Donc si le risque pour les participants d'être identiés n'est dans l'absolu pas nul, il est cependant réellement négligeable. Le deuxième question est liée à l'identication des populations à partir desquelles proviennent les échantillons. Pour des intérêts scientiques et éthiques évidents, il était nécessaire de choisir des populations diverses, qui trouvent leur origine en Europe, en Asie et en Afrique. Si le fait de préserver l'anonymat des participants était naturel, celui de l'origine des échantillons l'était moins : connaître la population d'origine de chaque échantillon permettrait dans les études futures de choisir le jeu de marqueurs le plus pertinent en fonction de la population considérée. Par ailleurs les populations seraient en réalité facilement identiables. Donc plutôt que de laisser aux chercheurs la possibilité d'inférer, éventuellement à tort, l'identité des populations participantes au projet, il paraissait plus judicieux de rendre cette information disponible. Enn la question des bénéces d'un tel projet ce pose également. Ils devraient directement contribuer à l'amélioration de la santé, bien que cela puisse prendre quelques années avant de se matérialiser. A plus court terme, les principaux bénéciaires du projet ne seront pas les participants eux-mêmes mais les chercheurs et les industriels qui vont développer de nouvelles molécules, des tests diagnostiques et tout autre produit commercial à partir des recherches utilisant les données HapMap. En revanche, le projet lui même n'a pas vocation à générer des bénéces. Étape 2 : Sélection des marqueurs et techniques de génotypage haut-débit Pour une approche gènes-candidats, le choix des marqueurs est principalement guidé par le choix des gènes inclus dans l'étude. Pour une approche genome-wide, plusieurs stratégies de sélection sont envisageables en fonction de diérents a priori biologiques et techniques pris en compte. - Sélection LD : pour être utile, un marqueur doit être lui-même un locus étiologique ou alors être en déséquilibre de liaison avec un locus étiologique (Kruglyak 1999, Jorde 2000). Comme nous l'avons déjà vu en abordant le déséquilibre de liaison (p. 9), le génome peut être réduit à un ensemble de blocs de LD dans lesquels chaque variant est fortement corrélé avec les autres (Daly et al 2001, Gabriel et al 2002). Un marqueur peut donc à24 1. Introduction lui seul, porter l'information contenue dans la région en question : on parle de tagSNP. Sur la base du projet HapMap, on estime aujourd'hui que quelques centaines de milliers de SNPs bien choisis devraient sure à résumer l'ensemble des variations génétiques du génome humain. Le nombre précis de tagSNPs nécessaires dépend en fait de la population et de la méthode employée pour les déterminer (Zhang et al 2002). - Sélection Missense : vu le nombre important de mutations missense parmi les polymorphismes à la base des maladie monogéniques, Botstein et Risch (2003) ont proposé de se focaliser sur les SNPs missense 19 ; un gène contenant en moyenne un ou deux SNPs missense (Cargill et al 1999), cette stratégie implique le génotypage de 30,000 à 60,000 SNPs. Si les variants sérieusement associés à des maladies incluent eectivement une forte proportion de variants missense, cet argument est néanmoins biaisé par le fait que jusqu'à présent, ces derniers ont été préférentiellement analysés. Par ailleurs, il est assez vraisemblable que les allèles impliqués dans des maladies multifactorielles soient plutôt localisés au niveau de variants non-codants, impliqués dans des événements de régulation et avec un impact plus modeste sur l'expression des gènes. L'on peut donc s'interroger sur l'ecacité d'une telle stratégie de sélection. - Sélection Gène-Centré : il s'agit ici de retenir les marqueurs sur la base de leur proximité avec un gène. Comme précédemment, la sélection peut-être accompagnée d'a priori biologiques tels que le déséquilibre de liaison ou la nature des variants (e.g. missense). Cette stratégie nécessite cependant la connaissance de tous les gènes présents dans le génome et fait totalement abstraction de l'implication d'éventuels éléments de régulation situés dans des régions dépourvues de gènes. - Sélection Pragmatique : une dernière stratégie consiste à sélectionner les variants en fonction de considérations logistiques telles que la facilité ou le coût de génotypage. Récemment, de larges collections pouvant aller de 10,000 à 1,000,000 SNPs ont été dé- veloppées et proposées à un coût tout à fait raisonnable. Ces collections permettent de couvrir une fraction signicative du génome, bien qu'étant a priori moins exhaustives qu'une sélection reposant sur le LD. - Techniques de génotypage haut-débit : les méthodes de génotypage sont multiples et se sont développées au fur et à mesure des avancées en Biologie Moléculaire et des progrès technologiques. En particulier, on trouve la PCR 20 à la base de la plupart des techniques de génotypage. Le développement de technologies haut-débit et peu coûteuses a permis de se tourner vers des études d'association à grande échelle. Il en existe plusieurs 19 qui change la constitution de la protéine produite par le gène dans lequel le SNP se situe 20 permet d'augmenter la quantité d'ADN à partir d'une très faible quantité de départ1.5. Déroulement d'une étude d'association genome-wide 25 types à ce jour, les principales étant fondées sur le principe de puces-à-ADN (ou DNAmicroarray). Le principe des puces-à-ADN met en relation les principes d'hybridation entres brins d'ADN par complémentarité des bases, de uorescence en microscopie et de capture d'ADN sur des surfaces solides. Les principaux composants d'une puce sont : (i) le support sur lequel est xé l'ADN cible, (ii) les ADN sondes et (iii) un système de détection qui enregistre et interprète le signal d'hybridation. Deux types de puces ont été élaborés par les industriels Aymetrix et Illumina. Utilisant tous deux le principe de uorescence, ils divergent principalement sur la nature du support d'hybridation : pour la technologie Aymetrix, l'ADN cible est directement synthétisé sur des puces, alors que pour la technologie Illumina, l'hybridation se réalise sur des billes. Les méthodes d'analyse de puce-à-ADN permettant de déterminer la conguration génotypique d'un SNP, reposent avant tout sur la probabilité pour le signal de uorescence résultant, de correspondre à tel ou tel génotype. Si pour le généticien il est important de travailler sur des génotypes précis, il y a cependant, lors du passage des probabilités à la détermination des génotypes, une perte d'information évidente pour le statisticien. Cette perte d'information peut avoir pour conséquence la détermination erroné d'un génotype ou une indétermination sur sa valeur (valeur manquante). Ce problème est évoqué page 32. Si aujourd'hui encore, on a l'habitude de distinguer l'analyse du signal de uoresence de celle de l'association des génotypes avec la maladie, l'on peut néanmoins insister sur le bénéce qu'apporterait la réalisation de ces deux analyses conjointement, sans passer par une discrétisation en génotypes du signal de uorescence an de prendre en compte l'incertitude du génotypage. Enn, pour se donner une idée du coût et du temps de génotypage, le génotypage d'un individu avec une puce Aymetrix 500K revient à 350 euros et il faut compter environ deux semaines à un expérimentateur pour génotyper 96 individus. Étape 3 : Analyse statistique et formulation d'hypothèses - Pré-traitement : une étape préliminaire à l'analyse consiste à mettre en forme les données, à les ranger dans des chiers ou dans des bases de données, et à les nettoyer de façon à minimiser les éventuelles erreurs. L'importance de ce pré-traitement ne doit pas être sous-estimée puisqu'il peut faciliter les analyses et contribuer à la qualité des résultats (voir Contrôle Qualité p. 28). - Analyse simple-marqueur : une part importante des analyses statistiques consiste dans un premier temps à traiter les marqueurs un par un, an d'identier individuellement ceux qui sont - directement ou non - associés à la maladie. Un chapitre de ce manuscript est consacré à ce type d'analyse (chapitre 2 p. 39).26 1. Introduction = a = A ADN sonde de l’individu Puce de génotypage (ADN cible) + Hybridation Scan a A AA aA aa ?uorochrome ADN Fig. 1.6  Technique de génotypage haut-débit : l'ADN de chaque individu est fragmenté et labelisé par un uorochrome dont la couleur dépend de l'allèle présent sur la séquence d'ADN. Cette ADN sonde est ensuite déposé sur une plaque ou puce-à-ADN qui contient l'ADN cible (chaque puit représentant un locus donné) sur lequel il s'hybride. La puce est ensuite lue à l'aide d'un scanner et en fonction du signal de uorescence observé on détermine le génotype de l'individu pour le locus considéré. Ici noir correspond au génotype homozygote AA, blanc au génotype homozygote aa, et un mélange des deux couleurs (gris) au génotype hétérozygote aA. Chaque locus est représenté plusieurs fois sur la puce de façon à améliorer la qualité des résultats.1.5. Déroulement d'une étude d'association genome-wide 27 - Analyse multi-marqueurs : en raison de la nature multifactorielle des maladies étudiées et du déséquilibre de liaison, il apparaît judicieux de prendre en compte les phé- nomènes d'interaction et d'association mis en jeu entre les marqueurs. Un autre chapitre développe cette thématique (chapitre 3 p. 103). - Intégration de données hétérogènes : de la même façon qu'il est possible de choisir des gènes de susceptibilité via une approche gène-candidat, ou encore de sélectionner les marqueurs à génotyper en intégrant a priori des informations biologiques, il n'est pas exclu d'utiliser cette information a posteriori pour renforcer les hypothèses issues des analyses statistiques. On peut par exemple utiliser la nature génomique des marqueurs associés (e.g. missense), l'implication des gènes dans des voix métaboliques connues, l'homologie avec des gènes dont la modication dans des modèles animaux induit l'apparition de signes proches de la maladie étudiée, l'analyse d'expression diérentielle de gènes au cours de processus physiopathologiques ainsi que l'information de similarité de séquences entre espèces dans le but de mettre en évidence des éléments de régulation. Etape 4 : Vérication des hypothèses par réplication En sciences expérimentales, la génération de connaissances nouvelles implique deux étapes distinctes : la production d'hypothèses et la vérication de ces hypothèses (Lantowski et Makalowski 2000). En Épidémiologie Génétique, la réplication des résultats à travers une ou plusieurs populations indépendantes est considérée comme l'approche privilégiée pour cette véri- cation ; elle permet de distinguer les faux-positifs des vrais signaux d'association (Lander et Kruglyak 1995, Keightley et Knott 1999). Cependant la dénition même de réplication n'est pas forcément claire et peut prendre un sens plus ou moins déni. De façon stricte, il s'agira de la réplication d'un même locus, mettant en cause les mêmes allèles ou génotypes de susceptibilité. On peut également considérer la réplication technique qui vise à réitérer la même expérience avec la même technique et sur la même population que l'on distingue de la conrmation technique qui réalise la même expérience sur la même population mais avec une technique diérente, par exemple en utilisant une puce Illumina lorsque la première expérience a été faite à l'aide d'une puce Aymetrix. En général, les résultats des réplications sont quelques peu décevants. Par exemple, sur plus de 1,300 études menées sur des maladies complexes et nancées par le National Insitutes of Health, on estime entre 16% et 30% la proportion d'études mettant en avant des réplications et à quelques dizaines le nombre de variants génétiques identiés comme étant impliqués dans une maladie complexe (Ioannidis 2003, Page et al 2003). On peut se demander pour quelles raisons les études d'association ne rencontrent pas le succès attendu ; les réponses peuvent se trouver en considérant la nature complexe des démarches expérimentales et des analyses statistiques mises en place, mais aussi des ma-28 1. Introduction ladies auxquelles on s'intéresse. Dans ce contexte une attention toute particulière devrait être portée sur le contrôle qualité de l'ensemble d'une étude, de la génération des données à la formulation d'hypothèses. 1.6 Contrôle qualité : validité et abilité des résultats L'un des moments les plus gratiants pour le chercheur est certainement l'obtention des premiers résultats issus de son étude. Néanmoins, il doit immédiatement se poser la question Est-ce que je crois à ce que j'observe ?. La réponse à cette question est en grande partie déterminée par un certains nombre d'interrogations sous-jacentes concernant la qualité des données et des résultats obtenus. Vraie valeur Non valide Fiable Non ?able Valide Fiable Valide Fig. 1.7  Validité et abilité : résultats d'un test d'hypothèse illustrant la distinction entre validité et abilité. La validité réfère à l'absence de biais dans un résultat, à sa justesse, tandis que la abilité représente sa reproductibilité ou précision. L'obtention de données et de résultats totalement dépourvus d'erreurs est impossible. L'objectif n'est donc pas de n'avoir aucune erreur mais plutôt d'être capable de jauger l'étendue de tout type d'erreur, d'en estimer les conséquences et de les inclure dans l'interprétation des résultats. Dans un article décrivant les causes de certains biais en Épidémiologie, Maclure et Scneeweiss (2001) suggèrent l'idée d'un Episcope à travers lequel un épidémiologiste observe l'association entre un agent causal et la maladie : de la même façon que l'utilisateur d'un télescope doit s'interroger sur l'existence et les conséquences d'une dégradation de l'image, un épidemiologiste devrait également s'interroger sur le pourquoi et le comment1.6. Contrôle qualité : validité et fiabilité des résultats 29 ses résultats ont pu être dénaturés par des considérations liées à la qualité des données, l'ecacité des méthodes d'analyse ainsi que la validité et la abilité des résultats : Les méthodes d'analyse employées sont-elles appropriées ? A partir de quel niveau de signicativité doit-on conclure qu'un résultat est positif ? Les données ont-elles été correctement collectées ? La population utilisée était-elle appropriée ? Mon étude est-elle capable de saisir la nature complexe des données biologiques ? Chacune de ces questions pointe un des principaux problèmes mis en cause dans la qualité des résultats. A l'occasion de cette section nous les aborderons un par un, nous en discuterons les eets et nous évoquerons les principales solutions existantes. Puissance statistique Le premier facteur à prendre en compte est le niveau de puissance statistique d'un test d'hypothèse ; il s'agit de sa capacité à rejeter l'hypothèse nulle quand celle-ci est eectivement fausse. En d'autres termes, la puissance d'un test est la probabilité de ne pas commettre une erreur de type-II : p(a) = PH1 (S > ta) = 1 - ß. Le niveau de puissance atteint dépend de plusieurs paramètres de nature statistique ou spéciques au problème génétique considéré. Ces paramètres sont : - la statistique : la puissance d'un test dépend de la pertinence de la statistique elle-même et donc de son adéquation avec la question posée. - le niveau a : la puissance est directement fonction du niveau xé. Plus le taux d'erreur de type-I que l'on accepte de prendre est petit et plus la puissance sera faible. A l'inverse, une forte puissance sera accompagnée d'un taux d'erreur de type-I plus élevé, ce qui n'est évidemment pas souhaitable non plus. L'objectif est donc de trouver le compromis entre une puissance satisfaisante et taux d'erreur de type-I raisonnable. - la taille de l'échantillon : plus l'échantillon est important et plus la puissance sera élevée. En Génétique, il y a fort à penser que dans la plupart des études publiées jusqu'à récemment, le manque de puissance avéré est essentiellement dû à des échantillons trop petits en comparaison des eets modestes que l'on espère identier (Ioannidis et al 2001). A titre d'exemple, sur les 226 études d'association concernant l'ostéoporose, publiées au cours de l'année 2002, un peu plus de la moitié est fondée sur des échantillons de moins de 200 individus (Liu et al 2003). Des jeux de données de l'ordre du millier d'individus30 1. Introduction apparaissent plus crédibles. Par ailleurs à taille d'échantillon constante, la puissance est maximale pour un nombre de cas et de témoins équivalents. - la force d'association : plus l'association entre un variant génétique et la maladie sera forte, plus la diérence entre ce que j'observe et ce que j'attends sous l'hypothèse H0 sera franche, et plus la puissance sera élevée. - le déséquilibre de liaison : les études d'association reposent en partie sur le fait que le marqueur testé est en déséquilibre de liaison avec le variant étiologique. L'aptitude à identier ces associations indirectes dépend du degré de déséquilibre de liaison qui existe entre les locus de susceptibilité et les marqueurs. - les proportions alléliques : on sait que la puissance pour détecter une association dépend également des proportions alléliques du locus de susceptibilité et du marqueur dans le cas d'une association indirecte (Zondervan et Cardon 2004). En particulier, on a vu que le degré de déséquilibre de liaison (et donc la puissance) est maximum lorsque les proportions alléliques entre les deux locus sont égales (déséquilibre parfait). L'eet conjoint de ces facteurs peut faire sensiblement varier la puissance statistique d'une étude. L'étude de puissance, c'est à dire la procédure qui vise à estimer la puissance d'une étude ou d'une méthode statistique donnée sous certaines conditions, est aujourd'hui une démarche tout à fait courante en Statistique appliquée à la Génétique. Elle permet par exemple d'estimer la taille d'échantillon nécessaire pour atteindre un certain niveau de puissance sous une hypothèse alternative dénie. Elle permet également d'estimer la puissance d'une approche de façon à la comparer à d'autres approches concurrentes. Cette démarche statistique va être employée à plusieurs reprise au cours de ce manuscrit. Test-multiple Lorsque l'on réalise un certain nombre de tests (n) avec un critère de rejet des hypothèses nulles (H01, ..., H0n) du type pv 6 a, on obtient des résultats de quatre natures : H0 non rejetée H0 rejetée total H0 vraie vn fp V H0 fausse fn vp F total n - R R n1.6. Contrôle qualité : validité et fiabilité des résultats 31 On note fp le nombre d'erreurs de type-I (ou faux-positifs) et fn le nombre d'erreurs de type-II (ou faux-négatifs). Si l'on réalise ces n tests de façon indépendante, on rejette classiquement H0i lorsque pvi 6 a. Mais lorsque l'on prend en compte l'ensemble de ces n tests, le nombre de faux-positifs obtenus par chance augmente avec n. Par exemple, si je réalise 100,000 tests à un niveau 5%, je m'attends à obtenir sous H0 en moyenne fp = na = 5, 000 faux-positifs ; la proportion de faux-positifs devient alors conséquente comparée au nombre de vrais-positifs que l'on s'attend à trouver. An de minimiser cette ination de faux-positifs, l'idée est de choisir un seuil de décision plus stringent qui ne sera plus xé à partir du risque d'erreur de type-I attribué à chaque test, mais plutôt fondé sur le contrôle de quantités plus adaptées et qui reposent sur le nombre d'erreurs générées par l'ensemble des n tests. - Le Family-Wise Error-Rate : le FWER est déni comme la probabilité de rejeter à tort au moins une hypothèse alors que toutes les hypothèses testées sont nulles : FWER = PH0 (fp > 0). On peut également le trouver sous le nom de Global ou Genome-wide Signicance Level. Dans le cas de tests indépendants, on a : FWER = 1 - PH0 (fp = 0) = 1 - (1 - a) n 6 max(na; 1). Cette majoration proposée par Bonferroni (1892-1960) est très proche de la vraie valeur du FWER dans le cas de tests indépendants ou faiblement dépendants. Néanmoins, elle tend à s'en écarter lorsque les tests sont dépendants, ce qui peut-être le cas des études d'association en raison du déséquilibre de liaison. Une alternative empirique permet d'estimer le FWER par simulations de Monte-Carlo qui intègrent l'éventuelle dépendance entre les tests. Le principe consiste à générer un certains nombre de jeux de données sous H0 à partir des données observées, en permutant les phénotypes de façon à ce que ces jeux de données satisfassent l'hypothèse de non-association et conservent le pattern de LD observé dans le jeu de données initial. En réalisant un grand nombre de permutations, on peut ainsi approcher la valeur du FWER. Si cette démarche est conceptuellement simple, elle demande en revanche un temps d'exécution plus important. - Le False Discovery Rate : bien qu'un contrôle du FWER à 5% soit très largement utilisé en science, il apparaît inapproprié pour les études génétiques à grande échelle car trop conservatif : si le nombre de faux-positifs en est largement diminué, le nombre de vraies découvertes l'est tout autant. La plupart des chercheurs n'est conceptuellement pas contre le fait d'accepter un taux de faux-positifs un peu plus élevé en échange d'une augmentation signicative de la puissance. Comme alternative au FWER, on a donc proposé le FDR qui est la proportion attendue de faux-positifs parmi l'ensemble des positifs : FDR = E(Q),32 1. Introduction avec Q = f p R si R > 0 et Q = 0 sinon. Le FDR dépend du niveau individuel a associé à chaque test, de l'hypothèse alternative ainsi que de la probabilité a priori pour chaque test d'être ou non sous H0. Les deux derniers paramètres n'étant pas directement accessibles, le contrôle du FDR peut paraître moins simple à mettre en place que celui du FWER. Comme les p-values sont uniformément distribuées entre 0 et 1 sous H0 et que la probabilité a priori d'être sous H1 est tellement petite qu'on peut la considérer comme nulle, Benjamini et Hochberg (1995) estiment par Vb = na la proportion de faux-positifs et proposent d'utiliser la majoration : FDR 6 max  na R(a) ; 1  , avec R(a) le nombre de positifs observés à un niveau a donné. Le problème du test-multiple est repris dans le chapitre 2 page 87 à l'occasion duquel nous évoquons une troisième quantité permettant le contrôle du nombre de faux-positifs et ainsi de xer le seuil de rejet de l'hypothèse nulle. Il s'agit du FDR Local. Erreurs de mesure La mesure des facteurs étudiés n'est pas toujours évidente à réaliser avec précision et des erreurs de mesure peuvent survenir pour diérentes raisons comme la qualité des échantillons, la performance des machines utilisées pour eectuer les mesures ainsi que les pratiques de laboratoire. De fait l'on doit se préparer à travailler avec des données de plus ou moins bonne qualité. Dans le cas de variables discrètes, on parlera d'erreurs de classication. Les erreurs qui aectent chaque individu de la même manière sont appelées erreurs non-diérentielles. Mais il peut arriver que le erreurs dépendent de la valeur d'une ou plusieurs covariables ; on parle alors d'erreurs diérentielles. Cela arrive par exemple lorsque les individus de diérentes familles sont traités de manières diérentes ; les conséquences des erreurs dépendront alors de la famille à laquelle appartient chaque individu. Les erreurs non-diérentielles sont connues pour provoquer une diminution de puissance. Les erreurs diérentielles peuvent être à l'origine d'eets plus sévères en aectant la nature des relations entre les marqueurs étudiés et la maladie (Fleiss 1981, Ewen et al 2000). - Erreurs de génotypage : les erreurs de classication qui aectent les génotypes sont appelées erreurs de génotypages. Dans les études cas-témoin, il a été constaté qu'une augmentation du taux d'erreur de génotypage de 1% nécessitait d'augmenter la taille de l'échantillon de 8% pour maintenir constants la puissance et le taux d'erreur de type-I (Gordon et al 2002). Il n'existe pas vraiment d'approche standard pour détecter les erreurs de génotypage et minimiser leur eets. De bonnes pratiques en laboratoire peuvent y contribuer, par exemple en ran-1.6. Contrôle qualité : validité et fiabilité des résultats 33 domisant les expériences : en mélangeant les cas et les témoins lors des expériences, on se prémunit ainsi d'erreurs diérentielles liées au statut ou à des variables latentes telles que l'eet du support de la puce de génotypage ou encore de l'expérimentateur pouvant entraîner des erreurs diérentielles. Une autre idée qui vient à l'esprit est de répéter les génotypages un certain nombre de fois ; de cette façon il est possible de comparer les diérentes répétitions an d'identier les individus pour lesquels un même marqueur présente des génotypes diérents. Néanmoins il n'est pas exclu que certains problèmes liés à la nature même du marqueur n'engendrent une erreur à chaque répétition. Par ailleurs, si les incohérences entre les résultats de plusieurs répétitions permettent d'identier les marqueurs problématiques, elles ne permettent en revanche pas vraiment d'armer quel génotype est le bon. Enn, la multiplication des génotypages entraîne une augmentation non-négligeable du coût et du temps de génération des données. Une façon de se convaincre de la qualité globale des données peut-être de génotyper un sous-ensemble de marqueurs contrôles en utilisant une méthode de génotypage plus able que les méthodes classiques de génération de données haut-débit (puces-à-ADN), fondée sur le séquençage par exemple. Une autre façon de mettre en avant des erreurs de génotypages est de tester l'équilibre d'Hardy-Weinberg chez les témoins. Une déviation par rapport à l'équilibre peut se produire par chance ou en raison d'événements génétiques et évolutionaires (p. 12) ; une déviation peut aussi être causée par des problèmes techniques liés au génotypage tels que la non-spécicité des sondes utilisées ou encore le typage systématique d'homozygotes en hétérozygotes et vice versa. Le test d'Hardy-Weinberg apparaît donc comme un moyen simple et ecace de discriminer les marqueurs soumis à un nombre important d'erreurs. Cette idée n'est en réalité pas nouvelle. Déjà dans les années 1970, des chercheurs testaient l'équilibre d'Hardy-Weinberg sur la base des groupes sanguins ; une déviation signicative pouvait souligner l'évidence de complications expérimentales (Mourant et al 1976). L'ecacité du test d'Hardy-Weinberg dans ce contexte est cependant discutée. Des études de simulations montrent que ces erreurs ne génèrent pas assez de déviation pour être réellement détectées avec une puissance satisfaisante (Leal 2005, Cox et Kraft 2006) ; pourtant en pratique l'étude empirique proposée par Hosking et al (2004) tend à montrer l'inverse : sur 313 SNPs, 36 (soit 11.5%) dévient signicativement de l'équilibre ; il a été a posteriori prouvé que 26 de ces déviations (soit 70%) trouvent leur origine dans des problèmes liés au génotypage. Par conséquent, en l'absence de méthodologie plus ecace, l'équilibre d'Hardy-Weinberg reste un moyen simple de mise en évidence d'erreurs. - Erreurs de phénotypage : de la même manière qu'il existe des erreurs de génotypage, il peut exister des erreurs de classication liées à la détermination des phénotypes (Rice et al 2001, Egan et al 2003). Comme nous l'avons déjà évoqué le recrutement des cas nécessite un diagnostic précis de la pathologie fondé sur des indicateurs histologiques, physiologiques, somatiques ou encore comportementaux. Le diagnostic peut s'avérer plus ou moins évident en fonction de la nature de la maladie et de la précision des indicateurs. Comparées aux erreurs de génotypages, les erreurs de phénotypages ont reçu beaucoup34 1. Introduction moins d'attention pour des conséquences pourtant similaires sur les résultats. - Génotypes manquants : le problème lié au traitement des valeurs manquantes est courant en Statistique, en particulier lorsque les données proviennent d'individus ou d'expérimentations. Une première solution consiste à ignorer les valeurs manquantes en considérant qu'elles n'ont pas d'eet sur les résultats obtenus. Une telle démarche, bien qu'attractive, nécessite de poser un certains nombre d'hypothèses dont on ne peut être sûr qu'elles se réalisent en pratique. Une deuxième solution consiste à exclure les marqueurs pour lesquels les valeurs manquantes semblent être diérentielles entre les cas et les té- moins (Little et Rubin 1987). Cette idée part du principe que les marqueurs pour lesquels la proportion de valeurs manquantes ne dière pas entre les cas et les témoins sont moins problématiques. Cela n'exclut pourtant pas une diminution de puissance et le fait que les valeurs manquantes se distribuent préférentiellement suivant une autre variable que le statut. On sait par exemple que dans l'utilisation de puces de génotypage, les génotypes hétérozygotes subissent une plus forte indétermination et donc un plus grand taux de valeurs manquantes que les génotypes homozygotes. Une troisième idée consiste à inférer les génotypes manquants plutôt que de les retirer de l'étude. Des algorithmes tels que l'EM (p. 193) et des procédures d'imputation de données (Rubin 1987) constituent un ensemble de réponses à ce problème. Les valeurs observées d'un même individu et/ou d'individus diérents sont alors prises en compte pour imputer les valeurs manquantes ; on peut par exemple intégrer l'information apportée par le déséquilibre de liaison ou l'équilibre d'Hardy-Weinberg. De façon générale, on peut penser que le taux d'erreurs de génotypages est étroitement lié à celui de génotypes manquants : les méthodes de génotypages pour lesquelles l'indé- termination sur les génotypes est faible peuvent avoir tendance à commettre une erreur et réciproquement (Lamy et al 2006). Il y a donc dans les méthodes de génotypage haut-débit actuelles, un équilibre à trouver entre erreurs de mesures et valeurs manquantes. Confusion et Stratication While the logical absurdity of attempting to measure an eect for a factor controlled by matching must be obvious, it is surprising how often investigators must be restrained from attempting this (Mantel et Haenszel 1959). On parle de confusion lorsque la prévalence 21 dière d'un groupe d'exposition à un autre. Un facteur de confusion (i) permet de prédire la maladie en l'absence de la variable d'exposition (ici le génotype), et (ii) est associé à la variable d'exposition dans la population considérée. L'assortiment des cas et des témoins sur certaines covariables a pour objectif d'équilibrer le nombre de cas et de témoins dans des strates dénies par 21 risque de développer une maladie1.6. Contrôle qualité : validité et fiabilité des résultats 35 ces covariables, de façon à éviter qu'elles ne jouent le rôle de facteur de confusion. On dit alors que l'on ajuste ou contrôle l'eet de ces covariables. Certaines covariables telles que le sexe ou la classe d'âge sont faciles à obtenir mais on peut s'attendre à des biais de sélection plus problématiques tels que l'origine ethnique des individus. La population est alors stratiée, ce qui peut remettre en cause la validité d'une étude. La stratication est donc la présence dans une population de plusieurs sous-groupes qui dièrent en terme de prévalence face à la maladie ; toute maladie qui apparaît avec un risque plus élevé dans un de ces sous-groupes sera positivement associée à tout allèle dont la fréquence est plus importante dans ce sous-groupe. Elle peut résulter d'un mélange récent de populations ou d'un assortiment insusant des cas et des témoins. Un exemple amusant est donné par l'association entre les allèles de la région HLA et la capacité à manger avec des baguettes dans la population de San Francisco : les cas sont principalement d'origine asiatique alors que les témoins sont majoritairement d'origine caucasienne ; par ailleurs les proportions alléliques des polymorphismes de la région HLA sont diérentes chez les caucasiens et les asiatiques ; par conséquent l'association observée n'a naturellement rien à voir avec le rôle du système HLA dans la dextérité manuelle nécessaire pour manger avec des baguettes. La stratication peut être à l'origine de faux-positifs et d'une diminution de puissance (Deng 2001) mais son réel impact est sujet à discussion. Wacholer et al (2000) montre que ses eets ne sont pas aussi inquiétant qu'on l'avait imaginé, à moins que certaines conditions ne soient réalisées : les plus importantes sont une sensible variation en terme de proportion allélique et de prévalence entre les sous-groupes. En dehors de ces conditions les auteurs suggèrent que l'impact de la stratication a toutes les chances d'être minime, en particulier si le nombre de sous-groupes est supérieur à 2. Néanmoins, elle reste un facteur de confusion éventuel qu'il est important de pouvoir estimer et maîtriser. Un moyen de se prémunir de la stratication est d'utiliser une approche familiale plutôt que cas-témoins. Mais aujourd'hui, un grand nombre d'études d'association est essentiellement fondée sur des cohortes d'individus non-apparentés. Des solutions ont donc été proposées, travaillant sur un jeu de marqueurs neutres face à la maladie. - Genomic Control : il s'agit de l'approche la plus employée sans doute pour sa simplicité (Devlin et Roeder 1999). Elle consiste à estimer le degré de surdispersion (?) de la statistique utilisée généré par la stratication, et de l'utiliser pour ajuster la statistique avant de réaliser le test. En pratique, il s'agit d'une normalisation empirique de la statistique par rapport à la distribution attendue sous l'hypothèse nulle. Cette approche est simple mais repose sur l'hypothèse que la stratication est constante le long du génome ce qui n'est pas forcément le cas, par exemple lorsqu'un locus subit une forte pression de sélection.36 1. Introduction cas contrôles sous-groupe A sous-groupe B Fig. 1.8  Stratication : la population est répartie en deux sous-groupes A et B. Ici les proportions des sous-groupes A et B sont diérentes entre les cas et les témoins. Une diérence de proportion allélique et de prévalence entre ces sous-groupes peut biaiser les résultats si la structure de la population n'est pas prise en compte dans les analyses. - Approche régressive : une autre approche tout aussi simple et peut-être un peu plus naturelle d'un point de vue statistique consiste à introduire les marqueurs neutres en tant que covariables dans l'analyse, de façon à prendre en compte leurs eets et par la même occasion l'eet de la stratication (Setakis et al 2006). - Structured Association : une troisième famille d'approches infère pour chaque individu le sous-groupe auquel il appartient et évalue l'association conditionnellement à cette structure estimée (Pritchard et al 2000, Satten et al 2001). Ces approches reposent sur des algorithmes d'inférence de variables latentes par des procédures de type EM (Dempster et al 1977) ou MCMC (Green et al 2003). Elles sont par conséquent un peu plus complexes à mettre en place, avec un temps d'exécution bien supérieur aux deux approches proposées précédemment. - Autres approches : d'autres approches fondées par exemple sur des analyses en composantes principales (Price et al 2006) ou sur des modèles de mélange (Yu et al 2006) ont récemment été publiées et apparaissent comme des alternatives rapides et ecaces. L'application de ces approches nécessite au préalable l'obtention d'un jeu de marqueurs neutres. Le choix de ces marqueurs peut être problématique : si l'on se trouve dans le cas où les marqueurs à analyser sont sélectionnés sans a priori biologique, les marqueurs neutre par rapport à la maladie n'ont alors pas plus de raison de l'être que les marqueurs1.6. Contrôle qualité : validité et fiabilité des résultats 37 utilisés pour l'analyse. De plus, en fonction de l'intensité de la stratication, le nombre de marqueurs neutres à inclure dans l'étude peut varier d'une dizaine à une centaine (Pritchard et al 2000). Si la stratication est souvent mise en cause pour expliquer le manque de reproductibilité des résultats dans les études d'association cas-témoins, seulement un petit nombre d'études ont, jusqu'à présent, mis en évidence ses eets. Un exemple connu est l'association rapportée entre l'haplotype Gm3 ;5 ;13 ;1 avec le diabète de type-II (Knowler et al 1988) induite par un mélange dans l'étude de blancs européens avec des indiens américains Pima. Étiologies hétérogènes Au delà des problèmes que nous venons de voir et qui mettent en cause la qualité des données et des résultats, des conclusions contradictoires entre deux populations peuvent trouver leur origine dans de réelles diérences biologiques. Lorsqu'une maladie implique des mécanismes diérents en fonction des individus, on parle alors d'étiologie hétérogène. Cette propriété pose un certains nombre de dés pour la découverte de nouveaux locus de susceptibilité et leur réplication. - Pléiotropie : la pléiotropie réfère à l'eet d'un même gène sur plusieurs phénotypes éventuellement pathologiques. Un exemple connu est celui donné par la phenylketonuria, maladie humaine responsable d'un retard mental et d'une dépigmentation de la peau mettant en cause le même gène (Campbell et Rudan 2002). - Hétérogénéité allélique : on parle d'hétérogénéité allélique lorsque diérents allèles confèrent la même pathologie. A titre d'exemple, on peut citer le cas du gène responsable de la brose cystique (Kerem et al 1989) pour lequel 75% des patients portent l'allèle Delta508 tandis que les 25% restant se partagent un grand nombre d'autres allèles. - Hétérogénéité de locus : quand la maladie étudiée peut trouver son origine au niveau de diérents locus, on parle d'hétérogénéité de locus. Un exemple classique est celui donnée par une forme récessive de l'albinisme qui peut être provoquée par un des deux gènes mis en cause (Trevor-Roper 1952). - Conséquences et solutions : ces facteurs peuvent engendrer une population de cas inhomogène en termes d'étiologie et conduire à une diminution de puissance sensible. Les études familiales, en se concentrant sur une forme héréditaire d'une maladie et donc potentiellement plus homogène entre les cas, peuvent se montrer plus robustes face à ce38 1. Introduction type d'hétérogénéité. Peltonem (2000) suggère de travailler avec des populations isolées 22 an de minimiser le phénomène. Par ailleurs, d'un point de vue méthodologique, certains auteurs proposent de partitionner les cas en sous-groupes homogènes pour lesquels dié- rentes étiologies sont autorisées (Whittemore et Halpern 2001, Province et al 2001, Ritchie et al 2003). Hétérogénéité inter-populations : enn ajoutons que tous ces facteurs peuvent agir diéremment sur le même trait d'une population à l'autre. Bien que les variants étiologiques impliqués puisse être les mêmes, la variation du pattern de LD peut également accentuer les diérences de résultats entre populations (Zavattari et al 2000). La suite du manuscrit détaille plus spéciquement le travail de recherche réalisé à l'occasion de cette thèse, inspiré des problématiques méthodologiques soulevées par l'analyse de données d'association cas-témoins genome-wide. Nous traitons successivement des approches simple-marqueur et multi-marqueurs. 22 pour leur homogénéité39 Chapitre 2 Approches simple-marqueur La première étape de l'analyse statistique d'une étude d'association consiste souvent au traitement individuel de chaque marqueur. Ce chapitre est dédié à ce type d'analyse. Nous introduisons en premier lieu les notions d'association statistique, de test d'indépendance et de mesure d'association. Puis nous présentons les tests d'association génétique principalement utilisés dans la littérature : le test génotypique, le test de tendance, le test allélique et le test d'Hardy-Weinberg. Au premier abord, les analyses simple-marqueur peuvent paraître tout à fait triviales ; elles soulèvent cependant un certain nombre de questions et de décisions à prendre en terme de stratégie d'analyse. En particulier, utiliser l'un ou l'autre des diérents tests d'association peut changer la puissance de l'analyse ainsi que les résultats obtenus. An d'éclairer ce choix, nous mettons en place une étude de puissance. A cette occasion, nous comparons diérentes méthodes d'estimation de la puissance. En l'occurrence, nous montrons que malgré une complexité avérée, l'utilisation de Formes Quadratiques présente un certain intérêt comparé aux méthodes traditionnelles. Ces résultats ont été publiés dans Annals of Human Genetics (2006). Nous avons également comparé la puissance des statistiques considérées. En particulier, nous consacrons une section au test allélique dont la validité dépend en réalité du respect de l'équilibre d'Hardy-Weinberg ; comme alternative, nous proposons un test allélique exact et valide en toutes circonstances que nous avons publié dans Human Heredity (2006). Nous consacrons également une section au test d'Hardy-Weinberg qui a récemment été proposé en tant que test d'association ; si sa validité dans le contexte des études d'association genome-wide est discutée, combiné à d'autre tests, il semble néanmoins apporter un gain de puissance tout à fait intéressant. Ce travail est actuellement en cours de soumission pour publication. Enn lorsque l'on réalise un grand nombre de tests, le problème du test-multiple est à considérer très sérieusement pour décider d'un niveau adéquat de rejet de l'hypothèse nulle. Cette thématique a été évoquée en introduction. Dans ce chapitre, nous abordons une quantité développée récemment, le FDR Local, pour lequel nous introduisons une méthode d'estimation aussi simple et rapide qu'intuitive.40 2. Approches simple-marqueur 2.1 Introduction Les données issues d'études d'association cas-témoins ou familiales doivent indiquer pour chaque individu le statut (aecté/non-aecté) ainsi que la conguration génotypique de chaque marqueur. On peut également y trouver des informations complémentaires telles que les identiants des individus, des marqueurs, la position des marqueurs sur le génome, les liens de parentés entre individus s'ils existent, ainsi que des covariables telles que le sexe, l'âge ou l'origine ethnique. Le format de données que nous utilisons pour intégrer toutes ces informations est réparti en trois tables : geno, pheno et info. La table geno donne pour chaque marqueur (Mi), la conguration génotypique (0, 1 et 2 correspondant à aa, aA et AA) par individu (ii) tandis que la table pheno indique pour chaque individu son phénotype (D pour aecté ou diseased et H pour non-aecté ou healthy) ainsi que les éventuelles valeurs de covariables (table 2.1). M1 M2 · · · Mn statut sexe âge i1 0 0 · · · 0 D m 18 i2 2 1 · · · 1 D f 39 i3 2 1 · · · 2 D m 32 . . . iN 2 0 · · · 1 H f 35 Tab. 2.1  Geno et Pheno. La table info (2.2) donnent toutes les informations complémentaires sur les marqueurs, les deux principales étant le chromosome sur lequel ils se trouvent ainsi que leur position (en paires de bases par exemple). chr position M1 1 11234 M2 1 11889 M3 2 436789 . . . Mn 2 445631 Tab. 2.2  Info. Les approches simple-marqueur estiment l'eet marginal de chaque marqueur sur la maladie indépendamment des autres marqueurs. Il s'agit d'attribuer à chaque marqueur (Mi) une valeur de la statistique considérée (Si) et en fonction de cette valeur par rapport à un seuil déterminé par le taux d'erreur de type-I que l'on se donne (en général 5%), de décider si l'on considère ou non le marqueur comme étant statistiquement associé à la maladie (table 2.3).2.2. Association statistique et tests d'indépendance 41 M1 M2 · · · Mi · · · Mn S S1 S2 · · · Si · · · Sn H0 non rejetée rejetée · · · non rejetée · · · non rejetée Tab. 2.3  Signal d'association. 2.2 Association statistique et tests d'indépendance Dénition Deux variables sont dites mutuellement dépendantes si la probabilité d'observer une valeur pour une variable dépend de la valeur prise par l'autre. L'association est une forme courante de dépendance et implique que le niveau général pris par une variable change en fonction des valeurs de l'autre. Il est important de noter que l'association n'implique pas forcément une relation de causalité : deux variables peuvent en eet être en association sans que l'une n'ait un eet direct et établi sur l'autre. Le concept d'association est sensiblement proche de celui de corrélation. Pour des variables quantitatives, la diérence est que la corrélation implique une relation linéaire entre les variables alors que l'association n'est pas contrainte à la monotonie : une variable peut augmenter puis diminuer pendant que l'autre augmente. L'association est aussi le terme employé pour exprimer une dépendance entre variables qualitatives. Une mesure d'association est une statistique qui permet de quantier le degré de dé- pendance entre plusieurs variables. Un fort degré d'association indique que la connaissance du niveau d'une variable augmente fortement l'aptitude à prédire précisément le niveau de l'autre ; un degré peu élevé indique une moins bonne capacité de prédiction. Table de contingence et modèles d'échantillonage Soient deux variables qualitatives I et J pouvant prendre les valeurs I1, ..., Ip et J1, ..., Jq respectivement. La réalisation de N observations du couple de variables I, J peut se mettre sous la forme d'une table de contingence (T ), terme introduit par Pearson, où chaque case i, j représente le nombre d'occurrences du couple Ii , Jj (table 2.4). L'ensemble des probabilités pij , pi. et p.j dénotent les distributions jointe et marginales de I et J respectivement. Les valeurs de chaque case sont issues d'un modèle d'échantillonnage donné en fonction de paramètres que l'on se xe. - Quand il n'y a aucune contrainte sur les valeurs prises par la table de contingence, un modèle de Poisson traite chaque case comme une variable aléatoire de Poisson de42 2. Approches simple-marqueur J1 · · · Jj · · · Jq total I1 N11 · · · N1j · · · N1q N1. . . . . . . . . . . . . . . . Ii Ni1 · · · Nij · · · Niq Ni. . . . . . . . . . . . . . . . Ip Np1 · · · Npj · · · Npq Np. total N.1 · · · N.j · · · N.q N Tab. 2.4  Table de contingence (T ). paramètre ?ij = Npij , indépendante des autres cases. La probabilité d'observer une table donnée est alors : P(T ) = Y i Y j exp(-?ij ) ? Nij ij Nij ! . - Quand la taille de l'échantillon est xée mais que les marges en lignes et colonnes ne le sont pas, on applique un modèle multinomial M(N, p11, · · · , pij , · · · , ppq) où chaque case correspond à un tirage possible sur les N réalisés. Dans ce cas, la probabilité d'une table satisfaisant P i P j Nij = N est donnée par : P(T ) = N! Q i Q j Nij ! Y i Y j p Nij ij . - On peut également considérer que les marges en ligne ou en colonne sont xées à l'avance. C'est le cas par exemple d'une étude cas-témoins où les nombres de cas et de témoins sont déterminés a priori. Dans ce cas chaque ligne est échantillonnée indépendamment des autres suivant un tirage multinomial M(Ni. , pi1, ..., pij , ..., piq). On parle alors de modèle multinomial indépendant ou de produit de multinomiales. Dans ce cas, la probabilité d'observer une ligne (l i) satisfaisant P j Nij = Ni. est : P(l i) = Ni. ! Q j Nij ! Y j p Nij ij , et la probabilité d'une table est donnée par : P(T ) = Y i P(l i) = Y i Ni. ! Q j Nij ! Y j p Nij ij ! . - Enn lorsque les marges en ligne et colonnes sont xées, le modèle d'échantillonage approprié qui satisfait P j Nij = Ni. et P i Nij = N.j est le modèle hypergéométrique2.2. Association statistique et tests d'indépendance 43 multivarié. La probabilité d'observer une ligne est alors : P(l i) = Qq-1 j=1 Nij N.j  N.j N  , et la probabilité d'une table est donnée par : P(T ) = Yp-1 i=1 P(l i) = Yp-1 i=1 Qq-1 j=1 Nij N.j  Ni. N  . La distribution hypergéométrique telle qu'elle est souvent connue correspond au cas i = j = 2. Tests d'indépendance L'indépendance entre deux variables I et J correspond à l'égalité de chaque probabilité pij au produit des probabilités marginales : pij = pi.×p.j . Ces probabilités n'étant en réalité pas connues, on utilisera leurs estimations au maximum de vraisemblance pˆi. = Ni. N et pˆ.j = N.j N . Une statistique d'association quantie alors la distance entre les valeurs observées de la table de contingence (Nij ) et celles attendues sous l'hypothèse nulle d'indépendance (Eij = Npˆi.pˆj. = Ni.Nj. N ). - Test de score : en 1900, Pearson introduit le test de score correspondant à ce test d'indépendance. La statistique associée quantie l'écart normalisé entre les valeurs observées de la table de contingence et celles attendues sous H0 : X = X i X j (Nij - Eij ) 2 Eij . - Test du rapport de vraisemblance : une alternative au test de score proposé par Pearson est le test du rapport de vraisemblances : ? = Q i Q j (Ni.N.j ) Nij N N Q i Q j (Nij ) Nij . En pratique on utilisera plutôt la statistique : G = -2 log ? = 2 X i X j Nij log Nij Eij .