Notes de cours de statistique mathématique élémentaire

ou juste avant la balise de fermeture -->

 

 

10% de réduction sur vos envois d'emailing --> CLIQUEZ ICI

Retour ą l'accueil, cliquez ici

ou juste avant la balise de fermeture -->

Notes de cours de statistique math¶ematique ¶el¶ementaire Christian L¶eonard D¶epartement de math¶ematiques et informatique. Universit¶e Paris Ouest Nanterre Je n'ai pas inclus les illustrations, mais le cours reste lisible. 11 Variables aleatoires discretes Alea jacta est. En lan»cant un d¶e, j'observe une quantit¶e al¶eatoire susceptible de prendre les valeurs 1, 2, 3, 4, 5 ou 6. Si mon d¶e est honn^ete, j'ai une chance sur six d'obtenir chacune de ces valeurs. Nous dirons donc que la probabilit¶e d'observer la valeur 4, par exemple, est 1 6 : Ce qui en notant X le r¶esultat al¶eatoire du lancer de d¶e, s'¶ecrit symboliquement : P (X = 4) = 1 6 : On a de m^eme : P (X = 1) = P (X = 2) = ¢ ¢ ¢ = P (X = 6) = 1 6 : La probabilit¶e d'observer 3 ou 5 est ¶egale µa nombre d'¶ev¶enements favorables nombre d'¶ev¶enements possibles = nombre d'¶el¶ements de f3; 5g nombre d'¶el¶ements de f1; 2; 3; 4; 5; 6g = 2 6 = 1 3 : En d'autres termes, on a une chance sur trois d'observer soit 3, soit 5. Cette probabilit¶e s'¶ecrit symboliquement P (X 2 f3; 5g) = 1 3 : Remarquons que P (X 2 f3; 5g) = P (X = 3) + P (X = 5) puisque P (X = 3) + P (X = 5) = 1 6 + 1 6 = 1 3 : De m^eme, la probabilit¶e d'obtenir une valeur paire est P (X 2 f2; 4; 6g) = P (X = 2) + P (X = 4) + P (X = 6) = 1 6 + 1 6 + 1 6 = 1 2 : Maintenant, on me propose le jeu suivant : si le d¶e prend sa valeur dans f1; 2; 3g; je gagne 1 franc ; s'il prend sa valeur dans f4; 5g; je gagne 5 francs et s'il prend la valeur 6, je gagne 35 francs. En notant Y mon gain al¶eatoire (en francs), la probabilit¶e de gagner 1 franc est P (Y = 1) = P (X 2 f1; 2; 3g) = 3 6 = 1 2 ; de m^eme P (Y = 5) = P (X 2 f4; 5g) = 2 6 = 1 3 et P (Y = 35) = P (X = 6) = 1 6 : Les comportements al¶eatoires de X et de Y sont entiµerement d¶ecrits par les fonctions suivantes : pX(x) = P (X = x); x = 1; 2; : : : ; 6 et pY (y) = P (Y = y); y = 1; 5; 35; 1c'est-µa-dire : pX(1) = ¢ ¢ ¢ = pX(6) = 1 6 et pY (1) = 1 2 ; pY (5) = 1 3 et pY (35) = 1 6 : Noter que pX(1) + ¢ ¢ ¢ + pX(6) = 1 = 100% et pY (1) + pY (5) + pY (35) = 1 = 100%: Or pX(1) + ¢ ¢ ¢ + pX(6) = P (X 2 f1; : : : ; 6g) et pY (1) + pY (5) + pY (35) = P (Y 2 f1; 5; 35g); de sorte que les ¶egalit¶es pr¶ec¶edentes signiÆent que j'ai 100% de chance d'obtenir (j'obtiens µa coup s^ur) une valeur dans f1; : : : ; 6g et de gagner soit 1 Fr, soit 5 Fr, soit 35 Fr. Cet exemple motive les d¶eÆnitions suivantes. On dit qu'une quantit¶e al¶eatoire X susceptible de prendre un nombre Æni : k; de valeurs num¶eriques : x1; x2; : : : ; xk est une variable al¶eatoire discrµete. Son comportement al¶eatoire est d¶ecrit par la fonction pX(x) = P (X = x); x = x1; : : : ; xk qui satisfait les conditions 0 · pX(x) · 1; x = x1; : : : ; xk et pX(x1) + ¢ ¢ ¢ + pX(xk) = 1: Cette fonction pX est appel¶ee la loi de X: Dans l'exemple du d¶e, pX et pY peuvent ^etre repr¶esent¶es graphiquement µa l'aide de barres : Au lieu de consid¶erer les ¶ev¶enements de la form (X = x); il sera pratique de s'int¶eresser µa ceux de la forme (X · x) oµu x parcourt l'ensemble des nombres r¶eels. Avec notre d¶e, nous avons par exemple : P (X · 1) = 1 6 ; P (X · 4) = P (X 2 f1; 2; 3; 4g) = 4 6 ; P (X · 6) = 6 6 = 1 ainsi que P (X · 1:2) = P (X = 1) = 1 6 et P (X · 0:5) = 0: L'¶egalit¶e P (X · 0:5) = 0 signiÆe qu'il y a une probabilit¶e 0 (aucune chance) d'obtenir une face dont le num¶ero est inf¶erieur µa 0.5. de m^eme : P (Y · 1) = 1 2 ; P (Y · 21:95) = P (Y · 5) = P (Y = 1) + P (Y = 5) = 1 2 + 1 3 = 5 6 et P (Y · 100) = P (Y · 35) = P (Y = 1) + P (Y = 5) + P (Y = 35) = 1: 2En notant ces probabilit¶es cumul¶ees FX(x) = P (X · x) et FY (y) = P (Y · y); nous avons les repr¶esentations graphiques suivantes : Dans le graphique de FX; la hauteur des marches est 1 6 alors que dans celui de FY ; la hauteur de la marche situ¶ee en y = 1 est pY (1); celle de la marche situ¶ee en y = 5 est pY (5); celle de la marche situ¶ee en y = 35 est pY (35) et celle de la marche situ¶ee en y = 5:2 est P (Y = 5:2) = 0 : il n'y a pas de marche µa cet endroit. On pose la d¶eÆnition suivante : soit X une variable al¶eatoire discrµete, la fonction FX(x) = P (X · x); x 2 IR est appel¶ee la fonction de r¶epartition de X: Voici le mode de calcul de FX: On ordonne les valeurs possibles de X par ordre croissant : x1 · x2 · ¢ ¢ ¢ · xk: Si x est situ¶e entre les j µeme et (j + 1) µeme valeurs : xj · x < xj+1; alors FX(x) = pX(x1) + ¢ ¢ ¢ + pX(xj”1) + pX(xj ): Si x < x1; alors FX(x) = 0 et si x ø xk; alors FX(x) = pX(x1) + ¢ ¢ ¢ + pX(xk) = 1: Remarquons qu'une fonction de r¶epartition cro^³t toujours de 0 µa 1. Soit A un ensemble de valeurs que X peut prendre. De deux choses l'une : soit X appartient µa A; soit X n'appartient pas µa A: Cette remarque se traduit symboliquement par : P (X 2 A) + P (X 62 A) = 100% = 1: On l'utilise souvent sous la forme : P (X 62 A) = 1 ” P (X 2 A): En particulier, nous avons pour tout x 2 IR : P (X > x) = 1 ” P (X · x) = 1 ” FX(x): Dans l'exemple du d¶e, nous avons P (X > 4) = 1 ” FX(4) = 1 ” 4 6 = 2 6 : Il convient de faire attention et de distinguer P (X > x) et P (X ø x): En e®et, P (X > 4) = P (X 2 f5; 6g) et P (X ø 4) = P (X 2 f4; 5; 6g) = 3 6 : De m^eme, il faut distinguer P (X < x) et P (X · x): La personne qui organise le jeu de d¶e (et qui se propose de me donner 1, 5 ou 35 francs), se demande en retour combien elle doit me faire payer la partie pour ^etre b¶en¶eÆciaire. Cette personne raisonne correctement de la maniµere suivante. La partie lui co^ute 1 Fr avec la probabilit¶e P (Y = 1) = 1 2 ; 5 Fr 3avec la probabilit¶e P (Y = 5) = 1 3 et 35 Fr avec la probabilit¶e P (Y = 35) = 1 6 : Si un grand nombre de parties a lieu, µa peu prµes 1 partie sur 2 (proportion 1 2 ) lui co^utera 1 Fr, 1 partie sur 3 (proportion 1 3 ) lui co^utera 2 Fr et 1 partie sur 6 (proportion 1 6 ) lui co^utera 35 Fr. Donc, approximativement, en moyenne une partie lui co^utera 1 2 ¢(1 Fr) + 1 3 ¢(5 Fr) + 1 6 ¢(35 Fr) = 8 Fr: C'est-µa-dire qu'elle s'attend µa payer en moyenne 8 Fr par partie. Une telle moyenne pond¶er¶ee s'appelle l'esp¶erance math¶ematique de Y: Si cette personne d¶ecide de proposer la partie µa 10 Fr, elle s'attend µa gagner en moyenne 2 Fr par partie. Mais comme je ne perdrai pas plus de 9 Fr par partie, il se peut je me laisse tenter par la possibilit¶e du gain de 25 Fr. La formule ci-dessus est un cas particulier de la formule g¶en¶erale de l'esp¶erance math¶ematique E(Y ) d'une variable al¶eatoire Y de loi pY : E(Y ) = P (Y = y1)¢y1 + ¢ ¢ ¢ + P (Y = yk)¢yk = pY (y1)¢y1 + ¢ ¢ ¢ + pY (yk)¢yk oµu y1; : : : ; yk sont les valeurs prises par Y: D'autre part, mon gain Y est fonction du r¶esultat X du lancer du d¶e. Plus pr¶ecis¶ement, Y = u(X) avec u(x) = 8 < : 1 si x = 1; 2; 3 5 si x = 4; 5 35 si x = 6 Il s'ensuit que nous devons avoir E(Y ) = E[u(X)]; et si l'on prend pour E[u(X)] la quantit¶e P (X = 1)¢u(1) + P (X = 2)¢u(2) + ¢ ¢ ¢ + P (X = 6)¢u(6) = 1 6 ¢u(1) + 1 6 ¢u(2) + ¢ ¢ ¢ + 1 6 ¢u(6) = 1 6 ¢1 + 1 6 ¢1 + 1 6 ¢1 + 1 6 ¢5 + 1 6 ¢5 + 1 6 ¢35 = 8 cette ¶egalit¶e est satisfaite. Ce qui nous suggµere la d¶eÆnition g¶en¶erale de l'esp¶erance math¶ematique d'une fonction de X : E[u(X)] = P (X = x1)¢u(x1) + ¢ ¢ ¢ + P (X = xk)¢u(xk) = pX(x1)¢u(x1) + ¢ ¢ ¢ + pX(xk)¢u(xk): Pour une variable al¶eatoire discrµete g¶en¶erale X; E(X) s'appelle sa moyenne. Si E(X) = ¹; on d¶eÆnit la variance de X par Var(X) = E[(X ” ¹) 2 ] = pX(x1)¢(x1 ” ¹) 2 + ¢ ¢ ¢ + pX(xk)¢(xk ” ¹) 2 et l'¶ecart type de X est d¶eÆni par ¾ = p Var(X) = p E[(X ” ¹) 2 ]: 4Par exemple, si X est la face du d¶e, nous avons E(X) = 1 6 ¢1 + 1 6 ¢2 + ¢ ¢ ¢ + 1 6 ¢6 = 7=2 = 3:5: et Var(X) = 1 6 ¢(1 ” 3:5) 2 + 1 6 ¢ (2 ” 3:5) 2 + ¢ ¢ ¢ + 1 6 ¢(6 ” 3:5) 2 = 35=12 = 2:917 et l'¶ecart type est ¾ = p 35=12 ' 1:708: On montre par le calcul que la variance de X est aussi ¶egale µa : Var(X) = E(X2 ) ” ³ E(X) “2 : dans l'exemple pr¶ec¶edent, on v¶eriÆe bien que E(X2 ) = 1 6 ¢1 2 + 1 6 ¢2 2 + ¢ ¢ ¢ + 1 6 ¢6 2 = 15:167; de sorte que Var(X) = 15:167 ” (3:5) 2 = 2:917: Un exemple important. Une des variables al¶eatoires les plus simples est X qui ne peut prendre que deux valeurs. On choisit souvent pour ces deux valeurs : 0 et 1. La variable al¶eatoire prend la valeur 1 avec la probabilit¶e p oµu 0 · p · 1; elle prend donc l'autre valeur : 0, avec la probabilit¶e compl¶ementaire : 1 ” p: Sa loi est donc pX(1) = p et pX(0) = 1 ” p: On dit que X suit une loi de Bernoulli de paramµetre p: Ce que l'on note X » B(p): Calculons les moyenne et variance de X: Nous avons, E(X) = p ¢ 1 + (1 ” p)¢0 = p et E(X2 ) = p¢1 2 +(1”p)¢0 2 = p ¢ 1 +(1”p)¢0 = p; de sorte que Var(X) = E(X2 )” ³ E(X) “2 = p”p 2 = p(1”p): On r¶esume : si X » B(p); alors : E(X) = p et Var(X) = p(1 ” p): Exercices 1. Dans un hall de gare se tiennent 50 personnes : 11 ont des revenus trµes faibles (Classe 1), 19 ont des revenus assez faibles (Classe 2), 14 ont des revenus moyens (Classe 3) et 6 ont des revenus ¶elev¶es (Classe 4). Une de ces personnes est interrog¶ee au hasard. Soit X la variable al¶eatoire, µa valeurs dans f1; 2; 3; 4g; qui est ¶egale µa la classe de revenu de la personne interrog¶ee. Trouver la loi pX et la fonction de r¶epartition FX de X: En donner des repr¶esentations graphiques. 52. Deux des huit barrettes de m¶emoire de mon ordinateur sont d¶efectueuses. Pour le r¶eparer, je d¶ecide de retirer au hasard 2 barrettes et de les remplacer par des barrettes en bon ¶etat. Soit X le nombre de barrettes d¶efectueuses qui se trouvent parmi les 2 barrettes que je viens de retirer. Trouver la loi pX et la fonction de r¶epartition FX de X: En donner des repr¶esentations graphiques. 3. La loi pX de X est donn¶ee par pX(0) = 3=10; pX(1) = 3=10; pX(2) = 1=10 et pX(3) = 3=10: Calculer les moyenne, variance et ¶ecart-type de X: 4. On prend deux boules au hasard (sans remplacement) dans une urne qui contient 3 boules vertes et 5 boules rouges. Soit X le nombre de boules vertes qui viennent d'^etre tir¶ees. Calculer les moyenne et variance de X: 5. Trouver la moyenne et la variance de la variable al¶eatoire dont la fonction de r¶epartition est donn¶ee par FX(x) = 8 <> :> 0 si x < 10 1=4 si 10 · x < 15 3=4 si 15 · x < 20 1 si 20 · x: 62 Variables aleatoires continues Il existe des quantit¶es al¶eatoires qui peuvent prendre une inÆnit¶e de valeurs. Par exemple, si je joue µa Pile ou Face jusqu'µa ce que j'obtienne Pile pour la premiµere fois, le nombre de tirages X qu'il me faut pour voir appara^³tre Pile une premiµere fois peut prendre toutes les valeurs entiµeres 1, 2, : : : . M^eme si la probabilit¶e que X d¶epasse 1000000000 est trµes faible, il est tout de m^eme possible que cet ¶ev¶enement se produise. Mais que penser de ma calculette qui possµede un programme de tirage de nombres au hasard ? Ces nombres sont tir¶es entre 0 et 1 et l'on m'a dit que tous ces nombres ont la m^eme probabilit¶e d'^etre tir¶es. Soit X le nombre que me donne le programme de ma calculette. Je sais qu'µa coup s^ur X 2 [0; 1]; ce qui s'¶ecrit symboliquement : P (X 2 [0; 1]) = 100% = 1: ([0; 1] d¶esigne l'ensemble de tous les r¶eels compris entre 0 et 1). Quelle est la probabilit¶e que X prenne exactement la valeur 0.2 ? Puisque ce tirage ne favorise ni ne d¶efavorise aucune valeur de [0; 1]; je dois avoir P (X = 0:2) = nombre de r¶eels qui valent 0.2 parmi les r¶eels de [0,1] nombre de r¶eels de [0,1] = 1 1 = 0: De sorte que pour tout x 2 [0; 1]; P (X = x) = 0: On ne s'est pas tromp¶e en me disant que toutes les valeurs sortent avec la m^eme probabilit¶e, mais »ca ne m'avance pas pour calculer P (X 2 [0; 1 2 ]): Pourtant, il est clair que puisque 1 2 est le milieu de [0,1], il y a autant de chance pour que X soit sup¶erieur µa 1 2 que pour que X lui soit inf¶erieur. On a donc P (X 2 [0; 1 2 ]) = P (X 2 [ 1 2 ; 1]) = 50% = 0:5: Puisque 0.5 est la longueur des segments [0; 1 2 ] et [ 1 2 ; 1]; ceci nous sugg¶ere que le comportement al¶eatoire de X est d¶ecrit, pour tous 0 · a · b · 1; par P (X 2 [a; b]) = longueur de [a; b] = b ” a: 7En particulier, en consid¶erant des intervalles qui enserrent de plus en plus la valeur x = 0:2; nous avons P (X 2 [0:15; 0:25]) = 0:10 = 10% P (X 2 [0:19; 0:21]) = 0:02 = 2% P (X 2 [0:199; 0:201]) = 0:002 = 0:2% P (X = 0:2) = P (X 2 [0:2; 0:2]) = 0: Si le tirage de X est uniforme sur l'intervalle [0; L]; plut^ot que sur [0; 1]; on doit bien s^ur avoir P (X 2 [0; L]) = 100% = 1; et il est naturel de g¶en¶eraliser la formule : nombre d'¶ev¶enements favorables nombre d'¶ev¶enements possibles (pour ne privil¶egier ni ne d¶efavoriser aucunes des valeurs de [0; L]); par : P (X 2 [a; b]) = longueur de [a; b] longueur de [0; L] = b ” a L ; pour tous 0 · a · b · L: En consid¶erant la fonction fX(x) = ½ 1 L si x 2 [0; L] 0 si x 62 [0; L] l'interpr¶etation graphique de la formule P (X 2 [a; b]) = b”a L est la suivante : La surface du rectangle hachur¶e est (b ” a)¢ 1 L = b”a L = P (X 2 [a; b]): En particulier, la surface du rectangle pointill¶e est L¢ 1 L = 1 = P (X 2 [0; L]): La fonction fX d¶etermine le comportement du tirage al¶eatoire X uniforme sur [0; L]: Elle joue un r^ole analogue µa la loi pX d'une variable al¶eatoire discrµete. Pour tout x 2 IR; la quantit¶e FX(x) = P (X · x) est donn¶ee par FX(x) = 8 < : 0 si x · 0 x L si 0 · x · L 1 si x ø L puisque l'¶ev¶enement X · x est impossible si x · 0; X · x est toujours satisfait si x ø L et si 0 · x · L; P (X · x) = P (X 2 [0; x]) = x”0 L = x L : 8On appelle fX la densit¶e de la loi de X et FX est sa fonction de r¶epartition. On peut g¶en¶eraliser cette fa»con de construire des quantit¶es al¶eatoires, de la maniµere suivante. On se donne une fonction f positive, dont le graphe est tel que la surface comprise entre le graphe de f et l'axe horizontal est ¶egale µa 1. On d¶ecrit alors le comportement d'une quantit¶e al¶eatoire X par la formule (1) P (X 2 [a; b]) = surface de = surface de surface de ; pour tous a · b la derniµere ¶egalit¶e ayant lieu puisque surface de = 1: En particulier, pour tout x 2 IR P (X = xo) = P (X 2 [xo; xo]) = surface de = 0 et P (X 2 IR) = P (X 2] ” 1; +1[) = surface de = 1: Nous donnons maintenant quelques d¶eÆnitions. Une quantit¶e al¶eatoire X dont le comportement est d¶ecrit par (1) est appel¶ee une variable al¶eatoire continue. La fonction f est sa densit¶e. Sa fonction de r¶epartition F est d¶eÆnie, comme pour les variables al¶eatoires discrµetes, par F (x) = P (X · x); x 2 IR: 9Nous avons donc F (xo) = surface de : Math¶ematiquement, la surface de est donn¶ee par l'int¶egrale R b a f(x) dx; donc P (X 2 [a; b]) = Z b a f(x) dx: En particulier F (x) = R x ”1 f(t) dt et sa d¶eriv¶ee est F 0 (x) = f(x): Une formule trµes utile au sujet des fonctions de r¶epartition des variables al¶eatoires continues, est celle-ci : P (a · X · b) = F (b) ” F (a); a · b; oµu X est une variable al¶eatoire continue de fonction de r¶epartiton F: En e®et, surface de = surface de ” surface de soit P (a · X · b) = P (X · b) ” P (X · a) = F (b) ” F (a) Si f est de la forme alors pour tous ® · a · b · Æ; P (X 2 [a; b]) = surface de = 0: En d'autres termes, X ne peut pas prendre les valeurs x telles que f(x) = 0: Il existe aussi des notions de moyenne de X : E(X); et de variance de X : Var(X); lorsque X est une variable al¶eatoire continue. Math¶ematiquement, les d¶eÆnitions de E(X) et Var(X) sont E(X) = Z +1 ”1 xf(x) dx; et en notant E(X) = ¹; Var(X) = Z +1 ”1 (x ” ¹) 2 f(x) dx: Dessinons le graphe de la densit¶e f de X sur une plaque de bois r¶eguliµere et d¶ecoupons la partie comprise entre l'axe horizontal et f: Si l'on cherche µa maintenir cet objet d¶ecoup¶e en ¶equilibre sur 10une pointe en contact avec l'axe horizontal Ox; le seul endroit oµu l'on peut placer la pointe se situe en x = E(X) = ¹: Attention ! Si l'on d¶ecoupe cet objet en suivant la droite verticale passant par E(X) = ¹; les deux morceaux ainsi obtenus n'ont pas n¶ecessairement la m^eme masse. Exemples. Soit X un tirage al¶eatoire uniforme sur [0; 5]; alors E(X) = 5 2 = 2:5 : On considµere une variable al¶eatoire Y de densit¶e : fY = ½ 2y si y 2 [0; 1] 0 sinon : Alors, E(Y ) = R yfY (y) dy =1 0 2y 2 dy = 2 3 : Notons que P (Y · 2 3 ) = R 2 3 0 2y dy = 4 9 =6 1 2 : La variance de X et son ¶ecart-type ¾(X) = p Var(X) sont des quantit¶es qui mesurent la dispersion des valeurs possibles de X autour de sa moyenne. Consid¶erons les quatre fonctions de densit¶e suivantes Nous avons : Var(X1) < Var(X0); Var(X2) > Var(X0) et Var(X3) > Var(X0): 11Exercices 1. Soit X une variable al¶eatoire distribu¶ee uniform¶ement sur [”1; +1]: a) Donner la densit¶e de X: Dessiner son graphe. b) Calculer E(X); Var(X) et ¾(X): Indication : R b a x 2 dx = b 3”a 3 3 : c) M^emes questions lorsque X est une variable al¶eatoire distribu¶ee uniform¶ement sur [”2; +2]: d) M^emes questions lorsque X est une variable al¶eatoire distribu¶ee uniform¶ement sur [”3; +3]: e) Comparer les r¶esultats. 2. Soit X une variable al¶eatoire dont la densit¶e est de la forme f(x) = 8 < : c si x 2 [0:5; 1:5] c si x 2 [3; 5] 0 sinon a) Calculer c pour que f soit une densit¶e. Repr¶esenter f graphiquement. b) Calculer E(X): Indication : On pourra dessiner le graphe de x 7! xf(x) et calculer une surface. c) Posons ¹ = E(X); calculer P (X ø ¹) et P (X · ¹): 123 La loi normale On dit qu'une variable al¶eatoire continue Z suit une loi normale centr¶ee r¶eduite, si sa densit¶e est d¶eÆnie par fZ (z) = 1 p 2¼ e ” z 2 2 ; z 2 IR: On note N (0; 1) la loi normale centr¶ee r¶eduite ainsi que X » N (0; 1) pour signiÆer que la variable al¶eatoire X suit la loi N (0; 1): La loi normale est une des lois les plus importantes pour les applications statistiques. Elle appara^³t naturellement lorsqu'on observe des grands ¶echantillons. Ce point sera d¶etaill¶e lors de la Le»con 4 µa l'occasion du Th¶eorµeme de la Limite Centrale. La repr¶esentation de fZ est C'est la fameuse \courbe en cloche". On remarque qu'elle est sym¶etrique par rapport µa l'axe vertical et on en d¶eduit que si Z » N (0; 1); alors P (Z · 0) = P (Z ø 0) = 1 2 et E(Z) = 0: On note © la fonction de r¶epartition de N (0; 1) : ©(t) = P (Z · t) = Z t ”1 1 p 2¼ e ” z 2 2 dz; z 2 IR: La surface hachur¶ee dans la Ægure ci-dessus est ©(zo): Il n'est pas possible d'¶evaluer l'int¶egrale ci- dessus µa l'aide d'une fonction usuelle. Par contre, des approximations num¶eriques sont accessibles ; elles ont ¶et¶e tabul¶ees dans la Table I (de valeurs num¶eriques). 13En raison de la sym¶etrie de fZ ; on a : ©(”t) = 1 ” ©(t): C'est pourquoi, seules les valeurs de ©(t) pour t ø 0 ont ¶et¶e consid¶er¶ees dans la Table I. Exemple 1. Si Z » N (0; 1); alors P (0 · Z · 2) = ©(2) ” ©(0) = 0:9772 ” 0:5000 = 0:4772; P (1:25 · Z · 2:75) = ©(2:75) ” ©(1:25) = 0:9970 ” 0:8944 = 0:1026 et P (”1:65 · Z · 0:70) = ©(0:70) ” ©(”1:65) = ©(0:70) ” [1 ” ©(1:65)] = 0:7580 ” 1 + 0:9505 = 0:7085: Exemple 2. Si Z » N (0; 1); trouver des constantes a; b et c telles que P (0 · Z · a) = 0:4147; P (Z > b) = 0:05 et P (jZj · c) = 0:95: Ces trois ¶equations sont ¶equivalentes µa P (Z · a) = 0:9147; P (Z · b) = 0:95 et P (Z · c) = 0:975; respectivement. On voit dans la Table I que a = 1:37; b = 1:645 et c = 1:96: On peut montrer que si Z » N (0; 1); alors E(Z) = 0 et Var(Z) = 1: Le (0; 1) de N (0; 1) correspond µa ces ¶egalit¶es. On g¶en¶eralise maintenant la d¶eÆnition de la loi normale centr¶ee r¶eduite. Soit X une variable al¶eatoire continue qui peut s'¶ecrire sous la forme X = ¹ + ¾Z oµu ¹ 2 IR et Z suit un loi N (0; 1): On dit alors que X suit une loi normale de moyenne ¹ et de variance ¾ 2 : Ce que l'on note : X » N (¹; ¾ 2 ): On peut en e®et montrer que dans ce cas : E(X) = ¹ et Var(X) = ¾ 2 : 1415Il est clair que si X » N (¹; ¾ 2 ); alors : X ” ¹ ¾ » N (0; 1): On utilise cette remarque de la fa»con suivante. Soient X » N (¹; ¾ 2 ) et a · b: Alors P (a · X · b) = P µ a ” ¹ ¾ · X ” ¹ ¾ · b ” ¹ ¾ ¶ = © µ b ” ¹ ¾ ¶ ” © µ a ” ¹ ¾ ¶ : Exemple 3. Si X » N (3; 16); alors P (4 · X · 8) = P µ 4 ” 3 4 · X ” 3 4 · 8 ” 3 4 ¶ = ©(1:25) ” ©(0:25) = 0:8944 ” 0:5987 = 0:2957; P (0 · X · 5) = P µ 0 ” 3 4 · Z · 5 ” 3 4 ¶ = ©(0:5) ” ©(”0:75) = ©(0:5) + ©(0:75) ” 1 = 0:4649 et P (”2 · X · 1) = P µ ”2 ” 3 4 · Z · 1 ” 3 4 ¶ = ©(”0:5) ” ©(”1:25) = 0:2029: Exemple 4. Si X » N (25; 36); on veut une constante c telle que P (jX ” 25j · c) = 0:9544: On veut donc P µ ” c 6 · X ” 25 6 · c 6 ¶ = 0:9544: C'est-µa-dire © ³ c 6 “ ” h 1 ” © ³ c 6 “i = 0:9544; soit © ³ c 6 “ = 0:9772: La lecture de la Table I, nous permet de voir que ©(2) = 0:9772: Par cons¶equent, c=6 = 2 et c = 12: Exercices 1. Si Z » N (0; 1); trouver a) P (0:53 < Z · 2:06) b) P (”0:79 · Z < 1:52) c) P (”2:63 · Z · ”0:51) d) P (Z > ”1:77) e) P (Z > 2:89) f ) P (jZj < 1:96) g) P (jZj < 1) h) P (jZj < 2) 2. Un producteur de saucissons indique le poids 204 grammes sur ses produits. On suppose que la loi des poids de ces saucissons est N (213:7; 16): Soit X le poids d'un saucisson pris au hasard µa la sortie de l'usine. Trouver P (X < 204): 3. Si X » N (0:15; 0:25); trouver a) P (0:53 < X · 2:06) b) P (”0:79 · X < 1:52) c) P (”2:63 · X · ”0:51) d) P (X > ”1:77) e) P (X > 2:89) f ) P (jXj < 1:96) g) P (jXj < 1) h) P (jXj < 2) 164 Les grands echantillons Notion d'echantillon aleatoire. On observe un ¶echantillon al¶eatoire, c'est-µa-dire qu'on observe les valeurs x1; : : : ; xn relatives µa n individus. Ces donn¶ees proviennent de variables al¶eatoires X1; : : : ; Xn ayant toutes la m^eme loi et que l'on suppose ind¶ependantes les unes des autres. Dire que X1; : : : ; Xn ont la m^eme loi, c'est dire que leurs fonctions de r¶epartition sont ¶egales : FX1 (x) = ¢ ¢ ¢ = FXn (x); 8x: On rappelle que FX(x) = P (X · x): Dire que X1; : : : ; Xn sont ind¶ependantes, signiÆe que la connaissance de X2 = 0:21 (par exemple) n'apporte aucune information sur le comportement al¶eatoire des autres variables X1; X3; X4; : : : Plus g¶en¶eralement, la connaissance de X2 = 0:21 et X5 ø 0 (par exemple), n'apporte au- cune information sur le comportement al¶eatoire des autres variables X1; X3; X4; X6; : : : ; etc. Exp¶erimentalement, pour que X1; : : : ; Xn soient ind¶ependantes, il faut que les individus 1; 2; : : : ; n n'aient pas d'in°uence mutuelle. Pour observer un ¶echantillon, un enqu^eteur se gardera, aprµes avoir interrog¶e un individu i (dont la r¶eponse est Xi = xi) de lui demander de lui recommander un ami (ou un ennemi, etc.) pour continuer son enqu^ete. La proc¶edure g¶en¶eralement requise pour fabriquer un ¶echantillon est le tirage au sort des individus interrog¶es au sein d'une population. Plus la taille de l'¶echantillon tir¶e au hasard est grande, plus l'¶echantillon est repr¶esentatif de la population µa ¶etudier. Si les variables al¶eatoires sont discrµetes, l'ind¶ependance de X1; : : : ; Xn se traduit math¶ematiquement par P (X1 = a1 et X2 = a2 et : : : et Xn = an) = P (X1 = a1)P (X2 = a2) ¢ ¢ ¢ P (Xn = an) oµu les a1; : : : ; an parcourent toutes les valeurs possibles de X1; : : : ; Xn: Une propri¶et¶e analogue existe pour les variables al¶eatoires continues. On appelle ¶echantillon de taille n de la loi de X la donn¶ee de n variables al¶eatoires r¶eelles X1; : : : ; Xn ind¶ependantes, ayant toutes la m^eme loi qu'une variable al¶eatoire X donn¶ee. Exemple 1. Par exemple, un ¶echantillon de taille 25 de la loi N (”21; 15:2) est la donn¶ee de variables al¶eatoires X1; : : : ; X25 ind¶ependantes qui suivent toutes la loi N (”21; 15:2): 17Exemple 2. (Proportion d'une cat¶egorie d'individus). Un exemple important est celui du tirage \au hasard" (uniforme) dans une grande population d'individus dont une proportion p (0 · p · 1) appartient µa une cat¶egorie particuliµere (par exemple : sensibilit¶e politique, ch^omeur, homme, femme, fumeur, salaire mensuel sup¶erieur µa 11000 francs, etc: : : ) On tire au hasard 100 individus (i = 1; : : : ; 100) dans cette population. La variable Xi prend la valeur xi = 1 si le i µeme individu appartient µa la cat¶egorie ¶etudi¶ee ou la valeur xi = 0 sinon. Puisque le tirage est uniforme, Xi suit une loi de Bernoulli de paramµetre p; not¶ee B(p) (voir la Le»con 1). Si les tirages sont ind¶ependants, X1; : : : ; X100 est un ¶echantillon de taille 100 de la loi B(p): A part l'exemple que nous venons de consid¶erer, dans la pratique on ne conna^³t pas, en g¶en¶eral, avec pr¶ecision la forme de la loi des Xi que l'on observe. Toutefois, il est possible d'estimer la moyenne ¹ := E(X1) = ¢ ¢ ¢ = E(Xn) µa l'aide de la moyenne empirique observ¶ee x¹ = x1 + ¢ ¢ ¢ + xn n : Une id¶ee naturelle est de dire que ¹ ne doit pas ^etre trµes ¶eloign¶ee de la moyenne empirique : ¹ ' x¹ = x1 + ¢ ¢ ¢ + xn n : Bien s^ur, ¹ ne d¶epend pas de notre observation (c'est un paramµetre th¶eorique que l'on cherche µa estimer) et une autre exp¶erience qui nous aurait amen¶es µa observer X1 = x 0 1 ; : : : ; Xn = x 0 n ; nous amµenerait µa la conclusion ¹ ' x 0 1 + ¢ ¢ ¢ + x 0 n n de sorte qu'il est faux d'a±rmer que ¹ vaut ¹x: Heureusement, un r¶esultat math¶ematique vient µa notre secours. Loi des Grands Nombres. Soit un grand nombre n de variables al¶eatoires ind¶ependantes X1; : : : ; Xn et de m^eme loi (un ¶echantillonde taille n): Alors, avec une probabilit¶e proche de 100 %, la variable al¶eatoire X = X1 + ¢ ¢ ¢ + Xn n prend des valeurs proches de ¹ := E(X1) = ¢ ¢ ¢ = E(Xn): La proximit¶e de ¹x avec ¹ est d'autant plus grande que la taille n de l'¶echantillon est importante. Dans l'exemple 1, on peut s'attendre µa ce que la moyenne empirique observ¶ee ¹x = x1 + ¢ ¢ ¢ + x25 25 soit proche de la moyenne th¶eorique ¹ = ”21: Dans l'exemple 2, la moyenne empirique observ¶ee x¹ = x1 + ¢ ¢ ¢ + x100 100 = nombre de d'individus dans l'¶echantillon appartenant µa la cat¶egorie ¶etudi¶ee taille de l'¶echantillon est la proportion observ¶ee d'individus dans l'¶echantillon appartenant µa la cat¶egorie ¶etudi¶ee. On peut s'attendre µa ce que cette proportion observ¶ee soit proche de la proportion p = E(X) d'individus dans la population totale, appartenant µa la de la cat¶egorie ¶etudi¶ee. Il existe un r¶esultat math¶ematique plus pr¶ecis que la loi des grands nombres ; il sera d'une importance capitale dans la suite de ce cours. C'est le Th¶eorµeme de la Limite Centrale. 18Th¶eorµeme de la Limite Centrale. Soit un grand nombre n de variables al¶eatoires ind¶ependantes X1; : : : ; Xn et de m^eme loi (un ¶echantillonde taille n): On note ¹ et ¾ 2 les moyenne et vari- ance commune de X1; : : : ; Xn: Lorsque n est grand, la variable al¶eatoire X = X1 + ¢ ¢ ¢ + Xn n suit approximativement la loi normale N µ ¹; ¾ 2 n ¶ ; m^eme si les variables al¶eatoires ne sont pas normales. Sous les m^emes conditions, ce th¶eorµeme peut aussi s'¶enoncer des deux maniµeres suivantes. ² X1 + ¢ ¢ ¢ + Xn suit approximativement la loi normale N (n¹; n¾ 2 ); ou ² X ” ¹ ¾= p n suit approximativement la loi normale N (0; 1): Dans la pratique, on considµere qu'µa partir de n ø 30; n est su±samment grand pour pouvoir appliquer l'approximation du Th¶eorµeme de la Limite Centrale. Loi bin^omiale. Soient X1; : : : ; Xn des variables al¶eatoires ind¶ependantes qui suivent une loi de Bernoulli de paramµetre p : B(p) (voir la Le»con 1). On considµere leur somme S = X1 + ¢ ¢ ¢ + Xn: C'est une variable al¶eatoire qui prend ses valeurs dans l'ensemble f0; 1; : : : ; ng: Par d¶eÆnition, la loi de S est la loi bin^omiale de paramµetres n; p que l'on note B(n; p): Un calcul de d¶enombrement nous donne, pour tout 0 · k · n; IP (S = k) = C k np k (1 ” p) n”k oµu C k n = n¢(n”1)¢¢¢(n”k+1) k¢(k”1)¢¢¢2¢1 est le nombre de parties µa k ¶el¶ements dans un ensemble µa n ¶el¶ements. En fait, lorsque n devient grand, ces quantit¶es et surtout des quantit¶es comme IP (a · S · b) deviennent di±ciles µa calculer, m^eme avec des calculatrices puissantes. Heureusement, le Th¶eorµeme de la Limite Centrale va venir µa notre secours, comme nous pourrons le constater dans l'exercice suivant. Approximation normale d'une loi bin^omiale. Soit S une variable al¶eatoire de loi bin^omiale B(n; p): Par d¶eÆnition, ceci signiÆe que S peut s'¶ecrire S = X1 + ¢ ¢ ¢ + Xn oµu X1; : : : ; Xn sont des variables ind¶ependantes de loi de Bernoulli de paramµetre p (voir la Le»con 1). C'est-µa-dire que Xi peut prendre les valeurs 0 ou 1 avec les probabilit¶es P (Xi = 1) = p et P (Xi = 0) = 1 ” p; oµu 0 · p · 1: Lorsque n est grand (sup¶erieur µa 30 en pratique), on peut appliquer le Th¶eorµeme de la Limite Centrale avec ¹ = E(X) = p et ¾ 2 = Var(X) = p(1 ” p): On obtient que S = X1+¢ ¢ ¢+Xn suit approximativement la loi normale N (np; np(1”p)): Pour calculer la probabilit¶e P (a · S · b) oµu a et b sont des entiers 0 · a · b · n; on e®ectue l'approximation 19suivante : P (a · S · b) = P µ a ” 1 2 · S · b + 1 2 ¶ = P Ć a ” 1 2 ” np p np(1 ” p) · S ” np p np(1 ” p) · b + 1 2 ” np p np(1 ” p) ! ' P Ć a ” 1 2 ” np p np(1 ” p) · Z · b + 1 2 ” np p np(1 ” p) ! = © Ć b + 1 2 ” np p np(1 ” p) ! ” © Ć a ” 1 2 ” np p np(1 ” p) ! oµu © d¶esigne la fonction de r¶epartition de la loi normale. La premiµere ¶egalit¶e ci-dessus s'appelle la correction de continuit¶e. Dans l'exemple suivant, nous allons constater que dans certaines situations, cette approximation reste excellente m^eme lorsque n est plus petit que 30 (n = 10 dans ce qui suit). Exemple. On joue 10 fois µa Pile ou Face. Soit S le nombre de Face obtenu. La loi de S est parfaitement calculable µa l'aide de d¶enombrements. On obtient en particulier que P (5 · S · 8) = pS (5) + ¢ ¢ ¢ + pS (8) = 627 1024 ' 0:6123: On peut ¶ecrire S = X1 + ¢ ¢ ¢ + X10 oµu les Xi = ½ 1 si Face 0 si Pile sort au i µeme lancer, de sorte que ¹ = E(Xi) = 1 2 et que Var(Xi) = 1 2 (1 ” 1 2 ) = 1 4 : Gr^ace au Th¶eorµeme de la Limite Centrale, on sait que S suit approximativement une loi N (10¹; 10¾ 2 ) = N (5; 5=2): Ce ph¶enomµene est illustr¶e par la Ægure suivante. 20Donc S ” 5 p 5=2 suit approximativement une loi N (0; 1) et en notant Z une variable al¶eatoire de loi N (0; 1) : P (5 · S · 8) = P (4:5 · S · 8:5) = P Ć 4:5 ” 5 p 5=2 · S ” 5 p 5=2 · 8:5 ” 5 p 5=2 ! ' P (”0:32 · Z · 2:21) = ©(2:21) ” ©(”0:32) = ©(2:21) ” (1 ” ©(0:32)) ' 0:9864 ” (1 ” 0:6255) = 0:6119 ce qui est trµes proche du r¶esultat exact : 0.6123. La premiµere ¶egalit¶e P (5 · S · 8) = P (4:5 · S · 8:5) s'appelle la \correction pour la continuit¶e" : on d¶eplace les bornes µa mi-chemin entre l'¶ev¶enement ¶etudi¶e et son compl¶ement. Si on l'avait n¶eglig¶ee, on aurait obtenu P (5 · S · 8) = P Ć 5 ” 5 p 5=2 · S ” 5 p 5=2 · 8 ” 5 p 5=2 ! ' P (0 · Z · 1:90) = ©(1:90) ” ©(0) = 0:4713 qui est une moins bonne approximation que la pr¶ec¶edente. Notons que si la variable al¶eatoire µa approximer par une variable al¶eatoire normale est continue, on n'a pas besoin de la correction pour la continuit¶e. Exercices 1. Supposons que les poids des adultes (en kg) sont d'¶ecart-type 12 kg. On pr¶elµeve un ¶echantillon de taille n pour estimer la moyenne inconnue ¹ de la population par la moyenne empirique X: Quelle est la probabilit¶e que l'¶ecart entre X et ¹ soit sup¶erieure µa 5 kg si a) n = 12 b) n = 25 c) n = 35 d) n = 50 ? 2. Sondage : On veut conna^³tre la proportion p des gens qui, dans la population g¶en¶erale, sont en faveur d'une certaine proposition. Dans un ¶echantillon de n personnes, on obtiendra X r¶eponses favorables µa la proposition en question. Notons ^p = X=n la proportion exp¶erimentale des r¶eponses favorables. a) Si n = 100 et p = 0:5; d¶eterminer P (^p > 0:6): b) Si n = 100 et p = 0:4; d¶eterminer P (^p > 0:5): c) Si n = 100 et p = 0:4; d¶eterminer approximativement c aÆn que P (p ” c < p < p ^ + c) ' 90%: d) Si n = 1000 et p = 0:4; d¶eterminer approximativement c aÆn que P (p ” c < p < p ^ + c) ' 90%: 3. Deux archers s'a®rontent dans un concours de tir µa l'arc. A chaque tir, Gaston a 50% de µ chance d'atteindre la cible. L¶egµerement plus habile, Ren¶e atteint la cible avec une probabilit¶e de 60%. Chacun tire 20 °µeches. Calculer : a) la probabilit¶e que Gaston ait plus de 13 coups au but. b) la probabilit¶e que Gaston gagne le tournoi. c) la probabilit¶e que Ren¶e gagne le tournoi. d) la probabilit¶e d'un match nul. 215 Estimation de la moyenne d'un grand echantillon Un cas d'¶ecole. Dans un premier temps, on suppose que l'on observe un ¶echantillon al¶eatoire X1; : : : ; Xn d'une loi (commune µa X1; : : : ; Xn) de la moyenne ¹ inconnue et de variance ¾ 2 o connue. On cherche µa estimer la moyenne ¹ µa partir de l'observation x1; : : : ; xn de notre ¶echantillon. Si n est grand, la Loi des Grands Nombres nous permet d'a±rmer qu'avec une grande probabilit¶e ¹ n'est pas trµes ¶eloign¶e de la moyenne empirique observ¶ee : ¹ ' x¹ = x1 + ¢ ¢ ¢ + xn n : Bien s^ur, ¹ ne d¶epend pas de notre observation (c'est un paramµetre th¶eorique que l'on cherche µa estimer) et une autre exp¶erience qui nous aurait amen¶e µa observer X1 = x 0 1 ; : : : ; Xn = x 0 n; nous amµenerait µa la conclusion ¹ ' x 0 1 + ¢ ¢ ¢ + x 0 n n ; de sorte qu'il est faux d'a±rmer que ¹ vaut ¹x: De maniµere µa prendre en compte les °uctuations du hasard, nous allons estimer ¹ µa l'aide d'un intervalle de conÆance (une fourchette d'estimation). La technique math¶ematique repose sur le Th¶eorµeme de la Limite Centrale qui ¶enonce que si X1; : : : ; Xn est un ¶echantillon d'une loi de moyenne ¹ et de variance ¾ 2 o ; en posant X = X1 + ¢ ¢ ¢ + Xn n ; nous avons approximativement Zn := X ” ¹ ¾o= p n » N (0; 1): Ce r¶esultat est faux si les X1; : : : ; Xn ne sont pas suppos¶ees ind¶ependantes. De ce fait, pour toute probabilit¶e (1 ” ®) (0 · ® · 1); on peut trouver dans la Table I le nombre z ® 2 tel que P µ ”z ® 2 · X ” ¹ ¾o= p n · z ® 2 ¶ = P (”z ® 2 · Zn · z ® 2 ) ' P (”z ® 2 · Z · z ® 2 ) = 1 ” ®; oµu Z suit une loi normale N (0; 1): 22Des valeurs souvent utilis¶ees sont ® = 10% ! 1 ” ® = 90% et z ® 2 = z0;05 ' 1; 645 ® = 5% ! 1 ” ® = 95% et z ® 2 = z0;025 ' 1; 960 ® = 1% ! 1 ” ® = 99% et z ® 2 = z0;005 ' 2; 576 Puisque ® > 0; les in¶egalit¶es suivantes sont ¶equivalentes ”z ® 2 · X ” ¹ ¾o= p n · z ® 2 ”z ® 2 ¾o p n · X ” ¹ · z ® 2 ¾o p n ”X ” z ® 2 ¾o p n · ”¹ · ”X + z ® 2 ¾o p n X + z ® 2 ¾o p n ø ¹ ø X ” z ® 2 ¾o p n Par cons¶equent P (X ” z ® 2 ¾o p n · ¹ · X + z ® 2 ¾o p n ) ' P (”z ® 2 · Z · z ® 2 ) = 1 ” ® ce qui s'¶ecrit aussi P ([X ” z ® 2 ¾o p n ; X + z ® 2 ¾o p n ] 3 p) ' 1 ” ® et se traduit de la fa»con suivante. Avec une probabilit¶e (1”®); la moyenne th¶eorique ¹ se trouve dans l'intervalle al¶eatoire [X ” z ® 2 p¾o n ; X + z ® 2 p¾o n ]: Une fois observ¶e l'¶echantillon, la moyenne empirique x¹ est connue. Si la variance th¶eorique ¾ 2 = ¾ 2 o est aussi connue, alors l'intervalle observ¶e · x¹ ” z ® 2 ¾o p n ; x¹ + z ® 2 ¾o p n ø est un intervalle connu. C'est l'intervalle de conÆance pour ¹ avec coe±cient de s¶ecurit¶e (1 ” ®): Exemple 1. On suppose que des notes d'examen (sur 100), ont une loi de moyenne ¹ inconnue et d'¶ecart-type ¾o = 15: Un ¶echantillon de taille n = 25 est observ¶e, on trouve ¹x = 69; 2: Alors x¹ § 1; 645¢ µ ¾o p n ¶ ou 69; 2 § 1; 645¢ µ 15 p 25 ¶ ou [64:265; 74:135] est un intervalle de conÆance pour ¹ avec le coe±cient de s¶ecurit¶e 90%. Exemple 2. Soit ¹x la moyenne empirique observ¶ee sur un ¶echantillon de taille 16 d'une distribution (loi) normale N (¹; 23:04): Un intervalle de conÆance pour ¹ avec coe±cient de s¶ecurit¶e 90% est " x¹ ” 1:645¢ r 23:04 16 ; x¹ + 1:645¢ r 23:04 16 # : 23Pour une observation particuliµere de ¹x; cet intervalle contient ou ne contient pas la valeur inconnue ¹: Toutefois, si un grand nombre de tels intervalles est (observ¶e et) calcul¶e, il reste vrai qu'µa peu prµes 90% d'entre eux contiennent la moyenne ¹: Sur un ordinateur, 15 ¶echantillons de taille16 d'une distribution (loi) normale N (5; 23:04) ont ¶et¶e simul¶es. Pour chacun de ces 15 ¶echantillons, nous avons calcul¶e l'intervalle de conÆance pour ¹ avec coe±cient de s¶ecurit¶e 90%, comme si la moyenne ¹ ¶etait inconnue. Sur la Ægure suivante sont repr¶esent¶es ces 15 intervalles : 13 d'entre eux (soit 86.7%) contiennent la moyenne ¹ = 5: Dans la pratique. Dans la pratique il n'y a aucune raison, si on ne conna^³t pas la moyenne ¹; de conna^³tre l'¶ecart-type ¾: Dans ce cas, l'intervalle de conÆance obtenu plus haut, ¶etant fonction de ¾ = ¾o; n'est pas accessible au calcul. Une fois de plus, c'est la grande taille n de l'¶echantillon qui va nous permettre de nous en sortir. En e®et, la Loi des Grands Nombres nous permet d'estimer la variance ¾ 2 inconnue µa l'aide des observations X1; : : : ; Xn: Un estimateur naturel de la variance est la variance empirique de l'¶echantillon, d¶ejµa rencontr¶e en Statistique Descriptive. Il est donn¶e par S 2 = 1 n ” 1 h (X1 ” X) 2 + ¢ ¢ ¢ + (Xn ” X) 2 i : On note s 2 = 1 n”1 [(x1 ”x¹) 2 +¢ ¢ ¢+(xn ”x¹) 2 ] sa valeur observ¶ee. De m^eme, un estimateur naturel de 24l'¶ecart-type : l'¶ecart-type empirique de l'¶echantillon, d¶ejµa rencontr¶e en Statistique Descriptive est donn¶e par S = p S2 = r 1 n ” 1 h (X1 ” X) 2 + ¢ ¢ ¢ + (Xn ” X) 2 i : On note s = p s 2 = q 1 n”1 [(x1 ” x¹) 2 + ¢ ¢ ¢ + (xn ” x¹) 2 ] sa valeur observ¶ee. On peut montrer math¶ematiquement, que lorsque n est grand, l'¶ecart-type empirique observ¶e : s; est proche de l'¶ecart-type th¶eorique inconnu ¾ : s ' ¾: Il est alors possible de remplacer dans la formule de l'intervalle de conÆance trouv¶ee plus haut, la valeur ¾o par la valeur observ¶ee : s; ce qui nous donne le r¶esultat suivant. Si les observations sont ind¶ependantes et de m^eme loi, l'intervalle observ¶e · x¹ ” z ® 2 s p n ; x¹ + z ® 2 s p n ø est l'intervalle de conÆance pour ¹ avec coe±cient de s¶ecurit¶e (1 ” ®): Important. En pratique, on considµere que n est su±samment grand, lorsque n ø 30: Ceci signiÆe µa peu prµes, qu'avec une probabilit¶e 1”®; l'intervalle de conÆance [¹x”z ® 2 ps n ; x¹+z ® 2 ps n ] contient la vraie valeur inconnue ¹ de la moyenne. Nous terminons cette le»con en rappelant une formule bien pratique pour le calcul de la variance empirique s 2 = 1 n ” 1 [(x1 ” x¹) 2 + ¢ ¢ ¢ + (xn ” x¹) 2 ] = (x1) 2 + ¢ ¢ ¢ + (xn) 2 n ” 1 ” n n ” 1 (¹x) 2 : Par exemple, sur cinq observations x1 = 2:4; x2 = 3:4; x3 = 5:2; x4 = ”0:8; x5 = 1:0; on obtient x1 + ¢ ¢ ¢ + x5 = 11:2 et (x1) 2 + ¢ ¢ ¢ + (x5) 2 = 46: Ceci nous donne : x¹ = 11:2 5 = 2:24; s 2 = (x1) 2+¢¢¢+(x5) 2 4 ” 5 4 (¹x) 2 = 46 4 ” 5 4 (2:24) 2 = 5:228 ou bien s 2 = (2:4”2:24) 2+(3:4”2:24) 2+(5:2”2:24) 2+(”0:8”2:24) 2+(1:0”2:24) 2 4 = 5:228; c'est-µa-dire s = p 5:228 = 2:2865: Exercices 1. Un ¶echantillon al¶eatoire de taille 28 nous donne x1+¢ ¢ ¢+x28 = 122:70 ainsi que x 2 1+¢ ¢ ¢+x 2 28 = 697:89: Trouver des intervalles de conÆance pour la moyenne avec le coe±cient de s¶ecurit¶e a) 99% b) 95% c) 90% d) 80%. 2. Trouver un intervalle de conÆance pour ¹ avec coe±cient de s¶ecurit¶e : 75%, pour les observations : x1 = 624 x2 = 532 x3 = 565 x4 = 492 x5 = 407 x6 = 591 x7 = 611 x8 = 558 x9 = 631 x10 = 542 x11 = 587 x12 = 452 x13 = 406 x14 = 592 x15 = 641 x16 = 568 x17 = 625 x18 = 502 x19 = 687 x20 = 522 253. Une observation d'un ¶echantillon de taille n nous donne ¹x = 7:21 et s = 3:10: On veut annoncer un intervalle de conÆance pour ¹ avec coe±cient de s¶ecurit¶e 99%. A partir de quelles valeurs de n; l'intervalle de conÆance a-t'il une largeur inf¶erieure µa §0:1 ? M^eme question avec §0:01: R¶eponse. On cherche n tel que : z ® 2 ¢s p n · 0:1: Soit p n ø z ® 2 ¢s 0:1 : Donc, en ¶elevant les deux membres de cette in¶egalit¶e au carr¶e : n ø µ z ® 2 ¢s 0:1 ¶2 : Puisque 1 ” ® = 99%; ®=2 vaut 0.5% et on lit dans la table I que z ® 2 = 2:576: Finalement, n ø µ 2; 576¢3; 10 0; 1 ¶2 ' 6377: Il faut donc un ¶echantillon de taille au moins 6377 pour pouvoir annoncer un intervalle de conÆance pour ¹ avec le coe±cient de s¶ecurit¶e 99% et la pr¶ecision §0:1: Lorsqu'on cherche la pr¶ecision §0:01; le m^eme raisonnement nous amµene µa n ø µ 2; 576¢3; 10 0; 01 ¶2 ' 637700: Il faut donc un ¶echantillon de taille au moins 637700 pour pouvoir annoncer un intervalle de conÆance pour ¹ avec le coe±cient de s¶ecurit¶e 99% et la pr¶ecision §0:01: 266 Estimation d'une proportion Nous cherchons µa estimer la proportion d'une cat¶egorie particuliµere d'individus (par exemple : sensibilit¶e politique, ch^omeur, homme, femme, fumeur, salaire mensuel sup¶erieur µa 11000 francs, etc: : : ) au sein d'une population totale (voir l'Exemple 2 de la Le»con 4, oµu cette question a d¶ejµa ¶et¶e abord¶ee). Soit p (0 · p · 1) cette proportion qui nous est inconnue avec exactitude, µa moins d'interroger toute la population. Pour l'estimer, nous tirons au hasard n individus dans la population totale, c'est-µa-dire que nous e®ectuons n tirages ind¶ependants et uniformes. On observe, dans cet ¶echantillon, une proportion p^ = nombre d'individus dans l'¶echantillon appartenant µa la cat¶egorie ¶etudi¶ee taille de l'¶echantillon = ¹x = x1 + ¢ ¢ ¢ + xn n oµu xi est la r¶ealisation d'une variable al¶eatoire Xi qui prend la valeur Xi = 1 si le i µeme individu appartient µa la cat¶egorie ¶etudi¶ee ou la valeur Xi = 0 sinon. Puisque le tirage est uniforme, Xi suit une loi de Bernoulli de paramµetre p; not¶ee B(p) (voir la Le»con 1), oµu p est la vraie proportion µa estimer. Puisque les tirages sont ind¶ependants, X1; : : : ; Xn est un ¶echantillon de taille n de la loi B(p): Lorsque n est grand, nous sommes dans les conditions d'application de la Loi des Grands Nombres qui a±rme que l'observation ^p = ¹x est proche avec une grande probabilit¶e de la moyenne th¶eorique ¹ = E(X): Or, lorsque X suit une loi B(p); on a E(X) = p et Var(X) = p(1 ” p): Nous avons donc, lorsque n est grand, avec une grande probabilit¶e : p^ ' p: C'est-µa-dire : la proportion observ¶ee sur l'¶echantillon est proche de la proportion de la cat¶egorie consid¶er¶ee dans la population totale. Ce r¶esultat est le principe de tous les sondages dont les m¶edias sont si friands. 27En fait, les r¶esultats de la Le»con 5 nous permettent de donner un intervalle de conÆance pour p: Nous savons que si Var(X) = ¾o; h x¹ ” z ® 2 p¾o n ; x¹ + z ® 2 p¾o n i est un intervalle de conÆance pour ¹ avec le coe±cient de s¶ecurit¶e (1 ” ®): Dans la situation pr¶esente, puisque ¾o = p p(1 ” p); ceci signiÆe que · p^ ” z ® 2 q p(1”p) n ; p^ + z ® 2 q p(1”p) n ø est un intervalle de conÆance pour p avec le coe±cient de s¶ecurit¶e (1 ” ®): Malheureusement, les bornes de cet intervalle s'expriment µa l'aide de la proportion p inconnue. Cet intervalle de conÆance n'est donc pas calculable µa l'aide de l'observation ^p: Toutefois, nous avons vu que p ' p;^ de sorte que p(1 ” p) ' p^(1 ” p^) et que l'intervalle [^p ” z ® 2 q p^(1”p^) n ; p^ + z ® 2 q p^(1”p^) n ] est proche du pr¶ec¶edent. Par cons¶equent : L'intervalle observ¶e " p^ ” z ® 2 r p^(1 ” p^) n ; p^ + z ® 2 r p^(1 ” p^) n # est l'intervalle de conÆance pour la proportion p avec coe±cient de s¶ecurit¶e (1 ” ®): Important. Cet intervalle n'est valable que lorsque np^ ø 6 et n(1 ” p^) ø 6: Exemple 1. Lors d'un sondage auprµes de 500 personnes et portant sur leurs opinions politiques, 180 personnes se sont d¶eclar¶ees favorables au parti A. Estimer la proportion p des gens favorables au parti A au moyen d'un intervalle de conÆance de coe±cient de s¶ecurit¶e 90%. Solution : On a ^p = 180=500 = 0:360: Pour avoir 1 ” ® = 90%; il faut prendre z ® 2 = 1:645: Il ne reste plus qu'µa employer la formule Ć p^ § z ® 2 r p^(1 ” p^) n ! = Ć 0:360 § 1:645 r 0:36 £ 0:64 500 ! = (0:360 § 0:035) = [0:325; 0:395]: Remarque. Lorsqu'on estime un paramµetre au moyen d'un intervalle de conÆance, deux qualit¶es esp¶er¶ees : pr¶ecision et s¶ecurit¶e, sont en opposition. On ne peut am¶eliorer l'une sans diminuer l'autre. Si l'on exige beaucoup de s¶ecurit¶e (risque ® trµes petit), on obtiendra un intervalle de conÆance plus large que si l'on se contente d'une s¶ecurit¶e plus raisonnable. Si l'on veut beaucoup de pr¶ecision (intervalle ¶etroit), il faudra \payer" cette pr¶ecision par un risque d'erreur plus consid¶erable. La seule fa»con d'obtenir µa la fois une bonne pr¶ecision et une grande s¶ecurit¶e est de ne pas l¶esiner sur la valeur de n; ce qui n'est pas toujours ¶economique. Exemple 2. Avec n = 100; on a obtenu ^p = 0:21: Calculer les intervalles de conÆance avec coe±cient de s¶ecurit¶e 50%, 10%, 5%, 1% et 0.1% pour p: Solution : Les cinq valeurs de ® donnent des z ® 2 qui valent respectivement : 0.674, 1.645, 1.960, 2.576 et 3.291. Les cinq intervalles de conÆance sont pr¶esent¶es dans le tableau suivant. 1 ” ® z ® 2 Intervalle de conÆance Longueur 50% 0:674 [0:18; 0:24] 0:06 90% 1:645 [0:14; 0:28] 0:14 95% 1:960 [0:13; 0:29] 0:16 99% 2:576 [0:11; 0:31] 0:20 99:9% 3:291 [0:08; 0:34] 0:26 28Lequel de ces cinq intervalles de conÆance est le meilleur ? Assur¶ement, un risque de ® = 50% est beaucoup trop fort et le premier intervalle n'est pas trµes satisfaisant. De m^eme, un coe±cient de s¶ecurit¶e de 99.9% para^³t exag¶er¶e et rend l'intervalle de 30% plus large que celui obtenu avec 1 ” ® = 99%: En g¶en¶eral, on choisit ® entre 1% et 10%, selon le contexte et l'importance relative de nos besoins en pr¶ecision et en s¶ecurit¶e. Exemple 3. Si l'on sait d¶ejµa que la valeur du paramµetre p est voisine de 0.15, combien d'observations doit-on e®ectuer pour que l'intervalle de conÆance de coe±cient de s¶ecurit¶e 95% pour p soit de demi-longueur approximative 0.05 ? 0.02 ? 0.01 ? Solution : Puisque 1 ” ® = 95%; on doit prendre z ® 2 = 1:960: La demi-longueur : r; de l'intervalle de conÆance sera donc 1:960 q p^(1”p^) n : On ne sait pas µa l'avance quelle sera la valeur de ^p; mais on peut s'attendre µa ce qu'il prenne une valeur voisine de p qu'on a suppos¶e proche de 0.15. On a donc approximativement r ' 1:960 r 0:15 £ 0:85 n = 0:700 p n : En exprimant n en fonction de r; on obtient n ' 0:49=r 2 et en donnant successivement µa r les valeurs 0.05, 0.02 et 0.01 on obtient pour n les valeurs 196, 1 225 et 4 900. En fait, il n'y a pas de raison en g¶en¶eral pour suppos¶e a priori que p est proche d'une valeur donn¶ee µa l'avance. C'est pourquoi, nous consid¶erons le problµeme qui suit. Exemple 4. Combien d'observations doit-on e®ectuer aÆn que, quelle que soit la valeur de p; l'intervalle de conÆance de coe±cient de s¶ecurit¶e 95% pour p soit de demi-longueur au plus 0.05 ? 0.03 ? 0.02 ? 0.01 ? Solution : La demi-longueur de l'intervalle de conÆance de coe±cient de s¶ecurit¶e 95% est 1:960 r p^(1 ” p^) n : Or, la valeur maximale pour ^p(1 ” p^) est 1/4 (quand ^p = 1=2): Quelle que soit la valeur de ^p; la demi-longueur maximum de l'intervalle de conÆance vaut `max = 1:960= p 4n = 0:98= p n: Pour avoir ` · `max; il faut prendre n ø (0:98=`max) 2 : En donnant successivement µa `max les valeurs 0.05, 0.03, 0.02 et 0.01, on obtient n ø 385; n ø 1068; n ø 2401 et n ø 9604: Exercices 1. Sur un ¶echantillon tir¶e au hasard de 500 ¶electeurs, 254 ont d¶eclar¶e ^etre favorables µa une proposition gouvernementale et pr¶evoient de voter oui pour cette proposition. Donner un intervalle de conÆance, avec coe±cient de s¶ecurit¶e 90%, pour la proportion p dans la population totale des ¶electeurs favorables µa cette proposition. 2. Un ¶etudiant a pip¶e un d¶e en per»cant des trous en deux points et en les remplissant d'un m¶etal lourd. Pour estimer la probabilit¶e p de sortir un quatre avec ce d¶e pip¶e, l'¶etudiant le lance 600 fois et observe un quatre 87 fois. a) Construire un intervalle de conÆance pour p avec coe±cient de s¶ecurit¶e 90%. 29b) Est-ce que l'¶etudiant a r¶eussi a faire d¶ecro^³tre la fr¶equence de sortie du quatre ? c) Que se passe-t'il avec un coe±cient de s¶ecurit¶e de 80% ? 3. Un grossiste en caf¶e souhaite savoir si une nouvelle marque plus chµere a la pr¶ef¶erence des consommateurs. Sur un ¶echantillon de 90 consommateurs, 53 ont d¶eclar¶e pr¶ef¶erer la nouvelle marque. Donner un intervalle de conÆance avec coe±cient de s¶ecurit¶e 95%, pour le pourcentage des consommateurs qui pr¶efµerent la nouvelle marque. 307 Du nouveau a Evry-la-Garenne ? A la suite d'une enqu^ete men¶ee en 1980 µa Evry-la-Garenne, il apparaissait que 50% des foyers ¶ avaient un revenu mensuel inf¶erieur µa 7.4 KFr (en franc constant). Une seconde enqu^ete est men¶ee en 1992 auprµes de 10 foyers. Les revenus mensuels obtenus sont (en KFr) : 10:0 7:8 10:4 11:0 5:6 12:2 12:8 5:2 3:4 8:6 Peut-on a±rmer que les revenus ont globalement augment¶e depuis 1980 ? Il ne s'agit plus d'estimer un paramµetre inconnu (moyenne, proportion), mais de r¶epondre par oui ou non µa la question : \Les revenus ont-ils augment¶e dans l'ensemble ?" Quelle que soit la r¶eponse, elle sera susceptible d'^etre vraie ou fausse, dans la mesure oµu nous n'interrogeons pas tous les foyers d'Evry-la-Garenne. On peut m^eme se douter qu'avec un aussi petit ¶echantillon d'enqu^ete, notre ¶ incertitude sera grande. Notre but est, dans un premier temps, de pr¶eciser la question, et donc le type de r¶eponse que nous allons y apporter et, dans un deuxiµeme temps, de quantiÆer la probabilit¶e de donner une r¶eponse exacte. Pr¶ecision de la question. L'information que nous avons est que 50 % des foyers en 1980 avaient un revenu inf¶erieur µa 7.4. Nous allons donc essayer de savoir si la proportion des foyers dont le revenu est inf¶erieur µa 7.4 a diminu¶e de 1980 µa 1992. Pour cela, nous introduisons la notion math¶ematique de m¶ediane d'une loi de variable al¶eatoire. 31Soit X une variable al¶eatoire de densit¶e fX: Sa m¶ediane m est un nombre r¶eel tel que FX(m) := P (X · m) = 50% (voir la Ægure ci-dessus). Attention ! Il ne faut pas confondre m¶ediane et moyenne. Par exemple, si fX(x) = 8 < : 1 4 si 0 · x · 1 3 4 si 1 < x · 2 0 sinon ; on a FX(t) = 8 < : 0 si t · 0 t 4 si 0 · t · 1 1 4 + 3(t”1) 4 si 1 < t · 2 1 si t ø 2 et FX(m) = 0:5 () 1 4 + 3(m ” 1) 4 = 1 2 () m = 4 3 = 1:333: Alors que, ¹ = E(X) = Z 1 0 x 4 dx + Z 2 1 3x 4 dx = 5 4 = 1:25: Revenons µa Evry-la-Garenne, sa piscine et son terrain de camping. On note ¶ m la m¶ediane de la r¶epartition des revenus par foyer en 1992. Si rien n'a chang¶e entre 1980 et 1992, alors m garde sa valeur de 1980, c'est-µa-dire : m = 7:4: Si le revenu a globalement augment¶e, alors m > 7:4 et dans la cas contraire m < 7:4: Le test statistique que nous allons construire va nous permettre de choisir parmi les deux hypothµeses H0 : m = 7:4 H1 : m > 7:4 laquelle a le plus chance d'^etre vraie, compte tenu des r¶esultats de notre enqu^ete. Notons que nous supposons a priori que m ø 7:4; c'est-µa-dire que la m¶ediane n'a pas pu d¶ecro^³tre. Une r¶eponse statistique. Notons X le revenu d'un foyer tir¶e au hasard, ainsi que p := P (X · 7:4): Si H0 est vraie, alors p = 1 2 : Si H1 est vraie, alors 0 · p < 1 2 : Soient X1; : : : ; X10 les revenus des 10 foyers. Ces variables al¶eatoires sont ind¶ependantes et de m^eme loi inconnue. On considµere les nouvelles variables al¶eatoires Yi = ½ 1 si Xi · 7:4 0 si Xi > 7:4 ; i = 1; : : : ; 10: Ce sont des variables al¶eatoires ind¶ependantes qui suivent une loi de Bernoulli de paramµetre p = P (X · 7:4) : Yi » B(p); i = 1; : : : ; 10: On en d¶eduit que la variable al¶eatoire U := Y1 + ¢ ¢ ¢ + Y10 » B(10; p) suit une loi bin^omiale : B(10; p); oµu p est un paramµetre inconnu (voir la Le»con 4, pour la loi bin^omiale). En particulier, Si H0 est vraie, alors : U » B(10; 1 2 ): Si H1 est vraie, alors : U » B(10; p); 0 · p < 1 2 : 32En d'autres termes, sous H0; le nombre de revenus inf¶erieurs µa 7.4 : U; a la m^eme loi que le nombre de Pile en jouant 10 fois µa Pile ou Face. Si H1 est vraie, on peut s'attendre µa ce que la valeur observ¶ee : u; de U soit plus petite que les valeurs typiques de U sous H0: Nous prenons donc une rµegle de d¶ecision de la forme suivante si on observe (u · c); alors : on rejette H0 (on accepte H1); si on observe (u ø c + 1); alors : on ne rejette pas H0; (on accepte H0) oµu c est un seuil de d¶ecision que nous allons d¶eterminer en fonction du risque d'erreur que nous nous autorisons. On cherche µa \contr^oler" la probabilit¶e de se tromper en prenant notre d¶ecision. Une premiµere maniµere de se tromper est de prendre la d¶ecision de rejeter H0; alors que H0 est vraie. Avec notre rµegle de d¶ecision, cette erreur se produit lorsque, sous H0; on observe l'¶evµenement (U · c): La probabilit¶e d'une telle erreur est donc PH0 (U · c); c'est-µa-dire la probabilit¶e en jouant 10 fois µa Pile ou Face d'observer Pile c fois ou moins. Par exemple, si l'on choisit c = 0; 1; 2 ou 3; on lit dans la Table II de la loi bin^omiale, que PH0 (U · 0) = 0:0010; PH0 (U · 1) = 0:0107; PH0 (U · 2) = 0:0547; PH0 (U · 3) = 0:1719: Une autre maniµere de se tromper est de prendre la d¶ecision de ne pas rejeter H0; alors que H1 est vraie. La probabilit¶e d'une telle erreur est PH1 (U ø c + 1): Supposons que le paramµetre inconnu p vaille e®ectivement p = PH1 (X · 7:4) = 0:30: Dans ce cas, U » B(10; 0:3) et avec c = 0; 1; 2 ou 3, on lit dans la Table II que PH1 (U · 0) = 0:0282; PH1 (U · 1) = 0:1493; PH1 (U · 2) = 0:3828; PH1 (U · 3) = 0:6496; d'oµu il vient les probabilit¶es d'erreur correspondantes sont PH1 (U ø 1) = 1 ” 0:0282 = 0:9718 PH1 (U ø 2) = 1 ” 0:1493 = 0:8507 PH1 (U ø 3) = 1 ” 0:3828 = 0:6172 PH1 (U ø 4) = 1 ” 0:6496 = 0:3504: On peut faire un calcul analogue pour toutes les valeurs de p: On rassemble ces calculs pour p = 0:1 et p = 0:3 dans le tableau ci-dessous. PH0 (U · c) PH1 (U ø c + 1) PH1 (U ø c + 1) PH1 (U ø c + 1) (p = 0:3) (p = 0:2) (p = 0:1) c = 0 0:0010 0:9718 0:8926 0:6513 c = 1 0:0107 0:8507 0:6242 0:2639 c = 2 0:0547 0:6172 0:3222 0:0702 c = 3 0:1719 0:3504 0:1209 0:0128 On se rend compte sur ce tableau, que si on cherche µa rendre petit la probabilit¶e d'erreur PH0 (U · c) en faisant d¶ecro^³tre c; l'autre probabilit¶e d'erreur PH1 (U ø c+1) grandit. D'autre part, la probabilit¶e 33d'erreur PH1 (U ø c + 1) diminue µa mesure que le paramµetre p inconnu s'¶eloigne de 1 2 : Il semble, qu'un ¶equilibre µa peu prµes satisfaisant se trouve autour des valeurs de PH0 (U · c) proches de 5%. On se donne une probabilit¶e d'erreur ® de l'ordre de 5% (par exemple ® = 1%; 5% ou 10%) et on choisit une valeur entiµere c® de c telle que PH0 (U · c®) soit proche de ® et PH0 (U · c®) · ®: Dans notre exemple, avec ® = 6%; on choisit c® = c0:06 = 2: Notre rµegle de d¶ecision au niveau ® = 6% est donc : si on observe (u · 2); alors : on rejette H0 (on accepte H1); si on observe (u ø 3); alors : on ne rejette pas H0; (on accepte H0) Si on observe u · 2; on rejettera H0 avec une probabilit¶e inf¶erieure µa 6% de se tromper (par d¶eÆnition du niveau ®): Si on observe u · 3; on ne rejettera pas H0 avec une probabilit¶e de se tromper : PH1 (U ø 3); qui d¶epend de la valeur de p: Nous l'avons calcul¶ee pour quelques valeurs de p; 0 · p < 1 2 : p 0:45 0:40 0:35 0:30 0:25 0:20 0:15 0:10 0:05 PH1 (U ø 3) 0:9004 0:8327 0:7384 0:6172 0:4744 0:3222 0:1798 0:0702 0:0115 Ce qui nous donne la courbe En prenant connaissance de cette courbe, les services sociaux d'Evry-la-Garenne ont d¶ecid¶e de ¶ mener une enqu^ete plus s¶erieuse. Cette fois-ci, 100 foyers ont ¶et¶e consult¶es : sur ces 100 foyers, 35 ont un revenu inf¶erieur µa 7.4. Que conclure au niveau ® = 5%? On reprend la m^eme d¶emarche, mais cette fois-ci U := Y1 + Y2 + ¢ ¢ ¢ + Y100 » B(100; p) avec p = P (X · 7:4): En particulier, sous H0; p = 1 2 et U » B(100; 1 2 ): On cherche c = c0:05 tel que PH0 (U · c) ' 0:05: L'approximation normale (voir la Le»con 4), nous permet de dire que U suit approximativement une loi N (100¢ 1 2 ; 100¢ 1 2 (1 ” 1 2 )) = N (50; 25); donc sous H0; U ” 50 p 25 = U ” 50 5 » N (0; 1): 34De ce fait, on prend c tel que PH0 (U · c + 0:5) = PH0 µ U ” 50 5 · c + 0:5 ” 50 5 ¶ = P µ Z · c + 0:5 ” 50 5 ¶ = 0:05 oµu Z » N (0; 1) et +0:5 est la correction de continuit¶e. C'est-µa-dire : c”49:5 5 = ”1:645; donc c = 49; 5 ” 5¢(1; 645) = 41; 275 qui n'est pas un entier, on lui pr¶efµere c = 41 puisque U · 41:275 () U · 41: La rµegle de d¶ecision au niveau 5% est si on observe (u · 41); alors : on rejette H0 (on accepte H1); si on observe (u ø 42); alors : on ne rejette pas H0: Puisque nous avons observ¶e u = 35; on rejette H0 au niveau ® = 5%: Calculons maintenant les probabilit¶es d'erreur PH1 ( on accepte H0) = PH1 (U ø 42) en fonction de p = P (X · 7:4); 0 · p < 1 2 : Puisque U » B(100; p); l'approximation normale nous permet d'avoir approximativement U » N (100¢p; 100¢p(1 ” p)); d'oµu PH1 (U ø 42) = PH1 Ć U ” 100¢p p 100¢p(1 ” p) ø 41:5 ” 100¢p p 100¢p(1 ” p) ! ' P Ć Z ø 41:5 ” 100¢p 10¢ p p(1 ” p) ! = 1 ” © Ć 41:5 ” 100¢p 10¢ p p(1 ” p) ! oµu Z » N (0; 1) et © est sa fonction de r¶epartition. Gr^ace µa la Table I, on obtient p 0:45 0:40 0:35 0:30 0:25 0:20 0:15 0:10 0:05 PH1 (U ø 42) 0:7591 0:3797 0:0865 0:0060 8¢10 ”5 10 ”5 ' 0 ' 0 ' 0 Ce qui nous donne la courbe 35On constate avec soulagement que les probabilit¶es d'accepter H0 µa tort sont consid¶erablement plus faibles avec une enqu^ete men¶ee auprµes de 100 personnes, plut^ot qu'auprµes de 10. La conclusion de notre test est la suivante : puisque nous avons observ¶e 35 foyers sur 100 dont les revenus sont inf¶erieurs µa 7.4, compte tenu de notre rµegle de d¶ecision, nous acceptons H1 au niveau ® = 5%: Ceci signiÆe que la probabilit¶e de nous tromper en rejetant H0 est inf¶erieure µa 5%. Si l'on avait observ¶e 44 foyers sur 100 dont les revenus ¶etaient inf¶erieurs µa 7.4, compte tenu de notre rµegle de d¶ecision, nous n'aurions pas rejet¶e H0 au niveau ® = 5%: Rapidement parl¶e, nous aurions accept¶e H0: La probabilit¶e de se tromper dans une telle situation d¶epend de la valeur du paramµetre inconnu p : pour p = 0:45; elle est de 0.7591 ; pour p = 0:40; elle est de 0.3797 et pour p = 0:35; elle est de 0.0865. Par cons¶equent, la probabilit¶e de cette erreur devient raisonnablement petite si p est plus petit que 0.35. Le problµeme est que lorsque 0:35 < p < 0:50; on peut facilement ne pas rejeter H0: En conclusion : seul le rejet de H0 est signiÆcatif. 368 Le test du signe Le test que nous avons mis en place µa la Le»con 7 s'appelle un test du signe. Nous le reprenons ici dans un cadre g¶en¶eral. Ce test sert µa d¶ecider si l'hypothµese H0 : m = mo est v¶eriƶee, oµu m est la m¶ediane de la loi d'une variable al¶eatoire X continue et mo est une valeur que l'on se donne (mo = 7:4 dans l'exemple de la le»con pr¶ec¶edente). L'hypothµese H0 est appel¶ee l'hypothµese nulle. On peut consid¶erer les trois hypothµeses alter- natives : H1 : m > mo; H1 : m < mo ou bien H1 : m =6 mo: Chacune correspond µa des rµegles de d¶ecision de forme di®¶erente. Consid¶erons pour le moment, l'hypothµese alternative H1 : m > mo; comme dans l'exemple d'Evry-la-Garenne. ¶ On considµere un ¶echantillon statistique de taille n : X1; : : : ; Xn; de la loi inconnue d'une variable al¶eatoire X: A chacun des Xi ; i = 1; : : : ; n; on associe le nombre Yi = ½ 1 si Xi < mo 0 si Xi ø mo de sorte que U = Y1 + ¢ ¢ ¢ Yn est le nombre (al¶eatoire) des Xi ; i = 1; : : : ; n qui sont plus petits que mo: Les observations que l'on obtient sont x1; : : : ; xn; et on calcule le nombre u = y1 + ¢ ¢ ¢ + yn des xi ; i = 1; : : : ; n qui sont plus petits que mo: Notre rµegle de d¶ecision est si on observe (u · c®); alors : on rejette H0 (on accepte H1); si on observe (u ø c® + 1); alors : on ne rejette pas H0; oµu ® est le niveau du test que nous nous imposons (® = 1%; 5%, 10%, etc: : : ), c'est-µa-dire la probabilit¶e de rejeter H0 µa tort : PH0 (rejeter H0) ' ®: 37En d'autres termes, on calcule le seuil c® de sorte que PH0 (U · c®) ' ®: Ce calcule est bas¶e sur la constatation qu'en notant p = P (X < mo) le paramµetre inconnu du problµeme, la variable al¶eatoire U suit une loi bin^omiale : U » B(n; p): En particulier, sous H0; par d¶eÆnition de la m¶ediane m = mo; nous avons p = 1 2 et sous H0; U » B(n; 1 2 ): Si n est petit, on obtient c® dans la Table II de la loi B(n; 1 2 ): Si n est grand (n plus grand que 15), l'approximation normale est trµes bonne. Par cons¶equent, nous avons approximativement sous H0; U » N ( n 2 ; n 4 ); ce qui nous permet de calculer PH0 (U · c) = P o(U · c + 1 2 ) = P Ć U ” n p 2 n 4 · (c + 1 2 ) ” n p 2 n 4 ! ' © µ 2c + 1 ” n p n ¶ oµu © est la fonction de r¶epartition de la loi N (0; 1): Comme d'habitude, on note z® le nombre qui satisfait ©(z®) = 1 ” ®: On rappelle que pour ® = 2:5% : z® = z0:025 = 1:960; pour ® = 5% : z® = z0:05 = 1:645 et pour ® = 10% : z® = z0:10 = 1:282: Il satisfait aussi ©(”z®) = ®; puisque © est sym¶etrique par rapport µa z¶ero. De ce fait, la d¶eÆnition de c® : PH0 (U · c®) ' ® s'¶ecrit aussi © ³ 2c®p+1”n n “ ' ©(”z®): Donc, c® est solution de l'¶equation 2c®p+1”n n ' ”z®; soit c® ' n 2 ” z® p n + 1 2 : Plus exactement, c® est le plus grand entier inf¶erieur µa n 2 ” z® p n+1 2 : Si l'on teste H0 : m = mo contre H1 : m < mo; µa chacun des Xi ; i = 1; : : : ; n; on associe le nombre Zi = ½ 1 si Xi > mo 0 si Xi · mo de sorte que V = Z1 + ¢ ¢ ¢ Zn est le nombre (al¶eatoire) des Xi ; i = 1; : : : ; n qui sont plus grands que mo: 38Les observations que l'on obtient sont x1; : : : ; xn; et on calcule le nombre v = z1 + ¢ ¢ ¢ + zn des xi ; i = 1; : : : ; n qui sont plus grands que mo: Notre rµegle de d¶ecision est si on observe (v · c®); alors : on rejette H0 (on accepte H1); si on observe (v ø c® + 1); alors : on ne rejette pas H0; oµu ® est le niveau du test et c® est calcul¶e comme pr¶ec¶edemment. Exemple 1. Soit X l'intervalle de temps en secondes entre deux appels t¶el¶ephoniques µa un standard. On teste H0 : m = 6:2 contre H1 : m < 6:2: L'observation d'un ¶echantillon de taille n = 8 nous donne 6:8 5:7 6:9 5:3 4:1 3:8 1:7 6:0 On commence par \construire le test", c'est-µa-dire par calculer la rµegle de d¶ecision en fonction du niveau d¶esir¶e. On s'impose le niveau ® = 5%: Si V d¶esigne le nombre al¶eatoire de valeurs de l'¶echantillon qui d¶epassent 6.2, sous H0; V suit la loi B(8; 1 2 ) et la lecture de la Table II de B(8; 1 2 ) nous donne PH0 (V · 0) = 0:0039; PH0 (V · 1) = 0:0352; PH0 (V · 2) = 0:1445: Par cons¶equent c0:05 = 1: Notre rµegle de d¶ecision au niveau 5% est donc : si on observe (v · 1); alors : on rejette H0 (on accepte H1); si on observe (v ø 2); alors : on ne rejette pas H0: Puisqu'on observe v = 2 valeurs sup¶erieures µa 6.2, on ne rejette pas H0 au niveau 5%. C'est seulement pour des niveaux ® ø 14:45% que l'on rejette H0; µa partir de nos observations. Exemple 2. Pour tester les performances compar¶ees de deux balles de golf de marque A et B; on demande µa 6 joueurs exp¶eriment¶es de frapper ces balles (3 frappent A avant B et 3 frappent B avant A): Pour chaque joueur, on note les longueurs LA et LB des trajectoires des deux balles. Golfeur LA LB sgn(LA ” LB) 1 265 252 + 2 272 276 ” 3 246 243 + 4 260 246 + 5 274 275 ” 6 263 246 + Quelle est la meilleure balle ? Avant tout, il convient de constater que les observations ne sont pas ind¶ependantes. En e®et, les deux longueurs LAi et LBi provenant d'un m^eme joueur i sont corr¶el¶ees. Par contre, les couples (LA; LB)i ; i = 1; : : : ; 6 sont ind¶ependants les un des autres. En particulier, les di®¶erences 39Di := (LA ” LB)i ; i = 1; : : : ; 6 sont ind¶ependantes les unes des autres. On dit que les observations sont appari¶ees. Pour r¶epondre µa notre question, il faut se demander ce que sont les hypothµese nulle H0 et alternative H1: En notant m la m¶ediane de la loi de D := LA ” LB; on peut penser µa H0 : m > 0 contre H1 : m < 0: Mais cela pr¶esuppose qu'il y a n¶ecessairement une balle e®ectivement meilleure que l'autre, puisque la possibilit¶e m = 0 n'est pas prise en compte. De plus, nous n'avons ¶etudi¶e que des hypothµeses nulles de la forme simple H0 : m = mo; alors que H0 : m > 0 est une hypothµese plus complexe (dite multiple). En fait, il faudrait pouvoir faire un test des trois hypoth¶eses H0 : m = 0; H1 : m > 0 et H0 1 : m < 0: Ce qui est assez d¶elicat. Nous n'aborderons pas cette question, mais nous allons tester H0 : m = 0 contre H1 : m = 0 6 ; pour savoir s'il existe une di®¶erence signiÆcative entre les comportements des deux balles. On est en pr¶esence d'un ¶echantillon statistique de taille n (ici n = 6); de variables appari¶ees (Xi ; Yi); i = 1; : : : ; n: On cherche µa savoir si H0 : P (X < Y ) = 1 2 ou bien H1 : P (X < Y ) =6 1 2 : Pour cela on regarde les nouvelles variables al¶eatoires Di = Xi ” Yi ; i = 1; : : : ; n: Elles forment un ¶echantillon de la loi de D = X ” Y; de m¶ediane m et les hypothµeses du test se r¶e¶ecrivent H0 : m = 0 et H1 : m = 0 6 : A chacun des Di ; i = 1; : : : ; n; on associe le nombre Yi = ½ 1 si Di < 0 0 si Di ø 0 de sorte que U = Y1 + ¢ ¢ ¢ Yn est le nombre (al¶eatoire) des Di ; i = 1; : : : ; n qui sont plus petits que 0: Les observations que l'on obtient sont d1; : : : ; dn; et on calcule le nombre u = y1 + ¢ ¢ ¢ + yn des di ; i = 1; : : : ; n qui sont plus petits que 0: Notre rµegle de d¶ecision est si on observe (u · c ® 2 ) ou (u ø n ” c ® 2 ); alors : on rejette H0; si on observe (c ® 2 + 1 · u · n ” c ® 2 ” 1); alors : on ne rejette pas H0; oµu ® est le niveau du test que nous nous imposons, c'est-µa-dire la probabilit¶e de rejeter H0 µa tort : PH0 (rejeter H0) ' ® et c ® 2 se calcule comme c® (mais en rempla»cant ® par ® 2 ): En particulier, lorsque n est grand, nous avons c ® 2 ' n 2 ” z ® 2 p n + 1 2 : Plus exactement, c ® 2 est le plus grand entier inf¶erieur µa n 2 ” z ® 2 p n+1 2 : 40On rappelle que pour ® = 5% : z ® 2 = z0:025 = 1:960; pour ® = 10% : z ® 2 = z0:05 = 1:645 et pour ® = 20% : z ® 2 = z0:10 = 1:282: La forme de cette rµegle de d¶ecision est bas¶ee sur la remarque de bon sens suivante : si m = 0; alors, il y autant de chance pour que la variable al¶eatoire D soit positive ou n¶egative. Donc les valeurs typique de U (sous H0) se situent autour de n 2 : On rejettera H0 si l'on observe une quantit¶e u de valeurs n¶egatives, signiÆcativement ¶eloign¶ee de n 2 : Notons que ce test est sym¶etrique : on rejette H0 si l'on observe une quantit¶e v = n ” u de valeurs positives, signiÆcativement ¶eloign¶ee de n 2 : De plus, puisque v + u = n; on a (u · c ® 2 ) ou (u ø n ” c ® 2 ) () (v · c ® 2 ) ou (v ø n ” c ® 2 ) et (c ® 2 + 1 · u · n ” c ® 2 ” 1) () (c ® 2 + 1 · v · n ” c ® 2 ” 1); et la rµegle de d¶ecision est inchang¶ee si l'on remplace u par v: Appliquons ceci au test des balles de golf. La Table II de la loi B(6; 1 2 ) nous indique que PH0 (U · 0) = 0:0156; PH0 (U · 1) = 0:1094 et PH0 (U · 2) = 0:3438: Avec ® = 5%; nous avons c ® 2 = c0:025 = 0: D'ailleurs, m^eme avec un niveau de 20%, nous prenons encore c0:10 = 0: C'est-µa-dire qu'avec ce niveau, on ne rejette H0; que lorsque toutes les observations de LA ” LB sont positives ou bien toutes les observations de LA ” LB sont n¶egatives. On a obtenu u = 2 observations de LA ” LB n¶egatives. Donc on ne rejette pas H0 aux niveaux 5% et m^eme 20% : il n'y a pas de di®¶erence signiÆcative de comportement entre les deux balles µa ces niveaux de test. Puisque PH0 (U · 2) = 0:3438; on ne rejette H0 avec nos observations qu'en prenant un niveau ® ø 2 £ 0:3438 = 0:6876: Ce qui n'est pas raisonnable. Exercices 1. Pour cet ensemble de donn¶ees provenant d'un ¶echantillon, tester H0 : m = 4:8 contre H1 : m = 4 6 :8: On faira usage d'un niveau de conÆance approximativement ¶egal µa 10%. 1:0 10:3 16:7 38:4 2:4 2:6 8:9 36:3 27:1 3:8 1:9 0:9 0:4 9:2 3:0 2. Une enqu^ete est men¶ee auprµes de 514 paires de frµeres (non jumeaux). Il appara^³t que pour 273 de ces paires, l'ain¶e a atteint un niveau d'¶etude plus ¶elev¶e que le cadet. Y-a-t'il un e®et de l'ordre de naissance sur la r¶eussite dans les ¶etudes ? Faire des tests de niveaux 5 et 10%. 3. Dans une exp¶erience p¶edagogique µa l'¶ecole primaire, 14 paires d'enfants sont choisies de fa»con µa avoir, par paire, les m^emes capacit¶es et le m^eme milieu. On enseigne µa lire µa l'un d'eux par la m¶ethode globale et µa l'autre par la m¶ethode analytique. On obtient les notes suivantes Globale 66 69 70 62 64 62 72 76 78 64 73 80 67 74 Analytique 64 68 69 60 66 61 70 75 72 65 70 78 68 72 41Y-a-t-il une di®¶erence de r¶esultats entre les deux m¶ethodes ? 4. On e®ectue sur 10 personnes deux num¶erations globulaires µa deux dates di®¶erentes. Les r¶esultats obtenus indiquent le nombre de globules rouges par mm3 ; divis¶e par 100 000. 15 Janvier : 46 42 51 42 40 54 49 46 47 47 2 Septembre : 47 47 44 45 54 50 48 48 45 55 Y a-t-il ¶evolution de la formule sanguine ? 5. Onze individus ont ¶et¶e trait¶e avec le soporiÆque S et un produit inactif I. Pour chacun des 11 sujets, le temps de sommeil moyen aprµes traitement a ¶et¶e enregistr¶e. On a observ¶e (en minutes) Individu 1 2 3 4 5 6 7 8 9 10 11 S 560 470 580 570 550 480 460 540 620 550 620 I 590 530 430 360 430 570 490 480 380 400 350 Ces r¶esultats permettent-ils d'a±rmer que le soporiÆque S est e±cace ? 6. 80 rats sont r¶epartis en 40 paires d'individus de m^eme poids. Dans chaque paire un rat est soumis µa un r¶egime A, l'autre µa un r¶egime B. 28 des rats A pµesent plus lourd que leurs compagnons. Les deux r¶egimes sont-ils ¶equivalents ? 7. On souhaite comparer deux m¶edicaments sens¶es soulager la douleur post-op¶eratoire. On a observ¶e sur 16 patients dont 8 ont pris un m¶edicament A habituel et les 8 autres un m¶edicament B exp¶erimental, les nombres suivants d'heures de soulagement A 6,8 3,1 5,8 4,5 3,3 4,7 4,2 4,9 B 4,4 2,5 2,8 2,1 6,6 0,0 4,8 2,3 Que pensez-vous de la mise en place d'un test de l'existence d'une di®¶erence entre A et B ? 429 Le test du Khi-Deux d'ajustement Le khi-2 (Ā 2 ) est un test simple bas¶e sur les di®¶erences entre e®ectifs observ¶es et e®ectifs th¶eoriques. Testons l'hypothµese nulle H0 suivante : les naissances en Suµede se r¶epartissent uniform¶ement tout au long de l'ann¶ee. On dispose pour cela d'un ¶echantillon observ¶e de 88 naissances, group¶ees selon des saisons de longueurs variables : Printemps (avril-juin ; 91 jours), Et¶e (juillet-ao^ut ; 62 jours), Automne (septembre-octobre ; 61 jours), Hiver (novembre-mars ; 151 jours). Nous avons observ¶e 26 naissances au printemps, ainsi que 21, 7 et 34 naissances en ¶et¶e, automne et hiver respectivement. Sous H0; on attend th¶eoriquement un nombre de naissances proportionnel µa la dur¶ee de la saison, c'est-µa dire 88 £ 91 365 = 21:94 naissances au printemps, ainsi que 88 £ 62 365 = 14:95; 88 £ 61 365 = 14:71 et 88 £ 151 365 = 36:40 naissances en ¶et¶e, automne et hiver respectivement. Soit le tableau : Saison E®ectif observ¶e E®ectif attendu sous Ho Printemps : 1 26 21,94 Et¶e : 2 21 14,95 Automne : 3 7 14,71 Hiver : 4 34 36,40 Total 88 88 Faisons correspondre les indices 1, 2, 3 et 4 aux saisons : printemps, ¶et¶e, automne et hiver respectivement. On note O1 = 26; O2 = 20; O3 = 8 et O4 = 34 les e®ectifs observ¶es correspondants, ainsi que T1 = 21; 94; T2 = 14; 95; T3 = 14; 71 et T4 = 36; 40 les e®ectifs attendus sous H0 correspondants. Une mesure de la distance entre les e®ectifs observ¶es et th¶eoriques (attendus sous H0) devra prendre en compte les ¶ecarts O1 ” T1; : : : ; O4 ” T4: Pour avoir une id¶ee de la taille globale de la distance, il ne sert µa rien de faire la somme des ¶ecarts puisque : (O1 ” T1) + ¢ ¢ ¢ + (O4 ” T4) = (O1 + ¢ ¢ ¢ O4) ” (T1 + ¢ ¢ ¢ T4) = 88 ” 88 = 0: On r¶esoud le problµeme en ¶elevant au carr¶e chaque ¶ecart : (O ” T ) 2 : Puis pour prendre en compte son importance relative en considµerant (O ” T ) 2 T : Finalement, pour la distance entre les e®ectifs observ¶es et attendus sous H0, on prend la somme 43de la contribution de toutes les classes : Ā 2 = (O1 ” T1) 2 T1 + (O2 ” T2) 2 T2 + (O3 ” T3) 2 T3 + (O4 ” T4) 2 T4 = (26 ” 21; 94) 2 21; 94 + (21 ” 14; 95) 2 14; 95 + (7 ” 14; 71) 2 14; 71 + (34 ” 36; 40) 2 36; 40 = 7; 39 Un Ā 2 est positif et il ne vaut z¶ero que si les e®ectifs attendus sous H0 et observ¶es coijncident. Il sera d'autant plus grand que les ¶ecarts entre e®ectifs attendus sous H0 et observ¶es sont importants. Par cons¶equent, on aura tendance µa rejeter H0 lorsque la distance Ā 2 observ¶ee : Ā 2 obs ; sera grande. La r¶egle de d¶ecision sera de la forme rejeter H0 si Ā 2 obs > c® oµu c® est une constante µa d¶eterminer selon le niveau ® d¶esir¶e. Dans le cas pr¶esent, il y a 4 classes et on dira qu'il y a 4 ” 1 = 3 degr¶es de libert¶e. Le seuil c® se lit dans une table du khi-2 µa 3 degr¶es de libert¶e. On lit dans la table que IP (Ā 2 3 > 7; 875) = 1”IP (Ā 2 3 · 7; 815) = 1 ” 0; 95 = 0; 05 et que IP (Ā 2 3 > 6; 251) = 1 ” IP (Ā 2 3 · 6; 251) = 1 ” 0; 90 = 0; 10: Au niveau ® = 0; 05; on prend donc c0;05 = 7; 815 et au niveau ® = 0; 10; on prend c0;10 = 6; 251: On constate que notre distance observ¶ee Ā 2 obs satisfait 6; 251 < Ā 2 obs = 7; 39 < 7; 815; par cons¶equent on rejette H0 au niveau 10% et on accepte H0 au niveau 5%. De fa»con g¶en¶erale, soient r classes num¶erot¶ees 1; 2; : : : ; r: Elles sont repr¶esent¶ees dans la population selon certaines proportions inconnues p1; : : : ; pr respectivement (on a p1 +¢ ¢ ¢+pr = 1): On cherche µa tester H0 : p1 = ¼1; p2 = ¼2; : : : ; pr = ¼r; oµu ¼1; : : : ; ¼r sont des proportions donn¶ees telles que ¼1 +¢ ¢ ¢+¼r = 1: Si on observe n individus, les e®ectifs attendus sous H0 sont Ti = n¼i pour les classes i = 1; : : : ; r et le tableau des observations prend la forme suivante : Classe E®ectif observ¶e E®ectif attendu sous Ho 1 O1 T1 = n¼1 2 O2 T2 = n¼2 . . . . . . . . . r Or Tr = n¼r Total n n Dans l'exemple pr¶ec¶edent, nous avions r = 4; n = 88; ¼1 = 91=365; ¼2 = 62=365; ¼3 = 61=365 = et ¼4 = 151=365: La distance du Ā 2 est donn¶ee par (9:1) Ā 2 = (O1 ” T1) 2 T1 + ¢ ¢ ¢ + (Or ” Tr) 2 Tr 44que l'on note rapidement (9:2) Ā 2 = X (O ” T ) 2 T ; oµu la lettre grecque § (sigma) signiÆe \somme". Le nombre de degr¶es de libert¶e est (9:3) d.d.l. = r ” 1; ce qui signiÆe que l'on doit d¶eterminer le seuil c® µa l'aide de la table de la loi du khi-2 µa (r ” 1) degr¶es de libert¶e : IP (Ā 2 r”1 > c®) = ®: Exemple 1. Le Bureau de la statistique du gouvernement du Qu¶ebec a d¶enombr¶e 84 579 nouveau- n¶es dans la province en 1986. De ce nombre, 43 220 ¶etaient des gar»cons et 41 359 des Ælles. En supposant que le sexe de nouveau-n¶es est d¶etermin¶e au hasard (hypothµese H0); on se serait attendu µa avoir 84579 £ 1 2 = 42289; 5 gar»cons et autant de Ælles. On trouve Ā 2 obs = (43220 ” 42289; 5) 2 42289; 5 + (41359 ” 42289; 5) 2 42289; 5 = 40; 95: On a r = 2; donc d.d.l. = 1; comme IP (Ā 2 1 > 6; 635) = 0; 01 et 40; 95 > 6; 635; on rejette l'hypothµese H0 avec un niveau de 1%: Avec le m^eme niveau, on ne rejette pas l'hypothµese nulle de 51% de gar»cons et de 49% de Ælles qui donnent des e®ectifs th¶eoriques (attendus sous H0) de 84579 £ 0; 51 = 43135; 29 gar»cons et 84579 £ 0; 49 = 41443; 71 Ælles, car alors Ā 2 obs = (43220 ” 43135; 29) 2 43135; 29 + (41359 ” 41443; 71) 2 41443; 71 = 0; 34 >6 6; 635: Exemple 2. Voici les r¶esultats obtenus par Mendel µa la suite de croisements de pois hybrides quant µa la forme (lisse ou rid¶ee) et µa la couleur : Graines Jaunes Vertes Total Lisses 315 108 423 Rid¶ees 101 32 133 Total 416 140 556 On veut tester l'hypothµese de la s¶egr¶egation mend¶elienne et de la recombinaison libre qui correspond µa H0 : ¼(LJ) = 9=16; ¼(LV ) = 3=16; ¼(RJ) = 3=16; ¼(RV ) = 1=16: Le tableau des e®ectifs th¶eoriques sous H0 est le suivant Graines Jaunes Vertes Total Lisses 312,75 104,25 423 Rid¶ees 104,25 34,75 133 Total 416 140 556 45En e®et, 556 £ 9 16 = 312; 75; 556 £ 3 16 = 104; 25 et 556 £ 1 16 = 34; 75: On obtient Ā 2 obs = (315”312;75) 2 312;75 + (108”104;25) 2 104;25 + (101”104;25) 2 104;25 + (32”34;75) 2 34;75 = 0; 47: Le nombre de degr¶es delibert¶e est 4 ” 1 = 3: Or, on a IP (Ā 2 3 > 0; 45) = 80% et IP (Ā 2 3 > 0; 71) = 70%; de sorte qu'on accepte H0 au niveau 70% et donc µa tous les niveaux inf¶erieurs. Exemple 3. Le tableau suivant donne les e®ectifs de pois selon la couleur des °eurs (Pourpre ou Vermillon) et la forme du pollen (Allong¶e ou Rond) obtenus par Bateson en 1909 en croisant des pois hybrides. On veut tester l'hypothµese de la s¶egr¶egation mend¶elienne et de la recombinaison libre qui correspond µa H0 : ¼(P A) = 9=16; ¼(P R) = 3=16; ¼(V A) = 3=16; ¼(V R) = 1=16: Classe E®ectif observ¶e E®ectif attendu sous Ho PA 1528 2132 £ 9=16 = 1199; 25 PR 106 2132 £ 3=16 = 399; 75 VA 117 2132 £ 9=16 = 399; 75 VR 381 2132 £ 9=16 = 133; 25 Total 2 132 2 132 On trouve alors Ā 2 obs = (1528”1199;25) 2 1199;25 + (106”399;75) 2 399;75 + (117”399;75) 2 399;75 + (381”133;25) 2 133;25 = 966; 61 et IP (Ā 2 3 > 11; 3) = 0; 01: On rejette donc l'hypothµese au niveau 1%: Une rµegle de validit¶e des tests du khi-2 est que les e®ectifs th¶eoriques par classe soient tous sup¶erieurs ou ¶egaux µa 5. Si »ca n'est pas le cas, on regroupe certaines classes. Exemple 4. D'aprµes le document Current Housing Reports publi¶e par le U.S. Bureau of the Census, la distribution des modes de chau®age de maison est Chau®age Gaz Fuel Electricit¶e LPG Bois Autre Pourcentage 56,7 14,3 16,0 4,5 6,7 1,8 On a s¶electionn¶e au hasard 200 maisons construites aprµes 1974. Nos observations donnent Chau®age Gaz Fuel Electricit¶e LPG Bois Autre Fr¶equence 91 16 110 14 17 2 Peut-on au vu de cet ¶echantillon conclure que la distribution du mode de chau®age des maisons construites aprµes 1974 di®µere de la distribution de l'ensemble des maisons am¶ericaines ? On prendra ® = 0; 05: Il y a 6 classes dans cette exp¶erience statistique. Mais, on constate que l'e®ectif th¶eorique de la classe\Autre" est 2OO¢1; 8% = 3; 6 < 5; on doit donc la regrouper avec une autre. On prend une classe peu repr¶esent¶ee, par exemple \Bois", et on cr¶ee la classe \Bois et autre". On a maintenant 46r = 5 classes. Classe E®ectif observ¶e E®ectif attendu sous Ho Gaz 91 200 £ 0; 567 = 113; 4 Fuel 16 200 £ 0; 143 = 28; 6 Electricit¶e 110 200 £ 0; 160 = 32 LPG 14 200 £ 0; 045 = 9 Bois et autre 19 200 £ 0; 085 = 17 Total 200 200 On obtient Ā 2 obs = (91”113;4) 2 113;4 + (16”28;6) 2 28;6 + (110”32) 2 32 + (14”9) 2 9 + (19”17) 2 17 ø (110”32) 2 32 = 190; 125 qui est sup¶erieur µa 13; 28 : seuil de niveau 1% pour la loi du khi-2 µa 5 ” 1 = 4 degr¶es de libert¶e. On rejette donc, au niveau 1%; l'hypothµese H0 de conservation du mode de chau®age domestique avant et aprµes 1974. On la rejette donc µa plus forte raison au niveau ® = 0; 05: Exercices 1. La distribution de 300 accouchements selon les jours de la semaine est donn¶ee par le tableau de donn¶ees suivant : Jour L Ma Me J V S D Total E®ectif 50 42 47 42 44 40 35 300 Un administrateur d'h^opital vous demande de v¶eriÆer si les accouchements se r¶epartissent uni- form¶ement. R¶epondez lui µa l'aide d'un test de niveau 10%. 2. Dans une ¶etude c¶elµebre, des donn¶ees ont ¶et¶e pr¶elev¶ees sur 6587 suicides en France. Voici la distribution des suicides selon le jour de la semaine : Jour L Ma Me J V S D Total E®ectif 1001 1035 982 1033 905 737 894 6587 Tester au niveau 10% l'hypothµese selon laquelle les suicides se r¶epartissent uniform¶ement sur les jours de la semaine. 4710 Le test du Khi-Deux d'independance Contingence signiÆe d¶ependance, de sorte qu'un tableau de contingence est un tableau qui montre comment une caract¶eristique d¶epend d'une autre. Le tableau suivant montre, par exemple, comment le revenu Y (exprim¶e en milliers de $) d¶epend de la r¶egion X, dans un ¶echantillon de 400 familles am¶ericaines, en 1971. Y : Revenu 0-5 5-10 10-15 15- Total X : R¶egion Sud 28 42 30 24 124 Nord 44 78 78 76 276 Total 72 120 108 100 400 Dans le cas g¶en¶eral, X peut prendre les r modalit¶es i = 1; 2; : : : ; r et Y les s modalit¶es j = 1; 2; : : : ; s: Ici, r = 2; i 2 fNord, Sudg et s = 4; j 2 f0-5, 5-10, 10-15, 15-g: Soient p X i = IP (X = i); p Y j = IP (Y = j) et pij = IP (X = i et Y = j): Avec cette notation, la proportion des individus de la population appartenant µa la classe i selon la variable X; est p X i = pi² := pi1 + pi2 + ¢ ¢ ¢ + pis; pour tous les i = 1; : : : ; r: De m^eme, la proportion des individus de la population appartenant µa la classe j selon la variable Y; est p Y j = p²j := p1j + p2j + ¢ ¢ ¢ + prj ; pour tous les j = 1; : : : ; s: Les variables X et Y sont ind¶ependantes si H0 : pij = pi² £ p²j ; pour tous les i = 1; : : : ; r; j = 1; : : : ; s: Le problµeme qu'on se propose de r¶esoudre est celui du test de cette hypothµese d'ind¶ependance µa l'aide des r¶esultats d'un ¶echantillon de taille n extrait de la population. Supposons qu'on observe nij individus appartenant µa la cellule (i; j); il y a alors ni² = ni1 + ni2 + ¢ ¢ ¢ + nis individus appartenant µa la classe i pour X; et n²j = n1j + n2j + ¢ ¢ ¢ + nrj 48Tableau 10.1. Tableau de contingence pour deux variables X et Y Y : 1 2 : : : j : : : s Total X 1 n11 n12 ¢ ¢ ¢ n1j ¢ ¢ ¢ n1s n1² 2 n21 n22 ¢ ¢ ¢ n2j ¢ ¢ ¢ n2s n2² . . . . . . . . . . . . . . . . . . . . . . . . i ni1 ni2 ¢ ¢ ¢ nij ¢ ¢ ¢ nis ni² . . . . . . . . . . . . . . . . . . . . . . . . r nr1 nr2 ¢ ¢ ¢ nrj ¢ ¢ ¢ nrs nr² Total n²1 n²2 ¢ ¢ ¢ n²j ¢ ¢ ¢ n²s n Tableau 10.2. E®ectifs attendus sous l'hypothµese H0 d'ind¶ependance Y : 1 2 : : : j : : : s Total X 1 n1²n²1 n n1²n²2 n ¢ ¢ ¢ n1²n²j n ¢ ¢ ¢ n1²n²s n n1² 2 n2²n²1 n n2²n²2 n ¢ ¢ ¢ n2²n²j n ¢ ¢ ¢ n2²n²s n n2² . . . . . . . . . . . . . . . . . . . . . . . . i ni²n²1 n ni²n²2 n ¢ ¢ ¢ ni²n²j n ¢ ¢ ¢ ni²n²s n ni² . . . . . . . . . . . . . . . . . . . . . . . . r nr²n²1 n nr²n²2 n ¢ ¢ ¢ nr²n²j n ¢ ¢ ¢ nr²n²s n nr² Total n²1 n²2 ¢ ¢ ¢ n²j ¢ ¢ ¢ n²s n 49individus appartenant µa la classe j pour Y: Le nombre total d'individus de l'¶echantillon est n et on a les ¶egalit¶es n = X i X j nij = n1² + ¢ ¢ ¢ + nr² = n²1 + ¢ ¢ ¢ + n²s: Pr¶esent¶ees dans un tableau, ces informations forme le Tableau de contingence 10.1. Les quantit¶es ni² et n²j apparaissent aux extr^emes des rang¶ees et des colonnes, ils sont appel¶es e®ectifs marginaux des variables X etY: Pour un ¶echantillon de taille n; on s'attend sous H0 µa observer pour la cellule (i; j) l'e®ectif npi²p²j = n ni² n n²j n = ni²n²j n : Cette situation est pr¶esent¶ee dans le Tableau 10.2. Dans le tableau de contingence des revenus am¶ericains, les e®ectifs attendus sous l'hypothµese H0 d'ind¶ependance r¶egion/revenu sont : 0-5 5-10 10-15 15- Total Sud 124£72 400 = 22; 32 124£120 400 = 37; 2 124£108 400 = 33; 48 124£100 400 = 31; 0 124 Nord 276£72 400 = 49; 68 276£120 400 = 82; 8 276£108 400 = 74; 52 276£100 400 = 69; 0 276 Total 72 120 108 100 400 Le Tableau 10.1 est celui des observations alors que le Tableau 10.2 est celui des e®ectifs th¶eoriques (attendus sous H0): On peut donc noter que l'observation de la cellule (i; j) est Oij = nij alors que sont analogue th¶eorique est Tij = ni²n²j n : Par analogie avec (9.1) et (9.2), la distance du khi-2 est donc (10:1) Ā 2 = X i X j (Oij ” Tij ) 2 Tij = X i X j (nij ” ni²n²j n ) 2 ni²n²j n que l'on note rapidement (10:2) Ā 2 = XX (O ” T ) 2 T : Comme lors de la Le»con 9, Ā 2 obs est positif et il ne vaut z¶ero que si les e®ectifs attendus sous H0 et observ¶es coijncident. Il sera d'autant plus grand que les ¶ecarts entre e®ectifs attendus sous H0 et observ¶es sont importants. Par cons¶equent, on aura tendance µa rejeter H0 lorsque la distance Ā 2 obs sera grande. La r¶egle de d¶ecision sera de la forme rejeter H0 si Ā 2 obs > c® oµu c® est une constante µa d¶eterminer selon le niveau ® d¶esir¶e. 50Par contre contrairement µa (9.3), pour le test d'ind¶ependance le nombre de degr¶es de libert¶e n'est pas rs ” 1; mais il est ¶egal µa (10:3) d.d.l. = (r ” 1)(s ” 1); ce qui signiÆe que l'on doit d¶eterminer le seuil c® µa l'aide de la table de la loi du khi-2 µa (r”1)(s”1) degr¶es de libert¶e : IP (Ā 2 (r”1)(s”1) > c®) = ®: Dans le cas qui nous int¶eresse, nous avons d.d.l. = (2 ” 1)(4 ” 1) = 3 et Ā 2 obs = (28 ” 22; 32) 2 22; 32 + (42 ” 37; 2) 2 37; 2 + (30 ” 33; 48) 2 33; 48 + (24 ” 31; 0) 2 31; 0 + (44 ” 49; 68) 2 49; 68 + (78 ” 82; 8) 2 82; 8 + (78 ” 74; 52) 2 74; 52 + (76 ” 69; 0) 2 69; 0 = 5; 81: Puisque IP (Ā 2 3 > 6; 251) = 0; 10 et que Ā 2 obs = 5; 81 < 6; 251; on accepte H0 au niveau 10%; et µa plus forte raison au niveau 5%: Exemple 1. On reprend les donn¶ees de l'exemple 2 de la Le»con 9, des pois de Mendel. Graines Jaunes Vertes Total Lisses 315 108 423 Rid¶ees 101 32 133 Total 416 140 556 On veut tester l'ind¶ependance des caractµeres \forme" et \couleur". Le tableau des e®ectifs th¶eoriques est le suivant Graines Jaunes Vertes Total Lisses 316,49 106,51 423 Rid¶ees 99,51 33,49 133 Total 416 140 556 On obtient Ā 2 obs = (315”316;49) 2 316;49 + (108”106;51) 2 106;51 + (101”99;51) 2 99;51 + (32”33;49) 2 33;49 = 0; 116: Le nombre de degr¶es delibert¶e est (2 ” 1)(2 ” 1) = 1: Or, on a IP (Ā 2 1 > 0; 116) = 66%; de sorte qu'on accepte 51l'hypothµese H0 d'ind¶ependance des caractµeres \forme" et \couleur" au niveau 66% et donc µa tous les niveaux inf¶erieurs. Exemple 2. AÆn de savoir si les math¶ematiciens sont philosophes, on a relev¶e sur 100 bacheliers les notes obtenues en Math¶ematiques et en Philosophie. P : 0-3 4-7 8-11 12-15 16-20 Total M 0-3 3 4 2 0 0 9 4-7 6 10 8 2 0 26 8-11 1 8 20 12 3 44 12-15 0 0 8 7 3 18 16-20 0 0 1 0 2 3 Total 10 22 39 21 8 100 Le tableau des e®ectifs attendus sous H0 est P : 0-3 4-7 8-11 12-15 16-20 Total M 0-3 0,9 1,98 3,51 1,89 0,72 9 4-7 2,6 5,72 10,14 5,46 2,08 26 8-11 4,4 9,68 17,16 9,24 3,52 44 12-15 1,8 3,96 7,02 3,78 1,44 18 16-20 0,3 0,66 1,17 0,63 0,24 3 Total 10 22 39 21 8 100 Un calcul un peu long nous permet de montrer que Ā 2 obs = 51; 7346: Nous avons aussi d.d.l. = (5”1)(5”1) = 16: La table Ā 2 (16) nous donne c0;05 = 26; 296; par cons¶equent on rejette l'hypothµese d'ind¶ependance au niveau 5%. Exercices 521. La distribution suivante a ¶et¶e dress¶ee par Haberman (1978) µa partir de donn¶ees fournies par le National Opinion Research Center de l'Universit¶e de Chicago. Les variables sont le nombre d'ann¶ees de scolarit¶e (X) et l'attitude face µa l'avortement (Y ): X : Scolarit¶e Y : Pour Y : Indi®¶erent Y : Contre Moins de 8 ans 31 23 56 Entre 9 et 12 ans 171 89 177 Plus de 12 ans 116 39 74 Tester l'hypothµese selon laquelle X et Y sont ind¶ependantes, au niveau 5%. 2. On a class¶e 217 enfants d'aprµes leurs performances dans des tests de langage (L) et d'¶equilibre physique (E). Tester au niveau 5% l'hypothµese de l'ind¶ependance des performances de langage et d'¶equilibre. L1 L2 L3 E1 45 26 12 E2 32 50 21 E3 4 10 17 5311 Le test du Khi-Deux d'homogeneite Lors de trois sondages cons¶ecutifs, on a observ¶e que respectivement 51%, 48% et 55% des r¶epondants ¶etaient en faveur d'une politique donn¶ee sur un total de 700, 900 et 800 r¶epondants. Entre les moments oµu ces sondages ont ¶et¶e r¶ealis¶es, y a-t'il eu changement d'opinion au sujet de cette politique ? Pour r¶epondre µa cette question, nous allons proc¶eder µa un test d'homog¶en¶eit¶e. Nous avons 3 populations correspondant aux 3 sondages (caractµere X) r¶eparties en 2 classes : \En faveur" et \En d¶efaveur" (caractµere Y ): Y En faveur En d¶efaveur Total X 1 357 343 700 2 432 468 900 3 440 360 800 Total 1229 1171 2400 Dans le cas g¶en¶eral, la situation se pr¶esente sous la forme du Tableau 11.1. Dans notre exemple, on pourra convenir de Y = 1 si l'individu est en faveur, et Y = 2 s'il est en d¶efaveur de la politique consid¶er¶ee. On a donc r = 3 et s = 2: Dire qu'il n'y a pas eu de changement entre les di®¶erents sondages, c'est dire que les populations X = 1; X = 2 et X = 3 se comportent de la m^eme maniµere en ce qui concerne le caractµere Y: On dit alors que ces populations sont homogµenes. Dans le cas g¶en¶eral, soit pij la proportion de la population X = i dans la classe Y = j; l'hypothµese nulle d'homog¶en¶eit¶e est H0 : pij = p Y j ; pour tous les i = 1; : : : ; r; j = 1; : : : ; s 54Tableau 11.1. Tableau de contingence pour un test d'homog¶en¶eit¶e d'une variable Y Y : 1 2 : : : j : : : s Population Taille de l'¶echantillon 1 n11 n12 ¢ ¢ ¢ n1j ¢ ¢ ¢ n1s n1² 2 n21 n22 ¢ ¢ ¢ n2j ¢ ¢ ¢ n2s n2² . . . . . . . . . . . . . . . . . . . . . . . . i ni1 ni2 ¢ ¢ ¢ nij ¢ ¢ ¢ nis ni² . . . . . . . . . . . . . . . . . . . . . . . . r nr1 nr2 ¢ ¢ ¢ nrj ¢ ¢ ¢ nrs nr² Total n²1 n²2 ¢ ¢ ¢ n²j ¢ ¢ ¢ n²s n Tableau 11.2. E®ectifs attendus sous l'hypothµese H0 d'homog¶en¶eit¶e Y : 1 2 : : : j : : : s Population Taille de l'¶echantillon 1 n1²n²1 n n1²n²2 n ¢ ¢ ¢ n1²n²j n ¢ ¢ ¢ n1²n²s n n1² 2 n2²n²1 n n2²n²2 n ¢ ¢ ¢ n2²n²j n ¢ ¢ ¢ n2²n²s n n2² . . . . . . . . . . . . . . . . . . . . . . . . i ni²n²1 n ni²n²2 n ¢ ¢ ¢ ni²n²j n ¢ ¢ ¢ ni²n²s n ni² . . . . . . . . . . . . . . . . . . . . . . . . r nr²n²1 n nr²n²2 n ¢ ¢ ¢ nr²n²j n ¢ ¢ ¢ nr²n²s n nr² Total n²1 n²2 ¢ ¢ ¢ n²j ¢ ¢ ¢ n²s n 55oµu r est le nombre de populations et s le nombre de modalit¶es du caractµere Y: Puisqu'on a observ¶e ni² individus dans la population X = i et que sous H0 une bonne estimation de p Y j est p²j ; sous H0; l'e®ectif attendu de la cellule (i; j) est ni² £ p²j = ni²n²j n ; ce qui nous donne le Tableau 11.2 d'e®ectifs attendus sous H0: Dans notre exemple, ce tableau des e®ectifs attendus sous H0 donne : Y En faveur En d¶efaveur Total X 1 700£1229 2400 = 358; 46 700£1171 2400 = 341; 54 700 2 900£1229 2400 = 460; 87 900£1171 2400 = 439; 13 900 3 800£1229 2400 = 409; 67 800£1171 2400 = 390; 33 800 Total 1229 1171 2400 On constate que les formules sont les m^emes que celles du test du khi-2 d'ind¶ependance trait¶e µa la Le»con 10. En particulier, les Tableaux 11.1 et 11.2 sont identiques aux Tableaux 10.1 et 10.2. Le Tableau 11.1 est celui des observations alors que le Tableau 11.2 est celui des e®ectifs th¶eoriques (attendus sous H0): On peut donc noter que l'observation de la cellule (i; j) est Oij = nij alors que sont analogue th¶eorique est Tij = ni²n²j n : Par analogie avec (10.1) et (10.2), la distance du khi-2 est (11:1) Ā 2 = X i X j (Oij ” Tij ) 2 Tij = X i X j (nij ” ni²n²j n ) 2 ni²n²j n que l'on note rapidement (11:2) Ā 2 = XX (O ” T ) 2 T : Comme lors de la Le»con 10, Ā 2 obs est positif et il ne vaut z¶ero que si les e®ectifs attendus sous H0 et observ¶es coijncident. Il sera d'autant plus grand que les ¶ecarts entre e®ectifs attendus sous H0 et observ¶es sont importants. Par cons¶equent, on aura tendance µa rejeter H0 lorsque la distance Ā 2 obs sera grande. La r¶egle de d¶ecision sera de la forme rejeter H0 si Ā 2 obs > c® oµu c® est une constante µa d¶eterminer selon le niveau ® d¶esir¶e. 56Comme en (10.3), pour le test d'homog¶en¶eit¶e le nombre de degr¶es de libert¶e est ¶egal µa (11:3) d.d.l. = (r ” 1)(s ” 1); ce qui signiÆe que l'on doit d¶eterminer le seuil c® µa l'aide de la table de la loi du khi-2 µa (r”1)(s”1) degr¶es de libert¶e : IP (Ā 2 (r”1)(s”1) > c®) = ®: Remarque. La similarit¶e des tests d'ind¶ependance et d'homog¶en¶eit¶e n'est pas fortuite. En fait, un test d'homog¶en¶eit¶e est un test d'ind¶ependance. En e®et, se poser la question : \Les populations i = 1; : : : ; r ont-elles un comportement homogµene en regard de la variable Y ?"; c'est se poser la question de l'ind¶ependance de la variable population : X et de la variable Y: Dans le cas qui nous int¶eresse, nous avons d.d.l. = (3 ” 1)(2 ” 1) = 2 et Ā 2 obs = (357 ” 358; 46) 2 358; 46 + (343 ” 341; 54) 2 341; 54 + (432 ” 460; 87) 2 460; 87 + (468 ” 439; 13) 2 439; 13 + (440 ” 409; 67) 2 409; 67 + (360 ” 390; 33) 2 390; 33 = 8; 32: puisque IP (Ā 2 2 > 5; 99) = 0; 05 et que Ā 2 obs = 8; 32 > 5; 99; on rejette l'hypothµese H0 d'homog¶en¶eit¶e au niveau 5%: Par contre, avec un niveau ¶egal µa 1%, on accepte l'hypothµese d'homog¶en¶eit¶e car IP (Ā 2 2 > 9; 21) = 0; 01 et 8; 32 >6 9; 21: Exercices 1. A la sortie de deux salles de cin¶ema donnant le m^eme Ælm, on a interrog¶e des spectateurs quant µa leur opinion sur le Ælm. Les r¶esultats de ce sondage d'opinion sont les suivants Mauvais Ælm Bon Ælm Total Salle1 30 70 100 Salle 2 48 52 100 Total 78 122 200 57Montrez que l'opinion est signiÆcativement li¶ee µa la salle, au niveau 5%. 2. Une enqu^ete a ¶et¶e men¶ee aux Etats-Unis pour obtenir des informations sur la consommation d'alcool en fonction du statut familial. On a selectionn¶e au hasard 1772 adultes de plus de 18 ans et on a obtenu les r¶esultats suivants (en nombre de verres par mois) Aucun 1-60 Plus de 60 Total C¶elibataire 67 213 74 354 Mari¶e 411 633 129 1173 Veuf 85 51 7 143 Divorc¶e 27 60 15 102 Total 590 957 225 1772 Peut-on conclure au vu de ces r¶esultats que le comportement des populations \C¶elibataire", \Mari¶e", \Veuf" et \Divorc¶e" vis-µa-vis de la consommation d'alcool est globalement le m^eme ? On fera un test de niveau 1%. 5812 Le test d'ajustement de Kolmogorov-Smirnov Ce test statistique a la m^eme fonction que le test d'ajustement du khi-deux. Il est bas¶e sur une autre m¶ethode. D'une certaine maniµere, on peut dire que le test de Kolmogorov-Smirnov est plus g¶en¶eral que son analogue du khi-deux : il permet, contrairement au khi-deux qui n'est valide que pour des ¶echantillons de grande taille (sup¶erieure µa 30, en pratique), de travailler avec des petits ¶echantillons, mais aussi avec des grands. Dans ce dernier cas, les performances des deux tests d'ajustement sont comparables. Rappelons ce qu'est un test d'ajustement. A l'aide des donn¶ees (x1; : : : ; xn) provenant de l'observation de n variables al¶eatoires ind¶ependantes de m^eme loi inconnue L µa d¶eterminer, on peut donner une r¶eponse statistique (c'est-µa-dire entach¶ee d'une erreur possible dont on peut ¶evaluer la probabilit¶e, et d'autant plus Æable que le nombre n d'observations est grand) µa la question : "La loi inconnue L de mes observations est-elle la loi Lo que je me donne ?" Par exemple, mes observations proviennent-elles d'une loi uniforme sur [0; 365]? Illustrons ce test µa l'aide d'un exemple. Je cherche µa tester la Æabilit¶e du programme de tirage uniforme al¶eatoire de ma calculette. Pour cela j'observe n = 10 r¶esultats de tirages. Proviennent-ils d'une loi uniforme sur [0; 1] : U(0; 1)? J'obtiens : 0:62; 0:36; 0:23; 0:76; 0:65; 0:09; 0:55; 0:26; 0:38 et 0:24: Je les range par ordre croissant : 0:09; 0:23; 0:24; 0:26; 0:36; 0:38; 0:55; 0:62; 0:65 et 0:76: Puis je dessine l'"escalier de r¶epartition" correspondant, dont les marches sont de hauteur 1=n = 1=10 et se situent en chacune des valeurs observ¶ees. Si le tirage simule bien une loi U(0; 1); cet escalier empirique, appel¶e Fn = F10 doit ^etre proche de la fonction de r¶epartition Fo de cette loi Fo(x) = 8 < : 0 si x · 0 x si 0 · x · 1 1 si x · 1 59qui est repr¶esent¶ee sur la Ægure pr¶ec¶edente µa l'aide de la droite oblique. JustiÆons rapidement cette proximit¶e attendue de F10 et de Fo; si la loi de mes observations est bien de fonction de r¶epartition Fo: Dire : F10(0:48) = 5=10 signiÆe que 5 de nos observations sont inf¶erieures µa 0.48. Dire que Fo(0:48) = 0:48 signiÆe qu'une variable al¶eatoire de loi U(0; 1) prend une valeur inf¶erieure µa 0.48 avec une probabilit¶e ¶egale µa 0:48 = 48%: Intuitivement, on s'attend bien µa ce que ces quantit¶es soient proches si la loi de mes observations ind¶ependantes est U(0; 1); et d'autant plus que le nombre n des observations est grand. C'est une cons¶equence de la loi des grands nombres. On rejettera donc l'hypothµese nulle (H0) : la loi de mes observations ind¶ependantes est U(0; 1) si ces deux courbes sont "trop ¶eloign¶ees". Le test est bas¶e sur l'observation du plus grand ¶ecart : d10; entre l'escalier de r¶epartition F10 et la fonction de r¶epartition th¶eorique de la loi sous (H0) : Fo: C'est-µa-dire d10 = sup x2IR jF10(x) ” Fo(x)j: La lecture de la table de Kolmogorov-Smirnov nous indique que pour n = 10; au niveau ® = 10%; si d10 > 0:37 : on rejette H0; et si d10 · 0:37 : on ne rejette pas H0: Dans le cas de notre exp¶erience, nous obtenons d10 = F10(0:65) ” Fo(0:65) = 0:25; qui est inf¶erieur au seuil de rejet : 0.37. Donc, on ne rejette pas H0 au niveau 10%: On note que pour e®ectuer un test du khi-deux d'ajustement, outre que n = 10 est trop petit, nous aurions ¶et¶e contraints de regrouper nos observations par classes. Par exemple en 4 classes correspondant aux tirages qui tombent dans [0; 1=4[; [1=4; 1=2[; [1=2; 3=4[ et [3=4; 1]: Le test de Kolmogorov-Smirnov est donc avatageux (par rapport au khi-deux) lorsqu'on teste l'ajustement d'un ¶echantillon µa une loi de variable al¶eatoire continue. 60Il arrive souvent, que lors d'une approche statistique, des exp¶erimentateurs soient tent¶es par l'hypothµese gaussienne. C'est-µa-dire, que les tests statistiques mis en place soient construits sur des variables al¶eatoires de loi normale. En pratique, cette hypothµese de travail peut ne pas correspondre µa la r¶ealit¶e, et sur des "petits ¶echantillons" cela provoque des erreurs parfois ¶enormes. La litt¶erature des sciences humaines et m¶edicales est malheureusement parsem¶ee de tels abus. Il y a un moyen d'y rem¶edier. Commencer par un test de Kolmogorov-Smirnov du caractµere gaussien des variables al¶eatoires observ¶ees. Exercice. On se propose de v¶eriÆer si les cinq observations suivantes proviennent d'une loi normale N (3:1; 7:85): On a observ¶e : 17.6, 4.5, -2.4, 2.5, 0.7. Si X suit une loi N (3:1; 7:85); alors Z = Xp”3:1 7:85 ' X”3:1 3:80 suit une loi normale centr¶ee r¶eduite : N (0; 1): Or, la fonction de r¶epartition de N (0; 1) est tabul¶ee dans la Table I. On a donc acc¶es µa une Fo et µa un escalier F5 pourvu que l'on opµere la m^eme transformation : z = x”3:1 3:80 sur nos observations. Ceci nous donnent les 5 observations modiƶees, ordonn¶ees de fa»con croissante : -1.45, -0.63, -0.16, 0.37, 3.82. Soit : x ”1:45 ”0:63 ”0:16 0:37 3:82 F5(x) 0:2 0:4 0:6 0:8 1 Fo(x) 0:073 0:268 0:436 0:644 1 L'¶ecart maximal entre Fo et F5 est obtenu tout juste µa gauche de x = 3:82 et vaut d5 = 1 ” 0:644 = 0:356: On lit dans la table de Kolmogorov-Smirnov que pour n = 5; au niveau ® = 20%; on rejette H0 lorsque d5 excµede 0.45. Nous ne rejetons donc pas H0 au niveau 20% (et a fortiori µa des niveaux inf¶erieurs). Attention, ceci ne signiÆe pas que nos observations suivent e®ectivement la loi normale N (3:1; 7:85): Mais seulement, que nous ne pouvons pas a±rmer le contraire. Exercices 1. Dix observations d'une variable al¶eatoire nous ont donn¶e : 32:4; 6:2; 11:4; 27:3; 29:2; 17:0; 30:6; 21:6; 18:7; 8:0: Tester l'hypothµese nulle que X suit la loi N (20; 100) avec ® = 20%: 2. Les lois exponentielles servent souvent µa mod¶eliser des temps d'attente. Leur fonction de r¶epartition est de la forme F (x) = 1 ” exp(”x=µ); x ø 0 avec µ > 0; et F (x) = 0 si x · 0: L'esp¶erance de X est E(X) = µ: On observe huit temps d'attente ind¶ependants µa un guichet, ce qui nous donne (en minutes) : 21; 19; 44; 2; 23; 15; 11; 34: Tester l'hypothµese que le temps d'attente (exprim¶e en minute) suit une loi exponentielle de paramµetre µ = 15: On fera le test aux niveaux 20; 10; 5 et 1%: 61