Cours de probabilité et simulation
Licence de mathématiques
Version 2.0
Christian Léonard
Département de mathématiques et informatique, Université Paris Ouest.
Nanterre.
E-mail address: leonard(à)u-paris10.frTable des matières
Chapitre 1. Fondements de la théorie des probabilités 1
1.1. Événements 1
1.2. Probabilité 3
Chapitre 2. Variables aléatoires 7
2.1. Fonction de répartition 8
2.2. Variables aléatoires discrètes 11
2.3. Variables aléatoires continues 12
2.4. Quelques éléments de ré?exion 14
Chapitre 3. Loi et espérance d’une variable aléatoire 17
3.1. Variables discrètes 17
3.2. Variables continues 21
3.3. Une notation commune 23
3.4. Fonction indicatrice d’ensemble 24
3.5. Variance et écart-type 24
3.6. Moments 25
3.7. Fonctions d’une variable aléatoire 26
3.8. Egalité en loi 28
3.9. Dé?nition abstraite de la loi d’une variable aléatoire 29
Chapitre 4. Variables aléatoires usuelles 31
4.1. Exemples de variables aléatoires discrètes 31
4.2. Exemples de variables aléatoires continues 33
Chapitre 5. Fonctions génératrices et caractéristiques 39
5.1. Le cas des variables entières 39
5.2. Fonctions caractéristiques 41
Chapitre 6. Couples aléatoires 45
6.1. Lois jointe et marginales 45
6.2. Fonction de répartition 45
6.3. Indépendance 46
6.4. Couples discrets 49
6.5. Couples continus 52
6.6. Fonctions caractéristiques 56
6.7. Inégalité de Cauchy-Schwarz 57
Chapitre 7. Fonctions d’un couple aléatoire 59
7.1. Quelques exercices corrigés 59
7.2. Somme de deux variables aléatoires indépendantes 60
vvi TABLE DES MATIÈRES
Chapitre 8. Conditionnement 63
8.1. Probabilité conditionnelle 63
8.2. Conditionnement dans le cas discret 64
8.3. Conditionnement dans le cas continu 65
Chapitre 9. Indépendance (revisitée) 69
9.1. Dé?nition 70
9.2. Propriétés élémentaires 71
9.3. Échantillons 73
Chapitre 10. Construction d’une variable aléatoire réelle générale 77
10.1. Construction d’une variable aléatoire continue uniforme 77
10.2. Construction d’une variable aléatoire réelle générale 79
Chapitre 11. Simulation d’une variable aléatoire 81
11.1. Description rapide de certains générateurs 81
11.2. Simulation. Principe et applications 81
11.3. Histogrammes 85
Chapitre 12. Convergence des variables aléatoires 89
Chapitre 13. Inégalités de convexité 91
Annexe A. Dénombrabilité 93
Annexe B. Éléments de théorie de l’intégration 97
Annexe C. Espérance mathématique sans théorie de l’intégration 101
Annexe D. Convexité 105
Index 109CHAPITRE 1
Fondements de la théorie des probabilités
1.1. Événements
Nous commençons par présenter les fondements axiomatiques de la théorie des probabilités.
Définition 1.1. L’ensemble des réalisations possibles d’une expérience est appelé
univers de l’expérience. Il est généralement noté ?.
Exemple 1.2. On tire une fois à pile ou face. Il est naturel de considérer ? = {p, f }
où p et f sont les réalisations de l’expérience qui correspondent aux tirages respectifs de
pile et de face. Voici quelques événements :
(a) la réalisation est face
(b) la réalisation est face ou pile
(c) la réalisation est face et pile simultanément
(d) la réalisation n’est pas face
Ces événements peuvent être décrits respectivement par les parties A de ? suivantes :
(a) A = {f }
(b) A = {f } ? {p} = {f, p} = ?
(c) A = {f } n {p} = Ø
(d) A = {f }
c = {p}
où Ac
désigne le complémentaire de la partie A dans ?.
Exemple 1.3. On lance un dé une fois. Il est naturel de considérer ? = {1, 2, 3, 4, 5, 6}
dont les éléments correspondent aux di?érentes facettes du dé. Voici quelques événements :
(a) la réalisation est 1
(b) la réalisation est un nombre pair
(c) la réalisation est un nombre pair inférieur à 3
(d) la réalisation n’est pas un nombre pair
Ces événements peuvent être décrits respectivement par les parties A de ? suivantes :
(a) A = {1}
(b) A = {2, 4, 6}
(c) A = {2, 4, 6} n {1, 2, 3} = {2}
(d) A = {2, 4, 6}
c = {1, 3, 5}
12 1. FONDEMENTS DE LA THÉORIE DES PROBABILITÉS
Si A et B sont des événements qui correpondent respectivement aux réalisations
e?ectives a et b, on peut avoir besoin de considérer les événements composés :
a 99K A
b 99K B
non a 99K Ac
a et b 99K A n B
a mais pas b 99K A \ B
a ou b 99K A ? B
a ou bien b 99K A?B
où
– A \ B = A n Bc
est la di?érence A moins B, c’est-à-dire l’ensemble des éléments
qui se trouvent dans A mais pas dans B;
– A?B = (A ? B) \ (A n B) est la di?érence symétrique de A et B, c’est-à-dire
l’ensemble des éléments qui se trouvent soit dans A, soit dans B, mais pas simultanément dans A et B.
A \ B
A n B
A B \ A
B
La région colorée est A?B = (A \ B) ? (B \ A). Remarquons la di?érence entre ou bien
qui est exclusif et ou qui ne l’est pas et correspond à la réunion A ? B.
Si A n B = Ø, on dit que les événements sont incompatibles, Ø est l’événement impossible et ? est l’événement certain.
L’ensemble de tous les événements est noté A, il est inclus dans l’ensemble de toutes
les parties de ? notée 2
?
. Cette notation est justi?ée par l’exercice suivant.
Exercice 1.4. En considérant l’ensemble des applications {oui, non}
?
de ? dans
{oui, non}, montrer que lorsque le cardinal de ? est n, celui de 2
?
est 2
n
.
Lorsque ? n’est pas un ensemble dénombrable (voir la Dé?nition A.1), pour des
raisons subtiles (qui ne sont pas aisément compréhensibles au niveau de ce cours) on ne
pourra pas en général prendre A = 2
?
. Compte tenu de ce qui précède, A doit au moins
satisfaire :
(1) A, B ? A =? A ? B ? A et A n B ? A1.2. PROBABILITÉ 3
(2) A ? A =? Ac
? A
(3) Ø ? A.
Exemple 1.5. On répète notre lancer de pile ou face jusqu’à ce qu’on obtienne
pile. L’univers est alors ? = {?1, ?2, . . .} avec ?1 = p, ?2 = fp, ?3 = ffp, . . . La
réalisation ?i est : "on observe pile pour la première fois au i-ème lancer". L’ensemble
correspondant à l’événement : "l’instant de première apparition de pile est pair" est
A = {?2} ? {?4} ? {?6} ? . . . , c’est une réunion in?nie dénombrable. Cette remarque
justi?e la dé?nition suivante.
Définition 1.6. Un ensemble A de parties de ? est appelée une tribu (ou une s-
algèbre) si
(1) A1, A2, ? A =?
S8
i=1 Ai
:= {? ? ?; ?i = 1, ? ? Ai} ? A
(2) A ? A =? Ac
? A
(3) Ø ? A
Les éléments de A (ce sont des parties de ?) sont appelés des événements.
Exemple 1.7 (Exemples de tribus).
(a) A = {Ø, ?} (c’est la plus petite tribu)
(b) A = 2
?
(c’est la plus grande tribu)
(c) Si A ? ?, A = {Ø, A, Ac
, ?}.
À une expérience, on associe le couple (?, A) où A est une tribu de ?. Dire que A
est un événement, c’est dire : A ? A.
Remarque 1.8.
Lorsque ? est un ensemble dénombrable (en particulier ?ni), on prend toujours
pour tribu A = 2
?
: l’ensemble de toutes les parties de ?.
1.2. Probabilité
Si on note P(A) la probabilité d’occurence d’un événement A ? A, on attend que :
– 0% = 0 = P(A) = 1 = 100% (par convention)
– P(?) = 1 (condition de normalisation)
– pour tous A, B ? A, si A n B = Ø alors P(A ? B) = P(A) + P(B) (additivité)
Comme nous l’avons déjà remarqué, il peut être utile de considérer des événements
constitués par une réunion dénombrable d’événements disjoints A1, A2, . . . On note dans
de cas leur réunion
S8
i=1 Ai =
F8
i=1 Ai pour mettre l’emphase sur leur disjonction qui
signi?e : ?i, j, i =6 j ? Ai n Aj = Ø. D’où la dé?nition suivante.
Définition 1.9. Une mesure de probabilité P sur (?, A) est une fonction P : A ?
[0, 1] qui satisfait :
(1) P(?) = 1
(2) si A1, A2, . . . est une suite d’événements disjoints, alors :
P
G8
i=1
Ai
=
X8
i=1
P(Ai).4 1. FONDEMENTS DE LA THÉORIE DES PROBABILITÉS
Le triplet (?, A, P) est appelé un espace de probabilité.
Il provient immédiatement de cette dé?nition,
– en choisissant A1 = A2 = Ø, que 0 = P(Ø) = limn?8 nP(Ø) et par conséquent
P(Ø) = 0;
– en choisissant A1 = A, A2 = B et A3 = A4 = = Ø, que pour tous A, B ? A
disjoints, P(A ? B) = P(A) + P(B).
– Il en va de même pour toute réunion d’un nombre ?ni d’événements disjoints :
P
Gn
i=1
Ai
=
Xn
i=1
P(Ai).
Exemples 1.10.
(a) Pile ou face correspond à ? = {f, p}, avec A = {Ø, {f }, {p}, ?} et P(Ø) = 0,
P({f }) = P({p}) = 1/2, P(?) = 1.
(b) Un lancer de dé éventuellement pipé peut se modéliser comme suit : ? =
{1, 2, . . . , 6}, A = 2
?
et P({i}) = pi = 0, 1 = i = 6 avec p1 + p6 = 1.
Pour tout A ? ?, nous obtenons P(A) =
P
i?A
pi
.
(c) Si le dé est honnête, p1 = = p6 = 1/6 et P(A) = #(A)/6 où #(A) désigne le
cardinal de A.
Voici quelques conséquences immédiates de la dé?nition de P.
Lemme 1.11. Pour tous A, B ? A, nous avons
(1) P(Ac
) = 1 - P(A)
(2) A ? B =? P(B) = P(A) + P(B \ A) = P(A)
(3) P(A ? B) = P(A) + P(B) - P(A n B)
Démonstration. Laissée en exercice.
Définition 1.12 (Masse de Dirac). Soit a ? ?. On dé?nit la fonction d’ensembles
da : A ? {0, 1} par
da(A) =
1 si a ? A
0 sinon
, A ? A
On appelle da la masse de Dirac au point a.
Exercice 1.13.
(a) Véri?er que da est une mesure de probabilité sur A.
(b) Si on prend trois éléments distincts a, b et c de ?, alors P =
1
7
da +
4
7
db +
2
7
dc est aussi
une mesure de probabilité.
(c) Montrer que P({a, b}) = 5/7 et calculer P({a, c}).
La mesure de probabilité P =
1
7
da +
4
7
db +
2
7
dc de l’exercice précédent modélise l’expé-
rience qui attribue les chances d’occurence 1/7, 4/7 et 2/7 aux réalisations élémentaires
a, b et c.1.2. PROBABILITÉ 5
Exemple 1.14. On se donne une urne contenant 3 boules rouges appelées ?1, ?2 et
?3, 2 bleues appelées ?4, ?5 et 1 verte : ?6. On tire au hasard une boule et on note sa
couleur.
On peut prendre ? = {?1, . . . , ?6} avec P(?n) = 1/6, n = 1, . . . , 6 puisque notre intuition
nous suggère l’équiprobabilité. Bien sûr, on choisit A = 2
?
et on obtient pour tout A ? ?,
P(A) = #(A)/6. On constate que
P =
X6
n=1
1
6
d?n
.
Notons les événements R = {?1, ?2, ?3}, B = {?4, ?5}, V = {?6} correspondant au
tirage d’une boule rouge, bleue ou verte. On voit que P(B) = 1/6
P6
n=1
d?n
(B) =
1/6
P6
n=1
d?n
({?4, ?5}) = (0 + 0 + 0 + 1 + 1 + 0)/6 = 1/3.
Si on n’est concerné que par la couleur de la boule, on peut prendre l’univers ?
' = {r, b, v}
munit de la mesure de probabilité P
' = P(R)dr + P(B)db + P(V )dv =
1
2
dr +
1
3
db +
1
6
dv.
Lorsque ? est l’ensemble dénombrable ? = {?n; n = 1}, toute mesure de probabilité
sur A = 2
?
est de la forme
(1.15) P =
X
n=1
pnd?n
où (pn)n=1 est tel que pn = 0, ?n et
P
n=1
pn = 1. L’interprétation de cette formule est :
P({?n}) = pn, n = 1.
Notre premier résultat concernant une quantité in?niment dénombrable d’opérations
sur les événements est le suivant.
Lemme 1.16.
(1) Soient A1, A2, . . . une suite croissante (pour la relation d’inclusion) de A : A1 ?
A2 ? et A =
S8
n=1 An = {? ? ?; ?i = 1, ? ? Ai} sa limite. Alors
P(A) = lim
n?8
P(An).
(2) Soient B1, B2, . . . une suite décroissante (pour la relation d’inclusion) de A :
B1 ? B2 ? et B =
T8
n=1 Bn = {? ? ?; ?i = 1, ? ? Ai} sa limite. Alors
P(B) = lim
n?8
P(Bn).
Démonstration. Puisque (An)n=1 est une suite croissante,
A1
A2
A =
S
i=1 Ai
A3
A2 \ A16 1. FONDEMENTS DE LA THÉORIE DES PROBABILITÉS
A = A1 ? (A2 \ A1) ? (A3 \ A2) ? est la réunion disjointe d’une famille d’événements.
Par conséquent,
P(A) = P(A1) +
X8
i=1
P(Ai+1 \ Ai)
= P(A1) + lim
n?8
Xn-1
i=1
[P(Ai+1) - P(Ai)]
= lim
n?8
P(An)
Pour le résultat concernant la famille décroissante, passer aux complémentaires en
utilisant la relation (A ? B)
c = Ac
n Bc
.
Exemple 1.17. On joue indé?niment à pile ou face jusqu’à ce qu’on obtienne pour
la première fois pile. Le premier instant d’obtention de pile est un entier qui peut être
arbitrairement grand. On doit donc prendre un univers ? de cardinal in?ni. Un bon choix
est ? = {p, f }
{1,2,...}
: l’ensemble des suites ? = ?1?2 . . . ?n . . . constituées des lettres p et
f avec l’interprétation que ?n = p signi?e qu’on a obtenu pile au n-ième lancer. Notons
que nous choisissons un univers ? di?érent de celui de l’Exemple 1.5, pour modéliser la
même expérience.
L’événement qui correspond à l’obtention pour la première fois de pile au n-ième
lancer est Pn = {? ? ?; ?1 = = ?n-1 = f, ?n = p}. C’est un ensemble in?ni qui
a le même cardinal que ? puisque seul le début des suites ? est spéci?é (Exercice : le
prouver). Il est naturel de demander lors de notre modélisation de cette expérience que
P(Pn) = 2
-n
puisqu’il y a 2
n mots de longueur n constitués des lettre p et f et que
chacun de ces mots qui code la réalisation de n lancers de pile ou face doit avoir la même
probabilité (situation d’équiprobabilité).
Soit Bn = {? ? ?; ?1 = = ?n = f } =
F
i=n+1 Pi
l’événement "il n’y a pas eu
pile pendant les n premiers lancers". L’additivité des probabilités d’événements disjoints
s’écrit P(Bn) =
P8
i=n+1 P(Pi) c’est-à-dire 2
-n =
P8
i=n+1
2
i
. On vient de retrouver une
formule bien connue.
La suite (Bn)n=1 est décroissante avec
T
n=1 Bn = P8 = {?e} où ?e = ffff . . . est
la suite constituée de f uniquement : l’événement "pile n’apparait jamais". Le lemme
précédent nous assure de P(P8) = limn?8 2
-n = 0. C’est-à-dire que P(?e) = 0. En
d’autres termes, avec cette modélisation de l’expérience, on conclut que l’événement
complémentaire "pile ?nit par apparaître" est de probabilité 1 - 0 = 1; il est certain.
Un paradoxe. Compte tenu de la symétrie de notre modélisation, tous les ? sont équiprobables : ?? ? ?, P(?) = P(?e) = 0. Or la “somme" des probabilités de tous les événements
élémentaires doit être égale à 1 : “
P
???
”P(?) = 1. Ce qui nous mène à “
P
???
”0 = 1.
Une somme de zéros égale à un ! Cette somme ne peut donc pas être la somme d’une
série car
P
n?N
0 = 0. C’est la raison pour laquelle on a mis “
P
” entre guillemets. On
lève le paradoxe en se rappelant que ? est un ensemble non-dénombrable (voir le Lemme
A.7-2), c’est-à-dire qu’il ne peut pas être mis en injection dans N, il est beaucoup plus
gros. De ce fait “
P
???
” est une opération indé?nie ; en particulier elle n’est pas une
série.CHAPITRE 2
Variables aléatoires
Pour dé?nir une variable aléatoire, seul (?, A) su?t. On laisse P de côté pour le
moment. On se donne (?, A).
Essentiellement, une variable aléatoire est une fonction numérique sur l’univers ? souvent
notée X : ? ? R.
Exemple 2.1. On joue deux fois de suite à pile ou face. Notre univers est ? =
{pp, pf, fp, ff } (l’ordre des lancers est pris en compte). Le nombre d’apparitions de pile
est la variable aléatoire suivante
X(?) =
?
?
?
2 si ? = pp
1 si ? ? {pf, fp}
0 si ? = ff
Exemple 2.2. On jette une ?èche par terre et on note l’angle de sa direction avec le
nord magnétique. Une telle expérience peut être décrite à l’aide de ? = [0, 2p[. Quant
à la tribu A, contentons-nous de dire qu’elle contient entre autres toutes les réunions
dénombrables d’intervalles. L’application
X(?) = ?, ? ? [0, 2p[
est la variable aléatoire qui correspond à l’angle de la ?èche. Si l’on considère le cosinus
de cet angle : Y = cos X, on obtient à nouveau une variable aléatoire sur (?, A).
Nous reviendrons sur la question du choix de P à l’Exemple 2.7.
Il est très pratique d’introduire la notation suivante
{? ? ?; X(?) ? C} := {X ? C}, C ? R.
En particulier, nous noterons {? ? ?; X(?) = x} = {X = x}.
Définition 2.3. Une application X : ? ? R est une variable aléatoire réelle si pour
tout x ? R, l’ensemble {X = x} appartient à A.
Lorsque ? est dénombrable on prend A = 2
?
et bien sûr toute fonction numérique X
sur ? est une variable aléatoire. Mais lorsque ? n’est pas dénombrable, comme c’est le
cas dans l’Exemple 2.2, pour des raisons techniques délicates d’une di?culté dépassant
le niveau de ce cours, on ne peut pas considérer toutes les fonctions numériques X sur
? mais seulement celles qui sont spéci?ées dans la dé?nition précédente.
Remarques 2.4.
(1) Notons que X est une fonction. Elle n’est donc ni variable, ni aléatoire ! Le vocable variable aléatoire date du début de la théorie des probabilités avec Pierre
de Fermat ( ?-1665) et Blaise Pascal (1623-1662), bien avant que les mathématiques soient formalisées. Il faut donc prendre l’expression variablaléatoire sans
lui accorder une portée sémantique – n’hésitez pas à ouvrir votre dictionnaire.
78 2. VARIABLES ALÉATOIRES
(2) Les premières formalisations rigoureuses de la théorie des probabilités datent du
début du vingtième siècle. Nous pratiquons celle de Kolmogorov, mathématicien,
physicien, génial et soviétique.
2.1. Fonction de répartition
Dès lors que l’on réintroduit la mesure de probabilité P, le comportement aléatoire
de X peut être quanti?é. L’objet fondamental de cette description est la fonction de
répartition.
Définition 2.5. On se donne (?, A, P) et une variable aléatoire X sur (?, A). La
fonction de répartition de X est dé?nie par
FX(x) = P(X = x), x ? R.
Notons que pour pouvoir écrire P(X = x), il faut que X soit une variable aléatoire
au sens de la Dé?nition 2.3.
Exemple 2.6. On reprend la variable aléatoire X de l’Exemple 2.1. Notre espace
probabilisé est (?, A, P) avec ? = {pp, pf, fp, ff }, A = 2
?
et P(pp) = P(pf) = P(fp) =
P(ff) = 1/4. Nous avons bien sûr, P(X = 0) = P(X = 2) = 1/4 et P(X = 1) = 1/2. La
fonction de répartition de X est
FX(x) =
?
?
?
0 si x ?] - 8, 0[
1/4 si x ? [0, 1[
3/4 si x ? [1, 2[
1 si x ? [2, +8[
et son graphe est
0
1
x
y
1 2
p0 = 1/4
p1 = 1/2
p2 = 1/4
| |
1/4
3/4
|
Représentation graphique de y = FX(x)
On constate que FX ne croît que pour les valeurs e?ectivement fréquentées par X : 0, 1 et
2. La hauteur de chacune des marches est respectivement p0 = P(X = 0), p1 = P(X = 1)
et p2 = P(X = 2).
Exemple 2.7 (suite de l’Exemple 2.2). Compte tenu de la symétrie de l’expérience,
il semble raisonnable d’en modéliser le hasard à l’aide de la mesure de probabilité qui
satisfait P(]a, b[) = (b - a)/(2p), 0 = a < b < 2p. Soient X(?) = ? et Y (?) = cos ?. Les2.1. FONCTION DE RÉPARTITION 9
fonctions de répartition de X et Y sont
FX(x) =
?
?
?
0 si x = 0
x/(2p) si 0 = x < 2p
1 si x = 2p
et
FY (y) =
?
?
?
0 si y < -1
1 - (arccos y)/p si - 1 = y < 1
1 si y = 1
En e?et, pour 0 = x < 2p
FX(x) = P(X = x)
= P({? ? ?; 0 = ? = x}) = P([0, x]) = x/(2p)
0 1 x
z
1
Représentation graphique de z = FX(x)
et pour -1 = y < 1
-1 0 y 1
arccos y
2(p - arccos y)
FY (y) = P(Y = y)
= P({? ? ?; cos ? = y}) = P(X ? [-(p - arccos y), p - arccos y])
= 2(p - arccos y)/(2p) = 1 - (arccos y)/p
-1 0 1 y
z
1
Représentation graphique de z = FY (y)
Les fonctions de répartition jouissent d’un certain nombre de propriétés.
Proposition 2.8. Une fonction de répartition F possèdent les propriétés suivantes :
(1) limx?-8 F (x) = 0 et limx?8 F (x) = 1,10 2. VARIABLES ALÉATOIRES
(2) F est croissante
(3) pour tous a < b, P(a < X = b) = F (b) - F (a)
(4) F est continue à droite
Démonstration. • Preuve de (1). Soit Bn = {X = -n}. Alors B1, B2, . . . est une
suite décroissante d’événements de limite vide. Par conséquent, grâce au Lemme 1.16,
limn?8 P(Bn) = P(Ø) = 0. Pour l’autre limite, considérer An = {X = n}.
• Preuve de (2) et (3). Soient a < b et A(a) = {X = a}, A(a, b) = {a < X = b}. Alors,
A(b) = A(a) ? A(a, b) est une union disjointe, de sorte que
P(A(b)) = P(A(a)) + P(A(a, b))
d’où il vient que
F (b) = F (a) + P(a < X = b) = F (a)
qui est (3) et prouve (2).
• Preuve de (4). Avec la notation précédente, pour tout a ? R, A(a, a + h) décroît vers le
vide lorsque h > 0 décroît vers zéro. Par conséquent, grâce à (3), limh?0 F (a+h)-F (a) =
limn?8 F (a + 1/n) - F (a) = limn?8 P(X ?]a, a + 1/n])
(*)
= P(X ? limn?8]a, a + 1/n]) =
P(X ? Ø) = 0, où l’égalité (*) est une conséquence du Lemme 1.16 et l’existence de la
limite limh?0 F (a + h) est garantit par le croissance de F démontrée au point (2).
Le résultat suivant montre que la fonction de répartition permet d’évaluer la probabilité P(X ? I) pour n’importe quel intervalle I.
Proposition 2.9. Soient -8 = a = b = +8. Alors,
(1) P(X ?]a, b]) = FX(b) - FX(a);
(2) P(X ? [a, b]) = FX(b) - FX(a
-
);
(3) P(X ?]a, b[) = FX(b
-
) - FX(a);
(4) P(X ? [a, b[) = FX(b
-
) - FX(a
-
)
où FX(c
-
) := limx?c FX(x) est la limite à gauche de FX en c et par convention FX(-8) :=
limx?-8 = 0 et FX(+8) := limx?+8 FX(x) = 1, d’après la Proposition 2.8-(1).
On notera que la limite à gauche FX(c
-
) existe puisque FX est une fonction croissante
de sorte que limx?c FX(x) = supx 0.
On rappelle que dx est la masse de Dirac au point x, c’est-à-dire que pour toute partie
B ? R, dx(B) =
1 si x ? B
0 sinon
, voir la Dé?nition 1.12. La loi PX est une mesure de
probabilité sur R.
Exemples 3.3.
(1) La variable aléatoire X de l’Exemple 2.12-(1) a pour loi PX =
1
4
d0 +
1
2
d1 +
1
4
d2.
(2) La loi de celle de l’Exemple 2.12-(2) est PX =
P
n=1
2
-n
dn.
Soit B une partie de R, nous constatons que
(3.4) P(X ? B) = PX(B), B ? R
puisque
PX(B) =
X
n?N
pndxn
(B) =
X
n?N: xn?B
pn
=
X
n?N: xn?B
P(X = xn) = P(X ? B).
On voit clairement à l’aide de (2.14) que la donnée de (xn, pn)n?N est équivalente à
celle de la fonction de répartition FX, de même qu’elle est équivalente à celle de la loi
1718 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE
PX. En résumé, le comportement aléatoire de X est décrit de manière équivalente par la
donnée de
– (xn, pn)n?N ou
– la fonction de répartition FX ou
– la loi PX.
La valeur moyenne de X pondérée par les probabilités de réalisation des événements
est appelée son espérance mathématique.
Définition 3.5. Soit X une variable discrète de loi PX =
P
n?N
pndxn
. L’espérance
mathématique de X est
EX :=
X
n?N
pnxn.
Pour que cette quantité soit dé?nie correctement, il est nécessaire de supposer que
E|X| :=
X
n?N
pn|xn| < 8
c’est-à-dire que
P
n?N
pnxn est une série absolument convergente.
Exemples 3.6.
(1) La variable X de l’Exemple 3.3-(1) a pour loi PX =
1
4
d0+
1
2
d1+
1
4
d2. Son espérance
est EX =
1
4 ×0 +
1
2 ×1 +
1
4 ×2 = 1.
(2) La variable X de l’Exemple 3.3-(2) a pour loi PX =
P
n=1
2
-n
dn. Son espérance
est EX =
P
n=1
2
-n
n.
Remarques 3.7.
(1) Lorsque X est une variable aléatoire positive, son espérance EX =
P
n?N
pnxn
est une série à termes positifs. Elle est donc toujours dé?nie à condition de lui
donner la valeur +8 lorsqu’elle est divergente.
En particulier, pour toute variable aléatoire, on a E|X| =
P
n?N
pn|xn| et
l’on peut écrire E|X| sans précaution en tant que nombre dans [0, +8] =
[0, +8[?{+8}. De plus, E|X| < 8 signi?e que la série
P
n?N
pnxn est absolument convergente et donc que EX est bien dé?ni.
(2) On dé?nit la loi d’une variable aléatoire discrète X à valeurs dans un ensemble
quelconque X exactement comme lorsque X ? R, par la donnée de (xn, pn)n?N
où les P xn sont dans X . La loi de X est donnée par la Dé?nition 3.1 : PX =
n?N
pndxn
. C’est une mesure de probabilité sur X muni de la tribu 2
X
de ses
parties.
(3) En revanche, pour considérer EX, il faut pouvoir additionner les x et les multiplier par des poids 0 = p = 1. La notion d’espèrance de X n’a donc de sens
que si X est un espace vectoriel. L’espérance de X est donnée par la Dé?nition
3.5 : EX =
P
n?N
pnxn ? X sous réserve que cette série soit absolument convergente, c’est-à-dire que la série à termes positifs EkXk =
P
n?N
pnkxnk < 8
soit convergente, où k k est une norme sur l’espace vectoriel X . Un cas très
important est celui de X = R
d muni de le norme euclidienne ou de n’importe
quelle autre norme équivalente.3.1. VARIABLES DISCRÈTES 19
Considérons la variable aléatoire Y = ?(X), image de X par la fonction numérique
? : R ? R. Sa loi est PY =
P
m?M qmdymoù {ym; m ? M} = {?(xn); n ? N} les ym étant
tous distincts et
qm := P(Y = ym)
= P(?(X) = ym)
=
X
x?X(?): ?(x)=ym
P(X = x)
=
X
n?N(m)
(3.8) pn
où N(m) = {n ? N : ?(xn) = ym} est l’ensemble des indices des xn dont l’image par ?
est ym.
Notons que (N(m))m?M constitue une partition de N. C’est-à-dire que les parties N(m)
sont disjointes : m =6 m' ? N(m) n N(m'
) = Ø (puisque les ym sont tous distincts), et
(3.9) N =
G
m?M
N(m).
Théorème 3.10. On suppose que
P
n?N
pn|?(xn)| < 8. Alors,
(3.11) E[?(X)] =
X
n?N
pn?(xn).
Démonstration. En notant Y = ?(X) comme précédemment, nous avons
E[?(X)] = EY
(a)
=
X
m?M
qmym
(b)
=
X
m?M
X
n?N(m)
pnym
(c)
=
X
m?M
X
n?N(m)
pn?(xn)
(d)
=
X
n?N
pn?(xn)
où (a) est la dé?nition de l’espérance, (b) provient de (3.8), (c) est une conséquence de
ym = ?(xn), ?n ? N(m) et (d) vient de (3.9).
Bien évidemment, il faut s’assurer que toutes ces séries sont absolument convergentes.
Or, en reprenant le précédent calcul en remplaçant Y par |Y | et donc ? par |?|, on voit
que c’est le cas sous notre hypothèse :
P
n?N
pn|?(xn)| < 8.
Théorème 3.12. La loi de ?(X) est P?(X) =
P
n?N
pnd?(xn)
.20 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE
Démonstration. On reprend en la transposant la preuve du Théorème 3.10. Ce
qui donne :
P?(X) = PY =
X
m?M
qmdym =
X
m?M
X
n?N(m)
pndym
=
X
m?M
X
n?N(m)
pnd?(xn) =
X
n?N
pnd?(xn)
qui est le résultat désiré.
Reprenons l’Exemple 3.3-(1), c’est-à-dire PX =
1
4
d0 +
1
2
d1 +
1
4
d2 et considérons ?(x) =
(x - 1)
2
. On obtient alors P?(X) =
1
4
d?(0) +
1
2
d?(1) +
1
4
d?(2) =
1
4
d1 +
1
2
d0 +
1
4
d1 =
1
2
d0 +
1
2
d1.
En prenant N = {1, 2, 3}, x1 = 0, x2 = 1 et x3 = 2, ainsi que M = {1, 2} avec
y1 = 0 = ?(1) et y2 = 1 = ?(0) = ?(2), nous obtenons N(1) = {2} et N(2) = {1, 3}.
La formule (3.8) s’écrit q1 =
P
n?N(1)
pn = p2 et q2 =
P
n?N(2)
pn = p1 + p3, ce qui donne
P(?(X) = 0) = 1/2 et P(?(X) = 1) = 1/4 + 1/4 = 1/2.
Lemme 3.13 (Positivité de l’espérance).
(1) Soit X une variable positive : X = 0, c’est-à-dire X(?) = 0, ?? ? ?. Alors,
0 = EX = 8.
(2) Soient ? et ? deux fonctions positives telles que 0 = ? = ?. Alors, 0 =
E[?(X)] = E[?(X)] = 8.
Démonstration. • Preuve de (1). Nous avons xn = 0 et pn = 0 pour tout n ? N.
Donc EX =
P
n?N
pnxn = 0.
• Preuve de (2). Pour tout n ? N, 0 = pn?(xn) = pn?(xn). Donc les séries à termes positifs correspondantes sont ordonnées de façon similaire : 0 = E[?(X)] =
P
n?N P pn?(xn) =
n?N
pn?(xn) = E[?(X)] = 8.
Théorème 3.14 (Linéarité de l’espérance). Soient ?, ? : R ? R deux fonctions
numériques telles que E|?(X)| < 8 et E|?(X)| < 8. Pour tous réels a, b, nous avons
E[a?(X) + b?(X)] = aE[?(X)] + bE[?(X)]
où toutes les espérances sont bien dé?nies.
Démonstration. Puisque |a?(X)+b?(X)| = |a||?(X)|+|b||?(X)|, grâce au Lemme
3.13-(2), nous avons E|a?(X) + b?(X)| = |a| E|?(X)| + |b| E|?(X)| < 8 de sorte que
toutes les espérances sont bien dé?nies. Grâce au Théorème 3.10,
E[a?(X) + b?(X)] =
X
n?N
pn[a?(xn) + b?(xn)]
= a
X
n?N
pn?(xn) + b
X
n?N
pn?(xn)
= aE[?(X)] + bE[?(X)]
ce qui achève la preuve.
Théorème 3.15 (Croissance de l’espérance). Soient ? et ? deux fonctions numé-
riques telles que E|?(X)| < 8, E|?(X)| < 8 et ? = ?. Alors, E[?(X)] = E[?(X)].3.2. VARIABLES CONTINUES 21
Démonstration. ?(X) - ?(X) = 0, donc par linéarité et positivité de l’espérance
E[?(X)] - E[?(X)] = E[?(X) - ?(X)] = 0.
Remarque 3.16.
En reprenant la Remarque 3.7-(2), on peut étendre les Théorèmes 3.14 et 3.15 au
cas des variables aléatoires discrètes à valeurs dans un ensemble X quelconque,
en prenant des fonctions ?, ? : X ? R, puisque ?(X) et ?(X) sont des variables
aléatoires réelles.
3.2. Variables continues
Nous allons procéder par analogie avec les variables discrètes. Nous gardons les notations introduites à la Dé?nition 2.15, en particulier la densité fX de la loi de la variable
aléatoire continue X est supposée continue par morceaux.
Définition 3.17.
(1) On note CX l’ensemble des fonctions de ? : R ? R qui sont continues par
morceaux et telles que l’intégrale généralisée
R
R
|?(x)|fX(x) dx soit convergente,
c’est-à-dire
R
R
|?(x)|fX(x) dx < 8.
(2) Soit ? ? CX. L’espérance mathématique de la variable aléatoire ?(X) est dé?nie
par
(3.18) E?(X) :=
Z
R
?(x)fX(x) dx.
– Une justi?cation rigoureuse de cette dé?nition peut être obtenue en montrant
qu’elle est l’extension naturelle de la Dé?nition 3.5 de l’espérance d’une variable
discrète.
– En tenant compte de (2.20), lorsqu’on se souvient de la construction de l’intégrale
de Riemann comme limite de sommes de Darboux, on voit que cette dé?nition est
analogue au résultat obtenu en (3.11) pour les variables discrètes.
– Du fait que fX et ? sont continues par morceaux, il en est de même pour leur
produit ?fX qui, par conséquent, est localement intégrable au sens de Riemann.
Remarques 3.19.
(1) Si ? = 0 est une fonction continue par morceaux et positive, on peut dé?nir
l’espérance (3.18) en posant E?(X) = +8 lorsque l’intégrale généralisée positive
R
R
?(x)fX(x) dx est divergente.
En particulier, pour toute fonction
R
? continue par morceaux, on note E|?(X)| =
R
|?(x)|fX(x) dx ? [0,8].
(2) L’hypothèse d’intégrabilité E|?(X)| =
R
R
|?(x)|fX(x) dx < 8 exprime que l’intégrale généralisée
R
R
?(x)fX(x) dx est absolument convergente.
Exemple 3.20. Si X est l’angle de la ?èche de l’Exemple 2.17 : fX(x) = 1[0,2p[(x)/(2p)
de sorte que E(X) =
R
2p
0
x
2p
dx = p.
Remarque 3.21. On peut se demander ce que signi?e la valeur moyenne de l’angle
EX = p. En e?et, si l’on avait choisi de coder l’angle dans [-p, p[, on aurait obtenu EX =
0 pour la même expérience. En revanche, les coordonnées cartésiennes (cos X, sin X) sur
le cercle trigonométrique sont indépendantes du choix de l’origine des angles.22 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE
(0, 0) (1, 0)
(cos X, sin X)
angle = X
b
b
On dé?nit E(cos X, sin X) = (E[cos X], E[sin X]) et on obtient la direction moyenne
E(cos X, sin X) = (0, 0) puisque E[cos X] =
1
2p
R
2p
0
cos x dx = 0 et E[sin X] =
1
2p
R
2p
0
sin x dx =
0. Ce qui signi?e bien qu’aucune direction n’est privilégiée.
Théorème 3.22 (Linéarité de l’espérance). L’ensemble CX est un sous-espace vectoriel de l’espace des fonctions numériques.
Pour tous ?, ? ? CX et tous réels a, b, nous avons
E[a?(X) + b?(X)] = aE[?(X)] + bE[?(X)].
Démonstration. Soient ? et ? deux fonctions continues par morceaux. L’ensemble
des points de discontinuité de ? + ? est inclus dans la réunion des ensembles de points
de discontinuité de ? et ? et une réunion ?nie de points isolés reste un ensemble de
points isolés. Donc ? + ? est continue par morceaux. Il en est de même pour a? pour
tout a ? R.
D’autre part,
R
R
|a?(x)|fX(x) dx = |a|
R
R
|?(x)|fX(x) dx < 8. Ce qui prouve que CX est
un espace vectoriel.
La linéarité de l’intégrale nous assure de
E[a?(X) + b?(X)] =
Z
R
[a?(x) + b?(x)]fX(x) dx
= a
Z
R
?(x)fX(x) dx + b
Z
R
?(x)fX(x) dx
= aE[?(X)] + bE[?(X)],
qui est le résultat annoncé.
Théorème 3.23 (Croissance de l’espérance).
(1) Soient ?, ? = 0 deux fonctions positives continues par morceaux telles que 0 =
? = ?. Alors la Remarque 3.19-(1) nous assure du sens des quantités E[?(X)]
et E[?(X)] et nous avons 0 = E[?(X)] = E[?(X)] = 8.
(2) Soient ?, ? ? CX telles que ? = ?, alors E[?(X)] = E[?(X)].
Démonstration. Ces résultats sont des conséquences immmédiates des propriétés
de croissance des intégrales généralisées.
Par analogie avec la relation (3.4), nous introduisons la3.3. UNE NOTATION COMMUNE 23
Définition 3.24. La loi de X est la mesure de probabilité sur R
PX(dx) := fX(x) dx
qui est dé?nie par
PX(B) := P(X ? B) =
Z b
a
fX(x) dx
notation
=
Z
B
fX(x) dx
pour tout intervalle B = (a, b) ? R.
3.3. Une notation commune
Nous venons de voir que les résultats de croissance (Théorèmes 3.15 et 3.23) et de
linéarité (Théorèmes 3.14 et 3.22) s’expriment de façon analogue pour les variables aléatoires discrètes et continues. C’est l’indice qu’il existe une théorie générale qui englobe
ces deux situations. Il s’agit de la théorie de l’intégration de Lebesgue que nous n’aborderons pas dans ce cours. En revanche, nous allons introduire des notations issues de cette
théorie qui permettront de traiter simultanément ces deux types de variables aléatoires.
Les principaux résultats de cette théorie sont collectés à l’Annexe B.
On note Z
R
?(x) PX(dx) =
Z
R
? dPX = E?(X)
(1) la quantité
Z
R
? dPX =
X
n?N
?(xn)pn
lorsque X est discrète de loi PX =
P
n?N
pndxn ou bien
(2) la quantité
Z
R
? dPX =
Z
R
?(x)fX(x) dx
lorsque X est continue de loi PX(dx) = fX(x) dx.
Nous avons montré aux Théorèmes 3.15, 3.23, 3.14 et 3.22 que, pour ? et ? dans une
bonne classe de fonctions, les propriétés suivantes sont satisfaites.
– Linéarité. Pour tous a, b ? R,
(3.25) E[a?(X) + b?(X)] = aE?(X) + bE?(X)
ou avec notre nouvelle notation :
Z
R
[a? + b?] dPX = a
Z
R
? dPX + b
Z
R
? dPX
– Croissance. Si ? = ?, alors
(3.26) E?(X) = E?(X)
ou avec notre nouvelle notation :
Z
R
? dPX =
Z
R
? dPX.
– Normalisation. On note 1 la fonction constante égale à 1.
(3.27) E(1) =
Z
R
dPX = PX(R) = P(?) = 1.24 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE
3.4. Fonction indicatrice d’ensemble
On introduit maintenant une fonction très pratique en calcul des probabilités.
Définition 3.28 (Fonction indicatrice). Soit V un ensemble quelconque et W ? V
une partie de V. La fonction indicatrice de W est
1W (v) :=
1 si v ? W
0 sinon
, v ? V.
Remarques 3.29.
(1) Notons que 1W (v) = dv(W).
(2) Pour tout B ? R, 1{X?B}(?) = 1B(X(?)) =
1 si X(?) ? B
0 sinon
.
Proposition 3.30.
(1) Pour B ? R, E[1{X?B}] = E[1B(X)] = P(X ? B) = PX(B).
(2) Pour tout réel c, E(c1?) = c.
On notera souvent la variable aléatoire égale à la constante c : c1? = c; donc E(c) = c.
Une telle variable aléatoire est dite déterministe.
Démonstration. • Preuve de (1). Commençons par le cas où X est discrète. Grâce
au Théorème 3.10, E[1{X?B}] = E[1B(X)] =
=
P
n?N
pn1B(xn) =
P
n?N; xn?B
pn = P(X ? B) = PX(B).
Lorsque X est continue, E[1{X?B}] = E[1B(X)] =
R
R
1B(x)fX(x) dx =
R
B
fX(x) dx =
PX(B).
• Preuve de (2). Avec (3.27) : E(c) = cE(1) = c×1.
3.5. Variance et écart-type
Pour mesurer la moyenne des ?uctuations de X autour de sa moyenne := EX, on
peut prendre la moyenne de l’écart à la moyenne : X -. C’est-à-dire E(X -). Mais on
voit que E(X-) = EX-E = - = 0. En moyenne, les écarts par défaut compensent
exactement les écarts par excès. Une idée naturelle est donc de considérer la moyenne de
l’écart absolu à la moyenne : E|X -|. Mais personne n’aime beaucoup travailler avec les
valeurs absolues qui demandent des découpages fastidieux. C’est la raison pour laquelle
on préfère considérer la moyenne du carré de l’écart à la moyenne : E[(X - )
2
]. Si on
change d’échelle de mesure, par exemple si X est une longueur exprimée en mètres et X'
la même longueur exprimée en millimètres, on a X' = 1000X d’où E[(X' - E(X'
))
2
] =
E[(1000X - 1000E(X))
2
] = 1000
2
E[(X - EX)
2
]. Ces quantités di?èrent du facteur 1000
2
et s’expriment comme des longueurs au carré. Il est donc pertinent de considérer la
quantité
p
E[(X - )
2
] qui conserve les bonnes unités et les facteurs d’échelle.
Définition 3.31. On suppose que E|X| < 8 de sorte que EX est bien dé?ni. La
variance de X est
Var(X) := E[(X - EX)
2
] ? [0, +8]
Son écart-type est
s(X) :=
p
Var(X) ? [0, +8].3.6. MOMENTS 25
On remarque qu’en tant qu’espérance de la variable positive (X - )
2
, Var(X) est
un nombre positif.
Il est pratique lors de certains calculs d’utiliser les formules suivantes.
Proposition 3.32. Soit X tel que E|X| < 8. Nous avons
(1) Var(X) = E(X2
) - (EX)
2
.
(2) Var(aX) = a
2
Var(X) et s(aX) = |a|s(X), pour tout réel a = 0 6 , avec la convention a
2×8 = |a|×8 = 8
Bien sûr, si a = 0, Var(0) = s(0) = 0.
(3) Var(X + c) = Var(X) pour tout réel c.
(4) Var(c) = 0 pour tout réel c.
Démonstration. • Preuve de (1). Grâce à la linéarité de l’espérance (3.25) et à la
Proposition 3.30-(2), en posant = EX, Var(X) = E[(X - )
2
] = E[X2 - 2X +
2
] =
E(X2
) - 2EX + E(
2
) = E(X2
) - 2
2 +
2 = E(X2
) -
2
.
• Preuve de (2). A nouveau, par la linéarité de l’espérance, Var(aX) = E[(aX - a)
2
] =
E[a
2
(X - )
2
] = a
2
E[(X - )
2
] = a
2
Var(X).
• Preuve de (3). Var(X + c) = E[{(X + c) - E(X + c)}
2
] = E[{X + c - (EX + c)}
2
] =
E[{X - EX}
2
] = Var(X).
• Preuve de (4). Var(c) = Var(c - c) = Var(0) = 0.
3.6. Moments
Commençons par la dé?nition des moments d’une variable aléatoire.
Définition 3.33. Soit X une variable aléatoire réelle.
– Si X = 0 est une variable aléatoire positive, pour tout réel p > 0, on appelle
moment d’ordre p de X la quantité E[Xp
] ? [0,8].
– Dans le cas général où X est une variable aléatoire réelle, pour tout entier p = 1
tel que E[|X|
p
] < 8, on appelle moment d’ordre p de la variable aléatoire réelle X
la quantité E(Xp
).
On rappelle que les puissances non-entières ne sont dé?nies que pour les nombres
positifs par x
p
:= exp(p ln(x)), x > 0, p ? R et 0
p = 0 si p > 0.
Proposition 3.34 (Comparaison des moments). On se donne deux réels 0 < p = q.
Soit X = 0 une variable aléatoire positive : E[Xq
] < 8 ? E[Xp
] < 8.
Pour toute variable aléatoire réelle X : E[|X|
q
] < 8 ? E[|X|
p
] < 8.
Démonstration. Soit X = 0. On utilise les fonctions indicatrices 1W , voir la Dé?-
nition 3.28, en remarquant que 1 = 1W + 1Wc :
E[X
p
] = E[(1{X<1} + 1{X=1})X
p
]
(a)
= E[1{X<1}X
p
] + E[1{X=1}X
p
]
(b)
= 1 + E[1{X=1}X
q
]
(c)
= 1 + E[X
q
] < 8.26 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE
L’égalité (a) est une application de la linéarité de l’espérance. L’inégalité (b) vient de
1{0=x<1}x
p = 1 et x
p = x
q
lorsque x = 1 et 0 < p = q. On obtient l’inégalité (c) en
remarquant que 1{x=1}x
q = x
q
lorsque x = 0. On a invoqué (3.26) pour des fonctions
positives pour ces deux inégalités.
La dernière assertion de la proposition s’en déduit immédiatement.
Corollaire 3.35. Si E(X2
) < 8, alors E|X| < 8.
De plus, Var(X) < 8 si et seulement si E(X2
) < 8.
Démonstration. La première assertion est un cas particulier de la Proposition 3.34
et la seconde s’en déduit à l’aide de la Proposition 3.32-(1).
3.7. Fonctions d’une variable aléatoire
Si ? est une fonction numérique su?samment régulière et X est une variable aléatoire,
alors Y = ?(X) est aussi une variable aléatoire. Pour tout intervalle B ? R, notons
?
-1
(B) := {x ? R; ?(x) ? B}.
Exercice 3.36. Montrer que si ? est continue par morceaux, ?
-1
(B) est une réunion
dénombrable d’intervalles.
Grâce à l’exercice précédent et à l’identité (3.46) plus bas, on peut considérer PX(?
-1
(B))
et écrire
PY (B) = P(Y ? B)
= P(?(X) ? B)
= P(X ? ?
-1
(B))
= PX(?
-1
(B))
ce qui spéci?e la loi de Y. Avec B =
F
n=1
In où les In sont des intervalles disjoints, nous
avons
(3.37) P(X ? B) =
X
n=1
P(X ? In).
(Notons que si B est la réunion ?nie de N intervalles, on peut toujours prendre In = Ø
pour n > N). Or cette quantité est entièrement déterminée par la fonction de répartition
FX de X comme le montre la Proposition 2.9.
Par exemple, lorsque ? est une application strictement monotone son application
réciproque ?
-1
est bien dé?nie et en prenant B =] - 8, y] nous obtenons lorsque ? est
strictement croissante
FY (y) = P(?(X) = y)
= P(X = ?
-1
(y))
= FX(?
-1
(y))
et lorsque ? est strictement décroissante
FY (y) = P(?(X) = y)
= P(X = ?
-1
(y))
= 1 - FX((?
-1
(y))
-
)
Donnons quelques exemples d’application de cette méthode.3.7. FONCTIONS D’UNE VARIABLE ALÉATOIRE 27
(a) Soit X une variable continue de densité fX continue par morceaux. On cherche la loi
de Y = aX + b avec a et b réels.
Remarquons avant tout que lorsque a = 0, Y vaut b quoiqu’il arrive, sa loi est donc
PY = db. On note en passant que ceci nous donne un exemple de ?(X) discrète alors
que X est continue.
Prenons maintenant a = 0 6 et calculons la fonction de répartition de Y = aX + b.
– Si a > 0, FY (y) = P(aX + b = y) = P(X = (y - b)/a) = FX((y - b)/a). Ce qui
donne fY (y) = F
'
Y
(y) = fX((y - b)/a)/a.
– Si a < 0, FY (y) = P(aX + b = y) = P(X = (y - b)/a) = 1 - FX((y - b)/a). Ce
qui donne fY (y) = F
'
Y
(y) = -fX((y - b)/a)/a.
Finalement, nous obtenons dans les deux cas
(3.38) fY (y) =
fX((y - b)/a)
|a|
, y ? R
(b) Soit X une variable aléatoire quelconque, la fonction de répartition FY de Y = X2
s’exprime en fonction de FX de la manière suivante. Pour tout y = 0,
FY (y) = P(X
2
= y)
= P(-
v
y = X =
v
y)
= FX(
v
y) - FX((-
v
y)
-
)
alors que pour tout y < 0, FY (y) = 0.
En particulier, si X admet une densité fX continue par morceaux, FX est dérivable partout sauf en un nombre ?ni de points et F
'
X = fX. Par conséquent Y admet
la densité (dé?nie partout sauf en un nombre ?ni de points)
(3.39) fY (y) = F
'
Y
(y) = 1(y>0)
fX(
v
y) + fX(-
v
y)
2
v
y
.
Exemple 3.40. Si X est l’angle de la ?èche de l’Exemple 2.17 et Y = X2
,
fX(x) = 1[0,2p[(x)/(2p) et avec (3.39) : fY (y) = 1[0,4p2
[/(4p
v
y) de sorte que
E(X
2
) =
Z 2p
0
x
2
2p
dx =
4
3
p
2
E(Y ) =
Z 4p
2
0
v
y
4p
dy =
4
3
p
2
On constate bien évidemment que E(Y ) = E(X2
).
(c) Les choses sont plus simples si l’on considère Z = X3
. En e?et, pour tout z ? R,
nous avons
FZ (z) = P(X
3
= z) = P(X = z
1/3
) = FX(z
1/3
).
La simplicité de ce calcul vient du fait que z
3
est injective, alors que la non-injectivité
de z
2
créait quelques di?cultés dans l’exemple précédent. Si X admet une fonction
de densité continue par morceaux, Z = X3
admet la fonction de densité
fZ (z) =
fX(z
1/3
)
3z
2/3
.
Notons que cette fonction n’est pas dé?nie en z = 0, mais ça n’est pas un problème puisque des fonctions de densité égales sauf sur un ensemble de longueur nulle28 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE
(Lebesgue-presque partout) correspondent à la même loi, voir la Proposition 3.43
plus bas.
3.8. Egalité en loi
Cette notion est spéci?que à la théorie des probabilités.
Définition 3.41 (Egalité en loi). Deux variables aléatoires X1 et X2 construites
respectivement sur (?1, P1) et (?2, P2) sont égales en loi si et seulement si elles ont la
même loi : PX1 = PX2
. On note dans ce cas : X1
L
= X2.
Cela ne signi?e pas que
(1) X1 = X2 ni même que
(2) P(X1 = X2) = 1, même lorsque (?1, P1) = (?2, P2).
Bien sûr, (1) implique (2) qui implique l’égalité en loi.
L’égalité en loi est la notion la plus faible permettant d’identi?er deux phénomènes
aléatoires.
Exemples 3.42.
(1) On joue deux fois de suite à pile ou face de sorte que ?1 = {pp, pf, fp, ff } et
P1 =
1
4
(dpp+dpf +df p+df f ). On considère X1 dé?ni par : X1(pp) = X1(pf) = -3
et X1(fp) = X1(ff) =
v
5.
On lance un dé de sorte que ?2 = {a, b, c, d, e, f } avec P2 =
1
6
(da + db + dc +
dd + de + df ). On considère X2 dé?ni par X2(a) = X2(b) = X2(c) = -3 et
X2(d) = X2(e) = X2(f) =
v
5.
On voit que PX1 = PX2 =
1
2
(d-3 + dv
5
), c’est-à-dire X1
L
= X2.
(2) Soit X la variable de l’Exemple 2.6 dont la loi est
1
4
d0 +
1
2
d1 +
1
4
d2. Montrer que
X
L
= 2 - X.
(3) Soit X une variable aléatoire continue dont la densité est une fonction paire ;
fX(-x) = fX(x), ?x. Alors nous avons X
L
= -X. En e?et, pour tout réel y nous
avons
F-X(y) = P(X = -y)
=
Z +8
-y
fX(x) dx
(a)
=
Z y
-8
fX(-z) dz
(b)
=
Z y
-8
fX(z) dz
= FX(y)
où l’égalité (a) s’obtient avec le changement de variable z = -x et (b) est une
conséquence de la parité de fX.
Nous avons déjà remarqué que les données de FX et PX sont équivalentes. On en
déduit le résultat suivant.3.9. DÉFINITION ABSTRAITE DE LA LOI D’UNE VARIABLE ALÉATOIRE 29
Proposition 3.43. Deux variables aléatoires X1 et X2 construites respectivement
sur (?1, P1) et (?2, P2) sont égales en loi si et seulement si elles ont la même fonction
de répartition :
FX1 = FX2
.
Si elles sont discrètes, cela signi?e qu’il existe une suite (éventuellement ?nie) (xn)n?N
de réels distincts telle que
P
n?N P1(X1 = xn) = 1 et
P1(X1 = xn) = P2(X2 = xn), ?n ? N
Si elles sont continues, cela signi?e que leurs densités ont le même ensemble de points
de discontinuité (Cf. les Dé?nitions 2.15 et 3.17) et qu’elles sont égales partout sauf
éventuellement sur cet ensemble de "longueur nulle". On dit alors qu’elles sont égales
Lebesgue-presque partout et on note
fX1 = fX2
, Lebesgue-p.p.
3.9. Dé?nition abstraite de la loi d’une variable aléatoire
Spéci?er complètement le comportement d’une variable aléatoire X devrait permettre
en principe d’évaluer les quantités P(X ? B) pour toute partie B de R. Mais cela n’est
possible que si l’ensemble {X ? B} est un événement, c’est-à-dire un élément de la tribu
A.
Lorsque X est une variable discrète, on peut prendre ? dénombrable et A = 2
?
de
sorte que pour tout B ? R, {X ? B} est un événement.
Lorsque X est une variable aléatoire continue, comme nous l’avons déjà évoqué à la
Remarque 2.24, les choses se compliquent du point de vue mathématique : on ne peut
pas prendre n’importe quelle partie B. Les "bonnes" parties B de R sont celles de la
tribu de Borel.
Définition 3.44. La tribu de Borel de R est la plus petite tribu contenant l’ensemble
I de tous les intervalles de R. On la notera B.
Exercice 3.45. Montrer que si (A? , ? ? G) est une collection quelconque de tribus
sur le même ensemble ?, alors l’ensemble
T
??G A? constitué des parties de ? qui se
trouvent dans toutes les tribus A? lorsque ? parcourt l’ensemble d’indices G, est aussi
une tribu.
La plus petite tribu contenant l’ensemble I de tous les intervalles de R est par dé-
?nition l’intersection de toutes les tribus contenant I. Cette intersection existe puisque
2
R
est une tribu qui contient I, de plus en tant qu’intersection de tribus, c’est une tribu
d’après l’exercice précédent. Ceci justi?e la dé?nition de la tribu de Borel B.
On peut montrer, mais ça n’est pas simple, qu’il existe des parties de R qui ne sont
pas dans B.
On retiendra que la tribu de Borel contient toutes les réunions dénombrables d’intervalles.
Avec B =
F
n=1
In où les In sont des intervalles disjoints, nous avons
(3.46) P(X ? B) =
X
n=1
P(X ? In).30 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE
(Notons que si B est la réunion ?nie de N intervalles, on peut toujours prendre In = Ø
pour n > N). Or cette quantité est entièrement déterminée par la fonction de répartition
FX de X comme le montre la Proposition 2.9.
Définition 3.47. La loi de la variable aléatoire (quelconque) X est la mesure de
probabilité PX sur (R, B) dé?nie par
PX(B) = P(X ? B), B ? B.
La connaissance de PX sur tous les intervalles de la forme ]a, b] permet de retrouver
FX(x) = P(X ?] - 8, x]) = limn?8 PX(] - n, x]), x ? R.
Réciproquement, si on se donne FX, grâce à la Proposition 2.9, PX est connue sur tous les
intervalles et par suite, grâce à (3.46), sur toutes les réunions dénombrables d’intervalles.
On peut montrer, mais c’est assez délicat et dépasse le niveau de ce cours, qu’en fait FX
spéci?e PX complètement sur B.
En résumé, FX et PX encodent la même information sur le comportement aléatoire
de X.
De plus, PX n’est autre que l’image sur (R, B) de la mesure de probabilité P sur
(?, A) par l’application X :
PX = X#P.
La notion de mesure image est présentée à l’Annexe ??.CHAPITRE 4
Variables aléatoires usuelles
Nous présentons ici les lois des variables aléatoires les plus usitées. Certaines, comme
la loi normale, sont extrêmement importantes tant sur le plan théorique que pratique
(utilisation très fréquente en statistique).
4.1. Exemples de variables aléatoires discrètes
Nous présentons dans cette section les lois de Bernoulli, binomiales, de Poisson et
géométriques.
Loi de Bernoulli. Il s’agit d’une des lois les plus simples. La variable aléatoire X
suit la loi de Bernoulli B(p) de paramètre 0 = p = 1 si sa loi est
PX = qd0 + pd1.
Ceci signi?e que X peut prendre les valeurs 0 et 1 avec les probabilités respectives
q = 1-p et p. On obtient immédiatement que EX = q0+p1 = p et que puisque X2 = X
sous cette loi, E(X2
) = p. Par conséquent, VarX = p - p
2 = pq.
Une variante immédiate de cette loi est PY = qda + pdb avec a, b réels. On a immé-
diatement EY = qa + pb et du fait que Y = a + (b - a)X avec X ~ B(p), VarY =
(b - a)
2
VarX = (b - a)
2
pq, grâce à la Proposition 3.32.
Loi binomiale. La variable aléatoire X suit la loi binomiale B(n, p) de paramètres
n = 1 et 0 = p = 1 si sa loi est
PX =
Xn
k=0
n
k
p
k
q
n-k
dk
où comme précédemment on pose q = 1 - p. Ceci signi?e que X peut prendre les valeurs
0, 1, . . . , n avec P(X = k) =
n
k
p
k
q
n-k
pour 0 = k = n. On constate qu’avec n = 1, on
retrouve B(1, p) = B(p).
Exercice 4.1.
(a) Véri?er que PX est une mesure de probabilité.
(b) Montrer que EX = np et VarX = npq.
3132 4. VARIABLES ALÉATOIRES USUELLES
Solution. Nous donnons seulement la solution de EX = np. Nous avons
EX =
Xn
k=0
k
n!
k!(n - k)!
p
k
q
n-k
= np
Xn
k=0
(n - 1)!
(k - 1)!(n - k)!
p
k-1
q
n-k
(a)
= np
Xn
l=0
n - 1
l
p
l
q
n-1-l
(b)
= np(p + q)
n-1
= np
où l’on a e?ectué le changement de variable l = k-1 en (a) (on notera que n-k = n-1-l)
et utilisé la formule du binôme de Newton en (b).
Une indication pour calculer VarX : commencer par calculer E[X(X - 1)] en procédant
dans le même esprit que ce que nous venons de faire.
Loi géométrique. La variable aléatoire X suit la loi géométrique G(p) de paramètre
0 < p = 1 si sa loi est
PX =
X8
k=1
q
k-1
pdk
où comme précédemment on pose q = 1 - p. Ceci signi?e que X peut prendre les valeurs
1, 2, . . . avec P(X = k) = q
k-1
p pour k = 1.
Exercice 4.2.
(a) Véri?er que PX est une mesure de probabilité.
(b) Montrer que EX = 1/p.
Solution. On pose ?(q) =
P8
k=0
q
k
, 0 = q < 1. On sait que
?(q) = limn?8
Pn
k=0
q
k = limn?8(1 - q
n+1
)/(1 - q) = 1/(1 - q).
De ce fait, PX(N) = p
P8
k=1
q
k-1 = p
P8
k=0
q
k = p/(1 - q) = 1, ce qui montre (a).
Grâce au Théoréme de dérivation sous le signe somme B.3, en dérivant terme à terme la
série
P8
k=0
q
k
on obtient
P8
k=1
kq
k-1 = ?
'
(q) et puisque ?
'
(q) =
d
dq
(1/(1-q)) = 1/(1-q)
2
,
on voit que EX =
P8
k=1
kq
k-1
p = p/(1 - q)
2 = 1/p.
Loi de Poisson. La variable aléatoire X suit la loi de Poisson P(?) de paramètre
? > 0 si sa loi est
PX =
X8
k=0
e
-? ?
k
k!
dk.
Ceci signi?e que X peut prendre les valeurs 0, 1, 2, . . . avec P(X = k) = e
-?
?
k
/k! pour
k = 0 avec la conventions habituelles ?
0 = 1 et 0! = 1 de sorte que P(X = 0) = e
-?
.
Exercice 4.3.
(a) Véri?er que PX est une mesure de probabilité.
(b) Montrer que EX = VarX = ?.4.2. EXEMPLES DE VARIABLES ALÉATOIRES CONTINUES 33
Solution. Commençons par rappeler que pour tout réel x
(4.4) e
x
=
X
l=0
x
l
l
On en déduit immédiatement que PX(N) = e
-? P
k=0
?
k
/k! = e
-?
e
? = 1.
Montrons que EX = ?. Nous avons
EX =
X
k=0
ke
-? ?
k
k!
=
X
k=1
ke
-? ?
k
k!
= ?e
-?X
k=1
?
k-1
(k - 1)!
= ?e
-?X
l=0
?
l
l!
= ?e
-?
e
?
= ?
où l’on a e?ectué le changement de variable l = k - 1 et utilisé la formule (4.4).
Calculons de façon similaire
E[X(X - 1)] =
X
k=0
k(k - 1)e
-? ?
k
k!
=
X
k=2
k(k - 1)e
-? ?
k
k!
= ?
2
e
-?X
k=2
?
k-2
(k - 2)!
= ?
2
e
-?X
l=0
?
l
l!
= ?
2
e
-?
e
?
= ?
2
On en déduit que VarX = E[X(X - 1)] + EX - (EX)
2 = ?
2 + ? - ?
2 = ?.
Exercice 4.5. En vous inpirant de la solution précédente, montrer que pour tout
entier k = 1, E[X(X - 1) (X - k + 1)] = ?
k
.
4.2. Exemples de variables aléatoires continues
Nous présentons dans cette section les lois uniformes, exponentielles, normales, Gamma
et de Cauchy.
Loi uniforme. Nous avons déjà rencontré la variable U de loi uniforme sur [0, 1].
Ses fonctions de répartition et de densité sont
FU (u) =
?
?
?
0 si u = 0
u si 0 = u = 1
1 si u = 1
et fU (u) = 1(0=u=1)
, u ? R.34 4. VARIABLES ALÉATOIRES USUELLES
|
|
u u
z z
0 0
1
1
1 1
z = FU (u) z = fU (u)
Une variable aléatoire X suit une loi uniforme sur [a, b] si elle a la même loi (c’est-à-dire
la même fonction de répartition) que a + (b - a)U. Ses fonctions de répartition et de
densité (voir (3.38)) sont
F (x) =
?
?
?
0 si x = a
(x - a)/(b - a) si a = x = b
1 si x = b
et f(x) =
1(a=x=b)
b - a
, x ? R.
|
|
x x
z
z
a a
1
1/(b - a)
b b
z = F (x)
z = f(x)
0 0
|
|
On note U(a, b) la loi uniforme sur [a, b]. Nous avons donc
(4.6) a + (b - a)U ~ U(a, b)
lorsque U ~ U(0, 1).
Exercice 4.7. Véri?er que E(X) = (a + b)/2 et que Var(X) = (b - a)
2
/12.
Loi exponentielle. Une variable aléatoire X suit la loi exponentielle de paramètre
?, notée E(?), si ses fonction de répartition et fonction de densité sont
F (x) =
0 si x = 0
1 - e
-?x
si x = 0
et f(x) = 1(x=0)?e
-?x
, x ? R.
x x
z z
0 0
1
?
|
z = F (x) z = f(x)
Exercice 4.8. Véri?er que E(X) = 1/? et que Var(X) = 1/?
2
.4.2. EXEMPLES DE VARIABLES ALÉATOIRES CONTINUES 35
Cette variable aléatoire sert souvent à modéliser des temps d’attente. Elle intervient
de façon fondamentale dans la construction des processus de Markov à temps continu que
l’on rencontre lors de la modélisation de système de ?les d’attente (réseaux informatiques,
guichets, etc. . .).
Loi normale. C’est probablement la loi continue la plus importante. On l’appelle
aussi loi de Gauss ou loi gaussienne. On dit qu’une variable aléatoire Z suit une loi
normale centrée réduite si sa fonction de densité est
fZ (z) =
1
v
2p
exp
-
z
2
2
, z ? R
Cette loi est notée N (0, 1).
z
v
0
1/
v
2p
| |
-1 1
|
| |
-2 2
1
b b b
|
|
Représentation graphique de v = fZ (z)
Il n’existe pas d’expression analytique de la fonction de répartition de Z. On la note
traditionnellement
(4.9) F(y) = P(Z = y) =
Z y
-8
1
v
2p
exp
-
z
2
2
dz.
Toutefois, on peut véri?er que limy?+8 F(y) =
R
R
fZ (z) dz = 1. Pour cela posons
I =
R
R
fZ (z) dz. Nous avons par un simple jeu d’écriture sur les variables d’intégration
I
2
=
Z
R
fZ (x) dx
Z
R
fZ (y) dy =
Z Z
R2
fZ (x)fZ (y) dxdy
=
1
2p
ZZ
R2
e
-x
2
/2
e
-y
2
/2
dxdy =
1
2p
Z Z
R2
e
-(x
2+y
2
)/2
dxdy
(a)
=
1
2p
Z 2p
0
Z 8
0
e
-r
2
/2
rdrd? =
1
2p
Z 2p
0
d?
Z 8
0
e
-r
2
/2
rdr
(b)
=
Z 8
0
e
-u
du
= 136 4. VARIABLES ALÉATOIRES USUELLES
où nous avons e?ectué
– en (a) : le changement de variables en coordonnées polaires : x = r cos ?, y = r sin ?
avec r = 0 et 0 = ? < 2p de sorte que r
2 = x
2 + y
2
et dxdy est remplacé par rdrd?;
– en (b) : le changement de variable u = r
2
/2.
Puisque I > 0 et I
2 = 1, nous venons de montrer que
(4.10)
1
v
2p
Z
R
e
-z
2
/2
dz =
Z
R
fZ (z) dz = 1.
Exercice 4.11. Véri?er que E(Z) = 0 et que Var(Z) = 1.
Solution. L’intégrale EZ =
R
R
zfZ (z) dz est nulle car la fonction z 7? zfZ (z) est
impaire et intégrable. Donc EZ = 0 et VarZ = EZ
2 = v1
2p
R
R
z
2
e
-z
2
/2
dz. On e?ectue une
intégration par parties
R
uv
' = [uv] -
R
u
'
v avec u
'
(z) = ze
-z
2
/2
et v(z) = z. Nous avons
u(z) = -e
-z
2
/2
et v
'
(z) = 1, de sorte que
R
R
z
2
e
-z
2
/2
dz = [-ze
-z
2
/2
]
+8
-8 +
R
R
e
-z
2
/2
dz =
0 +
v
2p
R
R
fZ (z) dz. On en déduit avec (4.10) que EZ
2 = 1.
Exercice 4.12. Montrer que -Z
L
= Z.
Solution. Pour tout réel y, F-Z (y) = P(-Z = y) = P(Z = -y) =
R 8
-y
fZ (z) dz =
R 8
-y
fZ (-z) dz = -
R -8
y
fZ (x) dx =
R
y
-8 fZ (x) dx = FZ (y) où nous avons utilisé successivement la parité de fZ : fZ (z) = fZ (-z) et le changement de variable x = -z. Par
conséquent Z et -Z ont la même fonction de répartition.
Définition 4.13. De manière générale, une variable aléatoire X est dite centrée si
E(X) = 0 et réduite si Var(X) = 1.
Une variable aléatoire X suit une loi normale de paramètres et s
2
( ? R, s > 0)
notée N (, s
2
), si elle peut s’écrire sous la forme
(4.14) X = + sZ
où Z suit une loi N (0, 1). Cette loi est notée N (, s
2
).
Exercice 4.15. Véri?er que E(X) = et que Var(X) = s
2
.
La fonction de répartition de X est
F (x) = P(X = x) = P( + sZ = x) = P(Z = (x - )/s)
= F((x - )/s),
de sorte qu’avec f(x) = F
'
(x), nous obtenons l’expression de la fonction de densité de
X suivante :
(4.16) f(x) =
1
v
2ps
2
exp
-
(x - )
2
2s
2
, x ? R.
La ?gure suivante donne la représentation graphique des densités de probabilité des lois
N (, s
2
1
) et N (, s
2
2
) avec 0 < s1 < s2. On constate que ces densités sont symétriques
par rapport à la moyenne et que les aires situées entre les courbes et l’axe des x sont
les mêmes pour les deux densités. De plus, la densité de N (, s
2
1
) est plus concentrée
autour de la moyenne que celle de N (, s
2
2
).4.2. EXEMPLES DE VARIABLES ALÉATOIRES CONTINUES 37
x
|
+ s1
|
s1
s2
|
+ s2
N (, s
2
1
)
N (, s
2
2
)
L’exercice suivant permet de donner une approximation de la fonction de répartition
F dé?nie en (4.9) bien qu’on n’en connaisse pas d’expression analytique exacte.
Exercice 4.17. Pour tout y > 0, nous avons
(a) P(Z = y) = 1 - F(y) =
e-y
2
/2
y
v
2p
et
(b) P(|Z| = y) =
2e-y
2
/2
y
v
2p
.
Solution. En remarquant que z/y = 1 pour tout z = y, nous avons
P(Z = y) =
Z 8
y
1
v
2p
e
-z
2
/2
dz
=
Z 8
y
1
v
2p
z
y
e
-z
2
/2
dz =
1
y
v
2p
Z 8
y
ze
-z
2
/2
dz
=
1
y
v
2p
[-e
-z
2
/2
]
8
y =
e
-y
2
/2
y
v
2p
ce qui prouve (a). On en déduit (b) en remarquant que P(|Z| = y) = P(Z = -y)+P(Z =
y) = P(-Z = y)+P(Z = y) = 2P(Z = y) puisque -Z a la même loi que Z, voir l’Exercice
4.12.
Notons que les majorations de l’exercice précédent sont très mauvaises pour y proche
de 0, puisqu’elles sont en 1/y au voisinage zéro. En revanche ces estimées s’améliorent
beaucoup pour des grandes valeurs de y. On trouve P(|Z| = 3) = 0, 0533 ainsi que
P(|Z| = 4) = 0, 0021, P(|Z| = 5) = 3 10
-5
et P(|Z| = 6) = 2 10
-7
. En pratique,
c’est-à-dire plus de 997 fois sur 1000, Z prend ses valeurs entre -4 et 4.CHAPITRE 5
Fonctions génératrices et caractéristiques
Nous allons présenter des méthodes e?caces pour calculer les moments de certaines
lois, ainsi que les lois de sommes de variables indépendantes. Nous commençons par étudier les variables aléatoires à valeurs entières, puis les variables générales.
Rappelons que le moment d’ordre k de la variable aléatoire X est E(Xk
), voir la Dé?-
nition 3.33. Les principaux résultats abstraits concernant les moments sont présentés en
Chapitre 13.
Dans ce qui suit on notera f
(k)
la dérivée d’ordre k de la fonction f.
5.1. Le cas des variables entières
On dit qu’une variable aléatoire X est entière si elle prend ses valeurs dans l’ensemble
N des nombres entiers. sa loi est donc de la forme PX =
P
n=0
pndn. C’est le cas des
variables binomiales, géométriques et de Poisson.
Définition 5.1. Soit X une variable entière. Sa fonction génératrice est dé?nie pour
tous 0 = t = 1 par GX(t) = E(t
X
).
On remarque que puisque 0 = t = 1 et X est entier, nous avons 0 = t
X = 1 de sorte
que 0 = E(t
X
) = 1 est bien dé?ni. En notant pn = P(X = n), n ? N, nous obtenons bien
sûr
(5.2) GX(t) =
X
n=0
pnt
n
= p0 +
X
n=1
pnt
n
, 0 = t = 1
avec GX(1) = E(1) = 1 et GX(0) = p0. Cette dernière égalité est une convention puisque
GX(0) = p00
0
: nous avons choisi de prendre 0
0 = 1. Cette convention est justi?ée du
fait qu’elle garantit la continuité de GX(t) en t = 0. En e?et, grâce au Théorème B.2,
puisque 0 = t
X = 1 est borné, limt?0 GX(t) = p0 + limt?0
P
n=1
pnt
n = p0 +
P
n=1
0 = p0.
Proposition 5.3. Pour tout entier k = 1 tel que E(Xk
) < 8, nous avons
E[X(X - 1) (X - k + 1)] = G
(k)
X (1)
où G
(k)
X (1) est la dérivée à gauche d’ordre k de GX en 1.
On remarque que puisque X ne prend que des valeurs entières, X(X - 1) (X -
k + 1) = 0 si X ? {0, . . . , k - 1} de sorte que X(X - 1) (X - k + 1) = 0.
On appelle E[X(X - 1) (X - k + 1)] le k-ième moment factoriel de X.
Démonstration. Du fait que E(Xk
) < 8, nous avons aussi grâce à la Proposition
3.34 : E(Xl
) < 8 pour tous 1 = l = k. Ce qui implique clairement que E[X(X -
1) (X - l + 1)] < 8 pour tous 1 = l = k.
Commençons par le cas k = 1 sous l’hypothèse EX < 8. On peut donc appliquer
le théorème de dérivation sous le signe somme énoncé au Théorème B.3 pour obtenir
3940 5. FONCTIONS GÉNÉRATRICES ET CARACTÉRISTIQUES
G'
X(1) =
P
n=1
pnnt
n-1
|t=1 =
P
n=1
pnn puisque EX =
P
n=1
pnn < 8. En recommen-
çant, on montre de même que G''
X(1) =
P
n=2
pnn(n - 1)t
n-2
|t=1 =
P
n=2
pnn(n - 1) sous
l’hypothèse
P
n=2
pnn(n - 1) = E[X(X - 1)] < 8. En dérivant k fois, nous obtenons
G
(k)
X (1) =
X
n=k
pnn(n - 1) (n - k + 1) = E[X(X - 1) (X - l + 1)]
sous l’hypothèse E[X(X - 1) (X - l + 1)] < 8.
Exemples 5.4.
(a) La loi de Bernoulli B(p) de paramètre 0 = p = 1 est PX = qd0 + pd1 où q = 1 - p.
Par conséquent, pour tout 0 = t = 1, GX(t) = qt
0 + pt
1 = q + pt. On a bien sûr,
GX(0) = q, GX(1) = q + p = 1 et EX = G'
X(1) = p.
(b) La loi binomiale B(n, p) de paramètres n = 1 et 0 = p = 1 est
Pn
k=0
n
k
p
k
q
n-k
dk
de sorte que GX(t) =
Pn
k=0
p
k
q
n-k
t
k =
Pn
k=0
(pt)
k
q
n-k = (q + pt)
n
en utilisant la
formule du binôme de Newton. Avec n = 1, on retrouve la formule précédente pour
B(p).
On obtient EX = G'
X(1) = np(q + pt)
n-1
t=1 = np(q + p) = np ainsi que E[X(X -
1)] = G''
X(1) = n(n - 1)p
2
(q + pt)
n-2
t=1 = n(n - 1)p
2
. On en déduit que Var(X) =
E[X(X - 1)] + EX - (EX)
2 = n(n - 1)p
2 + np - (np)
2 = npq.
(c) La loi de Poisson P(?) de paramètre ? > 0 est
P
n=0
e
-?
?
n
/n! dn de sorte que
GX(t) = e
-? P
n=0
?
n
/n! t
n = e
-? P
n=0
(?t)
n
/n! = e
-?
e
?t = e
?(t-1)
. On a EX =
G'
X(1) = ?e
?(t-1)
|t=1 = ?, ainsi que E[X(X - 1)] = G''
X(1) = ?
2
e
?(t-1)
|t=1 = ?
2
. On
en déduit que Var(X) = E[X(X - 1)] + EX - (EX)
2 = ?
2 + ? - ?
2 = ?.
(d) La loi géométrique G(p) est
P
n=1
q
n-1
pdn. Par conséquent GX(t) =
P
n=1
q
n-1
pt
n =
pt
P
n=1
(qt)
n-1 = pt
P
n=0
(qt)
n = pt/(1 - qt). On obtient donc EX = G'
X(1) =
[p(1 - qt) + pqt]/(1 - qt)
2
|t=1 = 1/p.
Comme le montre le résultat suivant, la fonction génératrice permet de retrouver la
loi de X.
Proposition 5.5. Soit X une variable aléatoire entière de fonction génératrice GX.
Nous avons
pn = G
(n)
X (0)/n!, n = 0
où G
(n)
X (0) est la dérivée n-ième à droite de GX en 0.
Démonstration. La preuve est analogue à celle de la Proposition 5.3. En dérivant n
fois terme à terme la série (5.2), on obtient G
(n)
X (t) =
P8
k=n
pkk(k-1) (k-n+1)t
k-n =
pnn! +
P8
k=n+1
pkk(k - 1) (k - n + 1)t
k-n
et en t = 0 : G
(n)
X (0) = pnn! + 0.
De ce fait GX caractérise la loi de la variable entière X.
Un développement illimité formel en t = 0 de GX donne GX(t) =
P
n=0 G
(n)
X (0)/n! t
n
(un tel développement s’appelle un développement en série entière). La proposition pré-
cédente exprime que l’on peut identi?er terme à terme cette série formelle avec la série
(5.2) : GX(t) =
P
n=0
pnt
n
.5.2. FONCTIONS CARACTÉRISTIQUES 41
5.2. Fonctions caractéristiques
On considère maintenant une variable X générale. On cherche une fonction analogue
à GX qui permette de calculer aisément à l’aide de dérivations successives les moments
de X. La généralisation naturelle de la fonction X 7? t
X
lorsque X peut prendre des
valeurs non-entières s’obtient en posant t = e
s
ce qui nous donne X 7? e
sX
. De sorte que
la généralisation de GX(t) = Et
X
est LX(s) = Ee
sX
.
Définitions 5.6.
(1) La transformée de Laplace de la loi de X est dé?nie par
s ? R 7? LX(s) = Ee
sX
? [0,8]
(2) La transformée de Fourier de la loi de X est dé?nie par
s ? R 7? fX(s) = Ee
isX
? C
où i est le nombre imaginaire tel que i
2 = -1. On appelle aussi fX la fonction
caractéristique de la loi de X.
Remarques 5.7.
(1) Puisque e
sX = 0, son espérance LX(s) = Ee
sX
est toujours dé?nie dans [0,8]
(en incluant la valeur +8).
(2) De même, e
isX = cos(sX) + i sin(sX) est une variable bornée et son espérance
fX(s) = Ee
isX = E[cos(sX)] + iE[sin(sX)] est un nombre complexe bien dé?ni
puisque ses parties réelle et imaginaire sont intégrables puisque bornées.
(3) En particulier, la fonction caractéristique fX(s) est dé?nie pour tout réel s alors
qu’on peut avoir LX(s) = +8 pour tout s non nul comme par exemple lorsque
X suit une loi de Cauchy, voir (??).
(4) Lorsque X est une variable entière, nous avons LX(s) = GX(e
s
) et fX(s) =
GX(e
is
), s ? R.
Théorème 5.8.
(1) On suppose qu’il existe so > 0 tel que Ee
so|X| < 8. Alors, pour tout k = 1,
E|X|
k < 8 et
E(X
k
) = L
(k)
X (0).
(2) Sous les mêmes hypothèses qu’en (1), nous avons
(ln LX)
'
(0) = EX et (ln LX)
''
(0) = VarX.
(3) Si E|X|
k < 8 alors fX est k fois di?érentiable et
EX
k
= (-i)
k
f
(k)
X (0).
La première assertion du théorème montre que l’hypothèse Ee
so|X| < 8 faite en (1) et
(2) est bien plus restrictive que celle faite en (3). Ceci justi?e l’usage de la fonction caractéristique plutôt que celui de la transformée de Laplace dans certaines situations. Notons
que les calculs sont essentiellement les mêmes avec LX et fX du fait que formellement
fX(s) = LX(is).42 5. FONCTIONS GÉNÉRATRICES ET CARACTÉRISTIQUES
Démonstration. C’est une application directe du Théorème B.3 de dérivation sous
le signe somme.
• Preuve de (1). Pour tout k, il existe c > 0 tel que |x|
k = c + e
so|x|
, ?x ? R. Par
conséquent, E|X|
k = c + Ee
so|X| < 8.
La dérivée k-ième de s 7? e
sX
est Xk
e
sX
. Or nous avons |Xk
e
sX
| = |X|
k
e
sX = c+e
so|X|
dès que |s| = s1 avec 0 < s1 < so pour une certaine constante c. Sous notre hypothèse,
nous avons E|Xk
e
sX
| = c + Ee
so|X| < 8 pour tout s tel que |s| = s1, ce qui permet
d’appliquer le Théorème B.3 de dérivation en s = 0 (avec Y = c + e
so|X|
). Ceci nous
donne L
(k)
X (0) = E(Xk
e
0.X
) = EXk
qui est le résultat annoncé.
• Preuve de (2). Nous avons (ln LX)
' = L
'
X/LX et (ln LX)
'' = L
''
X/LX - L
'2
X/L
2
X. En
particulier en 0, nous obtenons grâce à (1), (ln LX)
'
(0) = L
'
X(0)/LX(0) = EX puisque
LX(0) = 1 et (ln LX)
''
(0) = L
''
X(0)/LX(0) - L
'2
X(0)/L
2
X(0) = EX2 - (EX)
2 = VarX.
• Preuve de (3). Elle est analogue à celle de la seconde partie de (1). La dérivée k-ième
de s 7? e
isX
est i
kXk
e
isX
. Or nous avons |i
kXk
e
isX
| = |X|
k
pour tout s et nous faisons
l’hypothèse que E|X|
k < 8. À l’aide du Théorème B.3 de dérivation en s = 0 nous
obtenons f
(k)
X (0) = E(i
kXk
e
0.X
) = i
k
EXk
qui est le résultat annoncé.
Remarque 5.9. Le développement formel en série entière de LX : LX(s) =
P
k=0 L
(k)
X (0)s
k
/k!,
peut nous permettre d’identi?er rapidement les dérivées L
(k)
X (0) lorsqu’on en connaît l’expression LX(s) =
P
k=0
aks
k
. Nous avons alors L
(k)
X (0) = k!ak, k = 0.
Un raisonnement analogue fonctionne lorsqu’on ne connaît qu’un développement limité
en 0 à l’ordre K : LX(s) =
PK
k=0
aks
k + s
k
o(s), pour identi?er les K premières dérivées
en 0 de LX.
Exemples 5.10.
(a) Loi de Poisson P(?). En reprenant l’Exemple 5.4-(c), avec la Remarque 5.7-(4) nous
obtenons LX(s) = exp(?(e
s-1)) donc ln LX(s) = ?(e
s-1) de sorte que (ln LX)
'
(s) =
(ln LX)
''
(s) = ?e
s
. Avec le Théorème 5.8-(2) on retrouve EX = VarX = ?.
(b) Loi géométrique G(p). En reprenant l’Exemple 5.4-(d), avec la Remarque 5.7-(4) nous
obtenons LX(s) = pe
s
/(1 - qe
s
) donc ln LX(s) = ln p + s - ln(1 - qe
s
) de sorte que
(ln LX)
'
(s) = 1 + qe
s
/(1 - qe
s
) et (ln LX)
''
(s) =
qe
s
(1-qe
s
)+q
2
e
2s
(1-qe
s
)
2
. Avec le Théorème
5.8-(2) on retrouve EX = 1/p et on obtient VarX = (qp + q
2
)/p
2 = (1 - p)/p
2
.
(c) Loi exponentielle E(?). Puisque fX(x) = 1{x=0}?e
-?x,
nous avons LX(s) = ?
R 8
0
e
sx
e
-?x
dx =
?
R 8
0
e
-(?-s)x
dx. Cette intégrale est convergente si et seulement si s < ? et dans ce
cas LX(s) = ?/(?-s). Nous sommes bien dans les conditions d’application du Théorème 5.8-(1). Lorsque |s|/? < 1, nous avons LX(s) = 1/(1 - s/?) =
P
k=0
(s/?)
k =
P
k=0
s
k
k!
k!
?k . En tenant compte de la Remarque 5.9, nous obtenons L
(k)
X (0) = k!/?
k
,
donc EXk = k!/?
k
.
Compte tenu de l’importance des variables aléatoires normales nous isolons le calcul
de leurs transformées de Laplace et fonctions caractéristiques.
Proposition 5.11.
(1) Soit Z une variable aléatoire normale standard : Z ~ N (0, 1). Nous avons pour
tout réel s, LZ (s) = e
s
2
/2
et fZ (s) = e
-s
2
/2
.5.2. FONCTIONS CARACTÉRISTIQUES 43
(2) Soit X une variable aléatoire normale de loi N (, s
2
). Nous avons pour tout réel
s, LX(s) = e
s+s
2
s
2
/2
et fX(s) = e
is-s
2
s
2
/2
.
Démonstration. • Preuve de (1). Nous ne donnons que la preuve concernant LZ
en admettant que le lien formel fX(s) = LX(is) est rigoureux dans ce cas. Cette identité
nécessite la notion de prolongement analytique (prolongement de R à C) qui n’est pas
du niveau de ce cours.
Pour tout réel s,
LZ (s) =
Z
R
1
v
2p
e
sz
e
-z
2
/2
dz
=
Z
R
1
v
2p
e
sz-z
2
/2
dz
=
Z
R
1
v
2p
e
- 1
2
(z
2-2sz+s
2
)
e
s
2
/2
dz
= e
s
2
/2
Z
R
1
v
2p
e
- 1
2
(z-s)
2
dz
= e
s
2
/2
où la dernière égalité provient de
R
R
v1
2p
e
- 1
2
(z-s)
2
dz = 1, la condition de normalisation
de la densité N (s, 1), voir (4.16).
En admettant fZ (s) = LZ (is), on voit que fZ (s) = e
-s
2
/2
.
• Preuve de (2). Grâce à (4.14) nous avons X = +sZ de sorte que LX(s) = Ee
s(+sZ) =
e
s
LZ (ss) et fX(s) = Ee
is(+sZ) = e
is
fZ (ss). CHAPITRE 6
Couples aléatoires
Beaucoup d’énoncés probabilistes intéressants s’expriment à l’aide d’une paire de
variables aléatoires X, Y. Nous allons étudier le problème de leur variation conjointe sur
le même domaine ?. Dans tout ce qui va suivre, les variables aléatoires sont dé?nies sur
le même espace probabilisé (?, A, P).
6.1. Lois jointe et marginales
La loi du couple (X, Y ) est la mesure de probabilité PX,Y sur R
2
qui est spéci?ée par
PX,Y (A × B) = P(X ? A et Y ? B)
pour tous intervalles A et B. On appelle lois marginales du couple (X, Y ) les lois PX et
PY de X et de Y. Nous avons pour tous intervalles A et B,
PX(A) = PX,Y (A × R)
PY (B) = PX,Y (R × B)
Pour distinguer la loi PX,Y des lois marginales, on l’appelle parfois la loi jointe de (X, Y ).
Exemple 6.1. Soit un couple aléatoire (X, Y ) qui prend les valeurs (1, 3), (1, 4) et
(2, 4) avec les probabilités respectives 1/4, 1/8 et 5/8.
b b
b
1 2
3
4
x
y
0
(1/4)
(1/8) (5/8)
(3/8) (5/8)
(1/4)
(3/4)
Sa loi est PX,Y =
1
4
d(1,3) +
1
8
d(1,4) +
5
8
d(2,4)
. Ses lois marginales sont PX =
3
8
d1 +
5
8
d2 et
PY =
1
4
d3 +
3
4
d4.
6.2. Fonction de répartition
Nous introduisons une notion de fonction de répartition d’un couple de variables
aléatoires analogue à celle des variables réelles.
Définitions 6.2. Une application (X, Y ) : ? ? R
2
est un couple aléatoire si pour
tout x, y ? R, l’ensemble {? ? ?; X(?) = x et Y (?) = y} appartient à A.
La fonction de répartition jointe de (X, Y ) est la fonction FX,Y : R
2 ? [0, 1] donnée par
FX,Y (x, y) = P(X = x, Y = y).
4546 6. COUPLES ALÉATOIRES
On montre aisément que pour tous a = b, c = d ? R
P(a < X = b, c < Y = d)
= FX,Y (b, d) - FX,Y (a, d) - FX,Y (b, c) + FX,Y (a, c).
- +
+ -
b
b b
b
a b x
y
c
d
En d’autres termes, nous pouvons évaluer la probabilité que le point aléatoire (X, Y )
"tombe" dans la région rectangulaire ]a, b]×]c, d] du plan R
2
. En travaillant de façon
analogue à la Proposition 2.9, on récupère les probabilités de tomber dans des régions
rectangulaires quelconques, puis leurs réunions dénombrables, etc. . . De ?l en aiguille,
il est possible de montrer, grâce aux propriétés des mesures de probabilité, l’assertion
suivante :
Proposition 6.3. FX,Y spéci?e de manière unique P((X, Y ) ? C) pour toutes les
parties ouvertes C de R
2
. En d’autres termes, FX,Y spéci?e entièrement le loi jointe PX,Y .
Les fonctions de répartition marginales de X et de Y sont
FX(x) = P(X = x) = lim
n?8
P(X = x et Y = n)
= FX,Y (x,8) := lim
y?8
FX,Y (x, y),
FY (y) = P(Y = y) = lim
n?8
P(X = n et Y = y)
= FX,Y (8, y) = lim
x?8
FX,Y (x, y),
On constate que, même sur l’Exemple 6.1 qui est très simple, la fonction de répartition
FX,Y est pénible à expliciter. En e?et, elle nécessite de découper le plan en 5 zones
rectangulaires. Nous n’emploierons donc que très peu souvent les fonctions de répartition
dans les calculs explicites.
6.3. Indépendance
Deux variables aléatoires discrètes X et Y sont dites indépendantes si pour tous
x, y ? R, P(X = x et Y = y) = P(X = x)P(Y = y). Nous revisiterons plus en détail
cette notion importante au Chapitre 9.6.3. INDÉPENDANCE 47
Il est clair que cette dé?nition de l’indépendance ne peut pas être conservée si l’une
au moins des variables (par exemple X) est continue, puisque dans ce cas P(X = x) = 0,
pour tout x ? R. Nous adopterons la dé?nition générale suivante.
Définition 6.4. Les variables aléatoires X et Y sont dites indépendantes si
P(X = x et Y = y) = P(X = x)P(Y = y), ?x, y ? R.
On véri?e que pour des variables aléatoires discrètes, cette dé?nition de l’indépendance est équivalente à celle rappelée plus haut.
Une formulation équivalente est : X et Y sont indépendantes si et seulement si
FX,Y (x, y) = FX(x)FY (y), ?x, y ? R.
Proposition 6.5. Soient X et Y deux variables aléatoires indépendantes. Alors pour
toute réunion dénombrable d’intervalles A et B, nous avons
P(X ? A et Y ? B) = P(X ? A)P(Y ? B)
et pour toutes fonctions numériques continues par morceaux ? et ?, les variables aléatoires ?(X) et ?(Y ) sont indépendantes.
Notons que lorsque X et Y sont des variables discrètes dont toutes les valeurs sont
isolées, toutes les fonctions ? et ? sont continues (en restriction à X(?) et Y (?)).
Idée de la preuve. Nous n’avons pas les outils su?sants pour donner une preuve
complète (donc une preuve) de ce résultat. Notons toutefois qu’il est possible de montrer,
de façon similaire à la preuve de la Proposition 6.3, que X et Y sont indépendantes si
et seulement si pour toutes réunions dénombrables de parties ouvertes A et B de R,
P(X ? A et Y ? B) = P(X ? A)P(Y ? B).
Maintenant, nous pouvons écrire pour toute paire d’ouverts A, B :
P
?(X) ? A et ?(Y ) ? B
= P
X ? ?
-1
(A) et Y ? ?
-1
(B)
= P
X ? ?
-1
(A)
P
Y ? ?
-1
(B)
= P(?(X) ? A)P(?(Y ) ? B)
où l’avant-dernière égalité est une conséquence de l’indépendance de X et Y et du fait que
? et ? sont continues par morceaux, les ensembles ?
-1
(A) et ?
-1
(B) sont des réunions
dénombrables d’ouverts.
Cette notion mathématique de l’indépendance est cohérente avec la notion intuitive
que nous en avons. Pour étayer cette a?rmation, donnons-en une illustration simple.
Exemple 6.6. Nous avons deux urnes contenant des boules de couleur numérotées.
– La première urne contient 5 boules numérotées : 1,2,3,4 et 5. Les boules 1,2,3 sont
jaunes et les boules 4,5 sont rouges.
– La deuxième urne contient 3 boules numérotées : a,b,c. Les boules a,b sont vertes
et la boule c est bleue.
On note X et Y les numéros aléatoires des boules tirées au hasard dans la première et
la seconde urne. On suppose que ces tirages sont uniformes sur {1, 2, 3, 4, 5} et {a, b, c}.
De même, on note U et V les couleurs aléatoires des boules tirées au hasard dans la
première et la seconde urne : U = ?(X) et V = ?(Y ) avec ?(1) = ?(2) = ?(3) = jaune,48 6. COUPLES ALÉATOIRES
?(4) = ?(5) = rouge, ?(a) = ?(b) = vert et ?(c) = bleu. On a donc P(X = jaune) = 3/5,
P(X = rouge) = 2/5 ainsi que P(Y = vert) = 2/3, P(Y = bleu) = 1/3.
Si de plus ces tirages sont indépendants (au sens habituel du terme), on n’avantage aucun
couple de boules au détriment d’autres : la loi de (X, Y ) est uniforme sur {1, 2, 3, 4, 5} ×
{a, b, c}. On constate qu’alors X et Y sont des variables aléatoires indépendantes au sens
mathématique. En e?et, pour tous A ? {1, 2, 3, 4, 5} et B ? {a, b, c},
P((X, Y ) ? A×B) =
#(A×B)
#({1, 2, 3, 4, 5} × {a, b, c})
=
#(A)×#(B)
#({1, 2, 3, 4, 5}) × #({a, b, c})
=
#(A)
5
×
#(B)
3
= P(X ? A)P(Y ? B)
En particulier, en prenant A = ?
-1
(jaune) = {1, 2, 3} et B = ?
-1
(vert) = {a, b} on
obtient
P(U = jaune, V = vert) = P((X, Y ) ? {1, 2, 3}×{a, b})
= P(X ? {1, 2, 3})P(Y ? {a, b})
= P(U = jaune)P(V = vert)
et de même pour les autres couleurs. Ce qui prouve l’indépendance mathématique de U
et V. Mais il est clair que si les tirages dans les deux urnes sont indépendants (au sens
habituel) il en est de même pour les couleurs des boules tirées.
Exercice 6.7. Soient X et Y deux variables aléatoires indépendantes de fonctions
de répartition FX et FY . Déterminer les lois de U = max(X, Y ) et V = min(X, Y ).
Solution. Du fait que pour tout t ? R, max(x, y) = t ?? (x = t et y = t),
FU (t) = P(max(X, Y ) = t)
= P({X = t} n {Y = t})
= P(X = t)P(Y = t)
= FX(t)FY (t)
où l’on a fait usage de l’indépendance dans l’avant-dernière égalité.
De même, pour tout t ? R, min(x, y) > t ?? (x > t) et (y > t), donc
1 - FV (t) = P(min(X, Y ) > t)
= P({X > t} n {Y > t})
= P(X > t)P(Y > t)
= [1 - FX(t)][1 - FY (t)]
d’où
FV (t) = 1 - [1 - FX(t)][1 - FY (t)], t ? R.
ce qui détermine la loi de V. 6.4. COUPLES DISCRETS 49
Exemple 6.8. On se donne deux variables aléatoires X et Y indépendantes de lois
exponentielles E(?) et E(). Calculons à l’aide de l’exercice précédent les lois de U =
max(X, Y ) et V = min(X, Y ).
Nous avons pour tout t = 0, FX(t) = FY (t) = 0 et pour tout t = 0, FX(t) = 1 - e
-?t
,
FY (t) = 1 - e
-t
. Par conséquent pour tout t > 0,
fU (t) = F
'
U
(t) = fX(t)FY (t) + FX(t)fY (t)
= ?e
-?t
(1 - e
-t
) + e
-t
(1 - e
-?t
)
et
1 - FV (t) = [1 - FX(t)][1 - FY (t)]
= e
-?t
e
-t
= e
-(?+)t
Pour tout t = 0, FU (t) = FV (t) = 0.
On constate que V = min(X, Y ) admet la loi exponentielle E(? + ).
6.4. Couples discrets
Soit un couple de variables aléatoires (X, Y ) prenant ses valeurs dans l’ensemble
produit X × Y avec X = {x1, . . . , xL} et Y = {y1, . . . , yK}. Pour tout indice n = (l, k) ?
N := {1, . . . , L} × {1, . . . , K}, on note zn = (xl
, yk). Cet ensemble étant ?ni, le couple
Z = (X, Y ) est une variable aléatoire discrète à valeurs dans X × Y. Elle est donc de
la forme PX,Y = PZ =
P
n?N
pndzn =
P
1=l=L,1=k=K pl,kd(xl
,yk) avec pl,k = P((X, Y ) =
(xl
, yk)) = P(X = xl et Y = yk). Pour plus de clarté, on note pl,k = pX,Y (xl
, yk) et on
peut regrouper l’ensemble de ces probabilités élémentaires en un tableau matriciel :
y1 y2 yK ? Y
x1 pX,Y (x1, y1) pX,Y (x1, y2) pX,Y (x1, yK) pX(x1)
x2 pX,Y (x2, y1) pX,Y (x2, y2) pX,Y (x2, yK) pX(x2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xL pX,Y (xL, y1) pX,Y (xL, y2) pX,Y (xL, yK) pX(xL)
X ? pY (y1) pY (y2) pY (yK) 1
Pdont l’intérieur décrit la loi jointe de (X, Y ). Les lois marginales sont données par PX =
1=l=L
pX(xl)dxl
et PY =
P
1=k=K pY (yk)dyk
avec
pX(xl) =
X
1=k=K
pX,Y (xl
, yk), 1 = l = L
pY (yk) =
X
1=l=L
pX,Y (xl
, yk), 1 = k = K
puisque P pX(xl) = P(X = xl) = P(X = xl et Y ? Y) = P((X, Y ) ? {xl} × Y) =
1=k=K P(X = xl et Y = yk) et de même pour pY (yk).
Par conséquent la dernière ligne du tableau est constituée des sommes par colonnes et
la dernière colonne des sommes par lignes : les marges du tableau spéci?ent les lois
marginales PX et PY .
De façon plus générale, soient X et Y deux variables aléatoires à valeurs dans des
ensembles dénombrables X et Y. Alors le couple (X, Y ) est à valeurs dans l’ensemble50 6. COUPLES ALÉATOIRES
dénombrable X × Y (voir la Proposition A.4) et sa loi jointe est de la forme
PX,Y =
X
x?X ,y?Y
pX,Y (x, y)d(x,y)
.
et on montre comme précédemment la
Proposition 6.9. Les lois marginales sont PX =
P
x?X
pX(x)dx et PY =
P
y?Y
pY (y)dy
avec
pX(x) =
X
y?Y
pX,Y (x, y), x ? X
pY (y) =
X
x?X
pX,Y (x, y), y ? Y.
Exemple 6.10. Considérons les deux lois jointes spéci?ées par les tableaux suivants :
1 3 ? Y
-1 0,1 0,2 0,3
2 0,45 0,25 0,7
X ? 0,55 0,45 1
1 3 ? Y
-1 0,2 0,1 0,3
2 0,35 0,35 0,7
X ? 0,55 0,45 1
On constate que ces deux lois jointes sont distinctes bien qu’elles possèdent les mêmes
lois marginales. Par conséquent la loi jointe PX,Y n’est pas spéci?ée par la donnée des
deux lois marginales PX et PY . Il y a plus d’information dans l’intérieur du tableau que
sur les marges.
Proposition 6.11. Soit (X, Y ) de loi PX,Y =
P
x?X ,y?Y
pX,Y (x, y)d(x,y)
. Les variables
X et Y sont indépendantes si et seulement s’il existe deux fonctions q : X ? [0, 1] et
r : Y ? [0, 1] telles que pour tous x ? X et y ? Y nous avons pX,Y (x, y) = q(x)r(y).
Dans ce cas, nous avons aussi
pX,Y (x, y) = pX(x)pY (y), x ? X , y ? Y.
Démonstration. C’est une conséquence directe de la Proposition 6.5 en prenant
A = {x} et B = {y} avec x ? X et y ? Y.
Notons aussi que lorsque P pX,Y (x, y) = q(x)r(y), pX(x) = aq(x) pour tout x avec a =
y?Y
r(y). De même pour tout y, pY (y) = br(y) avec 1 =
P
y?Y
pY (y) = b
P
y?Y
r(y) =
ab. Finalement, r(x)q(y) = pX(x)pY (y)/(ab) = pX(x)pY (y).
Exemple 6.12. Considérons la loi jointe spéci?ée par le tableau
1 3 ? Y
-1 0,165 0,135 0,3
2 0,385 0,315 0,7
X ? 0,55 0,45 1
On constate qu’il posséde la structure produit pX,Y (x, y) = pX(x)pY (y), ?x, y. Les variables X et Y sont donc indépendantes. On note que les lois marginales PX et PY sont
les mêmes que celles de l’Exemple 6.10.6.4. COUPLES DISCRETS 51
Puisque le couple discret (X, Y ) est une variable discrète à valeurs dans l’ensemble
dénombrable X × Y (voir la Proposition A.4) l’espérance de ?(X, Y ) est donnée par le
Théoréme 3.10 qui dans ce cas précis s’écrit
(6.13) E?(X, Y ) =
X
x?X ,y?Y
?(x, y)pX,Y (x, y)
et qui est correctement dé?nie dès lors que
E|?(X, Y )| =
P
x?X ,y?Y
|?(x, y)|pX,Y (x, y) < 8.
On obtient immédiatement la
Proposition 6.14 (Linéarité et croissance).
(1) En particulier, avec ?(x, y) = ax + by, nous obtenons la linéarité de l’espérance
E(aX + bY ) = aEX + bEY, a, b ? R
pour toute variables aléatoires X et Y telles que E|X| < 8 et E|Y | < 8.
Plus généralement pour toutes fonctions ? et ? telles que E|?(X, Y )| < 8 et
E|?(X, Y )| < 8 et tous réels a, b, nous avons
E[a?(X, Y ) + b?(X, Y )] = aE?(X, Y ) + bE?(X, Y ).
(2) Si les fonctions ?, ? : X × Y ? R sont telles que ? = ?, alors E?(X, Y ) =
E?(X, Y ).
Définition 6.15. Nous dé?nissons la covariance de (X, Y ) par
Cov(X, Y ) := E[(X - EX)(Y - EY )]
c’est-à-dire
Cov(X, Y ) =
X
x?X ,y?Y
(x - EX)(y - EY )pX,Y (x, y).
On dit que X et Y sont décorellées si Cov(X, Y ) = 0.
Noter que, tout comme l’espérance, la covariance n’est pas toujours dé?nie. Il faut
pour cela que
P
x?X ,y?Y
|(x - EX)(y - EY )|pX,Y (x, y) < 8. On montrera au Corollaire
6.37 qu’une condition su?sante est que E(X2
) < 8 et E(Y
2
) < 8.
Un simple calcul nous mène à
Cov(X, Y ) = E(XY ) - E(X)E(Y ).
Proposition 6.16. Soient X et Y deux variables aléatoires discrètes indépendantes.
(1) Pour toutes fonctions ? sur X et ? sur Y telles que E|?(X)| < 8 et E|?(Y )| <
8, nous avons
E[?(X)?(Y )] = E[?(X)]E[?(Y )].
(2) Si E|X| < 8 et E|Y | < 8 alors Cov(X, Y ) = 0.
Démonstration. • Preuve de (1). Avec la Proposition 6.11 nous avons
E[?(X)?(Y )] =
X
x?X ,y?Y
?(x)?(y)pX(x)pY (y)
=
X
x?X
?(x)pX(x)
X
y?Y
?(y)pY (y)
= E[?(X)]E[?(Y )]52 6. COUPLES ALÉATOIRES
qui est le résultat annoncé.
• Preuve de (2). Grâce à (1), nous avons E(XY ) = E(X)E(Y ) c’est-à-dire Cov(X, Y ) =
0.
L’exercice suivant montre que la réciproque de l’assertion (2) de cette proposition est
fausse.
Exercice 6.17.
(a) On considère le couple aléatoire (X, Y ) dont la loi est uniforme sur les quatre points
du plan (1, 0), (0, 1), (-1, 0) et (0, -1). Montrer que Cov(X, Y ) = 0 mais que X et
Y ne sont pas indépendantes.
(b) On considère le couple aléatoire (X, Y ) dont la loi est uniforme sur les huits points
du plan d’a?xes e
ikp/4
, 0 = k = 7.
b
b
b
b
b
b
b
b
-1 0 1
1
-1
y
x
p/4
Montrer que Cov(X, Y ) = 0 mais que X et Y ne sont pas indépendantes.
Solution. Nous ne donnons que la solution de (a). Nous avons PX = PY =
1
4
d-1 +
1
2
d0+
1
4
d1 de sorte que EX = EY = 0. De plus XY = 0, donc EXY = 0 et Cov(X, Y ) = 0.
D’autre part X et Y ne sont pas des variables indépendantes puisque P(X = 1)P(Y =
0) =
1
4 ×
1
2 = 1/8 = 1 6 /4 = P((X, Y ) = (1, 0)).
6.5. Couples continus
Par analogie avec les variables aléatoires continues, nous introduisons la notion suivante.
Définition 6.18. Un couple aléatoire (X, Y ) de fonction de répartition jointe FX,Y
est dit continu, s’il existe une fonction intégrable fX,Y : R
2 ? [0,8[ telle que
FX,Y (x, y) =
Z x
-8
Z y
-8
fX,Y (s, t) dsdt, ?x, y ? R.
Dans ce cas, la fonction fX,Y est appelée fonction de densité jointe du couple aléatoire
(X, Y ).
On déduit de cette dé?nition que si FX,Y est continûment dérivable alors
(6.19) fX,Y (x, y) =
?
2
?x?y
FX,Y (x, y).
Proposition 6.20. Les lois marginales PX et PY admettent les densités
fX(x) =
Z
R
fX,Y (x, y) dy, x ? R
fY (y) =
Z
R
fX,Y (x, y) dx, y ? R6.5. COUPLES CONTINUS 53
Démonstration. Nous avons vu que les fonctions de répartition marginales de X
et de Y sont FX(x) = FX,Y (x,8) et FY (y) = FX,Y (8, y). En d’autres termes, FX(x) =
R
x
-8
R
R
fX,Y (s, y) dy
ds d’où il vient que fX(x) =
R
R
fX,Y (x, y) dy. De la même manière,
nous obtenons que la fonction de densité marginale de Y est fY (y) =
R
R
fX,Y (x, y) dx.
Définition 6.21. Par analogie avec (6.13) et la dé?nition (3.18) qui est justi?ée par
le Théorème C.10, nous dé?nissons (sans plus de justi?cation cette fois-ci) l’espérance
de la variable aléatoire ?(X, Y ) par
E?(X, Y ) :=
ZZ
R2
?(x, y)fX,Y (x, y) dxdy
pour toute fonction ? : R
2 ? R telle que |?|fX,Y soit intégrable et
RR
R2
|?(x, y)|fX,Y (x, y) dxdy <
8.
On déduit immédiatement de cette dé?nition la
Proposition 6.22 (Linéarité et croissance).
(1) En particulier, avec ?(x, y) = ax + by, nous obtenons la linéarité de l’espérance
E(aX + bY ) = aEX + bEY, a, b ? R
pour toute variables aléatoires X et Y telles que E|X| < 8 et E|Y | < 8.
Plus généralement pour toutes fonctions ? et ? telles que E|?(X, Y )| < 8 et
E|?(X, Y )| < 8, nous avons
E[?(X, Y ) + ?(X, Y )] = E?(X, Y ) + E?(X, Y ).
(2) Si les fonctions ?, ? : R
2 ? R sont telles que ? = ?, alors E?(X, Y ) =
E?(X, Y ).
Comme pour les couples discrets nous dé?nissons la covariance de (X, Y ) par
Cov(X, Y ) := E[(X - EX)(Y - EY )]
=
ZZ
R2
(x - EX)(y - EY )fX,Y (x, y) dxdy.
Noter que, tout comme l’espérance, la covariance n’est pas toujours dé?nie. Nous verrons
au Corollaire 6.37 qu’il su?t pour cela E(X2
), E(Y
2
) < 8.
Comme le montre la proposition suivante, la fonction de densité jointe d’un couple
aléatoire continu de variables indépendantes a une forme produit.
Proposition 6.23.
(1) Soit (X, Y ) un couple aléatoire continu de fonction de densité jointe fX,Y . S’il
existe des fonctions g et h telles que
fX,Y (x, y) = g(x)h(y), x, y ? R,
alors X et Y sont des variables aléatoires indépendantes. De plus, la fonction
de densité jointe s’écrit alors : fX,Y (x, y) = fX(x)fY (y).
(2) Soient X et Y des variables aléatoires indépendantes qui admettent des fonctions
de densité fX et fY continues par morceaux. Alors la fonction de densité jointe
de (X, Y ) est
fX,Y (x, y) = fX(x)fY (y), x, y ? R.