STATISTIQUE DESCRIPTIVE
10% de réduction sur vos envois d'emailing --> CLIQUEZ ICI
ou juste avant la balise de fermeture --> STATISTIQUE DESCRIPTIVE November 8, 2010 1 METHODE STATISTIQUE 1.1 HISTORIQUE ET DEFINITION Aussi loin que l'on remonte dans le temps et dans l'espace (en Chine et en Egypte, par exemple), les Etats ont toujours senti le besoin de disposer d'informations sur leurs sujets ou sur les biens qu'ils possedent et produisent. Mais les recensements de population et de ressources, les statistiques (du latin status : etat ) sont restees purement descriptives jusqu'au 17eme siecle. Puis s'est developpe le calcul des probabilites et des methodes statistiques sont apparues en Allemagne, en Angleterre et en France. Beaucoup de scientiques de tous ordre ont apporte leur contribution au developpement de cette science : PASCAL, HUYGENS, BERNOULLI, MOIVRE, LAPLACE, GAUSS, MENDEL, PEARSON, FISCHER etc.... Actuellement, beaucoup de domaines utilisent les methodes statistiques ( medecine, agronomie, sociologie, industrie etc....). Denition 1.1. La Statistique, c'est l'etude des variations observables. C'est une methode qui consiste a reunir des donnees chirees sur des ensembles nombreux, puis a les analyser et a les interpreter. 1.2 METHODES STATISTIQUES 1. 1ere etape :On collecte des donnees : soit de maniere exhaustive, 1 soit par sondage. 2. 2eme etape : On trie les donnees que l?on organise en tableaux, diagrammes, etc... 3. 3eme etape : On interprete les resultats : on les compare avec ceux deduits de la theorie des probabilites. On pourra donc: 1. evaluer une grandeur statistique comme la moyenne ou la variance (estimateurs, intervalles de conance ). 2. savoir si deux populations sont comparables (tests d'hypotheses). 3. determiner si deux grandeurs sont liees et de quelle facon ( correlation, ajustement analy- tique). Les conclusions, toujours entachees d'un certain pourcentage d'incertitude, nous permettent alors de prendre une decision. 2 SERIES STATISTIQUES A UNE VARIABLE 2.1 TERMINOLOGIE > POPULATION : Ensemble que l'on observe et qui sera soumis a une analyse statistique. Chaque element de cet ensemble est un individu ou unite statistique. > ECHANTILLON : C'est un sous ensemble de la population consideree. Le nombre d'individus dans l'echantillon est la taille de l'echantillon. > CARACTERE : C'est la propriete ou l'aspect singulier que l'on se propose d'observer dans la population ou l'echantillon. Un caractere qui fait le sujet d'une etude porte aussi le nom de variable statistique. 2Dierents types de variables statistiques : Lorsque la variable ne se pr^ete pas a des valeurs numeriques, elle est dite qualitative (exemple : opinions politiques, couleurs des yeux...) .Elle peut ^etre ordonnee ou non, dichotomique ou non. Lorsque la variable peut ^etre exprimee numeriquement, elle est dite quantitative ( ou mesurable). Dans ce cas, elle peut ^etre discontinue ou continue. 1. Elle est discontinue si elle ne prend que des valeurs isolees les unes des autres. Une variable discontinue qui ne prend que des valeurs entieres est dite discrete (exemple : nombre d'enfants d'une famille). 2. Elle est dite continue lorsqu'elle peut prendre toutes les valeurs d'un intervalle ni ou inni (exemple : diametre de pieces, salaires...). 2.2 COMMENT ORGANISER LES DONNEES On regroupe toutes les donnees de la serie statistique dans un tableau indiquant la repartition des individus selon le caractere etudie. Le regroupement s'eectue par classes : Si le caractere est qualitatif ou discontinu, une classe contient tous les individus ayant la m^eme modalite ou la m^eme valeur du caractere. Si le caractere est continu, une classe est un intervalle. 1. Pour construire ces intervalles, on respecte les regles suivantes : { Le nombre de classes est compris entre 5 et 20 (de preference entre 6 et 12) { Chaque fois que cela est possible, les amplitudes des classes sont egales. { Chaque classe (sauf la derniere) contient sa borne inferieure mais pas sa borne superieure. 2. Dans les calculs, une classe sera representee par son centre, qui est le milieu de l'intervalle. 3. Une fois la classe constituee, on considere les individus repartis uniformement entre les deux bornes ( ce qui entra^ne une perte d'informations par rapport aux donnees brutes). 4. Que faut-il indiquer pour chaque classe ? 3{ L'eectif : nombre d'individus de la classe : on le note ni (i est l'indice de la classe). { La frequence : proportion d'individus de la population ou de l'echantillon appar- tenant a la classe : on la note fi . ni et fi sont lies par : fi = ni N ou N est le nombre total d'individus dans la population. Remarque 2.1. On peut remplacer fi par 100 fi qui represente alors un pour- centage. On a toujours: Xk i=1 ni = N; 0 fi 1; Xk i=1 fi = 1: ou k represente le nombre de classes. { L'eectif (ou la frequence) cumule (e) : eectif ( ou frequence) de la classe aug- mente (e) de ceux (ou celles) des classes precedentes (lorsque la variable statistique est quantitative). La frequence cumulee est une fonction F de la borne superieure de la classe (dans le cas d'une variable statistique continue). 2.3 DIAGRAMMES Ils servent a visualiser la repartition des individus. Pour une variable statistique qualitative : On utilise des diagrammes a secteurs circu- laires, des diagrammes en tuyaux d'orgue, des diagrammes en bandes. Le principe est de representer des aires proportionnelles aux frequences de la variable statistique. Pour une variable statistique discrete : On utilise un diagramme dierentiel en b^atons, complete du diagramme des frequences cumulees appele diagramme cumulatif. Le dia- gramme cumulatif est la representation graphique d?une fonction F, appelee fonction de repartition de la variable statistique. Pour une variable statistique continue: 1. Le diagramme representant la serie est un histogramme : ce sont des rectangles juxtaposes dont chacune des bases est egale a l?intervalle de chaque classe et dont 4la hauteur est telle que l?aire de chaque rectangle soit proportionnelle aux eec- tifs(histogramme des eectifs) ou aux frequences de la classe correspondante (his- togramme des frequences). 2. On obtient le polygone des eectifs (ou des frequences) en reliant les milieux des bases superieures des rectangles. 3. La courbe cumulative ( ou polygone des frequences cumulees ) est obtenue en portant les points dont les abscisses representent la borne superieure de chaque classe et les ordonnees les frequences cumulees correspondantes, puis en reliant ces points par des segments de droite. Son equivalent dans la theorie probabiliste est la fonction de repartition. 3 CARACTERISTIQUES NUM ERIQUES D'UNE S ERIE QUANTITATIVE 3.1 CARACTERISTIQUES DE POSITION 3.1.1 Le mode Le mode, designe par Mo est la valeur de la variable statistique la plus frequente. Dans le cas d'une variable statistique continue, on parle plut^ot de classe modale. Remarque 3.1. Le mode ou la classe modale n'est pas obligatoirement unique. 3.1.2 La mediane La mediane, designee par Me, est la valeur de la variable telle qu'il y ait autant d'observations, en dessous d'elle qu'au dessus ou, ce qui revient au m^eme, la valeur correspondant a 50% des observations. Comment la determiner? Si la variable est discrete : On designe par n le nombre d'observations. { Si n est impair : Me est la ( n+1 2 ) eme observation. 5{ Si n est pair : n = 2k. Alors Me est la moyenne arithmetique des deux observations centrales. Me = k eme observation + (k + 1) eme observation 2 : Si la variable est continue, Me verie F (Me) = 0:5 ,ou F est la fonction de repartition de la variable. On determine alors un intervalle median (intervalle contenant la mediane), puis on procede a l'interieur de cette classe a une interpolation lineaire. Generalisation : notion de quantiles Quantile d'ordre 1=4: C'est la valeur Q1 telle que F (Q1) = 0:25. Quantile d'ordre 3=4: C'est la valeur Q3 telle que F (Q3) = 0:75 (on a Me = Q2). Deciles d'ordre 1=10, 2=10.... : F (D1) = 0:1, F (D2) = 0:2... Remarque 3.2. Ces elements se determinent facilement a partir des courbes cumulatives, en cherchant les abscisses des points d'ordonnees n=2 pour Me, n=4 pour Q1... 3.1.3 La moyenne Lorsque x designe la variable statistique, la valeur moyenne, ou moyenne de la serie se note m ou x. Elle est l'analogue d'un centre de gravite. 1er cas: si les observations ne sont pas groupees (la serie est dite non classee) x = 1 n Xn i=1 xi ou n est l'eectif total et xi est la ieme valeur de la variable. 2eme cas: si les observations sont groupees ( la serie est dite classee) x = 1 n Xk i=1 nixi ou n est l'eectif total, ni est l'eectif de la ieme classe et xi designe le centre de la classe i. On eectue en fait ici une moyenne arithmetique ponderee. Remarque 3.3. Dans le cas d'une variable continue, cette moyenne ponderee n'est qu'une valeur approchee de la vraie valeur moyenne de la serie car on remplace chaque xj par le centre de la classe a laquelle il appartient. 6Pourquoi utiliser la moyenne arithmetique?: Elle a ete choisie parmi d'autres types de moyenne (geometrique, harmonique...) car elle possede une propriete extr^emement interessante. En eet, lorsqu'on se livre a des observations scientiques, les mesures ne sont pas toujours exactement identiques d'une fois sur l'autre, m^eme lorsque les conditions semblent ^etre similaires. Il se produit ce que l'on appelle une erreur d'observation . On a la relation suivante: valeur observee = valeur exacte + erreur d'observation ou: xi est la valeur observee, xe la valeur exacte, xi xe = erreur d'observation. On decide alors de prendre pour xe la valeur qui minimise les erreurs d'observation. En fait la moyenne des carres de ces erreurs (critere des moindres carres). Le calcul prouve que la meilleure valeur estimant xe suivant ce critere est x . Propriete: La moyenne x des valeurs observees d'une grandeur x correspond a la meilleure estimation de xe. Cela ne signie pas que x soit la valeur exacte xe de la grandeur observee mais que c'est la meilleure evaluation possible que l'on puisse en faire selon le critere des moindres carres. 3.2 CARACTERISTIQUES DE DISPERSION 3.2.1 L'etendue L'etendue, notee e, represente la dierence entre les valeurs extr^emes de la distribution: e = xn x1. 3.2.2 L'intervalle interquartile L'intervalle interquartile, note I, est la dierence entre les deux quartiles Q3 et Q1: I = Q3 Q1 Cet intervalle contient 50% de la population en en eliminant 25% a chaque extremite. Cette caracteristique est nettement meilleure que l'etendue. 3.2.3 La variance C'est la caracteristique de dispersion la plus utilisee avec l'ecart quadratique moyen. 7