MASS UE11 – Henri IMMEDIATO
Cours de Statistique

STATISTIQUE


Chapitre II - ANALYSE UNIVARIEE.

(Statistique descriptive à un caractère)

II. 2. PARAMETRES CARACTERISTIQUES

Le but de l'étude statistique est aussi de résumer des données par des paramètres ou synthétiseurs.
Il existe 3 types de paramètres :
paramètres de position (ou de tendance centrale)
— paramètres de dispersion
paramètres de forme (asymétrie, aplatissement, concentration)

II. 2. 2. Paramètres de dispersion

Les paramètres de dispersion (étendue, intervalle interquartile,) sont calculés pour les variables statistiques quantitatives.
Ils ne donnent pas une information complète sur une variable statistique X : en effet, deux variables qui ont la même moyenne peuvent se présenter avec des dispersions très différentes.
L'histogramme, ou le diagramme, des fréquences donnent déjà une idée qualitative de la dispersion.

II. 2. 2. 1. Etendue

Soit X une variable statistique réelle discrète.
L'étendue w de X est la différence entre la plus grande valeur de X et la plus petite valeur de X.

 w = xmaxxmin

Ce paramètre est souvent utilisé dans les contrôles de fabrication, pour lesquels on donne, a priori, des marges de construction.
Son intérêt est limité par le fait qu'il dépend uniquement des valeurs extrêmes, qui peuvent être des valeurs aberrantes.

II.2.2.2. Quartiles et déciles.

a) Variable statistique continue.

Pour une variable statistique quantitative réelle continue X, on appelle quartiles les nombres réels Q1, Q2, Q3, pour lesquels les fréquences cumulées de X sont respectivement 0,25, 0,50, 0,75.
Ce sont les valeurs pour lesquelles l'ordonnée de la courbe cumulative des fréquences est respectivement égale à 0,25, 0,50, 0,75.
Les quartiles partagent l'étendue en quatre intervalles qui ont le même effectif.

Le deuxième quartile, Q2, est égal à la médiane.

L'intervalle interquartile est la différence entre les valeurs du troisième et du premier quartiles : Q3Q1.
L'intervalle [Q1, Q3] contient 50 % des valeurs de X.

b) Variable statistique discrète.

Pour une variable statistique réelle discrète X, la courbe des fréquences cumulées est une courbe en escalier.
S'il existe une valeur de x pour laquelle la fréquence cumulée est 0,25 (resp. 0,50, 0,75), le quartile correspondant est cette valeur de X.
Sinon, les quartiles seront déterminés par interpolation linéaire entre deux valeurs.

c) Déciles et percentiles.

Les 9 déciles sont les nombres réels qui partagent l'étendue en dix intervalles de même effectif.
Utilisation : en matière de salaires, le rapport est un paramètre de dispersion fréquemment utilisé.

Les 99 percentiles sont les nombres réels qui partagent l'étendue en cent intervalles de même effectif.

II.2.2.3. Ecart absolu moyen.

a) Définition.

Soit X = {(xi, ni)}1 £ i £ p une variable statistique réelle.
On appelle écart absolu moyen de X la moyenne arithmétique des valeurs absolues des écarts de X à sa moyenne :

e = ni | xi |

On pourrait aussi définir l'écart absolu moyen de X par rapport à sa médiane, ou par rapport à un nombre réel a quelconque.

e = ni | xia |

On peut démontrer que l'écart absolu moyen par rapport à un nombre réel a est minimum lorsque a est égal à la moyenne de X.

b) Calcul pratique.

Lorsque les observations sont groupées par classe, on adopte généralement pour valeur de variable statistique le centre de chaque classe.
L'écart absolu moyen présente un inconvénient majeur : il ne se prête pas facilement aux calculs algébriques, à cause de la valeur absolue.

II.2.2.4. Variance et écart-type.

a) Définition.

Soit X = {(xi, ni)}1 £ i £ p une variable statistique réelle.
On appelle variance de X, la moyenne arithmétique des carrés des écarts de X à sa moyenne :

s 2 (X) = (X (w) – ) 2 = ni ( xi ) 2

On appelle écart-type de X la racine carrée s (X) de la variance de X.
S = N s 2 (X) est la somme des carrés des écarts : S = ni ( xi ) 2

b) Formule de la variance.

En développant le carré ( xi ) 2, la formule de définition de la variance peut être écrite :

s 2 (X) = ni xi 2 2 = 2

 s 2 (X) = 2

Cette formule (la variance est égale à la moyenne du carré moins le carré de la moyenne) est appelée formule de la variance, ou formule de König.
Elle peut s'écrire sous la forme :

s 2 (X) = ni xi 2 ni xi

c) Généralisation à R q.

Dans R, la distance euclidienne d (X (w), ) entre X (w) et , est l'écart absolu | X (w) – |, de sorte que la variance peut être écrite :

s 2 (X) = (d (X (w), )) 2.

Dans R q, on peut définir la distance euclidienne d (X (w), ) entre X (w) = et = , par la formule

(d (X (w), )) 2 = ( Xj (w) – ) 2 = (d (Xj (w), )) 2

La variance d'une variable statistique à valeurs dans R q, est alors définie par :

s 2 (X) = (d (X (w), )) 2
= ( Xj (w) – ) 2
= (d (Xj (w), )) 2
= s 2 (Xj)
= ( – () 2)

Si X présente p modalités xi = , i Î [ 1, p ], il vient, en notant ni l'effectif de la modalité xi N = Card (W) = ni :

s 2 (X) = ni ( xi j ) 2
= ni ( xi j ) 2
= ni ( xi j ) 2

 s 2 (X) = s 2 (Xj) = ni ( xi j ) 2

d) Propriétés de la variance.

1. La variance est toujours un nombre réel positif.
    En effet, c'est une somme de carrés.

2. La variance est nulle si, et seulement si, X possède une seule valeur.
    En effet, une somme de carrés s 2 (X) = (d (X (w), )) 2 est nulle si, et seulement si, chaque carré est nul.

3. s 2 (a + b X) = b 2 s 2 (X), quels que soient les nombres réels a et b.
    En effet, si X est à valeurs réelles, on a :

= = a 2 + b 2 + 2 a b
= a + b
() 2 = a 2 + b 2 () 2 + 2 a b
s 2 (a + b X) = – () 2 = b 2 ( – () 2) = b 2 s 2 (X).

 s 2 (a + b X) = b 2 s 2 (X).

Puis, si X est à valeurs dans R q, on a :

s 2 (a + b X) = s 2 (a + b Xj) = b 2 s 2 (Xj) = b 2 s 2 (Xj) = b 2 s 2 (X).

e) Inertie par rapport à un point a.

On appelle inertie d'une variable statistique X par rapport à un point a, la moyenne du carré de la distance de X au point a :

 Ia (X) = (d (X (w), a)) 2

L'inertie de X par rapport au point moyen est la variance de X.

Propriété.

L'inertie Ia (X) est minimale lorsque a est égal à .
La valeur minimum de l'inertie est donc la variance de X.

En effet, soit d = a.
Dans R q, cette relation s'écrit : = .
X (w) est une modalité xi = de X, d'effectif ni, i Î [ 1, p ].
 Ia (X) = (d (X (w), a)) 2 = ni ( xi jaj ) 2
Ecrivons xi jaj sous la forme :

xi jaj = xi j + aj

Il vient alors :

( xi jaj ) 2 = (xi j) 2 + (aj) 2 + 2 (xi j)(aj)
 Ia (X) = ni (xi j) 2 + ni (aj) 2 + 2 ni (xi j)(aj)
     = s 2 (X) + (aj) 2 + 2 (aj) ni (xi j)

Par définition de , on a ni (xi j) = 0.
Posons :

d 2 = (aj) 2

Il reste :

 Ia (X) = s 2 (X) + d 2.

s 2 (X) est un nombre réel positif qui ne dépend pas de a.
d 2 est un nombre réel positif, sa valeur minimum est 0.
Ia (X) est minimum lorsque d 2 est nul, c'est-à-dire lorsque aj = pour tout j Î [ 1, q ], soit a = .

f) Variance conditionnée.

Considérons maintenant une partition de W en s sous-populations W1, ... , Ws.
Soit X = {(xi, Ai, ni)}, i Î [ 1, p ], une variable statistique quantitative discrète sur W, à valeurs dans R.
Chaque sous-population Wj, j Î [ 1, s ], définit une variable statistique Xj sur Wj, qui est la restriction de X à Wj.
On pose ni j = Card (Ai I Wj), n. j = Card (Wj) = ni j, j Î [ 1, s ].
On a ni = Card (Ai) = ni j, pour tout i Î [ 1, p ].
La moyenne de Xj est = ni j xi.
La variance de Xj est s 2 (Xj) = ni j xi 2 ni j xi
La moyenne conditionnée de X pour la partition {W1, ... , Ws} a été définie par la variable statistique :

MC (X) = {(, Wj, n. j)}, j Î [ 1, s ], avec N = n. j

La moyenne de cette variable statistique est : = .
Sa variance est :

s 2 (MC (X)) = n. j 2n. j
     = ni j xi ni j xi
     = ni j xi ni xi

On peut définir une nouvelle variable statistique sur W, qu'on appelle la variance conditionnée de X pour la partition {W1, ... , Ws} :

sC 2 (X) = {(s 2 (Xj), Wj, n. j)}, j Î [ 1, s ], avec N = n. j

La moyenne de cette variable statistique est : = n. j s 2 (Xj).
Sa variance est s 2 (sC 2 (X)) = n. j (s 2 (Xj)) 2n. j s 2 (Xj)

On a alors :

N = n. j s 2 (Xj) = ni j xi 2 ni j xi
      = ni j xi 2 ni j xi
      = ni xi 2 ni j xi
= ni xi 2 ni j xi

+ s 2 (MC (X)) = ni xi 2 ni xi = s 2 (X)

La relation :

 s 2 (X) = + s 2 (MC (X))

constitue le théorème de la variance conditionnée : la variance de X est la somme de la moyenne de la variance conditionnée de X et de la variance de la moyenne conditionnée de X.
   – Le terme s'appelle la variance intraclasse. Il traduit la variation de X autour de sa moyenne, dans la partition {W1, ... , Ws}.
   – Le terme s 2 (MC (X)) s'appelle la variance interclasse. Il traduit la variation de la moyenne de X dans la partition {W1, ... , Ws}.

Note : Ce résultat peut être étendu à une variable statistique discrète à valeurs dans R q.

g) Variance d'une variable statistique réelle continue.

Les classes [ ei, ei + 1 [, de fréquences fi = , i Î [ 1, p ], forment une partition de X (W).
La variance de X s'obtient :
   — en calculant la variance si 2 (X) de X dans chaque classe,
   — en faisant la moyenne de ces variances (moyenne de la variance conditionnée) : fi si 2 (X)
   — en calculant la variance de la moyenne de X dans chaque classe (variance de la moyenne conditionnée) : fi () 2
   — en faisant la somme de la moyenne de la variance conditionnée et de la variance de la moyenne conditionnée :

s 2 (X) = fi si 2 (X) + fi () 2

1°/ Dans l'hypothèse où toutes les observations sont concentrées au milieu de la classe xi = , la variance si 2 (X) de X dans chaque classe, est nulle, s 2 (X) = fi (xi) 2. On retrouve la formule du cas discret.

 s 2 (X) = s 2 (U)

xi = est le centre de la classe d'indice i et U est la variable statistique {(xi, ni)}, i Î {1, ... , p}.

2°/ Dans l'hypothèse où la répartition des valeurs de X dans chaque classe est uniforme, au terme fi () 2 = fi (xi) 2, s'ajoute un terme correctif fi si 2 (X) qui tient compte de la variation de X dans chaque classe.
Pour calculer ce terme complémentaire, il faut calculer la variance d'une variable répartie uniformément sur un intervalle.

Lemme.

 La variance d'une variable statistique répartie uniformément sur un intervalle de longeur a est .

Démonstration du lemme.

On peut utiliser la formule de la variance : la variance est égale à la moyenne du carré moins le carré de la moyenne.
La moyenne du carré est
    = x 2 dx = = [ (ei + a) 3ei 3 ] = (3 ei 2 a + 3 ei a 2 + a 3) = + ei 2 + ei a
Le carré de la moyenne est
    2 = [ei + (ei + a)] = ei + = + ei 2 + ei a.
La variance de X dans l'intervalle [ei, ei + a] est donc :

si 2 (X) = + ei 2 + ei a + ei 2 + ei a = =

Le terme correctif fi si 2 (X) est donc donné par :

fi si 2 (X) = fi (ei + 1ei) 2.

Dans le cas où toutes les classes ont la même amplitude ei + 1ei = a, le terme correctif est :

fi si 2 (X) = fi =

et la variance de X est donnée par :

s 2 (X) = fi (xi) 2 + = s 2 (U) +

 s 2 (X) = s 2 (U) +

xi = est le centre de la classe d'indice i et U est la variable statistique {(xi, ni)}, i Î {1, ... , p}.

II.2.2.5. Coefficient de variation.

Pour une variable statistique réelle X, on appelle coefficient de variation le rapport

 c =

Pour une variable statistique X à valeurs dans R q, le coefficient de variation est défini par :

c = .

Le coefficient de variation est un nombre sans dimension qui permet de comparer deux variables statistiques de natures différentes.
On remarquera que, au signe près, c'est l'écart-type de la variable statistique ou .

II.2.2.6. Moments.

Soit X une variable statistique quantitative réelle.
On appelle moment d'ordre r de X, la quantité :

 mr = [X (w)] r = ni xi r

Pour r = 0 : m0 = 1.
Pour r = 1 : m1 = . Le moment d'ordre 1 est la moyenne.
Pour r = 2 : m2 = .

On appelle moment centré d'ordre r de X, la quantité :

 µr = [X (w) – ] r = ni (xi) r

Pour r = 0 : µ0 = 1.
Pour r = 1 : µ1 = 0.
Pour r = 2 : µ2 = s 2 (X) = m2m1 2. Le moment centré d'ordre 2 est la variance.

II.2.2.7. Conclusion.

Centrer et réduire une variable statistique quantitative X consiste la remplacer par :

X pour la centrer (moyenne 0)
— diviser par s (X) pour la réduire (écart-type 1).

La variable X ' = a pour moyenne 0 (elle est centrée) et pour écart-type 1 (elle est réduite).

Par exemple, si nous considérons la variable statistique continue théorique dont la densité de fréquence est

h (x) = e (loi de Gauss),

sa moyenne est 0 et son écart-type est 1 : c'est une variable centrée réduite et la courbe de densité de fréquence associée est appelée la courbe en cloche, ou courbe de Gauss.
Un problème intéressant sera de comparer la courbe de densité de fréquence d'une variable statistique quantitative à cette courbe en cloche.