MASS UE22 – Henri IMMEDIATO
Cours de Probabilité et Statistique

PROBABILITE - STATISTIQUE


Chapitre IV - INITIATION A LA THEORIE DES SONDAGES.
(suite)

IV. 4. ETUDE DU SONDAGE ELEMENTAIRE.

Soit W une population d'effectif N dont on étudie un caractère X.

Si X est un caractère quantitatif, les paramètres qui caractérisent ce caractère sont :
     — la moyenne = µ = xi
     — la variance s ² = xi² – xi.
Si X est un caractère qualitatif à deux modalités A et B, le paramètre qui caractérise X est la proportion p d'individus présentant la modalité A.
Les paramètres sont inconnus.
La théorie de l'échantillonnage a pour but de les estimer au mieux.

IV.4.1. Echantillon non exhaustif, tirage à probabilités égales.

Un tirage au hasard avec remise induit que chaque individu a une probabilité d'être tiré.

IV.4.1.1. Caractère quantitatif.

a) Loi de probabilité induite par le tirage de l'échantillon.

Le tirage avec remise, d'un individu de W, peut être représenté par une variable aléatoire parente, notée encore X, dont la loi de probabilité est définie par :

P (X = xi) = , i Î [1, N].

L'espérance mathématique de X est E (X) = xi = xi = µ.
La variance de X est Var (X) = E ((X – µ) ²) = s ².

b) Estimateur de la moyenne de la population.

Constituer un échantillon de taille n par des tirages non exhaustifs équiprobables dans W, revient à définir n variables aléatoires indépendantes X1, ... , Xn, qui suivent toutes la même loi que X.
Soit {x1, ... , xn} la réalisation de l'échantillon E.
La moyenne arithmétique = xi est la réalisation par échantillonnage de la variable aléatoire

  = Xi.

L'espérance mathématique de l'estimateur est E () = E (Xi) = × n E (X) = µ.
La variance de l'estimateur est s² = Var () = Var (Xi) = × n Var (X) = .

Par conséquent, est un estimateur sans biais de µ (E () = µ) mais il n'est pas robuste ( s² = ¹ 0).

c) Estimateur de la variance de la population.

La variance expérimentale de l'échantillon est s ² = (xi) ².
C'est la réalisation par échantillonnage de la variable aléaoire "variance d'échantillonnage" :

 S ² = Xi² – Xi= (Xi) ²

L'espérance mathématique de S ² est

E (S ²) = E (Xi) ² = E (Xi) ²
E (S ²) = E (Xi – µ + µ – ) ²
E (S ²) = E (Xi – µ) ² + E (µ – ) ² + E (Xi – µ) (µ – )

Mais on a :

E (Xi – µ) ² = E XiE (Xi) = n Var (X) = s ².
E (µ – ) ² = E (E()) ² = Var () = .
E (Xi – µ) (µ – ) = E (µ – ) (Xi – µ) = E (µ – ) (n n µ) = – 2 E (( – µ) ²) = – 2 Var () = – 2 .

Au total :

E (S ²) = s ² – = s ².

La variance d'échantillonnage n'est pas un estimateur sans biais de la variance s ² de la population : c'est un estimateur biaisé.

La linéarité de l'espérance mathématique montre que :

E S ² = E (S ²) = s ²,

de sorte que l'estimateur :

 ² = Xi² – Xi = S ²

est un estimateur sans biais de la variance s ² de la population : E (²) = s ².

IV.4.1.2. Caractère qualitatif.

Le paramètre étudié inconnu est la proportion p d'individus de la population présentant la modalité A du caractère qualitatif.
Pour chaque individu de la population, nous pouvons définir une variable aléatoire de Bernoulli, prenant la valeur 1, avec la probabilité p, si l'individu est porteur de la modalité A, 0 sinon, avec la probabilité q = 1 – p.

Choisir un échantillon de taille n, c'est choisir un n-uple de variables aléatoires (X1, ... , Xn) de Bernoulli, indépendantes, de même paramètre p.
Soit (x1, ... , xn) une réalisation de l'échantillon E.
La moyenne expérimentale p* = xi est la réalisation par échantillonnage de la variable aléatoire = Xi, qui représente la fréquence de la modalité A dans l'échantillon.

Son espérance mathématique est E () = E (Xi) = × n p = p.

  = Xi

est un estimateur sans biais de la proportion p des individus de la population présentant la modalité A du caractère étudié.

Sa variance est Var () = Var (Xi) = × n p (1 – p) = .
Lorsque n tend vers N, cette variance ne tend pas vers 0, mais vers : l'estimateur de p n'est pas un estimateur robuste.

Pour les échantillons de grande taille (n ³ 30), on peut définir l'intervalle de confiance de p correspondant au risque a, par :

 [p1, p2] = p* – ua ; p* + ua

avec F (ua) = 1 – .

IV.4.2. Echantillon exhaustif, tirage à probabilités égales.

Un tirage au hasard sans remise induit que chaque échantillon de taille n a une probabilité = d'être tiré.

IV.4.2.1. Caractère quantitatif.

a) Estimation de la moyenne.

Soit xij la réalisation du caractère X pour le je individu de l'échantillon Ei = (Xi1, ... , Xin).
La réalisation du ie échantillon est un n-uple (xi1, ... , xin).
La moyenne d'échantillonnage i = xij est la réalisation d'une variable aléatoire que nous allons définir.

Nous pouvons définir échantillons différents Ei, i Î 1 ; , de taille n, chacun ayant une probabilité pi = = d'être tiré au hasard.

Considérons la variable aléatoire dont la loi de probabilité, uniforme, est définie par :

P ( = i) = pi, i Î 1 ; .

Son espérance mathématique est :

E () = pi i = xik = xik.

La somme est une somme étendue à tous les échantillons de taille n.
Pour un k pris entre 1 et n, notons que xik est la valeur xj du caractère X pour le ke individu de l'échantillon, qui est le je individu de la population.
Cette valeur apparaît une fois dans tous les échantillons de taille n contenant cet individu de la population, mais pas forcément à la même place, c'est-à-dire pas forcément avec le même indice k.
Or il y a échantillons de taille n contenant cet individu, de sorte que la valeur xj de X pour le je individu de la population, apparaît fois dans la somme xik.
Ce raisonnement est valable, bien sûr, pour tous les indices j de 1 à N.
Lorsque nous faisons la somme pour tous les échantillons de taille n, nous obtenons :

xik = xj = (x1 + ... + xN)
E () = (x1 + ... + xN) = N µ = µ = µ

Moralité : la moyenne d'échantillonnage = Xij est un estimateur sans biais de la moyenne µ du caractère X.

b) Variance de la moyenne d'échantillonnage.

La variance de est donnée par Var () = E (²) – (E ()) ² = E (²) – µ ².
Calculons le terme :

E (²) = pi i²

E (²) = i² = (xik) ² = (xik) ²
= xi1 ² + ... + xin ² + xij xik

Pour tout individu de numéro j de W, il y a échantillons de taille n contenant cet individu, de sorte que xj ² apparaît fois dans la somme xi1 ² + ... + xin ².
Et ceci est vrai pour les N individus de la population.
De sorte que l'on obtient :

xi1 ² + ... + xin ² = x1 ² + ... + xN ² = N s ² + µ ² = (s ² + µ ²)

Reste à calculer la somme xij xik
Dans chacun des échantillons de taille n, on forme produits de la forme xij xik, avec j ¹ k.
Dans l'ensemble des échantillons de taille n, on forme donc produits de deux valeurs de X différentes.
Comme il existe produits de deux valeurs de X différentes, chacun intervient fois dans la somme étendue à l'ensemble des échantillons de taille n.
On obtient donc :

xij xik = xj xk

Or on peut écrire aussi :

xj xk = xj xkxj = xjxkxj²
= xjxj² = (N µ) ² – N (s ² + µ ²) = N ((N – 1) µ ² – s ²)

On obtient alors :

xij xik = N ((N – 1) µ ² – s ²) = n ((N – 1) µ ² – s ²) = N ((N – 1) µ ² – s ²)
E (²) = N (s ² + µ ²) + N ((N – 1) µ ² – s ²)
E (²) = s ² + + (N – 1) µ ²

=
= (N – 1) – (n – 1) =
+ (N – 1) = + (N – 1)
= (1 + (n – 1)) = 1

E (²) = s ² + µ ²

Var () = E (²) – µ ² = s ²

 Var () = s ²

Moralité : lorsque n tend vers N, la variance de tend vers 0, l'estimateur de µ est robuste.

La moyenne d'échantillonnage = Xij est un estimateur sans biais et robuste, donc correct, de µ.

On remarquera aussi que la présence du rapport d'exhaustivité , inférieur à 1, fait que la variance de est plus faible lorsque l'échantillon est exhaustif que lorsqu'il est non exhaustif : les valeurs de sont moins dispersées autour de la moyenne µ lorsque l'échantillon est exhaustif.

c) Estimation de la variance.

La variance expérimentale de l'échantillon s ² = (xiji) ² est une réalisation de la variable aléatoire :

S ² = (Xij) ² = Xij ² – Xij

L'espérance mathématique de cette variable aléatoire est ;

E (S ²) = E ((Xij) ²) = E ((Xij – µ + µ – ) ²)
= E ((Xij – µ) ²) + E ((µ – ) ²) – E ((Xij – µ) ( – µ))

Mais :

E ((Xij – µ) ²) = E ((XijE (Xij) ²) = Var (Xij) = s ².
E ((Xij – µ) ²) = n s ² = s ².

E ((µ – ) ²) = Var () = n Var () = Var () = s ²

E ((Xij – µ) ( – µ)) = E ( – µ) (Xij – µ) = E ( – µ) n ( – µ) = n E ( – µ) ² = n Var ()

Il reste alors :

E (S ²) = s ² + s ² – n Var () = s ² – s ² = s ² = s ²

On voit donc que S ² est un estimateur biaisé de s ², mais que, par linéarité de l'espérance mathématique :

 ² = S ² = Xij² – Xij

est un estimateur sans biais de la variance s ².

IV.4.2.2. Caractère qualitatif.

La fréquence d'échantillonnage p* = xi de la modalité A du caractère qualitatif étudié est la valeur prise après échantillonnage par la variable aléatoire

= Xi.

Mais nous avons vu, précédemment, que l'espérance mathématique et la variance de Xi, étaient données par :

E (Xi) = p
Var
(Xi) = p (1 – p).

L'étude précédente montre que nous pouvons écrire :

E () = p
Var
() = Var Xi = Var n = Var () = p (1 – p).

Ainsi, est un estimateur sans biais et robuste de p.
Sa réalisation p* = xi dans un échantillon est une estimation ponctuelle sans biais de p.

Pour les grands échantillons, au niveau de confiance 1 – a, la réalisation de l'intervalle de confiance de p sera donné par [ p1 ; p2 ], avec

p1 = p* – ua
p2 = p* + ua

ua est défini par la relation F (ua) = 1 – , F étant la fonction de répartition de la variable normale centrée réduite.

IV.4.2. Echantillon non exhaustif, tirage à probabilités inégales.

Soit W = {w1, w2, ... , wN} la population.
Nous étudions dans cette population un caractère quantitatif X de valeur xj pour l'individu wj.
Notons pj la probabilité de tirage de l'individu wj lors de la constitution de l'échantillon pj = 1.

Tout tirage avec remise peut être schématisé par une variable aléatoire dont la loi de probabilité est définie par :

P ( = xj) = pj, " j Î [1 ; N].

Notons :

     — µ = xj, la moyenne du caractère X dans la population.
     — s ² = xj² – xj, la variance de X dans la population.

Ces paramètres sont inconnus, nous cherchons à les estimer.
Nous supposons connues la taille N de la population et les probabilités pj associées aux valeurs xj.

Notons, pour simplifier, (x1, ... , xn) la réalisation d'un échantillon.

IV.4.2.1. Estimation de la moyenne.

Considérons la variable aléatoire ' définie par la loi de probabilité :

P ' = = pj, " j Î [1 ; N].

et soit :

 ' = i'

la variable aléatoire de réalisation m'* = dans l'échantillon.

Nous avons :

E (') = E (i') = pj = N µ = µ = × n µ = µ

La relation E (') = µ montre que la variable aléatoire ' est un estimateur sans biais de µ.
Sa réalisation m'* = dans l'échantillon est une estimation ponctuelle sans biais de µ.

IV.4.2.2. Variance de l'estimateur de la moyenne.

Nous avons :

E (') = pj = N µ

E (' ²) = pj =
Var (') = N ² µ ²

Comme le tirage de l'échantillon est fait avec remise, les variables i' sont indépendantes, et, par conséquent :

Var (') = Var i' = Var (i')
= Var (') = Var (') = N ² µ ²

 Var (') =

Cette variance s'exprime à l'aide de l'ensemble des valeurs xj, inconnues, prises par le caractère X dans la population W.
Il serait intéressant d'en avoir une estimation à partir de la réalisation {x1, ... , xn} d'un échantillon.

IV.4.2.3. Estimation de la variance de l'estimateur de la moyenne.

Soit ' la variable aléatoire définie, comme dans IV.4.2.1. par la loi de probabilité :

P ' = = pj, " j Î [1 ; N].

Nous avons vu que l'espérance mathématique de cette variable aléatoire était égale à N µ, qu'on peut estimer par N '.
Considérons la variance d'échantillonnage de la variable aléatoire ', c'est la variable aléatoire :

1 ² = (i' – N ') ²

L'espérance mathématique de 1 ² est :

E (1 ²) = E (i' – N ') ²

= E (i' – N ') ²
= E (i' – N µ + N µ – N ') ²
= E (i' – N µ) ² + E (N µ – N ') ² + E (i' – N µ) (N µ – N ')
= Var (i') + Var (N ') + E (N µ – N ') (i' – N µ)
= × n Var (') + × n N ² Var (') + E (N µ – N ') (N n ' – N n µ)
= Var (') + N ² Var (') – × n N ² Var (')
= Var (') – N ² Var (')
= n N ² Var (') – N ² Var (')
= (n – 1) N ² Var (')

La relation E (1 ²) = (n – 1) N ² Var ('), qui s'écrit aussi :

E = Var (')

montre que

 La variable aléatoire est un estimateur sans biais de la variance Var (')

et sa réalisation dans l'échantillon :

N m'* =

compte tenu de la relation N m'* = m'* = , est une estimation ponctuelle sans biais de la variance de '.

 s* =

Cette estimation de la variance de ' permet de construire, pour les grands échantillons, un intervalle de confiance de la moyenne µ :

m'* ± ua s*.