|
MASS UE22 Henri IMMEDIATO Cours de Probabilité et Statistique |
Soit W une population d'effectif N dont on étudie un caractère X.
Si X est un caractère quantitatif, les paramètres
qui caractérisent ce caractère sont :
la moyenne
= µ =
xi
la variance s
² =
![]()
xi²
![]()
xi![]()
![]()
.
Si X est un caractère qualitatif à deux modalités
A et B, le paramètre qui caractérise
X est la proportion p d'individus présentant
la modalité A.
Les paramètres sont inconnus.
La théorie de l'échantillonnage a pour but de les
estimer au mieux.
Un tirage au hasard avec remise induit que chaque individu
a une probabilité
d'être tiré.
Le tirage avec remise, d'un individu de W, peut être représenté par une variable aléatoire parente, notée encore X, dont la loi de probabilité est définie par :
L'espérance mathématique de X est E
(X) =
xi
=
xi = µ.
La variance de X est Var (X) = E ((X
µ) ²) = s ².
Constituer un échantillon de taille n par des
tirages non exhaustifs équiprobables dans W,
revient à définir n variables aléatoires
indépendantes X1,
... , Xn, qui
suivent toutes la même loi que X.
Soit {x1, ... , xn} la réalisation de l'échantillon
E.
La moyenne arithmétique
= ![]()
xi est la réalisation par échantillonnage
de la variable aléatoire
|
|
L'espérance mathématique de l'estimateur
est E (
)
=
E
(Xi) =
× n E (X) = µ.
La variance de l'estimateur
est s
²
= Var (
) =
Var
(Xi) =
× n Var (X) =
.
Par conséquent,
est un estimateur sans biais de µ (E (
) = µ) mais il n'est pas
robuste (
s
²
=
¹
0).
La variance expérimentale de l'échantillon est
s ² = ![]()
(xi
)
².
C'est la réalisation par échantillonnage de la variable
aléaoire "variance d'échantillonnage"
:
|
S ² = |
L'espérance mathématique de S ² est
E (S ²) = E
(Xi
) ²
=
E
(Xi
) ²
E (S ²) =E
(Xi µ + µ
) ²
E (S ²) =E (Xi µ) ² +
E (µ
) ² +
![]()
E
(Xi µ) (µ
)
Mais on a :
E (Xi µ) ² =
E
Xi E (Xi)
=
n Var (X) = s ².
E (µ
) ² =
E
(
E(
)) ²
= Var (
) =
.
![]()
E
(Xi µ) (µ
)
=
E
(µ
)
(Xi µ)
=
E
(µ
) (n
n µ)
= 2 E ((
µ) ²) = 2 Var (
) = 2
.
Au total :
La variance d'échantillonnage n'est pas un estimateur sans biais de la variance s ² de la population : c'est un estimateur biaisé.
La linéarité de l'espérance mathématique montre que :
de sorte que l'estimateur :
|
|
est un estimateur sans biais de la variance s
² de la population : E (
²)
= s ².
Le paramètre étudié inconnu est la proportion
p d'individus de la population présentant la modalité
A du caractère qualitatif.
Pour chaque individu de la population, nous pouvons définir
une variable aléatoire de Bernoulli, prenant la valeur
1, avec la probabilité p, si l'individu est porteur
de la modalité A, 0 sinon, avec la probabilité
q = 1 p.
Choisir un échantillon de taille n, c'est choisir
un n-uple de variables aléatoires (X1, ... , Xn)
de Bernoulli, indépendantes, de même paramètre
p.
Soit (x1, ... , xn) une réalisation de l'échantillon
E.
La moyenne expérimentale p* = ![]()
xi est la réalisation par échantillonnage
de la variable aléatoire
=
Xi, qui représente la fréquence
de la modalité A dans l'échantillon.
Son espérance mathématique est E (
) =
E (Xi) =
× n p = p.
|
|
est un estimateur sans biais de la proportion p des individus de la population présentant la modalité A du caractère étudié.
Sa variance est Var (
)
=
Var
(Xi) =
× n p (1 p) =
.
Lorsque n tend vers N, cette variance ne tend pas
vers 0, mais vers
: l'estimateur
de p n'est
pas un estimateur robuste.
Pour les échantillons de grande taille (n ³ 30), on peut définir l'intervalle de confiance de p correspondant au risque a, par :
|
[p1, p2] = |
avec F (ua) = 1
.
Un tirage au hasard sans remise induit que chaque échantillon
de taille n a une probabilité
=
d'être tiré.
Soit xij la
réalisation du caractère X pour le je individu de l'échantillon Ei = (Xi1, ... , Xin).
La réalisation du ie
échantillon est un n-uple (xi1, ... , xin).
La moyenne d'échantillonnage
i = ![]()
xij
est la réalisation d'une variable aléatoire
que nous allons définir.
Nous pouvons définir
échantillons différents Ei,
i Î
1
; ![]()
,
de taille n, chacun ayant une probabilité pi =
=
d'être tiré
au hasard.
Considérons la variable aléatoire
dont la loi de probabilité, uniforme, est définie
par :
Son espérance mathématique est :
La somme
est
une somme étendue à tous les échantillons
de taille n.
Pour un k pris entre 1 et n, notons que xik est la valeur xj du caractère X pour
le ke individu de l'échantillon,
qui est le je individu
de la population.
Cette valeur apparaît une fois dans tous les échantillons
de taille n contenant cet individu de la population, mais
pas forcément à la même place, c'est-à-dire
pas forcément avec le même indice k.
Or il y a
échantillons
de taille n contenant cet individu, de sorte que la valeur
xj de X
pour le je individu de
la population, apparaît
fois dans la somme
xik
.
Ce raisonnement est valable, bien sûr, pour tous les indices
j de 1 à N.
Lorsque nous faisons la somme pour tous les échantillons
de taille n, nous obtenons :
Moralité : la moyenne d'échantillonnage
= ![]()
Xij
est un estimateur sans biais de la moyenne µ du caractère
X.
La variance de
est
donnée par Var (
)
= E (
²)
(E (
)) ²
= E (
²)
µ ².
Calculons le terme :
Pour tout individu de numéro j de W,
il y a
échantillons
de taille n contenant cet individu, de sorte que xj ² apparaît
fois dans la somme
xi1 ² +
... + xin ²
.
Et ceci est vrai pour les N individus de la population.
De sorte que l'on obtient :
Reste à calculer la somme
![]()
xij xik![]()
Dans chacun des
échantillons
de taille n, on forme
produits de la forme xij
xik, avec j
¹ k.
Dans l'ensemble des échantillons de taille n, on
forme donc
produits de deux valeurs de X
différentes.
Comme il existe
produits
de deux valeurs de X différentes, chacun intervient
![]()
fois dans la somme étendue à l'ensemble des échantillons
de taille n.
On obtient donc :
Or on peut écrire aussi :
On obtient alors :
|
Var ( |
Moralité : lorsque n tend vers N,
la variance de
tend
vers 0, l'estimateur
de
µ est robuste.
La moyenne d'échantillonnage
= ![]()
Xij est un estimateur sans biais et
robuste, donc correct, de µ.
On remarquera aussi que la présence du rapport d'exhaustivité
, inférieur
à 1, fait que la variance de
est plus faible lorsque l'échantillon est exhaustif que
lorsqu'il est non exhaustif : les valeurs de
sont moins dispersées autour de la moyenne µ lorsque
l'échantillon est exhaustif.
La variance expérimentale de l'échantillon s
² = ![]()
(xij
i)
² est une réalisation de la variable aléatoire
:
L'espérance mathématique de cette variable aléatoire est ;
E (S ²) = ![]()
E ((Xij
)
²) = ![]()
E ((Xij µ + µ
) ²)
= ![]()
E
((Xij µ)
²) + ![]()
E ((µ
) ²) ![]()
E ((Xij µ) (
µ))
Mais :
E ((Xij
µ) ²) = E ((Xij
E (Xij)
²) = Var (Xij)
= s ².
![]()
E
((Xij µ)
²) =
n
s ² = s
².
![]()
E
((µ
) ²)
= ![]()
Var
(
) =
n
Var (
) = Var (
) = ![]()
s
²
E ((Xij µ) (
µ)) = E
(
µ)
(Xij µ)
= E
(
µ) n (
µ)
= n E
(
µ) ²
= n Var (
)
Il reste alors :
On voit donc que S ² est un estimateur biaisé de s ², mais que, par linéarité de l'espérance mathématique :
|
|
est un estimateur sans biais de la variance s ².
La fréquence d'échantillonnage p* =
xi de la modalité A du
caractère qualitatif étudié est la valeur
prise après échantillonnage par la variable aléatoire
Mais nous avons vu, précédemment, que l'espérance mathématique et la variance de Xi, étaient données par :
L'étude précédente montre que nous pouvons écrire :
Ainsi,
est un estimateur
sans biais et robuste de p.
Sa réalisation p* =
xi dans un échantillon est une
estimation ponctuelle sans biais de p.
Pour les grands échantillons, au niveau de confiance 1 a, la réalisation de l'intervalle de confiance de p sera donné par [ p1 ; p2 ], avec
où ua
est défini par la relation F
(ua) =
1
, F
étant la fonction de répartition de la variable
normale centrée réduite.
Soit W = {w1, w2, ... , wN} la population.
Nous étudions dans cette population un caractère
quantitatif X de valeur xj
pour l'individu wj.
Notons pj la probabilité
de tirage de l'individu wj lors de la constitution de l'échantillon
![]()
pj = 1
.
Tout tirage avec remise peut être schématisé
par une variable aléatoire
dont la loi de probabilité est définie par :
Notons :
µ = ![]()
xj, la moyenne du caractère
X dans la population.
s
² = ![]()
![]()
xj² ![]()
![]()
xj![]()
![]()
,
la variance de X dans la population.
Ces paramètres sont inconnus, nous cherchons à
les estimer.
Nous supposons connues la taille N de la population et
les probabilités pj
associées aux valeurs xj.
Notons, pour simplifier, (x1, ... , xn) la réalisation d'un échantillon.
Considérons la variable aléatoire
'
définie par la loi de probabilité :
et soit :
|
|
la variable aléatoire de réalisation m'*
= ![]()
![]()
dans l'échantillon.
Nous avons :
La relation E (
')
= µ montre que la variable aléatoire
'
est un estimateur sans biais de µ.
Sa réalisation m'* = ![]()
![]()
dans l'échantillon est une estimation ponctuelle sans biais
de µ.
Nous avons :
Comme le tirage de l'échantillon est fait avec remise,
les variables
i' sont indépendantes, et,
par conséquent :
|
Var ( |
Cette variance s'exprime à l'aide de l'ensemble des
valeurs xj, inconnues,
prises par le caractère X dans la population W.
Il serait intéressant d'en avoir une estimation à
partir de la réalisation {x1,
... , xn} d'un
échantillon.
Soit
' la variable aléatoire
définie, comme dans IV.4.2.1. par la loi de probabilité
:
Nous avons vu que l'espérance mathématique de
cette variable aléatoire était égale à
N µ, qu'on peut estimer par N
'.
Considérons la variance d'échantillonnage de la
variable aléatoire
',
c'est la variable aléatoire :
L'espérance mathématique de
1 ² est :
E (
1 ²) = E ![]()
![]()
(
i'
N
') ²![]()
=
E
(
i' N
') ²
=E
(
i' N µ + N µ N
') ²
=E
(
i' N µ) ²
+
E
(N µ N
') ²
+
E
(
i' N µ) (N µ N
')
=Var (
i') +
Var (N
') +
E
(N µ N
')
(
i' N µ)
=× n Var (
') +
× n N ² Var (
') +
E
(N µ N
') (N n
' N n µ)
= Var (') + N ² Var (
')
× n N ² Var (
')
= Var (') N ² Var (
')
= n N ² Var (') N ² Var (
')
= (n 1) N ² Var (')
La relation E (
1 ²) = (n 1) N
² Var (
'),
qui s'écrit aussi :
montre que
|
La variable aléatoire |
et sa réalisation dans l'échantillon :
compte tenu de la relation N m'* = m'* = ![]()
![]()
, est une estimation ponctuelle
sans biais de la variance de
'.
|
s |
Cette estimation de la variance de
'
permet de construire, pour les grands échantillons, un
intervalle de confiance de la moyenne µ :