|
MASS UE22 Henri IMMEDIATO Cours de Probabilité et Statistique |
L'étude exhaustive d'un caractère donné
dans une population est un recensement.
Elle se heurte souvent à une impossibilité matérielle
: coût trop élevé, ou destruction des individus
étudiés.
Les méthodes d'analise quantitative ont alors recours à la théorie des sondages, qui consiste à étudier un sous-ensemble de la population qu'on appelle un échantillon.
La théorie des sondages pose deux types de problèmes :
Les deux problèmes sont liés : la méthode d'échantillonnage utilisée a une influence sur les estimations obtenues.
En résumé, nous pouvons dire que la théorie des sondages est un outil mathématique permettant, à partir d'observations expérimentales partielles, de tenter d'atteindre une réalité inaccessible.
La méthode d'enquêtes par sondages présente sur le recensement (lorsqu'il est possible) les avantages suivants :
Pour effectuer une enquête par sondage, il est indispensable de respecter les instructions suivantes.
Pour effectuer un sondage dans une population, c'est-à-dire pour en extraire un échantillon, deux types de méthodes sont employées : méthodes empiriques et méthodes aléatoires. Seules les méthodes aléatoires permettent d'utiliser la théorie de l'estimation.
Ce sont les plus connues du grand public et les plus utilisées
par les instituts de sondage d'opinion.
La précision de ces méthodes ne peut être
calculée et leur réussite n'est que le résultat
d'une longue pratique et de l'habileté professionnelle.
Les éléments sondés sont choisis dans la
population suivant des critères fixés a pirori.
Elle repose sur l'idée suivante : les différentes
variables attachées à un individu de la population
n'étant pas indépendantes, un individu qui se trouve
dans la moyenne de la population pour un certain nombre de caractères
impportants, sera également peu différent de la
moyenne pour les autres caractères.
La méthode consiste donc à diviser la population
en un certain nombre de sous-ensembles relativement homogènes
et à représenter chacun d'eux par une unité-type.
On choisit donc des unités d'individus que l'on considère
comme fortement représentatives de certaines catégories
de population : cantons-types, bureau de vote pilotes, dont les
résultats observés sur de longues périodes
figurent les résultats définitifs d'une région
ou d'une ville, etc.
L'INSEE décomposa en 1942 la France en 600 régions
agricoles et, dans chaque région, désigna un canton-ype.
Comme il y a en France environ 3000 cantons, la désignation
de 600 cantons-types permettait de réduire d'un facteur
5 l'ampleur d'une étude des cantons.
L'enquêteur prélève librement son échantillon,
à condition de respecter une composition donnée
à l'avance (pourcentage fixé d'agriculteurs, d'ouvriers,
de cadres, etc., par exemple).
Cette méthode est facile, mais aucun intervalle de confiance
ne peut être donné.
Elle suppose implicitement que les catégories retenues
pour la détermination des quotas sont pertinentes quant
à l'objet de l'étude, ce qui est bien difficile
à établir.
Pour diminuer l'arbitraire du choix, on impose à l'enquêteur
des normes de déplacement géographique : c'est la
méthode de Politz.
On utilise souvent des "panels", qui sont des échantillons permanents dont on étudie l'évolution.
Ces panels sont utilisés en marketing (lancement d'un produit, transfert de marques, etc.).
Les éléments sondés sont extraits au hasard d'une liste connue a priori de la population, appelée base de sondage.
Les bases de sondages sont en général établies
à partir des résultats d'un recensement et elles
sont corrigées périodiquement entre deux recensements.
Le tirage de l'échantillon est effectué dans la
base de sondage selon des critères spécifiques à
chaque méthode (plan de sondage).
Cette méthode de travail ne laisse aucune initiative aux
enquêteurs : il est très simple de contrôler
leur travail.
Dans un échantillon aléatoire simple,
les éléments constituant l'échantillon sont
extraits au hasard (à l'aide d'une table de nombres au
hasard, par exemple) d'une liste de la population.
On extrait ainsi n individus d'une population de taille
N.
Le tirage peut s'effectuer avec ou sans remise, renvoyant ainsi
généralement à un modèle de loi binomiale
(avec remise), ou hypergéométrique (sans remise).
Si le tirage s'effectue avec remise, l'échantillon aléatoire
simple est dit indépendant (EASI = Echantillon Aléatoire
Simple et Indépendant).
La méthode permet de calculer des intervalles de confiance,
comme nous le verrons plus loin.
Le rapport f =
s'appelle
le taux de sondage.
Par exemple, l'INSEE utilise des taux de sondage de l'ordre de
pour les enquêtes sur les
conditions de vie des ménages.
Nous voulons extraire un échantillon de 8 individus dans une population formée de 437 individus.
Nous numérotons les individus de la population de 1 à 437.
Nous considérons trois colonnes consécutives d'une page de nombres au hasard : ils forment des nombres au hasard à trois chiffres.
Nous lisons ces nombres de trois chiffres en ne retenant que ceux qui sont compris entre 001 et 437.
Lorsque nous avons retenus 8 nombres, notre échantillon est constitué des 8 individus désignés dans la population par ces huit nombres.
Selon que nous effectuons un tirage avec ou sans remise, nous garderons ou écarterons un individu déjà tiré.
L'inconvénient majeur de la méthode élémentaire est son coût : les individus tirés peuvent être très éloignés géographiquement.
La population étudiée W
est partitionnée en q sous-populations W1, W2, ... , Wq, appelées "strates".
L'échantillon est constitué de la réunion
de q échantillons choisis au hasard, un par strate
: nous effectuons dans chaque strate un échantillonnage
simple.
W = {1, 2, 3, 4, 5}, W1 = {1, 2}, W2 = {3, 4, 5}.
Nous sélectionnons trois individus, dont un dans W1 et
deux dans W2.
Nous obtenons l'un des six échantillons possibles.
Cette méthode se justifie par deux raisons essentielles :
1. L'existence d'une stratification de fait, soit pour des raisons géographiques, soit pour des raisons administratives.
Exemple 1 : enquête sur les conditions de vie pénitentiaire en France.
La population est celle des détenus en France
Les strates sont les populations de détenus dans les divers établissements pénitentiaires.Exemple 2 : enquête sur la consommation par un organisme disposant de bureaux départementaux.
La population est celle des consommateurs français.
Les strates sont les consommateurs de chaque département.
2. Un caractère étudié dans la population peut varier sous l'influence d'un certain nombre de facteurs.
Pour éliminer au mieux les risques de biais, nous créons des strates homogènes et, dans chacune d'elles, nous extrayons un échantillon aléatoire simple.
Exemple.
Pour étudier la consommation de tabac, si nous estimons que l'âge et le sexe sont des facteurs très influents, nous partageons la population en strates du type :
Hommes de moins de 20 ans,
Hommes de 20 à 30 ans,
etc.
Femmes de moins de 20 ans,
Femmes de 20 à 30 ans,
etc.
De chaque strate, nous extrayons un échantillon aléatoire simple.
Les individus de la population W
sont numérotés de 1 à N.
Pour sélectionner n individus, nous partageons la
population en k =
groupes : {1, ... , k }, { 1 + k, ... , 2 k
}, ... , { 1 + (n 1) k, ... , N }.
Nous choisissons au hasard l'individu i par les individus
numérotés de 1 à k.
Nous constituons notre échantillon des individus { i,
i + k, i + 2 k, ... , i + (n
1) k }.
Le choix de l'individu i détermine entièrement
la constitution de l'échantillon.
W = {1, ... , 20}, k = 4.
Les échantillons possibles sont : {1, 5, 9, 13, 17}, {2, 6, 10, 14, 18}, {3, 7, 11, 15, 19}, {4, 8, 12, 16, 20}.
Cette méthode est bien adaptée à la sélection
de cartes dans un fichier, ou au prélèvement de
pièces dans une fabrication pour un contrôle de qualité.
Elle présente une certaine analogie avec la méthode
précédente d'échantillonnage stratifié.
La population W est divisée
en sous-populations appelées unités primaires.
Chaque unité primaire est divisée en unités
secondaires, etc.
Nous effectuons des tirages au hasard en cascade : nous tirons
des unités primaires ; dans chaque unité primaire,
nous tirons une unité secondaire, etc.
L'INSEE effectue des échantillonnages à quatre niveaux : départements, cantons, communes, ménages.
Cette méthode permet une exécution rapide.
Elle est économique, car elle focalise les tirages.
La méthode de tirage au hasard à chaque niveau
peut varier suivant le cas, par exemple tirage proportionnel aux
unités qu'il contient, ou tirage équiprobable.
Nous disons alors que nous pouvons avoir des tirages avec probabilités
inégales.
Nous choisissons des grappes pour lesquelles nous gardons tous
les "grains", ou individus.
Une "grappe" est un groupe d'individus de même
nature.
Exemple : ménages d'un même immeuble.
En pratique, les diverses méthodes aléatoires
peuvent être mêlées pour améliorer le
rendement.
Pour chacune d'elle, nous pourrons varier les critères
de tirage au hasard de chaque individu : avec remise, sans remise,
avec des probabilités égales ou inégales.
Nous considérons une population W
de taille finie N.
Dans cette population, nous étudions un caractère
quantitatif réel prenant les valeurs réelles xi, i Î
{1, ... N}.
La fonction de répartition empirique FN (x) est une fonction en escalier.
La variable statistique représentant le caractère
étudié peut être une variable quantitative
discrète ou continue.
Le problème est de modéliser la fonction de répartition empirique FN (x), par la fonction de répartition F (x) d'une variable aléatoire X, discrète ou continue suivant le cas, vérifiant F(xi) = FN (xi), i Î {1, ... N}.
Nous dirons que F (x) définit la loi de référence associée à une population hypothétique infinie, dite population de référence.
La population W est appelée la population-mère.
La connaissance de la loi de référence du caractère
étudié est d'un grand intérêt pour
la déduction statistique.
Elle constitue un modèle mathématique du phénomène
étudié.
Cette distribution théorique peut dépendre d'un
certain nombre de paramètres inconnus.
Les sondages permettent d'estimer deux types de paramètres :
Soit X un caractère quantitatif de la population
W.
Ce caractère prend les valeurs inconnues xi, i Î
{1, ... N}.
Un résumé de l'ensemble des valeurs {x1, ... , xN}
peut être défini par un ou plusieurs paramètres
de W (moyenne, variance, proportion,
etc.).
Soit y un tel paramètre de la population W.
Lorsque nous extrayons de la population un échantillon aléatoire simple E de taille n, nous pouvons calculer, avec les valeurs {x1, ... , xn} prises par X dans l'échantillon, une estimation ponctuelle de y, qui sera notée y*.
Si y est la moyenne µ =
de X, nous obtiendrons une estimation ponctuelle µ* de la moyenne µ en prenant la moyenne arithmétique de l'échantillon :
La valeur observée y* n'est que l'une des valeurs
possibles que l'on peut obtenir avec les divers échantillons
possibles de taille n.
En réalité, avec une population de N individus,
il y a un certain nombre, mettons k, d'échantillons
possibles Ej de
taille n, j Î {1,
..., k} (k dépend de la méthode d'échantillonnage).
Chaque échantillon possible Ej
de taille n possède une certaine probabilité
pj d'être
tiré.
A chaque échantillon possible Ej
de taille n est associée une estimation ponctuelle
yj* de y.
A chaque estimation ponctuelle yj*
de y est donc associée la probabilité pj d'être observée.
Nous pouvons alors définir une variable aléatoire
prenant, pour chaque échantillon
possible Ej de
taille n, la valeur yj*
avec la probabilité pj.
Cette variable aléatoire
est appelée un estimateur du paramètre y.
Les valeurs de
sont
les estimations ponctuelles de y.
La loi de probabilité de
s'appelle la distribution d'échantillonnage de
.
On appelle fluctuation d'échantillonnage, la variation des estimations ponctuelles de y et aléas d'échantillonnage les causes de ces variations.
Il est logique de souhaiter que l'estimateur
prenne des valeurs aussi voisines que possible de la valeur inconnue
y que nous voulons estimer.
Nous sommes conduits à définir un certain nombre
de qualités que doit présenter un "bon"
estimateur.
Nous dirons que
est
un estimateur sans biais du paramètre y, si, et
seulement si, son espérance mathématique est y.
|
sans biais Û E ( |
Cette propriété traduit le fait qu'en moyenne, sur tous les échantillons possibles, nous retrouvons la valeur du paramètre que nous voulons estimer.
L'estimateur
d'un
paramètre y possède une variance s
² qui traduit la dispersion
des valeurs de
autour
de son espérance mathématique.
Cette variance dépend de la taille n de l'échantillon.
Nous dirons que
est
un estimateur robuste, ou convergent, de y si la
limite, lorsque n tend vers N de s
² est nulle.
|
robuste Û |
Cette propriété traduit le fait suivant : si
nous connaissons la valeur prise par le caractère pour
tous les individus de la population, la valeur de
est la valeur exacte y du paramètre.
Un estimateur correct est un estimateur sans biais et robuste.
Nous dirons qu'un estimateur
d'un paramètre y est asymptotiquement gaussien
si, et seulement si, il vérifie la propriété
suivante :
Lorsque n augmente indéfiniment, la fonction
de répartition de
tend uniformément vers la fonction de répartition
d'une variable normale centrée réduite. |
En pratique, dès que n est supérieur ou
égal à 30, nous admettrons que la fonction de répartition
de
peut être
remplacée par la fonction de répartition de la variable
normale centrée réduite.
Lorsque n est suffisamment grand (en pratique n ³ 30), pour tout a Î [0, 1], le nombre réel positif ua donné par :
vérifie :
En effet, comme la fonction de répartition de
peut être remplacée par la fonction de répartition de la variable normale centrée réduite, dès que n est supérieur ou égal à 30, la symétrie de la loi normale donne :
Les valeurs de la fonction de répartition F sont données par des tables.
Un estimateur CAG est un estimateur correct et asymptotiquement gaussien.
Etant donnés deux estimateurs
1 et
2 du même paramètre y,
on dit que l'estimateur
1 est meilleur que l'estimateur
2
si l'espérance de (
1 y) ² est plus petite
que l'espérance de (
2 y) ² .
Ceci signifie simplement que l'on considère comme meilleur
un estimateur dont les valeurs sont moins dispersées autour
de la valeur de y.
Dans l'absolu, le meilleur estimateur d'un paramètre est
celui dont pour lequel l'espérance de (
y) ² est la plus petite possible.
Un estimateur sans biais dont la variance est minimale s'appelle
un estimateur précis.
Pour un estimateur précis, l'espérance E
(
) est égale
à y et la variance s
² est minimale.
Considérons un échantillon aléatoire simple
E, de taille n, extrait de la population W
(tirages au sort équiprobables, sans remise).
Dans cet échantillon, le caractère étudié
prend les valeurs {x1,
... , xn}.
Nous pouvons considérer la valeur prise par le caractère
étudié pour l'individu i de l'échantillon
comme la valeur prise par une variable aléatoire X.
L'ensemble des valeurs {x1,
... , xn} apparaît
alors comme le résultat de n épreuves indépendantes
sur la même variable aléatoire.
L'estimateur
d'un
paramètre y apparaît alors comme une fonction
de n variables aléatoires indépendantes Xi, i Î
{1, ... , n}, de même loi de probabilité,
qui est la loi de probabilité de X.
X s'appelle la variable parente.
La connaissance de la loi de probabilité de X
permet de calculer la loi de probabilité de
.
La variable aléatoire centrée réduite
correspondant à
,
possède une espérance mathématique nulle
et une variance égale à 1.
Nous étudions la taille des individus d'une population
d'effectif N.
Pour cela nous extrayons un échantillon aléatoire
simple et indépendant d'effectif n.
Soit µ la moyenne de la taille des individus de la population.
Soit X la variable aléatoire "taille d'un individu"
: à chaque individu de l'échantillon est associé
une variable aléatoire indépendante "taille"
Xi qui a la même
loi de probabilité que la variable parente X.
L'estimateur
|
|
de la taille moyenne µ dans la population, a, pour valeur
dans l'échantillon, la moyenne arithmétique des
tailles des individus de l'échantillon.
Cet estimateur possède une loi de probabilité qui
peut être calculée en fonction de la loi de probabilité
de X.
Soit s ² la variance de la
taille des individus de la population.
Soit X la variable aléatoire "taille d'un individu"
: à chaque individu de l'échantillon est associé
une variable aléatoire indépendante "taille"
Xi qui a la même
loi de probabilité que la variable parente X.
L'estimateur
|
|
de la variance s ² de la taille
dans la population, a, pour valeur dans l'échantillon,
S ²
(X) où S ² (X) est la variance
des tailles des individus de l'échantillon (variance d'échantillonnage).
Cet estimateur possède une loi de probabilité qui
peut être calculée en fonction de la loi de probabilité
de X.
Si
est un estimateur
correct et asymptotiquement gaussien (estimateur CAG) d'un paramètre
y, avec E (
)
= y, la relation
s'écrit :
L'événement
ua
s
µ
+ ua s
a donc une probabilité
1 a de se réaliser lorsqu'on
choisit au hasard un échantillon de taille n ³ 30.
Autrement dit, dans la population, la proportion des échantillons
de taille n ³ 30 pour lesquels
l'événement
ua
s
µ
+ ua s
est réalisé est
1 a.
Autrement dit encore, étant donné un échantillon
de taille n ³ 30, choisi
au hasard, la probabilité de réalisation de l'événement
ua s
µ
+ ua s
est 1 a.
Or, pour un échantillon de taille n choisi au hasard,
prend la valeur y* et s
une valeur s
, de
sorte que
ua s
prend une valeur
et
+ ua s
prend la valeur
L'intervalle
|
[y1 ; y2] = [ y* ua s |
dans lequel la taille n de l'échantillon est
supérieure ou égale à 30 et F
(ua) =
1
,
s'appelle l'intervalle de confiance de y au risque a, ou intervalle de confiance de y
au niveau de confiance 1 a.
C'est un intervalle dans lequel la probabilité de trouver la vraie valeur de y est 1 a.
Plus a est grand, plus l'amplitude
de l'intervalle de confiance est petite, puisque F
est une fonction croissante.
Dans la pratique, en l'absence de précision contraire,
nous conviendrons de prendre a = 5
%.
Plus n est grand, plus la valeur de s
² a des chances d'être
proche de 0, donc plus la valeur de
a des chances d'être proche de y.
Nous pourrons ainsi calculer la valeur de n qui permet
d'avoir un intervalle de confiance d'amplitude donnée.
Les valeurs à retenir de la fonction de répartition
de la variable aléatoire normale centrée réduite
sont, pour F (ua) = 1
:
F
(1,645) = 0,950, soit u0,10
= 1,645.
F
(1,960) = 0,975, soit u0,05
= 1,960.
F
(2,575) = 0,995, soit u0,01
= 2,575.
Ces valeurs donnent les intervalles de confiance aux niveaux de
confiance 90 %, 95 %, 99 %.
La valeur utilisée par défaut est u0,05 = 1,960.