MASS UE22 – Henri IMMEDIATO
Cours de Probabilité et Statistique

PROBABILITE - STATISTIQUE


Chapitre IV - INITIATION A LA THEORIE DES SONDAGES.

IV. 1. GENERALITES.

IV.1.1. Introduction.

L'étude exhaustive d'un caractère donné dans une population est un recensement.
Elle se heurte souvent à une impossibilité matérielle : coût trop élevé, ou destruction des individus étudiés.

Les méthodes d'analise quantitative ont alors recours à la théorie des sondages, qui consiste à étudier un sous-ensemble de la population qu'on appelle un échantillon.

La théorie des sondages pose deux types de problèmes :

Les deux problèmes sont liés : la méthode d'échantillonnage utilisée a une influence sur les estimations obtenues.

En résumé, nous pouvons dire que la théorie des sondages est un outil mathématique permettant, à partir d'observations expérimentales partielles, de tenter d'atteindre une réalité inaccessible.

IV.1.2. Avantages de la méthode d'enquêtes par sondages.

La méthode d'enquêtes par sondages présente sur le recensement (lorsqu'il est possible) les avantages suivants :

  1. Coût plus réduit.
  2. Plus grande vitesse d'exécution (notamment pour les sondages d'opinions).
  3. Plus grande fiabilité des résultats : le personnel étant plus réduit, il peut être plus qualifié.
  4. Moins de risque d'erreur : le volume des données à traiter est plus faible.
  5. Plus grand champ d'application, notamment dans le cas de destruction des unités testées.

IV.1.3. Etapes d'une enquête par sondage.

Pour effectuer une enquête par sondage, il est indispensable de respecter les instructions suivantes.

IV.2. DIVERS TYPES DE SONDAGES.

Pour effectuer un sondage dans une population, c'est-à-dire pour en extraire un échantillon, deux types de méthodes sont employées : méthodes empiriques et méthodes aléatoires. Seules les méthodes aléatoires permettent d'utiliser la théorie de l'estimation.

IV.2.1. Méthodes empiriques : sondages raisonnés.

Ce sont les plus connues du grand public et les plus utilisées par les instituts de sondage d'opinion.
La précision de ces méthodes ne peut être calculée et leur réussite n'est que le résultat d'une longue pratique et de l'habileté professionnelle.
Les éléments sondés sont choisis dans la population suivant des critères fixés a pirori.

IV.2.1.1. Méthode des unités types.

Elle repose sur l'idée suivante : les différentes variables attachées à un individu de la population n'étant pas indépendantes, un individu qui se trouve dans la moyenne de la population pour un certain nombre de caractères impportants, sera également peu différent de la moyenne pour les autres caractères.
La méthode consiste donc à diviser la population en un certain nombre de sous-ensembles relativement homogènes et à représenter chacun d'eux par une unité-type.
On choisit donc des unités d'individus que l'on considère comme fortement représentatives de certaines catégories de population : cantons-types, bureau de vote pilotes, dont les résultats observés sur de longues périodes figurent les résultats définitifs d'une région ou d'une ville, etc.

Exemple.

L'INSEE décomposa en 1942 la France en 600 régions agricoles et, dans chaque région, désigna un canton-ype.
Comme il y a en France environ 3000 cantons, la désignation de 600 cantons-types permettait de réduire d'un facteur 5 l'ampleur d'une étude des cantons.

IV.2.1.2. Méthode des quotas.

L'enquêteur prélève librement son échantillon, à condition de respecter une composition donnée à l'avance (pourcentage fixé d'agriculteurs, d'ouvriers, de cadres, etc., par exemple).
Cette méthode est facile, mais aucun intervalle de confiance ne peut être donné.
Elle suppose implicitement que les catégories retenues pour la détermination des quotas sont pertinentes quant à l'objet de l'étude, ce qui est bien difficile à établir.
Pour diminuer l'arbitraire du choix, on impose à l'enquêteur des normes de déplacement géographique : c'est la méthode de Politz.

On utilise souvent des "panels", qui sont des échantillons permanents dont on étudie l'évolution.

Exemples.

  • Panel d'audience à la télévision (médiamétrie, centres d'études d'opinion, ...).
  • Panel de consommateurs (SECODIF : 4 500 ménages).
  • Panel de détaillants (SOFRES).
  • Ces panels sont utilisés en marketing (lancement d'un produit, transfert de marques, etc.).

    IV.2.2. Méthodes aléatoires.

    Les éléments sondés sont extraits au hasard d'une liste connue a priori de la population, appelée base de sondage.

    Exemples.
    1. Liste d'immatriculation des véhicules automobiles en France.
      C'est une très bonne base car elle est mise à jour régulièrement (cartes grises neuves, cartes grises à détruire).
    2. Répertoire des entreprises (SIREN).
      Chaque entreprise possède un numéro d'immatriculation à neuf chiffres, un nom ou raison sociale, une adresse exacte.
    3. L'annuaire téléphonique est une mauvaise base de sondage car d'une part, tout individu ne possède pas obligatoirement un téléphone et, d'autre part, un individu peut posséder un téléphone et ne pas figurer sur l'annuaire (la liste rouge représente environ 8 % des abonnés et l'annuaire ne recense pas les téléphones portables, soit environ 40 % des téléphones).

    Les bases de sondages sont en général établies à partir des résultats d'un recensement et elles sont corrigées périodiquement entre deux recensements.
    Le tirage de l'échantillon est effectué dans la base de sondage selon des critères spécifiques à chaque méthode (plan de sondage).
    Cette méthode de travail ne laisse aucune initiative aux enquêteurs : il est très simple de contrôler leur travail.

    IV.2.2.1. Sondage élémentaire : échantillon aléatoire simple.

    Dans un échantillon aléatoire simple, les éléments constituant l'échantillon sont extraits au hasard (à l'aide d'une table de nombres au hasard, par exemple) d'une liste de la population.
    On extrait ainsi n individus d'une population de taille N.
    Le tirage peut s'effectuer avec ou sans remise, renvoyant ainsi généralement à un modèle de loi binomiale (avec remise), ou hypergéométrique (sans remise).
    Si le tirage s'effectue avec remise, l'échantillon aléatoire simple est dit indépendant (EASI = Echantillon Aléatoire Simple et Indépendant).

    La méthode permet de calculer des intervalles de confiance, comme nous le verrons plus loin.
    Le rapport f = s'appelle le taux de sondage.
    Par exemple, l'INSEE utilise des taux de sondage de l'ordre de pour les enquêtes sur les conditions de vie des ménages.

    Exemple.

    Nous voulons extraire un échantillon de 8 individus dans une population formée de 437 individus.
    Nous numérotons les individus de la population de 1 à 437.
    Nous considérons trois colonnes consécutives d'une page de nombres au hasard : ils forment des nombres au hasard à trois chiffres.
    Nous lisons ces nombres de trois chiffres en ne retenant que ceux qui sont compris entre 001 et 437.
    Lorsque nous avons retenus 8 nombres, notre échantillon est constitué des 8 individus désignés dans la population par ces huit nombres.
    Selon que nous effectuons un tirage avec ou sans remise, nous garderons ou écarterons un individu déjà tiré.

    L'inconvénient majeur de la méthode élémentaire est son coût : les individus tirés peuvent être très éloignés géographiquement.

    IV.2.2.2. Sondage stratifié.

    La population étudiée W est partitionnée en q sous-populations W1, W2, ... , Wq, appelées "strates".
    L'échantillon est constitué de la réunion de q échantillons choisis au hasard, un par strate : nous effectuons dans chaque strate un échantillonnage simple.

    Exemple.

    W = {1, 2, 3, 4, 5}, W1 = {1, 2}, W2 = {3, 4, 5}.
    Nous sélectionnons trois individus, dont un dans W1 et deux dans W2.
    Nous obtenons l'un des six échantillons possibles.

    Cette méthode se justifie par deux raisons essentielles :

    1. — L'existence d'une stratification de fait, soit pour des raisons géographiques, soit pour des raisons administratives.

    Exemple 1 : enquête sur les conditions de vie pénitentiaire en France.

    La population est celle des détenus en France
    Les strates sont les populations de détenus dans les divers établissements pénitentiaires.

    Exemple 2 : enquête sur la consommation par un organisme disposant de bureaux départementaux.

    La population est celle des consommateurs français.
    Les strates sont les consommateurs de chaque département.

    2. — Un caractère étudié dans la population peut varier sous l'influence d'un certain nombre de facteurs.

    Pour éliminer au mieux les risques de biais, nous créons des strates homogènes et, dans chacune d'elles, nous extrayons un échantillon aléatoire simple.

    Exemple.

    Pour étudier la consommation de tabac, si nous estimons que l'âge et le sexe sont des facteurs très influents, nous partageons la population en strates du type :
         – Hommes de moins de 20 ans,
         – Hommes de 20 à 30 ans,
         – etc.
         – Femmes de moins de 20 ans,
         – Femmes de 20 à 30 ans,
         – etc.
    De chaque strate, nous extrayons un échantillon aléatoire simple.

    IV.2.2.3. Echantillonnage systématique.

    Les individus de la population W sont numérotés de 1 à N.
    Pour sélectionner n individus, nous partageons la population en k = groupes : {1, ... , k }, { 1 + k, ... , 2 k }, ... , { 1 + (n – 1) k, ... , N }.
    Nous choisissons au hasard l'individu i par les individus numérotés de 1 à k.
    Nous constituons notre échantillon des individus { i, i + k, i + 2 k, ... , i + (n – 1) k }.
    Le choix de l'individu i détermine entièrement la constitution de l'échantillon.

    Exemple.

    W = {1, ... , 20}, k = 4.
    Les échantillons possibles sont : {1, 5, 9, 13, 17}, {2, 6, 10, 14, 18}, {3, 7, 11, 15, 19}, {4, 8, 12, 16, 20}.

    Cette méthode est bien adaptée à la sélection de cartes dans un fichier, ou au prélèvement de pièces dans une fabrication pour un contrôle de qualité.
    Elle présente une certaine analogie avec la méthode précédente d'échantillonnage stratifié.

    IV.2.2.4. Echantillonnage à plusieurs degrés.

    La population W est divisée en sous-populations appelées unités primaires.
    Chaque unité primaire est divisée en unités secondaires, etc.
    Nous effectuons des tirages au hasard en cascade : nous tirons des unités primaires ; dans chaque unité primaire, nous tirons une unité secondaire, etc.

    Exemple.

    L'INSEE effectue des échantillonnages à quatre niveaux : départements, cantons, communes, ménages.

    Cette méthode permet une exécution rapide.
    Elle est économique, car elle focalise les tirages.

    La méthode de tirage au hasard à chaque niveau peut varier suivant le cas, par exemple tirage proportionnel aux unités qu'il contient, ou tirage équiprobable.
    Nous disons alors que nous pouvons avoir des tirages avec probabilités inégales.

    Cas particulier : tirage par grappes.

    Nous choisissons des grappes pour lesquelles nous gardons tous les "grains", ou individus.
    Une "grappe" est un groupe d'individus de même nature.

    Exemple : ménages d'un même immeuble.

    IV.2.2.5. Conclusion.

    En pratique, les diverses méthodes aléatoires peuvent être mêlées pour améliorer le rendement.
    Pour chacune d'elle, nous pourrons varier les critères de tirage au hasard de chaque individu : avec remise, sans remise, avec des probabilités égales ou inégales.

    IV.3. ESTIMATION DES PARAMETRES.

    IV.3.1. Notion de paramètre.

    Nous considérons une population W de taille finie N.
    Dans cette population, nous étudions un caractère quantitatif réel prenant les valeurs réelles xi, i Î {1, ... N}.
    La fonction de répartition empirique FN (x) est une fonction en escalier.
    La variable statistique représentant le caractère étudié peut être une variable quantitative discrète ou continue.

    Le problème est de modéliser la fonction de répartition empirique FN (x), par la fonction de répartition F (x) d'une variable aléatoire X, discrète ou continue suivant le cas, vérifiant F(xi) = FN (xi), i Î {1, ... N}.

    Nous dirons que F (x) définit la loi de référence associée à une population hypothétique infinie, dite population de référence.

    La population W est appelée la population-mère.

    La connaissance de la loi de référence du caractère étudié est d'un grand intérêt pour la déduction statistique.
    Elle constitue un modèle mathématique du phénomène étudié.
    Cette distribution théorique peut dépendre d'un certain nombre de paramètres inconnus.

    Les sondages permettent d'estimer deux types de paramètres :

    IV.3.2. Notion d'estimateur d'un paramètre de W.

    IV.3.2.1. Estimateur et estimation ponctuelle.

    Soit X un caractère quantitatif de la population W.
    Ce caractère prend les valeurs inconnues xi, i Î {1, ... N}.
    Un résumé de l'ensemble des valeurs {x1, ... , xN} peut être défini par un ou plusieurs paramètres de W (moyenne, variance, proportion, etc.).

    Soit y un tel paramètre de la population W.

    Lorsque nous extrayons de la population un échantillon aléatoire simple E de taille n, nous pouvons calculer, avec les valeurs {x1, ... , xn} prises par X dans l'échantillon, une estimation ponctuelle de y, qui sera notée y*.

    Exemple.

    Si y est la moyenne µ = de X, nous obtiendrons une estimation ponctuelle µ* de la moyenne µ en prenant la moyenne arithmétique de l'échantillon :

    µ* = xi.

    La valeur observée y* n'est que l'une des valeurs possibles que l'on peut obtenir avec les divers échantillons possibles de taille n.
    En réalité, avec une population de N individus, il y a un certain nombre, mettons k, d'échantillons possibles Ej de taille n, j Î {1, ..., k} (k dépend de la méthode d'échantillonnage).
    Chaque échantillon possible Ej de taille n possède une certaine probabilité pj d'être tiré.
    A chaque échantillon possible Ej de taille n est associée une estimation ponctuelle yj* de y.
    A chaque estimation ponctuelle yj* de y est donc associée la probabilité pj d'être observée.

    Nous pouvons alors définir une variable aléatoire prenant, pour chaque échantillon possible Ej de taille n, la valeur yj* avec la probabilité pj.

    Cette variable aléatoire est appelée un estimateur du paramètre y.
    Les valeurs de sont les estimations ponctuelles de y.
    La loi de probabilité de s'appelle la distribution d'échantillonnage de .

    On appelle fluctuation d'échantillonnage, la variation des estimations ponctuelles de y et aléas d'échantillonnage les causes de ces variations.

    IV.3.2.2. Caractéristiques d'un estimateur.

    Il est logique de souhaiter que l'estimateur prenne des valeurs aussi voisines que possible de la valeur inconnue y que nous voulons estimer.
    Nous sommes conduits à définir un certain nombre de qualités que doit présenter un "bon" estimateur.

    a) Estimateur sans biais.

    Nous dirons que est un estimateur sans biais du paramètre y, si, et seulement si, son espérance mathématique est y.

    sans biais Û E () = y

    Cette propriété traduit le fait qu'en moyenne, sur tous les échantillons possibles, nous retrouvons la valeur du paramètre que nous voulons estimer.

    b) Estimateur robuste.

    L'estimateur d'un paramètre y possède une variance s² qui traduit la dispersion des valeurs de autour de son espérance mathématique.
    Cette variance dépend de la taille n de l'échantillon.
    Nous dirons que est un estimateur robuste, ou convergent, de y si la limite, lorsque n tend vers N de s² est nulle.

    robuste Û  s² = 0

    Cette propriété traduit le fait suivant : si nous connaissons la valeur prise par le caractère pour tous les individus de la population, la valeur de est la valeur exacte y du paramètre.

    Un estimateur correct est un estimateur sans biais et robuste.

    c) Estimateur asymptotiquement gaussien.

    Nous dirons qu'un estimateur d'un paramètre y est asymptotiquement gaussien si, et seulement si, il vérifie la propriété suivante :

     Lorsque n augmente indéfiniment, la fonction de répartition de tend uniformément vers la fonction de répartition d'une variable normale centrée réduite.

    En pratique, dès que n est supérieur ou égal à 30, nous admettrons que la fonction de répartition de peut être remplacée par la fonction de répartition de la variable normale centrée réduite.

    Lorsque n est suffisamment grand (en pratique n ³ 30), pour tout a Î [0, 1], le nombre réel positif ua donné par :

    F (ua) = 1 – , où F est la fonction de répartition de la variable normale centrée réduite,

    vérifie :

    P ua = 1 – a.

    En effet, comme la fonction de répartition de peut être remplacée par la fonction de répartition de la variable normale centrée réduite, dès que n est supérieur ou égal à 30, la symétrie de la loi normale donne :

    P ua = F (ua) – F (– ua) = F (ua) – (1 – F (ua)) = 2 F (ua) – 1 = 1 – a.

    Les valeurs de la fonction de répartition F sont données par des tables.

    Un estimateur CAG est un estimateur correct et asymptotiquement gaussien.

    d) Amélioration d'un estimateur.

    Etant donnés deux estimateurs 1 et 2 du même paramètre y, on dit que l'estimateur 1 est meilleur que l'estimateur 2 si l'espérance de (1y) ² est plus petite que l'espérance de (2y) ² .

    Ceci signifie simplement que l'on considère comme meilleur un estimateur dont les valeurs sont moins dispersées autour de la valeur de y.
    Dans l'absolu, le meilleur estimateur d'un paramètre est celui dont pour lequel l'espérance de (y) ² est la plus petite possible.
    Un estimateur sans biais dont la variance est minimale s'appelle un estimateur précis.
    Pour un estimateur précis, l'espérance E () est égale à y et la variance s² est minimale.

    IV.3.3. Notion d'intervalle de confiance.

    IV.3.3.1. Introduction.

    Considérons un échantillon aléatoire simple E, de taille n, extrait de la population W (tirages au sort équiprobables, sans remise).
    Dans cet échantillon, le caractère étudié prend les valeurs {x1, ... , xn}.
    Nous pouvons considérer la valeur prise par le caractère étudié pour l'individu i de l'échantillon comme la valeur prise par une variable aléatoire X.
    L'ensemble des valeurs {x1, ... , xn} apparaît alors comme le résultat de n épreuves indépendantes sur la même variable aléatoire.
    L'estimateur d'un paramètre y apparaît alors comme une fonction de n variables aléatoires indépendantes Xi, i Î {1, ... , n}, de même loi de probabilité, qui est la loi de probabilité de X.
    X s'appelle la variable parente.

    La connaissance de la loi de probabilité de X permet de calculer la loi de probabilité de .
    La variable aléatoire centrée réduite correspondant à , possède une espérance mathématique nulle et une variance égale à 1.

    Exemple 1.

    Nous étudions la taille des individus d'une population d'effectif N.
    Pour cela nous extrayons un échantillon aléatoire simple et indépendant d'effectif n.
    Soit µ la moyenne de la taille des individus de la population.
    Soit X la variable aléatoire "taille d'un individu" : à chaque individu de l'échantillon est associé une variable aléatoire indépendante "taille" Xi qui a la même loi de probabilité que la variable parente X.
    L'estimateur

      = = Xi

    de la taille moyenne µ dans la population, a, pour valeur dans l'échantillon, la moyenne arithmétique des tailles des individus de l'échantillon.
    Cet estimateur possède une loi de probabilité qui peut être calculée en fonction de la loi de probabilité de X.

    Exemple 2.

    Soit s ² la variance de la taille des individus de la population.
    Soit X la variable aléatoire "taille d'un individu" : à chaque individu de l'échantillon est associé une variable aléatoire indépendante "taille" Xi qui a la même loi de probabilité que la variable parente X.
    L'estimateur

     ² = Xi² – Xi

    de la variance s ² de la taille dans la population, a, pour valeur dans l'échantillon, S ² (X) où S ² (X) est la variance des tailles des individus de l'échantillon (variance d'échantillonnage).
    Cet estimateur possède une loi de probabilité qui peut être calculée en fonction de la loi de probabilité de X.

    IV.3.3.2. Intervalle de confiance pour les grands échantillons.

    Si est un estimateur correct et asymptotiquement gaussien (estimateur CAG) d'un paramètre y, avec E () = y, la relation

    P ua = 1 – a

    s'écrit :

    P (ua s µ + ua s) = 1 – a.

    L'événement ua s µ + ua s a donc une probabilité 1 – a de se réaliser lorsqu'on choisit au hasard un échantillon de taille n ³ 30.
    Autrement dit, dans la population, la proportion des échantillons de taille n ³ 30 pour lesquels l'événement ua s µ + ua s est réalisé est 1 – a.
    Autrement dit encore, étant donné un échantillon de taille n ³ 30, choisi au hasard, la probabilité de réalisation de l'événement ua s µ + ua s est 1 – a.
    Or, pour un échantillon de taille n choisi au hasard, prend la valeur y* et s une valeur s, de sorte que ua s prend une valeur

    y1 = y* – ua s

    et + ua s prend la valeur

    y2 = y* + ua s

    L'intervalle

     [y1 ; y2] = [ y* – ua s ; y* + ua s ]

    dans lequel la taille n de l'échantillon est supérieure ou égale à 30 et F (ua) = 1 – ,
    s'appelle l'intervalle de confiance de y au risque a, ou intervalle de confiance de y au niveau de confiance 1 – a.

    C'est un intervalle dans lequel la probabilité de trouver la vraie valeur de y est 1 – a.

    Plus a est grand, plus l'amplitude de l'intervalle de confiance est petite, puisque F est une fonction croissante.
    Dans la pratique, en l'absence de précision contraire, nous conviendrons de prendre a = 5 %.

    Plus n est grand, plus la valeur de s² a des chances d'être proche de 0, donc plus la valeur de a des chances d'être proche de y.
    Nous pourrons ainsi calculer la valeur de n qui permet d'avoir un intervalle de confiance d'amplitude donnée.

    Les valeurs à retenir de la fonction de répartition de la variable aléatoire normale centrée réduite sont, pour F (ua) = 1 – :
         — F (1,645) = 0,950, soit u0,10 = 1,645.
         — F (1,960) = 0,975, soit u0,05 = 1,960.
         — F (2,575) = 0,995, soit u0,01 = 2,575.
    Ces valeurs donnent les intervalles de confiance aux niveaux de confiance 90 %, 95 %, 99 %.
    La valeur utilisée par défaut est u0,05 = 1,960.