Chapitre 8. Loi hypergéométrique.


Enoncés.

Exercice 2. Note d'examen d'un étudiant qui fait des impasses.

Un examen se déroule sous forme d'un questionnaire à choix multiple (Q.C.M.) où on pose 20 questions. Chaque question comporte quatre réponses possibles, dont une et une seule est la bonne. Une réponse juste compte 1 point, sinon zéro.
On suppose que le programme de l'examen comporte 100 questions dont on tirera aléatoirement les 20 de l'examen.
Un candidat étudie une proportion p du programme.

1°/ Ecrire la loi de probabilité de la note N du candidat ?
2°/ Calculer l'espérance mathématique E (N) et la variance Var (N).

 

Solution.

1°/ Loi de probabilité de N.

La note N est le nombre de questions auxquelles le candidat donne une bonne réponse.
Il donne une bonne réponse quand il connaît le sujet (la question fait partie des 100 p questions qu'il a étudiées) ou quand il a de la chance (pour chaque question qu'il n'a pas étudiée, il a une chance sur quatre de donner la bonne réponse en répondant au hasard).

Parmi les 20 questions, un certain nombre X fait partie des 100 p questions étudiées et fournit automatiquement X points.
Les 20 questions sont tirées, évidemment sans remise, parmi les 100 possibles.
La loi de X est donc une loi hypergéométrique de paramètres 100, 20, p :

P (X = m) = , 0 £ m £ 20.

Un certain nombre de réponses pourront être devinées par le jeu du hasard parmi les 20 – X questions non révisées, soit Y ce nombre.
A chaque question non révisée est associée une variable de Bernoulli de paramètre .
Lorsque X = m est fixé, la loi de Y, somme de 20 – m variables de Bernoulli indépendantes de même paramètre, est une loi binomiale de paramètres 20 – m et .

P (Y = n | X = m) = , 0 £ n £ m £ 20.

La loi de N = X + Y s'obtient à partir des deux précédentes :

P (N = n) = P (X = m et Y = nm) = P (Y = n – m | X = m) P (X = m)

 P (N = n) =

2°/ Espérance mathématique et variance de N.

La loi de probabilité de N est difficilement manipulable.
On utilisera ici le théorème de l'espérance conditionnelle et le théorème de la variance conditionnelle.

Montrons d'abord quelques résultats relatifs à la variable hypergéométrique.

Lemme 1 : espérance de la variable hypergéométrique.

Si la loi de probabilité de X est donnée par :

P (X = k) = (loi hypergéométrique de paramètres N, n, p = ),

alors l'espérance de X est :

 E (X) = n p = n .

Démonstration du lemme 1.

X peut être considéré comme le nombre d'individus possédant un certain caractère A, dans un échantillon exhaustif de taille n tiré au hasard dans une population de taille N contenant n 1 = p N individus possédant le caractère A.
X est la somme de n variables de Bernoulli X 1, ... , X n, correspondant aux tirages exhaustifs (= sans remise) successifs des n individus de l'échantillon dans la population de taille N.

X = X 1 + ... + X n

Comme la proportion d'individus possédant le caractère A dans la population est p = , la probabilité de l'événement X 1 = 1 est égale à p = et X 1 est une variable de Bernoulli de paramètre p.

P (X 2 = 1) = P (X 2 = 1 | X 1 = 0) × P (X 1 = 0) + P (X 2 = 1 | X 1 = 1) × P (X 1 = 1)
          = × + × = (Nn 1 + n 1 – 1) =

et X 2 est une variable de Bernoulli de paramètre p.

P (X 3 = 1) = P (X 3 = 1 | X 1 + X 2 = 0) × P (X 1 + X 2 = 0) + P (X 3 = 1 | X 1 + X 2 = 1) × P (X 1 + X 2 = 1) + P (X 3 = 1 | X 1 + X 2 = 2) × P (X 1 + X 2 = 2)

Or X 1 + X 2 suit une loi hypergéométrique de paramètres N, 2 et p = , de sorte qu'il vient :

P (X 1 + X 2 = 0) = =
P (X 1 + X 2 = 1) = =
P (X 1 + X 2 = 2) = =

P (X 3 = 1) = × + × + ×

= [(Nn 1)(Nn 1 – 1) + 2 (n 1 – 1)(Nn 1) + (n 1 – 1)(n 1 – 2) ]
= [ (Nn 1)(Nn 1 – 1 + 2 (n 1 – 1)) + (n 1 – 1)(n 1 – 2) ]
= [ (Nn 1)(N + n 1 – 3) + (n 1 – 1)(n 1 – 2) ]
= [ N ² – n 1 ² – 3 N + 3 n 1 + n 1 ² – 3 n 1 + 2 ]
= [ N ² – 3 N + 2 ]
= [ (N – 1)(N – 2) ]
=

et X3 est une variable de Bernoulli de paramètre p.

De même, on peut montrer que chacune des variables de Bernoulli X1, ... , Xn, possède le même paramètre p.
On a donc :

E (X) = E (X 1 + ... + X n) = n p.

Lemme 2 : variance de la variable hypergéométrique.

Si la loi de probabilité de X est donnée par :

P (X = m) = (loi hypergéométrique de paramètres N, n, p = ),

alors la variance de X est :

 Var (X) = n p (1 – p) = n

Démonstration du lemme 2.

X peut être considéré comme le nombre d'individus possédant un certain caractère A, dans un échantillon exhaustif de taille n tiré au hasard dans une population de taille N contenant n 1 = p N individus possédant le caractère A.
X est la somme de n variables de Bernoulli X 1, ... , X n, correspondant aux tirages exhaustifs (= sans remise) successifs des n individus de l'échantillon dans la population de taille N.

X = X 1 + ... + X n

Les variables X 1, ... , X n, ont toutes pour paramètre p, mais elles ne sont pas indépendantes.
La covariance de X i et X j est :

Cov (X i, X j) = E (X i X j) – E (X i) E (X j)

= P (X i X j = 1) – P (X i = 1) P (X j = 1)
= P (X i = 1 et X j = 1) – p ²
= P (X j = 1 | X i = 1) P (X i = 1) – p ²
= P (X j = 1 | X i = 1) pp ²

Or P (X j = 1 | X i = 1) ne dépend pas des indices i et j puisque toutes les variables X 1, ... , X n, ont pour paramètre p.
Donc P (X j = 1 | X i = 1) = P (X 2 = 1 | X 1 = 1) = et il vient :

Cov (X i, X j) = pp ²

=
= [ (n 1 – 1) Nn 1 ]
=

Var (X) = Var (å X i)

= å Var (X i) + 2 Cov (X i, X j)
= n p (1 – p) + 2 pp ²

Or il y a = façon de choisir le couple (i, j) avec i > j, donc :

Var (X) = n p (1 – p) + n (n – 1) pp ²

= n p (1 – p) + (n – 1) – (n – 1) p
= [(N – 1)(1 – p) + (n – 1)(p N – 1) – (n – 1) p (N – 1)]
= [(N – 1)(1 – p) + (n – 1)(p N – N + N – 1) – (n – 1) p (N – 1)]
= [(N – 1)((1 – p) + (n – 1) – (n – 1) p) – N (n – 1)(1 – p)]
= [(N – 1)((1 – p) + (n – 1)(1 – p)) – N (n – 1)(1 – p)]
= [ (N – 1) nN (n – 1) ]
= n p (1 – p)

a) Espérance de N.

E (N) = E (X + Y) = E (X) + E (Y) = E (X) + E [ E X (Y) ]

Or on connaît E (X) = 20 p (loi hypergéométrique) et E X (Y) = (20 – X) = 5 – X, il vient :

E [ E X (Y) ] = 5 – E (X)
E (N) = E (X) + 5 – E (X) = 5 + E (X) = 5 + × 20 p = 5 + 15 p = 5 (1 + 3 p)

 E (N) = 5 (1 + 3 p)

b) Variance de N.

Var (N) = E (Var X (N)) + Var (E X (N))

Var X (N) = Var X = k (N) = Var X = k (k + Y) = Var X = k (Y) = (20 – k) × = (20 – X) (loi binomiale)
E (Var X (N)) = E (20 – X) = E (X) = × 20 p = p = (1 – p)

E X (N) = E X = k (N) = E X = k (k + Y) = k + E X = k (Y) = k + (20 – k) = 5 + k = 5 + X
Var
(E X (N)) = Var (X) = 20 p (1 – p) = p (1 – p) (loi hypergéométrique)

Var (N) = (1 – p) + p (1 – p) = (1 – p) + p

 Var (N) = (1 – p) + p

Les formules donnant E (N) et Var (N) permettent de tracer le diagramme suivant, montrant la variation de N en fonction de p :

Sur ce diagramme, on lit, par exemple, qu'en apprenant 80 % des questions (p = 0,8), on a 95 % de chances d'avoir plus de 14 sur 20, alors qu'en apprenant rien (p = 0) et en répondant au hasard, on a 95 % de chances d'avoir entre1 et 9 sur 20.