|
MASS UE22 Henri IMMEDIATO Cours de Probabilité et Statistique |
Considérons trois variables statistiques réelles
centrées X0, Y0, Z0,
définies par n triplets (x0i,
y0i, z0i), i Î
[1, n].
Nous considérons Z0
comme la variable à expliquer et X0
et Y0 comme les variables
explicatives.
Nous supposons que les observations laissent à penser que
le nuage de points dans
3 pourrait être modélisé
par un plan.
Le problème de la régression linéaire multiple
de Z0 en X0 et Y0
consiste à trouver un prédicteur
de Z0, tel que le
nuage de points (x0i,
y0i,
0i = a x0i
+ b y0i),
i Î [1, n], soit
aussi proche possible du nuage de points (x0i,
y0i, z0i), i Î
[1, n], au sens des moindres carrés.
L'approche euclidienne de ce problème dans
n consiste à trouver un
0
= a X0 + b
Y0 Î
n
tel que S ² = || Z0
0
||
soit minimum.
Le problème est donc de trouver, dans
n, un vecteur
0 du plan (= sous-espace vectoriel de
dimension 2) P défini par X0 et Y0,
tel que le vecteur Z0
0
ait une longueur minimum (au sens du produit scalaire défini
par la matrice des poids D
).
La solution sera fournie par le projeté orthogonal
0
de Z0 sur P.
Si nous connaissons une base orthonormée { u1, u2
} d'un sous-espace vectoriel P de dimension
2, défini dans
n par les deux vecteurs X0 et Y0,
nous savons calculer le projeté orthogonal de Z0 sur u1,
c'est le vecteur
u1 = < Z0
| u1 >
u1 et nous savons calculer
aussi le projeté orthogonal < Z0
| u2 >
u2 de Z0 sur u2.
On appelle projeté orthogonal de Z0 sur P. l'unique
vecteur
0
de P tel que Z0
0
soit orthogonal à P.
Un tel vecteur existe et est unique.
Démonstration.
Notons
0 le vecteur < Z0
| u1 >
u1 + < Z0 | u2
>
u2, somme des projetés orthogonaux
de Z0 sur les vecteurs
u1 et u2.
< Z0
0 | u1
>
= < Z0 | u1
>
<
0
| u1 >![]()
= < Z0
| u1 >
< < Z0 |
u1 >
u1 + < Z0 | u2
>
u2 | u1
>![]()
= < Z0
| u1 >
< Z0 | u1 >
< u1 | u1 >
+
< Z0 | u2 >
< u2 | u1 >![]()
= < Z0
| u1 >
< Z0 | u1 >![]()
= 0
< Z0
0
| u2 >
= < Z0 | u2 >
<
0 | u2
>![]()
= < Z0
| u2 >
< < Z0 |
u1 >
u1 + < Z0 | u2
>
u2 | u2
>![]()
= < Z0
| u2 >
< Z0 | u1 >
< u1 | u2 >
+
< Z0 | u2 >
< u2 | u2 >![]()
= < Z0
| u2 >
< Z0 | u2 >![]()
= 0
Ainsi, Z0
0
est orthogonal à u1
et à u2, il est
donc orthogonal à toute combinaison linéaire de
u1 et u2, c'est-à-dire à tout élément
de P : on dit qu'il est orthogonal
à P.
Le projeté orthogonal de
0 sur u1
est
Le projeté orthogonal de
0 sur u2
est
Nous pouvons donc écrire :
Réciproquement, si Z est un vecteur de P tel que Z0 Z soit orthogonal à P, nous avons :
Le vecteur :
est donc l'unique vecteur de P tel
que Z0
0 soit orthogonal à P
: c'est, par définition, le projeté orthogonal de
Z0 sur P.
La relation :
signifie que le projeté orthogonal de
0 sur le plan P
est
0.
Le projeté orthogonal de Z0
sur P est le vecteur Z de P, qui minimise la quantité || Z0 Z ||
.
Démonstration.
Soit Z un vecteur appartenant au sous-espace P.
Soit
0
= < Z0 | u1 >
u1 + < Z0 | u2
>
u2 le projeté orthogonal de Z0 sur P.
Or Z0
0
est orthogonal à P, donc orthogonal
à tout élément de P,
donc Z0
0
est orthogonal à
0 et à Z, donc aussi à
0
Z.
Le théorème de Pythagore s'applique :
Cette relation montre que || Z0
Z ||
atteint
sa valeur minimum || Z0
0
||
lorsque Z
=
0.
Notre problème initial se trouve résolu :
|
|
La seule chose qu'il nous reste à faire dans la suite, est d'expliciter ce projeté orthogonal en fonction des données (x0i, y0i, z0i), i Î [1, n].
Dans le plan P défini par X0 et Y0, nous pouvons définir un premier vecteur normé u1 par :
= On a, en effet : s ² (X) = || X0 ||
.
Le projeté orthogonal de Y0
sur X0 est
X0 et Y0
X0 est orthogonal à X0.
Le carré de sa norme est donné par :
Y0
X0 ![]()
![]()
= || Y0 ||
+ ![]()

![]()
|| X0 ||
. 2
<
Y0 | X0 >![]()
= s ² (Y)
s ² (Y) ![]()
![]()
![]()
= s ²
(Y) (1 rXY²)
= ![]()
On peut donc prendre dans le plan P, pour vecteur normé u2 orthogonal à u1, le vecteur :
|
Les vecteurs : forment une base orthonormée du plan P défini par X0 et Y0. |
Soit
le projeté orthogonal de Z0 sur P.
La première composante est le projeté orthogonal de Z0 sur u1 :
C'est aussi le projeté orthogonal de Z0 sur X0.
La deuxième composante est le projeté orthogonal de Z0 sur u2 :
< Z0 | u2 >
u2 = < Z0 | ![]()
Y0
X0
>
![]()
Y0
X0![]()
= ![]()
< Z0 | Y0
>
< Z0 | X0 >![]()
![]()
Y0
X0![]()
= ![]()
Y0
X0![]()
Au total, nous obtenons :
0
=
X0 + ![]()
Y0
X0![]()
= ![]()
Cov (X,
Z)
Cov
(X, Y)
X0 +
Y0
=
X0 +
Y0
|
|
Cette expression est symétrique en X et Y.
On sait calculer les quantités qui interviennent dans cette
expression en fonction des données (x0i, y0i,
z0i), i
Î [1, n].
On commence par calculer la matrice des variances-covariances
:

= 
Formellement, la relation
0 =
X0 +
Y0 peut se mémoriser
comme un "déterminant" :
= 0On a remplacé la dernière colonne de la matrice
des variances-covariances par
.
Nous connaissons déjà les formules donnant les coefficients de corrélation linéaire entre deux variables :
Les coefficients de X0
et Y0 dans l'expression
de
0
deviennent :
et, en échangeant X et Y :
En reportant, dans l'expression de
0, les expressions obtenues pour les coefficients,
on obtient :
Les vecteurs
et
sont normés
pour le produit scalaire de
n : || X0
||
= s ²
(X) et || Y0 ||
= s ² (Y).
=
= ![]()
![]()
![]()
+ ![]()
![]()
![]()
+ 2 ![]()
![]()
![]()
= ![]()
rXZ² + rXY²
rYZ²
2 rXY rXZ rYZ
+ rYZ² +
rXY² rXZ² 2 rXY rXZ
rYZ + 2 rXY (rXZ
rYZ rXY rXZ²
rXY rYZ² + rXY²
rXZ rYZ)![]()
= ![]()
rXZ² + rXY²
rYZ²
2 rXY rXZ rYZ
+ rYZ² +
rXY² rXZ² 2 rXY rXZ
rYZ + 2 rXY rXZ
rYZ 2 rXY² rXZ²
2 rXY²
rYZ² + 2
rXY³ rXZ rYZ)![]()
= ![]()
rXZ² + rXY²
rXZ²
2 rXY² rXZ² + rYZ²
+ rXY² rYZ² 2 rXY² rYZ²
2 rXY rXZ rYZ
2 rXY rXZ rYZ
+ 2 rXY rXZ rYZ
+ 2 rXY³
rXZ rYZ)![]()
= ![]()
rXZ² rXY² rXZ²
+ rYZ²
rXY² rYZ² 2 rXY rXZ
rYZ + 2 rXY³ rXZ
rYZ)![]()
= ![]()
rXZ² (1 rXY²) + rYZ² (1 rXY²) 2 rXY rXZ
rYZ (1
rXY²)![]()
= ![]()
rXZ² + rYZ²
2 rXY rXZ rYZ![]()
Le coefficient :
|
R Z | XY
= |
s'appelle le coefficient de corrélation linéaire multiple de Z en X, Y.
La variance du prédicteur de Z est donnée par :
La variance de Z s'écrit :
Or || Z0
0
||
est la valeur minimum
de la quantité S ² = || Z0
||
pour les
Î P
: || Z0
0
||
= S ²min, c'est la variance "résiduelle",
donc
On retrouve la même formule de décomposition de la variance que pour la régression linéaire : la variance de Z est la somme de la variance expliquée R Z | XY ² s ² (Z) par la régression linéaire multiple, et de la variance résiduelle S ²min = (1 R Z | XY ²) s ² (Z).
Plus le coefficient R Z
| XY ² est proche de 1, plus la part
de variance de Z expliquée par la régression
linéaire multiple en X et Y est grande, donc
meilleur est le prédicteur linéaire
0.
La validité du prédicteur
0 est mesurée par le coefficient
R Z | XY
².
En pratique, le calcul du coefficient de corrélation linéaire multiple R Z | XY s'effectue de la façon suivante :
On calcule la matrice des corrélations
de X et Y à partir de la matrice VXY =
des données (X, Y) réduites :

= tVXY D On calcule l'inverse de cette matrice des corrélations :
La matrice des coefficients de corrélation
linéaire de X et Y avec Z, peut
se calculer à partir de la matrice VXY et de la variable centrée
réduite VZ
=
par la formule
:

Le coefficient de corrélation linéaire multiple R Z | XY est donné par la formule :
formule que l'on peut écrire directement en fonction des données centrées réduites :
|
R Z | XY
² = |
Remarquons, à l'usage des débutants, qu'il ne faudrait pas écrire :
puisque la matrice VXY,
à n lignes et 2 colonnes, n'est pas inversible,
alors que la matrice produit C = tVXY D
VXY, à
2 lignes et 2 colonnes, est inversible.
Pour connaître le rôle de chacune des variables
explicatives, on calcule les coefficients de détermination
rXZ² et rYZ² et le coefficient R Z | XY ².
Chacun de ces coefficients représente le pourcentage de
variance de Z restitué par le prédicteur
correspondant.
On conservera, pour prédicteur de Z le modèle
qui restituera significativement le meilleur résultat :
0 = c X0
0 = d Y0
0 = a X0 + b Y0.
La théorie de la régression multiple que nous venons d'exposer dans le cas de deux variables explicatives peut se généraliser au cas de p variables explicatives, avec p > 2.