MASS UE22 – Henri IMMEDIATO
Cours de Probabilité et Statistique

PROBABILITE - STATISTIQUE


Chapitre II - REGRESSION MULTIPLE.

II. 1. POSITION ET RESOLUTION DU PROBLEME.

II.1.1. Position du problème.

Considérons trois variables statistiques réelles centrées X0, Y0, Z0, définies par n triplets (x0i, y0i, z0i), i Î [1, n].
Nous considérons Z0 comme la variable à expliquer et X0 et Y0 comme les variables explicatives.
Nous supposons que les observations laissent à penser que le nuage de points dans 3 pourrait être modélisé par un plan.
Le problème de la régression linéaire multiple de Z0 en X0 et Y0 consiste à trouver un prédicteur

0 = a X0 + b Y0

de Z0, tel que le nuage de points (x0i, y0i, 0i = a x0i + b y0i), i Î [1, n], soit aussi proche possible du nuage de points (x0i, y0i, z0i), i Î [1, n], au sens des moindres carrés.

L'approche euclidienne de ce problème dans n consiste à trouver un 0 = a X0 + b Y0 Î n tel que S ² = || Z00 || soit minimum.

Le problème est donc de trouver, dans n, un vecteur 0 du plan (= sous-espace vectoriel de dimension 2) P défini par X0 et Y0, tel que le vecteur Z00 ait une longueur minimum (au sens du produit scalaire défini par la matrice des poids D).

La solution sera fournie par le projeté orthogonal 0 de Z0 sur P.

II.1.2. Projeté orthogonal sur un plan.

a) Définition.

Si nous connaissons une base orthonormée { u1, u2 } d'un sous-espace vectoriel P de dimension 2, défini dans n par les deux vecteurs X0 et Y0, nous savons calculer le projeté orthogonal de Z0 sur u1, c'est le vecteur u1 = < Z0 | u1 > u1 et nous savons calculer aussi le projeté orthogonal < Z0 | u2 > u2 de Z0 sur u2.

On appelle projeté orthogonal de Z0 sur P. l'unique vecteur 0 de P tel que Z00 soit orthogonal à P.

Un tel vecteur existe et est unique.

Démonstration.

Notons 0 le vecteur < Z0 | u1 > u1 + < Z0 | u2 > u2, somme des projetés orthogonaux de Z0 sur les vecteurs u1 et u2.

< Z00 | u1 > = < Z0 | u1 > – < 0 | u1 >
     = < Z0 | u1 > – < < Z0 | u1 > u1 + < Z0 | u2 > u2 | u1 >
     = < Z0 | u1 > – < Z0 | u1 > < u1 | u1 >+ < Z0 | u2 > < u2 | u1 >
     = < Z0 | u1 > – < Z0 | u1 >
     = 0

< Z00 | u2 > = < Z0 | u2 > – < 0 | u2 >
     = < Z0 | u2 > – < < Z0 | u1 > u1 + < Z0 | u2 > u2 | u2 >
     = < Z0 | u2 > – < Z0 | u1 > < u1 | u2 >+ < Z0 | u2 > < u2 | u2 >
     = < Z0 | u2 > – < Z0 | u2 >
     = 0

Ainsi, Z00 est orthogonal à u1 et à u2, il est donc orthogonal à toute combinaison linéaire de u1 et u2, c'est-à-dire à tout élément de P : on dit qu'il est orthogonal à P.

Le projeté orthogonal de 0 sur u1 est

< 0 | u1 > u1 = < Z0 | u1 > u1.

Le projeté orthogonal de 0 sur u2 est

< 0 | u2 > u2 = < Z0 | u2 > u2.

Nous pouvons donc écrire :

0 = < Z0 | u1 > u1 + < Z0 | u2 > u2 = < 0 | u1 > u1 + < 0 | u2 > u2.

Réciproquement, si Z est un vecteur de P tel que Z0Z soit orthogonal à P, nous avons :

Z = < Z | u1 > u1 + < Z | u2 > u2 = < Z0 | u1 > u1 + < Z0 | u2 > u2 = 0.

Le vecteur :

0 = < Z0 | u1 > u1 + < Z0 | u2 > u2

est donc l'unique vecteur de P tel que Z00 soit orthogonal à P : c'est, par définition, le projeté orthogonal de Z0 sur P.

La relation :

0 = < 0 | u1 > u1 + < 0 | u2 > u2

signifie que le projeté orthogonal de 0 sur le plan P est 0.

b) Propriété du projeté orthogonal.

Le projeté orthogonal de Z0 sur P est le vecteur Z de P, qui minimise la quantité || Z0Z ||.

Démonstration.

Soit Z un vecteur appartenant au sous-espace P.
Soit 0 = < Z0 | u1 > u1 + < Z0 | u2 > u2 le projeté orthogonal de Z0 sur P.

|| Z0Z || = || Z00 + 0Z ||

Or Z00 est orthogonal à P, donc orthogonal à tout élément de P, donc Z00 est orthogonal à 0 et à Z, donc aussi à 0Z.
Le théorème de Pythagore s'applique :

|| Z00 + 0Z || = || Z00 || + || 0Z ||
|| Z0Z || = || Z00 || + || 0Z ||

Cette relation montre que || Z0Z || atteint sa valeur minimum || Z00 || lorsque Z = 0.

Notre problème initial se trouve résolu :

 Le prédicteur 0 = a X0 + b Y0 de Z0 qui rend minimum la quantité S ² = || Z00 || est le projeté orthogonal de Z0 dans le plan P défini par X0 et Y0.

La seule chose qu'il nous reste à faire dans la suite, est d'expliciter ce projeté orthogonal en fonction des données (x0i, y0i, z0i), i Î [1, n].

II.1.3. Choix d'une base orthonormée { u1, u2 }.

Dans le plan P défini par X0 et Y0, nous pouvons définir un premier vecteur normé u1 par :

u1 = = .

On a, en effet : s ² (X) = || X0 || .

Le projeté orthogonal de Y0 sur X0 est X0 et Y0X0 est orthogonal à X0.
Le carré de sa norme est donné par :

Y0X0 = || Y0 || + || X0 || . – 2 < Y0 | X0 >
     = s ² (Y) – s ² (Y) = s ² (Y) (1 – rXY²) =

On peut donc prendre dans le plan P, pour vecteur normé u2 orthogonal à u1, le vecteur :

u2 = Y0 X0 = Y0 X0

 Les vecteurs :
     u1 =
     u2 = Y0 X0

forment une base orthonormée du plan P défini par X0 et Y0.

II.1.4. Calcul du projeté orthogonal de Z0.

Soit

0 = < Z0 | u1 > u1 + < Z0 | u2 > u2

le projeté orthogonal de Z0 sur P.

La première composante est le projeté orthogonal de Z0 sur u1 :

< Z0 | u1 > u1 = < Z0 | > = X0

C'est aussi le projeté orthogonal de Z0 sur X0.

La deuxième composante est le projeté orthogonal de Z0 sur u2 :

< Z0 | u2 > u2 = < Z0 | Y0 X0 > Y0 X0
     = < Z0 | Y0 > < Z0 | X0 >Y0 X0
     = Y0 X0

Au total, nous obtenons :

0 = X0 + Y0 X0
     = Cov (X, Z) – Cov (X, Y) X0 + Y0
     = X0 + Y0

 0 = X0 + Y0

Cette expression est symétrique en X et Y.
On sait calculer les quantités qui interviennent dans cette expression en fonction des données (x0i, y0i, z0i), i Î [1, n].
On commence par calculer la matrice des variances-covariances :

A = =

Formellement, la relation 0 = X0 + Y0 peut se mémoriser comme un "déterminant" :

= 0

On a remplacé la dernière colonne de la matrice des variances-covariances par .

II.2. COEFFICIENT DE CORRELATION MULTIPLE.

II.2.1. Définition.

Nous connaissons déjà les formules donnant les coefficients de corrélation linéaire entre deux variables :

rXY = = ; rXZ = ; rYZ = .

Les coefficients de X0 et Y0 dans l'expression de 0 deviennent :

= = × =

et, en échangeant X et Y :

=

En reportant, dans l'expression de 0, les expressions obtenues pour les coefficients, on obtient :

0 = X0 + Y0
= +

Les vecteurs et sont normés pour le produit scalaire de n : || X0 || = s ² (X) et || Y0 || = s ² (Y).

= = + + 2
     = rXZ² + rXY² rYZ² – 2 rXY rXZ rYZ + rYZ² + rXY² rXZ² – 2 rXY rXZ rYZ + 2 rXY (rXZ rYZrXY rXZ² – rXY rYZ² + rXY² rXZ rYZ)
     = rXZ² + rXY² rYZ² – 2 rXY rXZ rYZ + rYZ² + rXY² rXZ² – 2 rXY rXZ rYZ + 2 rXY rXZ rYZ – 2 rXY² rXZ² – 2 rXY² rYZ² + 2 rXY³ rXZ rYZ)
     = rXZ² + rXY² rXZ² – 2 rXY² rXZ² + rYZ² + rXY² rYZ² – 2 rXY² rYZ² – 2 rXY rXZ rYZ – 2 rXY rXZ rYZ + 2 rXY rXZ rYZ + 2 rXY³ rXZ rYZ)
     = rXZ² – rXY² rXZ² + rYZ² – rXY² rYZ² – 2 rXY rXZ rYZ + 2 rXY³ rXZ rYZ)
     = rXZ² (1 – rXY²) + rYZ² (1 – rXY²) – 2 rXY rXZ rYZ (1 – rXY²)
     = rXZ² + rYZ² – 2 rXY rXZ rYZ

Le coefficient :

 R Z | XY =

s'appelle le coefficient de corrélation linéaire multiple de Z en X, Y.

La variance du prédicteur de Z est donnée par :

s ² () = || 0 || = R Z | XY ² s ² (Z)

II.2.2. Propriétés.

a) Validité du prédicteur de Z.

La variance de Z s'écrit :

s ² (Z) = s ² (Z0) = || Z0 || = || Z00 + 0 || = || Z00 || + || 0 ||

Or || Z00 || est la valeur minimum de la quantité S ² = || Z0 || pour les Î P : || Z00 || = S ²min, c'est la variance "résiduelle", donc

s ² (Z) = S ²min + R Z | XY ² s ² (Z)

On retrouve la même formule de décomposition de la variance que pour la régression linéaire : la variance de Z est la somme de la variance expliquée R Z | XY ² s ² (Z) par la régression linéaire multiple, et de la variance résiduelle S ²min = (1 – R Z | XY ²) s ² (Z).

Plus le coefficient R Z | XY ² est proche de 1, plus la part de variance de Z expliquée par la régression linéaire multiple en X et Y est grande, donc meilleur est le prédicteur linéaire 0.
La validité du prédicteur 0 est mesurée par le coefficient R Z | XY ².

b) Calcul pratique du coefficient de corrélation linéaire multiple.

En pratique, le calcul du coefficient de corrélation linéaire multiple R Z | XY s'effectue de la façon suivante :

— On calcule la matrice des corrélations de X et Y à partir de la matrice VXY = des données (X, Y) réduites :

C XY = = = tVXY D VXY.

— On calcule l'inverse de cette matrice des corrélations :

C =

— La matrice des coefficients de corrélation linéaire de X et Y avec Z, peut se calculer à partir de la matrice VXY et de la variable centrée réduite VZ = par la formule :

= = tVXY D VZ.

— Le coefficient de corrélation linéaire multiple R Z | XY est donné par la formule :

R Z | XY ² = rXZ² + rYZ² – 2 rXY rXZ rYZ = (rXZ   rYZ) C

formule que l'on peut écrire directement en fonction des données centrées réduites :

 R Z | XY ² = tVXY D VZ tVXY D VXY tVXY D VZ.

Remarquons, à l'usage des débutants, qu'il ne faudrait pas écrire :

tVXY D VXY = VXY –1 D –1 tVXY –1

puisque la matrice VXY, à n lignes et 2 colonnes, n'est pas inversible, alors que la matrice produit C = tVXY D VXY, à 2 lignes et 2 colonnes, est inversible.

II.2.3. Application : technique de la régression pas à pas.

Pour connaître le rôle de chacune des variables explicatives, on calcule les coefficients de détermination rXZ² et rYZ² et le coefficient R Z | XY ².
Chacun de ces coefficients représente le pourcentage de variance de Z restitué par le prédicteur correspondant.
On conservera, pour prédicteur de Z le modèle qui restituera significativement le meilleur résultat :

0 = c X0
0 = d Y0
0 = a X0 + b Y0.

La théorie de la régression multiple que nous venons d'exposer dans le cas de deux variables explicatives peut se généraliser au cas de p variables explicatives, avec p > 2.