MASS UE22 – Henri IMMEDIATO
Cours de Probabilité et Statistique

PROBABILITE - STATISTIQUE


Chapitre I - REGRESSION ORTHOGONALE DANS R².
(Suite)

I. 3. REGRESSION ORTHOGONALE. AXE PRINCIPAL.

Soit 2 l'espace des individus, muni du produit scalaire canonique et de la base canonique {e1, e2} qui, on l'a vu, est orthonormée pour ce produit scalaire.
Si aucune des variables statistiques, X ou Y ne peut s'interpréter par rapport à l'autre, il n'y a pas de raison de privilégier la régression linéaire de Y par rapport à X ou la régression linéaire de X par rapport à Y.
Nous sommes alors conduits à un autre point de vue, celui de la réduction des données.

1.3.1. Introduction.

Nous cherchons alors dans 2 une droite (D) qui minimise la somme S^ ² des carrés des distances des points du nuage de points à la droite.
La solution est donnée par la droite de régression orthogonale.

a) Calcul du terme constant a.

L'équation de la droite de régression orthogonale est de la forme y = a + b x.

b est la tangente de l'angle de la droite avec l'axe des abscisses : b = tan a.
|| Mi mi || ² = cos ² a (yiab xi) ² = (yiab xi) ²
En introduisant le point moyen (, ), on peut écrire :

|| Mi mi || ² = × (yib (xi) + (ab )) ²
     = × (yib (xi)) ² + (ab ) ² + 2 × (ab ) (yib (xi)

Les relations = yi et = xi entraînent que le dernier terme de la somme est nul.
Il reste :

|| Mi mi || ² = × (yib (xi)) ² + (ab ) ²

Quel que soit la valeur de b, cette somme sera la plus petite possible lorsque le deuxième terme est nul : = a + b .
Ce résultat signifie que le point moyen est sur la droite de régression orthogonale et que, lorsque b est connu, le terme constant a est donné par :

 a = b

Puisque le point moyen G = (, ) est sur la droite de régression orthogonale, nous le prendrons comme origine dans 2.
La droite de régression orthogonale a une équation de la forme

y0 = b x0,

avec y0 = y et x0 = x.

b) Analyse en composantes principales (ACP).

En fait, la forme de la relation précédente fait disparaître la symétrie initiale entre les rôles de X et Y : ce n'est pas sous cette forme que nous exprimerons l'équation de la droite (D) de régression orthogonale.

Etant donnée une droite (D) passant par l'origine G, on considère plutôt le vecteur unitaire de 2 orthogonal à la droite (D) :

u1 = , avec a ² + b ² = 1.

Le vecteur unitaire u porté par la droite (D) est u = .
La droite (D) est l'ensemble des points M = (x, y) vérifiant < u1 | > = 0, soit a x0 + b y0 = 0.

Etant donné un point Mi du nuage de points et sa projection orthogonale mi sur la droite D, le vecteur est le projeté orthogonal de sur le vecteur u : = < | u > u = (b xi0a yi0)

= = – (b xi0a yi0) = = = (a xi0 + b yi0)
|| || ² = (a xi0 + b yi0) ² (a b) = (a xi0 + b yi0) ² (a ² + b ²) = (a xi0 + b yi0) ²
|| Mi mi || ² = (a xi0 + b yi0) ² = < a X0 + b Y0 | D | a X0 + b Y0 > = || a X0 + b Y0 ||.

La recherche de la droite de régression orthogonale se ramène donc à une question que l'on peut envisager d'un double point de vue :

— soit rechercher, dans l'espace des individus 2, un vecteur unitaire u1 = , avec a ² + b ² = 1, qui minimise la somme

S^ ² = || Mi mi || ² = (a xi0 + b yi0) ²,

— soit rechercher, dans l'espace des variables n, un vecteur a X0 + b Y0, combinaison linéaire fictive des deux variables centrées X0 et Y0, avec a ² + b ² = 1, qui minimise || a X0 + b Y0 ||, c'est-à-dire un vecteur de l'hyperplan défini par X0 et Y0, de norme minimum pour le produit scalaire défini par la matrice diagonale D, sous la contrainte a ² + b ² = 1.

Sous la deuxième forme, la résolution du problème est appelée l'analyse en composantes principales.

1.3.2. Définitions.

Appellons Z la matrice des variables centrées,

a) Inertie totale.

On appelle inertie totale du nuage de points de 2 par rapport à l'origine G des axes, la quantité :

IT = || || ² = (xi0 ² + yi0 ²) = s ² (X) + s ² (Y).

b) Inertie statistique.

On appelle inertie statistique du nuage de points de 2 par rapport à une direction D de 2 définie par un vecteur unitaire u, la quantité :

IS (u) = || || ²

est le projeté orthogonal de sur u.

Le rapport est le taux d'inertie totale expliquée par la direction u.

Par exemple, l'inertie statistique du nuage de points par rapport à l'axe des x est la variance de X et l'inertie statistique du nuage de points par rapport à l'axe des y est la variance de Y.

c) Inertie mécanique.

On appelle inertie mécanique du nuage de points de 2 par rapport à une direction D définie par un vecteur unitaire u, la quantité :

IM (u) = || || ²

est le projeté orthogonal de sur u.

Par exemple, l'inertie mécanique du nuage de points par rapport à l'axe des x est la variance de Y et l'inertie mécanique du nuage de points par rapport à l'axe des y est la variance de X.

Le théorème de Pythagore || || ² = || || ² + || || ² entraîne :

IM (u) = ITIS (u).

d) Axes principaux, ou factoriels.

On appelle premier axe factoriel du nuage de points de 2, l'axe dont la direction définie par un vecteur unitaire u maximise l'inertie statistique IS (u).
La direction définie par le vecteur u est appelée la direction principale, ou direction factorielle.

On remarquera que, comme le premier axe factoriel maximise IS (u), il minimise IM (u) : il donne donc la solution de notre problème, c'est-à-dire la droite de régression orthogonale.

e) Matrice des variances-covariances.

Pour u = , l'inertie statistique IS (u) = || || ² s'écrit, avec = < | u > u = (b xi0a yi0) , sous la forme :

IS (u) = (b xi0a yi0) ² = b ² × xi0² + a ² × yi0² – 2 a b × xi0 yi0

Et comme on sait que :

xi0² = s ² (X), yi0² = s ² (Y), xi0 yi0 = Cov (X, Y),

l'inertie statistique devient :

IS (u) = b ² s ² (X) + a ² s ² (Y) – 2 a b Cov (X, Y) = (ba) = tu A u

La matrice

A = =

s'appelle la matrice des variances-covariances.
En introduisant la matrice Z = des variables centrées, la matrice des variances-covariances s'écrit sous les formes :

 A = = = tZ Z = tZ D Z

et l'inertie totale est la trace de cette matrice, somme des éléments diagonaux s ² (X) et s ² (Y) :

IT = Tr (A)

1 e remarque : valeurs propres.

La matrice des variances-covariances A est, comme on le voit, symétrique réelle.
Une valeur propre de A est un nombre réel l tel qu'il existe un vecteur v non nul vérifiant A v = l v.
Les valeurs propres de A sont donc les nombres réels l tels que le noyau de l'endomorphisme (application linéaire de 2 dans 2) défini par la matrice Al I2 ne soit pas réduit à 0.
Dire que le noyau n'est pas réduit à 0, c'est dire que l'application linéaire n'est pas injective, donc qu'elle n'est pas bijective (puisque, dans 2, injective = bijective) : pour cela, il faut et il suffit que son déterminant soit nul.
Les valeurs propres sont donc les solutions de l'équation :

Dét (Al I2) = 0
l ² – (s ² (X) + s ² (Y)) l + s ² (X) s ² (Y) – (Cov (X, Y)) ² = 0

Le discriminant de cette équation du deuxième degré est :

(s ² (X) + s ² (Y)) ² – 4 (s ² (X) s ² (Y) – (Cov (X, Y)) ²) = (s ² (X) – s ² (Y)) ² + 4 (Cov (X, Y)) ² ³ 0

La matrice A possède donc, ainsi qu'on l'avait déjà dit pour toute matrice symétrique réelle, deux valeurs propres réelles l1 et l2 :
— la somme de ces valeurs propres est la trace de la matrice, somme des éléments de la première diagonale :
l1 + l2 = s ² (X) + s ² (Y) ³ 0.
— le produit de ces valeurs propres est le déterminant de la matrice :
l1 l2 = s ² (X) s ² (Y) – (Cov (X, Y)) ² ³ 0 (d'après l'inégalité de Schwarz).

Les deux valeurs propres de la matrice des variances-covariances sont donc des nombres réels positifs : il est très improbable que l'une soit nulle (il faudrait, pour cela, que le coefficient de corrélation linéaire soit rigoureusement égal à 1, en valeur absolue, ce qui ne saurait se produire que si X et Y sont déduits l'un de l'autre par une relation linéaire, ou si X et Y sont constantes. Il est très improbable aussi que les deux valeurs propres soient égales : il faudrait pour cela que la covariance de X et Y soit strictement égale à 0 et que les variances de X et Y soient strictement égales, ce qui ne se produit jamais en pratique.

Dans le cas général, on peut donc appeler l1 et l2 les valeurs propres de la matrice des variances-covariances, rangées par ordre décroissant :

l1 > l2 > 0.

l1 = s ² (X) + s ² (Y) +
l2 = s ² (X) + s ² (Y) –

2 e remarque : vecteurs propres.

On démontre aussi, en algèbre, que 2 possède une base propre orthonormée, c'est-à-dire une base { u1, u2 }, orthonormée pour le produit scalaire canonique, formée de vecteurs propres de la matrice A :

A u1 = l1 u1 et A u2 = l2 u2,

avec

|| u1 || ² = 1, || u2 || ² = 1, < u1 | u2 > = 0.

Ces vecteurs propres peuvent se calculer.
Soit l une valeur propre. On a :

= = = = 0

donc le vecteur est un vecteur propre pour la valeur propre l.
Le carré de la norme de ce vecteur pour le produit scalaire canonique est donné par :

(s ² (Y) – l   – Cov (X, Y)) = (s ² (Y) – l) ² + (Cov (X, Y)) ²

On peut donc prendre pour vecteur normé relatif à la valeur propre l, le vecteur

u =

Le produit scalaire des deux vecteurs propres ainsi obtenu est nul, parce que la relation l1 + l2 = s ² (X) + s ² (Y) entraîne :

(s ² (Y) – l1     – Cov (X, Y)) = (l2s ² (X)     – Cov (X, Y)) = – Dét (Al2 I2) = 0

Les deux vecteurs et forment une base de 2 parce que le déterminant de leurs coordonnées n'est pas nul :

Cov (X, Y) × (s ² (Y) – l1) + Cov (X, Y) × (s ² (Y) – l2) = Cov (X, Y) × (l1l2) ¹ 0

de sorte que les deux vecteurs ne sont pas proportionnels.

Les deux vecteurs :

u1 =
u2 =

forment donc une base propre orthonormée de 2.

Remarquons que, au lieu de prendre pour vecteur propre pour la valeur propre l, le vecteur , on aurait pu prendre aussi le vecteur qui lui est proportionnel (le déterminant de la matrice de ces vecteurs est le déterminant de la matrice Al I2).

I.3.3. Diagonalisation de la matrice des variances-covariances.

Soit V = la matrice des coordonnées des vecteurs propres u1 et u2.

V e1 = u1, V e2 = u2.

V donne, par produits, pour image d'une base orthonormée, une base orthonormée : c'est ce qu'on appelle une matrice "orthogonale", ce qui veut dire que son inverse est égale à sa transposée :

 V –1 = tV

Pour le vérifier, remarquons que, puisque les bases { e1, e2 } et { u1, u2 } sont orthonormées, les coordonnées des vecteurs s'obtiennent par produits scalaires :

u1 = < u1 | e1 > e1 + < u1 | e2 > e2
u2 = < u2 | e1 > e1 + < u2 | e2 > e2

de sorte que la matrice V, qui a, pour colonnes, les vecteurs u1 et u2 dans la base { e1, e2 }, est :

V =

et les relations inverses :

e1 = < e1 | u1 > u1 + < e1 | u2 > u2
e2 = < e2 | u1 > u1 + < e2 | u2 > u2

montrent que la matrice inverse de V est la matrice :

V –1 =

qui, compte tenu de la symétrie du produit scalaire, est la transposée de V.

V –1 = = tV

Il résulte alors des relations V e1 = u1 et V e2 = u2, que l'on a :

tV u1 = V –1 u1 = e1 ; tV u2 = V –1 u2 = e2

Considérons maintenant la matrice L = , matrice diagonale des valeurs propres de A.
A est la matrice, dans la base canonique { e1, e2 }, d'un endomorphisme f.
Cet endomorphisme f se réduit à deux homothéties, de rapport l1 selon le vecteur u1, et de rapport l2 selon le vecteur u2.
L est donc la matrice, dans la base propre { u1, u2 }, de l'endomorphisme f.
La matrice de l'application identique de 2 muni de la base { u1, u2 } dans 2 muni de la base { e1, e2 } donne, par produits, pour image du vecteur u1 = le vecteur u1 = et, pour image du vecteur u2 = le vecteur u2 = . C'est donc la matrice V des vecteurs propres.

V = [ Id, { u1, u2 }, { e1, e2 }].

Réciproquement, la matrice de l'application identique de 2 muni de la base { e1, e2 } dans 2 muni de la base { u1, u2 } donne, par produits, pour image du vecteur e1 = le vecteur e1 = et, pour image du vecteur e2 = le vecteur e2 = . C'est donc la matrice tV transposée et inverse de la matrice V des vecteurs propres.

tV = [ Id, { e1, e2 }, { u1, u2 }].

Le diagramme commutatif suivant :

2 , { e1, e2 }

2 , { e1, e2 }

 
 

 
2 , { u1, u2 } 2 , { u1, u2 }

met en évidence la relation f = Id o f o Id.
En termes de produit de matrices, cette relation s'écrit :

L = V A tV,

d'où l'on déduit aussitôt

A = tV L V.

On dit qu'on a diagonalisé la matrice A.

I.3.4. Recherche des axes principaux.

Pour un vecteur normé u, posons v = V u.
On a tv = tu tV.

|| v || ² = tv v = tu tV V u = tu u = || u || ² = 1.

Le vecteur v est normé lui aussi.

L'inertie statistique par rapport à u s'écrit :

IS (u) = tu A u = tu tV L V u = tv L v.

Dans 2 rapporté à la base { u1, u2 }, notons v = .

IS (u) = tv L v = (v1     v2) = l1 v1² + l2 v2²,
avec v1² + v2² = 1

Le problème de la recherche de la droite de régression orthogonale se ramène maintenant à la résolution du problème suivant :

Maximiser l1 v1² + l2 v2², sous la contrainte v1² + v2² = 1, avec l1 > l2 > 0.

C'est maintenant un problème facile à résoudre :

IS (u) = l1 v1² + l2 v2² = l1 (1 – v2²) + l2 v2² = l1 – (l1l2) v2²

La quantité l1 – (l1l2) v2² avec l1 > l2 atteint sa valeur maximum l1 lorsqu'on prend v2 = 0, donc | v1 | = 1.
La direction du premier axe factoriel est donc définie par le vecteur v de coordonnées dans la base { u1, u2 } : v = u1.

IS (u1) = l1

D'où le résultat, qu'on peut énoncer sous forme de théorème :

La direction du premier axe factoriel est définie par le vecteur propre associé à la plus grande valeur propre de la matrice des variances-covariances.

Le premier axe factoriel est la droite de régression orthogonale.

Comme corollaire, la direction perpendiculaire au premier axe factoriel définit le deuxième axe factoriel : elle est définie par le vecteur propre associé à la plus petite valeur propre de la matrice des variances-covariances.
Le deuxième axe factoriel minimise l'inertie statistique IS (u) : IS (u) = l2 lorsque | v2 | = 1, donc v1 = 0 et v = = u2 par exemple (on pourrait prendre aussi, bien sûr, v = – u2, la direction définie serait la même).

IS (u2) = l2

Le taux d'inertie totale expliquée par le premier axe factoriel est le rapport = = .
Le taux d'inertie totale expliquée par le deuxième axe factoriel est le rapport = = .

La relation l1 + l2 = s ² (X) + s ² (Y) (la somme des valeurs propres est la trace de la matrice des variances-covariances) s'écrit :

IS (u1) + IS (u2) = IT.

La somme des inerties statistiques par rapport aux deux axes factoriels est l'inertie totale du nuage de points.
Chaque valeur propre de la matrice des variances-covariances correspond à l'inertie expliquée par l'axe factoriel correspondant.

I.3.5. Coordonnées factorielles et composantes principales.

Dans 2 rapporté à la base propre orthonormée { u1, u2 }, les coordonnées des vecteurs s'appellent les coordonnées factorielles.
Comme la base { u1, u2 } est orthonormée, les coordonnées factorielles s'obtiennent par produit scalaire :

= < | u1 > u1 + < | u2 > u2

Or la base canonique { e1, e2 } est, elle-même, orthonormée et l'on a, par conséquent :

= < | e1 > e1 + < | e2 > e2 = xi0 e1 + yi0 e2

d'où :

< | u1 > = xi0 < e1 | u1 > + yi0 < e2 | u1 >
< | u2 > = xi0 < e1 | u2 > + yi0 < e2 | u2 >

Les coordonnées factorielles s'obtiennent donc par la formule matricielle :

= = tV

  = tV = tV

La matrice tV est ce qu'on appelle la matrice du changement de base.
Elle donne les nouvelles coordonnées (sur la base { u1, u2 }) en fonction des anciennes (sur la base { e1, e2 }).
Nous avons vu plus haut que cette matrice est la matrice de l'application identique, de 2 muni de la base { u1, u2 } dans 2 muni de la base { e1, e2 }.

Les relations :

( < | u1 >   < | u2 >) = = tV = (xi0   yi0) V, pour i Î { 1, ... , n },

peuvent se condenser en une seule formule matricielle :

 L = Z V

formule dans laquelle :

L =

est la matrice, à n lignes et 2 colonnes, dont les lignes sont les coordonnées factorielles du nuage de points dans 2 muni de la base { u1, u2 },

Z =

est la matrice, à n lignes et 2 colonnes, dont les colonnes sont les variables centrées X et Y,

V =

est la matrice des coordonnées des vecteurs propres orthonormés { u1, u2 } de la matrice des variances-covariances, dans la base canonique { e1, e2 }.

Les deux colonnes de la matrice L sont des éléments de l'espace des variables n : on les appelle les composantes principales de la variable statistique (X, Y).

La première colonne de la matrice V est le vecteur propre u1.
La première colonne de la matrice L = Z V est donc le vecteur L1 = Z u1.
De même, la deuxième colonne de la matrice L est le vecteur L2 = Z u2.
Les deux composantes principales L1 et L2 de la variable statistique (X, Y) s'obtiennent ainsi par les formules :

L1 = u1 =
L2 = u2 =

avec les valeurs propres l1 et l2 de la matrice

A = = tZ Z = tZ D Z =

des variances-covariances :

l1 = s ² (X) + s ² (Y) +
l2 = s ² (X) + s ² (Y) –

I.3.6. Propriétés des composantes principales.

a) Les composantes principales sont centrées.

= < L1 | D | n > = < Z u1 | n > = t(Z u1) n = tu1 tZ n
tZ n = = =

puisque les variable X0 et Y0 sont centrées.
Il reste donc :

= tu1 = 0

De même :

= < L2 | D | n > = < Z u2 | n > = t(Z u2) n = tu2 tZ n = tu2 = 0.

b) La variance d'une composante principale est la valeur propre correspondante.

Comme les composantes principales sont centrées, leur variance est le carré de leur norme pour le produit scalaire défini par D :

s ² (L1) = || L1 || = < L1 | D | L1 > = tL1 L1 = tu1 tZ Z u1
tZ Z = A
s ² (L1) = tu1 A u1 = tu1 l1 u1 = l1 || u1 || ² = l1

De même :

s ² (L2) = < L2 | D | L2 > = tL2 L2 = tu2 tZ Z u2
     = tu2 A u2 = tu2 l2 u2 = l2 || u2 || ² = l2

c) Les composantes principales sont non corrélées.

Cov (L1, L2) = < L1 | D | L2 > = tL1 L2 = tu1 tZ Z u2
     = tu1 A u2 = < u1 | u2 > = 0

puisque les vecteurs u1 et u2 sont orthogonaux pour le produit scalaire canonique.

d) Reconstruction des données.

Les points du nuage centré sont définis par les vecteurs

= xi0 e1 + yi0 e2 = < | u1 > u1 + < | u2 > u2.

Les projetés orthogonaux de ces vecteurs sur l'axe principal défini par u1 sont les vecteurs :

= < | u1 > u1 = < | u1 > (< u1 | e1 > e1 + < u1 | e2 > e2)

Les vecteurs = + forment ce qu'on appelle l'approximation de rang 1 du nuage de points dans 2.
Les points mi sont les projections orthogonales des points Mi sur la droite de régression orthogonale.

L'équation de la droite de régression orthogonale, sur laquelle se situe l'approximation de rang 1 du nuage de points, peut prendre l'une des formes équivalentes :

< | u2 > = 0
(x) (s ² (Y) – l2) = (y) Cov (X, Y)
(x) (l1s ² (X)) = (y) Cov (X, Y)
(x) Cov (X, Y) = (y) (s ² (Y) – l1)
(x) Cov (X, Y) = (y) (l2s ² (X))