|
MASS UE22 Henri IMMEDIATO Cours de Probabilité et Statistique |
Soit
2 l'espace des individus, muni du produit scalaire
canonique et de la base canonique {e1,
e2} qui, on l'a vu, est
orthonormée pour ce produit scalaire.
Si aucune des variables statistiques, X ou Y ne
peut s'interpréter par rapport à l'autre, il n'y
a pas de raison de privilégier la régression linéaire
de Y par rapport à X ou la régression
linéaire de X par rapport à Y.
Nous sommes alors conduits à un autre point de vue, celui
de la réduction des données.
Nous cherchons alors dans
2 une droite (D) qui minimise
la somme S^
² des carrés des distances des points du nuage de
points à la droite.
La solution est donnée par la droite de régression
orthogonale.
L'équation de la droite de régression orthogonale est de la forme y = a + b x.
b est la tangente
de l'angle de la droite avec l'axe des abscisses : b =
tan a.
|| Mi mi || ² = cos ² a (yi
a b xi)
² =
(yi a b xi) ²
En introduisant le point moyen (
,
), on peut écrire
:
||
Mi mi || ² =
×
(yi
b (xi
) + (
a b
))
²
=
×
(yi
b (xi
)) ² +
(
a b
)
² + 2
× (
a b
)
(yi
b (xi
)
Les relations
= ![]()
yi et
= ![]()
xi entraînent que le dernier
terme de la somme est nul.
Il reste :
Quel que soit la valeur de b, cette somme sera la plus
petite possible lorsque le deuxième terme est nul :
= a + b
.
Ce résultat signifie que le point moyen est sur la
droite de régression orthogonale et que, lorsque
b est connu, le terme constant a est donné
par :
|
a = |
Puisque le point moyen G = (
,
) est sur la droite
de régression orthogonale, nous le prendrons comme origine
dans
2.
La droite de régression orthogonale a une équation
de la forme
avec y0 = y
et x0 = x
.
En fait, la forme de la relation précédente fait disparaître la symétrie initiale entre les rôles de X et Y : ce n'est pas sous cette forme que nous exprimerons l'équation de la droite (D) de régression orthogonale.
Etant donnée une droite (D) passant par l'origine
G, on considère plutôt le vecteur unitaire
de
2
orthogonal à la droite (D) :
Le vecteur unitaire u porté par la droite (D)
est u =
.
La droite (D) est l'ensemble des points M = (x,
y) vérifiant < u1
|
> = 0, soit
a x0
+ b y0
= 0.
Etant donné un point Mi
du nuage de points et sa projection orthogonale mi sur la droite D, le vecteur
est le projeté
orthogonal de
sur le vecteur u :
= <
| u
> u = (b xi0 a yi0) ![]()
La recherche de la droite de régression orthogonale se ramène donc à une question que l'on peut envisager d'un double point de vue :
soit rechercher, dans l'espace des individus
2, un vecteur unitaire u1 =
,
avec a ² + b
² = 1, qui minimise la somme
soit rechercher, dans l'espace des variables
n, un vecteur a
X0 + b
Y0, combinaison linéaire
fictive des deux variables centrées X0 et Y0,
avec a ² + b
² = 1, qui minimise || a X0 + b Y0 ||
,
c'est-à-dire un vecteur de l'hyperplan défini par
X0 et Y0, de norme minimum pour le produit scalaire
défini par la matrice diagonale D
,
sous la contrainte a ² + b ² = 1.
Sous la deuxième forme, la résolution du problème est appelée l'analyse en composantes principales.
Appellons Z la matrice
des variables centrées,
On appelle inertie totale du nuage de points de
2 par rapport à l'origine G
des axes, la quantité :
On appelle inertie statistique du nuage de points de
2
par rapport à une direction D
de
2
définie par un vecteur unitaire u, la quantité
:
où
est
le projeté orthogonal de
sur u.
Le rapport
est
le taux d'inertie totale expliquée par la direction
u.
Par exemple, l'inertie statistique du nuage de points par rapport à l'axe des x est la variance de X et l'inertie statistique du nuage de points par rapport à l'axe des y est la variance de Y.
On appelle inertie mécanique du nuage de points de
2
par rapport à une direction D
définie par un vecteur unitaire u, la quantité
:
où
est
le projeté orthogonal de
sur u.
Par exemple, l'inertie mécanique du nuage de points par rapport à l'axe des x est la variance de Y et l'inertie mécanique du nuage de points par rapport à l'axe des y est la variance de X.
Le théorème de Pythagore ||
|| ² = ||
||
² + ||
||
² entraîne :
On appelle premier axe factoriel du nuage de points
de
2,
l'axe dont la direction définie par un vecteur unitaire
u maximise l'inertie statistique IS
(u).
La direction définie par le vecteur u est appelée
la direction principale, ou direction factorielle.
On remarquera que, comme le premier axe factoriel maximise IS (u), il minimise IM (u) : il donne donc la solution de notre problème, c'est-à-dire la droite de régression orthogonale.
Pour u =
, l'inertie
statistique IS (u)
=
||
|| ² s'écrit,
avec
= <
| u > u = (b xi0 a yi0)
,
sous la forme :
Et comme on sait que :
l'inertie statistique devient :
La matrice

s'appelle la matrice des variances-covariances.
En introduisant la matrice Z =
des variables centrées, la matrice des variances-covariances
s'écrit sous les formes :
A = = |
et l'inertie totale est la trace de cette matrice, somme des éléments diagonaux s ² (X) et s ² (Y) :
1 e remarque : valeurs propres.
La matrice des variances-covariances A est, comme on
le voit, symétrique réelle.
Une valeur propre de A est un nombre réel l tel qu'il existe un vecteur v non
nul vérifiant A v = l
v.
Les valeurs propres de A sont donc les nombres réels
l tels que le noyau de l'endomorphisme
(application linéaire de
2 dans
2) défini par la matrice A
l I2 ne soit pas réduit à 0.
Dire que le noyau n'est pas réduit à 0, c'est dire
que l'application linéaire n'est pas injective, donc qu'elle
n'est pas bijective (puisque, dans
2, injective = bijective) : pour cela,
il faut et il suffit que son déterminant soit nul.
Les valeurs propres sont donc les solutions de l'équation
:
Le discriminant de cette équation du deuxième degré est :
La matrice A possède donc, ainsi qu'on l'avait
déjà dit pour toute matrice symétrique réelle,
deux valeurs propres réelles l1 et l2 :
la somme de ces valeurs propres est la trace de
la matrice, somme des éléments de la première
diagonale :
l1
+ l2
= s ² (X) + s ² (Y) ³ 0.
le produit de ces valeurs propres est le déterminant
de la matrice :
l1
l2
= s ² (X) s ² (Y)
(Cov (X, Y)) ² ³
0 (d'après l'inégalité de Schwarz).
Les deux valeurs propres de la matrice des variances-covariances sont donc des nombres réels positifs : il est très improbable que l'une soit nulle (il faudrait, pour cela, que le coefficient de corrélation linéaire soit rigoureusement égal à 1, en valeur absolue, ce qui ne saurait se produire que si X et Y sont déduits l'un de l'autre par une relation linéaire, ou si X et Y sont constantes. Il est très improbable aussi que les deux valeurs propres soient égales : il faudrait pour cela que la covariance de X et Y soit strictement égale à 0 et que les variances de X et Y soient strictement égales, ce qui ne se produit jamais en pratique.
Dans le cas général, on peut donc appeler l1 et l2 les valeurs propres de la matrice des variances-covariances, rangées par ordre décroissant :
|
l2 = |
2 e remarque : vecteurs propres.
On démontre aussi, en algèbre, que
2 possède une base propre orthonormée,
c'est-à-dire une base { u1,
u2 }, orthonormée
pour le produit scalaire canonique, formée de vecteurs
propres de la matrice A :
avec
Ces vecteurs propres peuvent se
calculer.
Soit l une valeur propre. On a :
donc le vecteur
est
un vecteur propre pour la valeur propre l.
Le carré de la norme de ce vecteur pour le produit scalaire
canonique est donné par :
On peut donc prendre pour vecteur normé relatif à la valeur propre l, le vecteur
Le produit scalaire des deux vecteurs propres ainsi obtenu est nul, parce que la relation l1 + l2 = s ² (X) + s ² (Y) entraîne :
Les deux vecteurs
et
forment une base
de
2
parce que le déterminant de leurs coordonnées n'est
pas nul :
de sorte que les deux vecteurs ne sont pas proportionnels.
Les deux vecteurs :
|
u2 = |
forment donc une base propre orthonormée de
2.
Remarquons que, au lieu de prendre pour vecteur propre pour
la valeur propre l, le vecteur
, on aurait pu prendre aussi le
vecteur
qui lui est proportionnel
(le déterminant de la matrice de ces vecteurs est le déterminant
de la matrice A l I2).
Soit V =
la
matrice des coordonnées des vecteurs propres u1 et u2.
V donne, par produits, pour image d'une base orthonormée, une base orthonormée : c'est ce qu'on appelle une matrice "orthogonale", ce qui veut dire que son inverse est égale à sa transposée :
| V 1 = tV |
Pour le vérifier, remarquons que, puisque les bases { e1, e2 } et { u1, u2 } sont orthonormées, les coordonnées des vecteurs s'obtiennent par produits scalaires :
de sorte que la matrice V, qui a, pour colonnes, les vecteurs u1 et u2 dans la base { e1, e2 }, est :
et les relations inverses :
montrent que la matrice inverse de V est la matrice :
qui, compte tenu de la symétrie du produit scalaire, est la transposée de V.
Il résulte alors des relations V e1 = u1 et V e2 = u2, que l'on a :
Considérons maintenant la matrice L
=
, matrice diagonale
des valeurs propres de A.
A est la matrice, dans la base canonique { e1, e2
}, d'un endomorphisme f.
Cet endomorphisme f se réduit à deux homothéties,
de rapport l1
selon le vecteur u1,
et de rapport l2
selon le vecteur u2.
L est donc la matrice, dans la base
propre { u1, u2 }, de l'endomorphisme f.
La matrice de l'application identique de
2 muni de la base { u1, u2
} dans
2 muni de la base { e1,
e2 } donne, par produits,
pour image du vecteur u1
=
le vecteur u1 =
et, pour image du vecteur u2
=
le vecteur u2 =
.
C'est donc la matrice V des vecteurs propres.
Réciproquement, la matrice de l'application identique
de
2
muni de la base { e1,
e2 } dans
2 muni de la base { u1, u2
} donne, par produits, pour image du vecteur e1 =
le vecteur e1 =
et, pour image du vecteur e2 =
le vecteur e2 =
. C'est donc la matrice tV transposée et inverse
de la matrice V des vecteurs propres.
Le diagramme commutatif suivant :
|
|
|
|
![]() |
|
|
|
|
|
|
met en évidence la relation f = Id o f o Id.
En termes de produit de matrices, cette relation s'écrit
:
d'où l'on déduit aussitôt
On dit qu'on a diagonalisé la matrice A.
Pour un vecteur normé u, posons v = V
u.
On a tv = tu tV.
Le vecteur v est normé lui aussi.
L'inertie statistique par rapport à u s'écrit :
Dans
2 rapporté à la base { u1, u2
}, notons v =
.
Le problème de la recherche de la droite de régression orthogonale se ramène maintenant à la résolution du problème suivant :
C'est maintenant un problème facile à résoudre :
La quantité l1
(l1
l2)
v2² avec l1 > l2 atteint sa valeur maximum l1 lorsqu'on prend v2
= 0, donc | v1 | = 1.
La direction du premier axe factoriel est donc définie
par le vecteur v de coordonnées
dans la base { u1, u2 } : v = u1.
D'où le résultat, qu'on peut énoncer sous forme de théorème :
| La direction du premier axe factoriel est définie par le vecteur propre associé à la plus grande valeur propre de la matrice des variances-covariances. |
Le premier axe factoriel est la droite de régression orthogonale.
Comme corollaire, la direction perpendiculaire au premier
axe factoriel définit le deuxième axe factoriel
: elle est définie par le vecteur propre associé
à la plus petite valeur propre de la matrice des variances-covariances.
Le deuxième axe factoriel minimise l'inertie statistique
IS (u) : IS (u) = l2 lorsque | v2
| = 1, donc v1 = 0 et
v =
= u2 par exemple (on pourrait prendre aussi,
bien sûr, v = u2,
la direction définie serait la même).
Le taux d'inertie totale expliquée par le premier axe
factoriel est le rapport
=
=
.
Le taux d'inertie totale expliquée par le deuxième
axe factoriel est le rapport
=
=
.
La relation l1 + l2 = s ² (X) + s ² (Y) (la somme des valeurs propres est la trace de la matrice des variances-covariances) s'écrit :
La somme des inerties statistiques par rapport aux deux axes
factoriels est l'inertie totale du nuage de points.
Chaque valeur propre de la matrice des variances-covariances correspond
à l'inertie expliquée par l'axe factoriel correspondant.
Dans
2 rapporté à la base propre orthonormée
{ u1, u2 }, les coordonnées des vecteurs
s'appellent les
coordonnées factorielles.
Comme la base { u1, u2 } est orthonormée, les coordonnées
factorielles s'obtiennent par produit scalaire :
Or la base canonique { e1, e2 } est, elle-même, orthonormée et l'on a, par conséquent :
d'où :
Les coordonnées factorielles s'obtiennent donc par la formule matricielle :
= 
= tV
= tV |
La matrice tV
est ce qu'on appelle la matrice du changement de base.
Elle donne les nouvelles coordonnées (sur la base { u1, u2
}) en fonction des anciennes (sur la base { e1, e2
}).
Nous avons vu plus haut que cette matrice est la matrice de l'application
identique, de
2 muni de la base { u1,
u2 } dans
2 muni de la base { e1, e2
}.
Les relations :
= peuvent se condenser en une seule formule matricielle :
| L = Z V |
formule dans laquelle :

est la matrice, à n lignes et 2 colonnes, dont
les lignes sont les coordonnées factorielles du nuage de
points dans
2 muni de la base { u1,
u2 },

est la matrice, à n lignes et 2 colonnes, dont
les colonnes sont les variables centrées X
et Y
,

est la matrice des coordonnées des vecteurs propres orthonormés { u1, u2 } de la matrice des variances-covariances, dans la base canonique { e1, e2 }.
Les deux colonnes de la matrice L sont des éléments
de l'espace des variables
n : on les appelle les composantes
principales de la variable statistique (X, Y).
La première colonne de la matrice V est le vecteur
propre u1.
La première colonne de la matrice L = Z V
est donc le vecteur L1
= Z u1.
De même, la deuxième colonne de la matrice L
est le vecteur L2 = Z
u2.
Les deux composantes principales L1
et L2 de la variable
statistique (X, Y) s'obtiennent ainsi par les formules
:
L1 = u1 = ![]() L2 = u2 = ![]() |
avec les valeurs propres l1 et l2 de la matrice
= des variances-covariances :
puisque les variable X0
et Y0 sont centrées.
Il reste donc :
De même :
Comme les composantes principales sont centrées, leur
variance est le carré de leur norme pour le produit scalaire
défini par D
:
s ² (L1)
= || L1 ||
= < L1 | D
| L1
> =
tL1
L1 =
tu1
tZ Z u1
tZ
Z = A
s ² (L1)
= tu1 A u1
= tu1 l1 u1
= l1
|| u1 || ² = l1
De même :
s ² (L2)
= < L2 | D
| L2
> =
tL2
L2 =
tu2
tZ Z u2
= tu2 A u2
= tu2 l2 u2
= l2
|| u2 || ² = l2
Cov (L1, L2) = < L1
| D
| L2 > =
tL1
L2 =
tu1
tZ Z u2
=
tu1
A u2 =
< u1 | u2 > = 0
puisque les vecteurs u1 et u2 sont orthogonaux pour le produit scalaire canonique.
Les points du nuage centré sont définis par les vecteurs
Les projetés orthogonaux de ces vecteurs sur l'axe principal défini par u1 sont les vecteurs :
Les vecteurs
=
+
forment ce qu'on appelle l'approximation de rang 1 du nuage
de points dans
2.
Les points mi
sont les projections orthogonales des points Mi sur la droite de régression
orthogonale.
L'équation de la droite de régression orthogonale, sur laquelle se situe l'approximation de rang 1 du nuage de points, peut prendre l'une des formes équivalentes :