Application des statistiques multidimensionnelles
à l'étude des signaux continus numérisés.
Exemples dans le domaine de la spectroscopie infrarouge
Dominique BERTRAND
Directeur de Recherche
INRA, PHYTEC
Rue de la Géraudière-BP 71627-44316 NANTES CEDEX 03
Introduction
De nombreux capteurs physiques sont à l'origine de signaux qui
se présentent sous la forme de courbes continues du type y=f(x).
Par exemple, dans un chromatogramme, x peut représenter le temps
de rétention dans la colonne de chromatographie, et y l'intensité
mesurée par un capteur. Dans un spectre lumineux, x représente
la longueur d'onde de la lumière étudiée, et y l'absorption
lumineuse. De tels signaux sont souvent numérisés avant
traitement informatique et statistique. Ils sont ainsi à l'origine
de signaux formés de plusieurs centaines, voire plusieurs milliers
de points de mesure. Nous prendrons comme exemple de tels signaux des
collections de spectres proche infrarouge de produits agro-alimentaires
(Osborne et Fearn, 1986). Ces spectres sont obtenus à l'aide d'un
spectromètre (figure 1). L'échantillon à étudier
est placé dans une coupelle de l'appareil, et éclairé
successivement par des rayons lumineux caractérisés par
leur longueur d'onde. Pour chacune des longueurs d'onde, l'appareil enregistre,
par l'intermédiaire de capteurs photo-sensibles, la quantité
de lumière qui a été absorbée par l'échantillon.
Les unités de mesure de cette absorption lumineuse sont, en général,
des absorbances. La plage de longueurs d'onde lumineuse du proche infrarouge
se situe après celle du visible, entre 800 et 2500 nanomètres
(10-9 mètres). Les spectromètres proche infrarouge sont
capables d'effectuer un très grand nombre de mesures en quelques
secondes, et l'intervalle de mesure est très étroit, par
exemple de 2 nanomètres. On obtient ainsi plus de 800 valeurs numériques
par échantillon. Les applications analytiques de la spectroscopie
proche infrarouge consistent en une exploitation des données spectrales
pour " prédire " la valeur d'une variable quantitative
ou qualitative. Par exemple, cette technique est très couramment
mise en uvre dans l'industrie pour le dosage de constituants présents
dans les produits agro-alimentaires, tels que l'eau, les glucides, les
protéines ou les lipides. On applique également cette technique
pour la détermination de variables qualitatives, tels que la conformité
d'un produit à une spécification. On peut, à partir
d'un spectre, vérifier qu'un produit est bien conforme à
ce qui est déclaré sur l'étiquette. Par exemple,
des études ont eu comme objectif de vérifier qu'une boisson
était bien du jus d'orange, ou qu'un échantillon de café
puisse porter le qualificatif 100% Arabica. Dans la plupart des situations
analytiques, il existe évidemment une base théorique, reliée
au domaine de l'étude, qui peut aider à trouver une démarche
pour exploiter l'information présente dans le signal. Dans des
cas favorables, on peut attribuer aux différents pics présents
dans le signal une signification claire, et se fonder sur la connaissance
spectroscopique théorique pour exploiter complètement les
données. On constate cependant que cette démarche fondamentale
est presque toujours insuffisante pour extraire efficacement l'information.
En effet, dans les problèmes applicatifs, les spectres présentent
de nombreux facteurs de variations, que la théorie est actuellement
incapable de décrire complètement .
Le présent exposé a comme objectif principal de montrer
les enjeux et les problèmes de l'application des statistiques à
des signaux continus numérisés
L'analyse en composantes principales comme méthode
de description et de modélisation des données spectrales
Face à cette variabilité des données spectrales,
l'utilisateur doit accumuler des spectres de nombreux échantillons,
représentatifs de ceux qui seront étudiés par la
suite, et exploiter les données ainsi collectées. Un modèle
non supervisé ou supervisé est établi à partir
de ces données. Dans l'étape d'analyse en série,
le modèle est ensuite appliqué pour extraire des informations
utiles des spectres d'échantillons dont la nature est a priori
inconnue, mais qui sont supposés appartenir à la même
population que celle qui a servi à son établissement. La
figure 2 montre une collection spectrale de 20 échantillons différents
de maïs broyé. Chacun des spectres est ici un signal numérisé
composé de 351 absorbances associées aux longueurs d'onde
comprises entre 1100 et 2500 nanométres, avec un intervalle de
4 nanométres. On peut constater la très forte ressemblance
entre les spectres, qui ne semblent différer les uns des autres
que par leur intensité générale. Pour appliquer des
traitements statistiques, les données spectrales sont regroupées
dans une matrice X, dont les lignes représentent les spectres (individus)
et les colonnes, les absorbances aux différentes longueurs d'onde
de mesure. Dans la collection spectrale représentée figure
2, la matrice X comporte ainsi 20 lignes et 351 colonnes. Du point de
vue statistique, les données spectrales ont des particularités
remarquables, qui rendent nécessaire leur traitement par des méthodes
spécifiques. Tout d'abord, dans le cas de signaux numérisés,
la matrice X des données comporte en général beaucoup
plus de variables (points de mesure) que d'observations (spectres). De
plus les longueurs d'onde de mesure forment une suite ordonnée.
On peut donc s'attendre, lorsque l'intervalle de mesure est petit, à
ce que l'information présente dans deux longueurs d'onde consécutives
du spectre numérisé soit très voisine. En revanche,
des longueurs d'onde très différentes contiennent en général
des informations qui peuvent en partie se compléter. A titre d'illustration,
la figure 3 montre la matrice de corrélation des variables de cette
collection. On peut constater la forte colinéarité des variables.
Dans une application, il est en général nécessaire
d'extraire l'information utile de tels signaux par des méthodes
tenant compte de la variabilité des collections étudiées.
L'analyse en composantes principales est une méthode très
efficace pour traiter de telles données. Les cartes factorielles
permettent d'examiner la structure des collections et sont souvent riches
d'information. La figure 4 illustre le résultat d'une expérience
portant sur des mélanges modèles (Robert et al., 1989).
Dans cette expérience, on a réalisé des mélanges
de farines de trois matières premières différentes
: tourteau de soja, maïs et manioc. Les mélanges sont effectués
deux par deux, en faisant varier les proportions avec un intervalle de
5%. On constitue ainsi, par exemple le mélange binaire :
{manioc 5% - maïs 95% };{manioc 10% - maïs 90%} ;
; {manioc
90% - maïs 10%}. Les mélanges tourteau de soja-maïs et
tourteau de soja-manioc, sont formés de la même manière.
Les spectres proche infrarouge de tous ces mélanges, et ceux des
matières premières non mélangées, sont enregistrés.
La matrice X des données spectrales est traitée par analyse
en composantes principales. La figure 4 montre le premier plan factoriel
des individus (spectres). Sur cette carte, les matières premières
non mélangées forment les extrémités d'un
triangle. L'allure générale de graphique nous donne deux
informations importantes. Tout d'abord, les spectres des mélanges
sont bien la somme pondérée des spectres des produits purs.
Cette information se déduit du fait que les points soient placés
sur des droites. De plus, les coefficients de cette pondération
sont sensiblement proportionnels aux proportions des mélanges.
En effet, l'intervalle entre les spectres de deux mélanges de proportions
voisines reste à peu près identique pour une nature donné
du mélange binaire. L'ACP nous donne ainsi un moyen de tester la
linéarité de la réponse des capteurs. Nous avons
utilisé cette approche pour connaître la pertinence de nombreux
capteurs notamment dans le domaine de la vision artificielle.
D'une manière générale, l'ACP fournit une méthode
pour apprécier la ressemblance entre les spectres. Il existe de
nombreuses situations industrielles dans lesquelles le simple positionnement
du spectre d'une matière première ou d'un produit en cours
de transformation sur les plans factoriels les plus pertinents suffit
à donner une indication de la qualité du produit et de sa
conformité. Le nouveau spectre est alors considéré
comme un individu supplémentaire d'une ACP préalablement
calculée.
Un autre intérêt de l'ACP dans le domaine du traitement du
signal est que cette méthode est à l'origine d'un modèle
linéaire de décomposition spectrale, qui peut avoir un sens
pour le spécialiste du domaine d'étude.
En effet, la matrice C des coordonnées factorielles des individus
(spectres) est donnée par :
C = XV' [1]
où V sont les vecteurs propres (en ligne) de X'X. La matrice X
est supposée centrée.
On a la relation de l'ACP, bien connue :
X'XV' = V'L
avec L, la matrice diagonale des valeurs propres.
En multipliant à droite les deux membres de [1] par V, on obtient
:
CV = XV'V [2]
avec V'V = U, matrice unitaire.
L'équation [2] peut alors être simplifiée :
X = CV [3]
Cette équation de reconstruction spectrale est très intéressante
pour le spectroscopiste. Elle indique en effet, que chacun des individus
(spectre) peut être considéré comme une somme des
vecteurs propres pondérés par la coordonnée factorielle
correspondante. Il existe ainsi une analogie avec la notion de mélange
de matière première présenté précédemment.
Les vecteurs propres apparaissent comme analogues à des spectres
de produits purs, et les coordonnées factorielles sont analogues
à des concentrations. Cependant, l'analogie n'est pas parfaite,
puisque les concentrations et les absorbances sont toujours positives,
ce qui n'est pas le cas des éléments des vecteurs propres,
ni des cordonnées factorielles. Il est alors intéressant
de représenter chaque vecteur propre sous la forme d'un graphique,
représentant un " profil spectral ". Dans ce graphique,
l'axe des X représente les longueurs d'onde de mesure, et l'axe
des Y la valeur numérique de l'élément du vecteur
propre correspondant. On peut considérer ce graphique comme une
courbe, homologue à un spectre, et non comme la représentation
d'une suite de points. L'interprétation spectrale porte aussi bien
sur les pics (maxima locaux) présents dans ces profils spectraux,
que sur les creux (minima).
Les figure 5a et 5b illustrent l'intérêt des profils spectraux.
L'expérience illustrée porte sur l'analyse de produit laitiers,
dont la teneur en matière grasse varie fortement d'un échantillon
à un autre. Le premier plan factoriel de l'ACP (figure 5a) montre
que, selon le premier axe (et sans étalonnage) les spectres des
échantillons se répartissent selon la teneur en matière
grasse. Il est alors utile d'examiner le profil spectral associé
au premier vecteur propre (figure 5b). Ce profil laisse apparaître
un " pic négatif " représentatif des bandes d'absorption
de l'eau, et un massif positif formé de deux pics très caractéristiques
des lipides (matière grasse). En d'autre termes, et de manière
logique, l'accroissement de la proportion de lipides se traduit par une
réduction de la quantité d'eau dans le produit. Le spectre
d'un produit laitier peut ainsi, dans ce cas, être considéré
comme étant la somme du spectre moyen de la collection, auquel
s'ajoute ou se retranche un profil qui traduit sa richesse en lipides.
L'ACP présente également d'autres intérêts.
Elle permet de condenser l'information. On observe en pratique que seules
les dix ou vingt premières composantes sont exploitables dans les
applications spectroscopiques. En ne conservant que ces composantes (et
les vecteurs propres correspondants) on réduit très considérablement
la taille de la matrice des données informatives. La plupart des
traitements ultérieurs (par exemple l'utilisation des réseaux
neuronaux) peut avantageusement s'effectuer sur les coordonnées
factorielles plutôt que sur les spectres d'origine. De nombreux
traitements statistiques, tels que la régression linéaire
ou l'analyse discriminante mettent en jeu l'inversion de la matrice de
variance-covariance des variables. Dans le cas de données colinéaires,
cette inversion est impossible, ce qui pose de nombreux problèmes
numériques. L'orthogonalité des coordonnées factorielles
rend, au contraire, ces méthodes très faciles à utiliser.
Régressions " robustes "
La plupart des applications analytiques de la spectroscopie proche infrarouge
repose sur l'établissement d'un modèle prédictif
qui lie une variable y à prédire avec la matrice X des données
spectrales. On utilise presque toujours le modèle linéaire,
de la forme :
[4]
où y est le vecteur-colonne de la variable dépendante, de
dimensions n x 1; b0 et b les paramètres
du modèle à déterminer, X est la matrice n
x k des variables indépendantes et 1 un vecteur de dimension
n x 1 dont tous les éléments sont égaux à
1.
La première étape d'une application consiste à collecter
des échantillons qui serviront à l'étalonnage, à
enregistrer leur spectres, et à doser par une méthode de
référence le constituant à analyser dans chacun des
échantillons. Les données spectrales constituent la matrice
X, tandis que les résultats analytiques permettent de former le
vecteur y. Cette étape est souvent fastidieuse et constitue la
plus grande part du coût de la mise au point analytique.
L'ajustement des paramètres du modèle décrit par
l'équation [4] est en général assez difficile. En
effet, la quasi-colinéarité des variables prédictives
rend délicate l'inversion de la matrice de variance-covariance.
A l'heure actuelle, la plupart des utilisateurs mettent en jeu la régression
linéaire multiple pas à pas (RLMP) pour établir le
modèle. Dans cette méthode bien connue, les variables prédictives
sont sélectionnées parmi les k disponibles, en respectant
un critère d'optimisation statistique tel que les moindres carrés.
On applique en général une succession d'une étape
ascendante dans laquelle on introduit une variable prédictive,
suivi d'une étape descendante, dans laquelle on élimine
la variable la moins pertinente. L'expérience montre que les modèle
linéaires ainsi établis doivent en général
inclure moins de 10 termes. Bien que très utilisée, la RLMP
présente certains défauts. Les critères d'arrêt
de l'introduction des variables sont assez arbitraires, et délicats
à utiliser. Il est toujours nécessaire de vérifier
le modèle sur une collection de validation, constituée d'individus
n'ayant pas participé à l'étalonnage mais pour lesquels
on connaît la valeur de la variable dépendante. Il est en
général impossible, à partir des paramètres
du modèle établi par RLMP, de connaître la raison
théorique sur lequel est bâti le modèle prédictif.
Les risques d'utiliser un modèle inapproprié deviennent
alors importants. Enfin, les variables sélectionnées sont
assez arbitraires. Une autre RLMP effectuée en changeant légèrement
les individus de la collection d'étalonnage peut conduire à
une sélection de variables très différentes, ce qui
peut surprendre défavorablement l'utilisateur.
De très nombreuses études ont eu comme objectif de trouver
une alternative à la RLMP. On tente en particulier, d'éviter
l'étape de sélection des variables et d'utiliser la totalité
des données disponibles. Deux méthodes statistiques, qui
atteignent cet objectif, ont rencontré un certain succès
: la régression en composantes principales (RCP) et la méthodes
des moindres carrés partiels (partial least square, ou PLS), que
nous ne décrirons pas ici. La RCP consiste à appliquer tout
d'abord une ACP sur la matrice des variables indépendantes. Les
composantes principales servent ensuite de variables prédictives
au lieu des variables d'origine. Si on introduit dans le modèle
la totalité des composantes associées à des valeurs
propres non nulles, on obtient les même résultats que ceux
obtenus par la régression linéaire multiple usuelle. Il
est donc intéressant de sélectionner, parmi les composantes
disponibles, celles qui présentent la plus grande pertinence pour
le problème considéré. Nous avons étudié
la RCP dans un essai portant sur des spectres proche infrarouge de mélanges
de farines (Bertrand et al., 1995). La collection comprenaient 50 spectres
participant à l'étalonnage, et 49 pour la validation. La
variable dépendante était un paramètre technologique,
la production spécifique, qui traduit l'énergie mise en
jeu pour fabriquer des aliments granulés. Nous avons comparé
deux modes de sélection itérative des composantes. Dans
la première méthode (RCP1) les composantes étaient
introduites dans l'ordre de leur valeur propre décroissante. Dans
la seconde approche (RCP2) les composantes étaient introduites
dans l'ordre décroissant de leur coefficient de détermination
partiel avec la variable dépendante. La pertinence des approches
était évaluée par l'erreur résiduelle obtenue
sur la collection de vérification, en fonction du nombre de termes
de la régression (figure 6). Une méthode est " robuste
" si l'erreur résiduelle ne dépend que faiblement du
nombre de termes introduits dans le modèle. Il est surprenant de
constater que la méthode RCP1 était la plus robuste, avec
une erreur résiduelle faible pour une vingtaine de composantes
introduites. Au contraire la méthode RCP2 donnait tout d'abord
de bonnes performances, mais devenait peu fiable, après l'introduction
du 7ème terme, correspondant à la 45ème composante.
Conclusion
L'exploitation de signaux provenant de capteurs présente un grand
intérêt pratique, et pose des problèmes statistiques
assez intéressants. Le spécialiste du domaine considéré
est bien souvent démuni devant la diversité et la faible
adéquation des outils statistiques disponibles dans des logiciels
non spécifiques. Il n'existe pas, à l'heure actuelle, de
démarche heuristique générale adaptée à
ces problèmes d'exploitation de signaux numérisés.
Références Bibliographiques
Bertrand D., Vigneau E., Qannari M., Devaux M-F (1995). Comparaison de
la régression en composantes principales et de la latent root regression.
Application à la prédiction de la production spécifique
de granulés par spectroscopie proche infrarouge. Actes du congrès
de l'A.SU. " Agro-industrie et méthodes statistiques ",
Dijon, 7-8 décembre 1995.
Osborne B.G., Fearn T. (1986). Near Infrared Spectroscopy in Food Analysis.
Longman Scientific and Technical, UK, 200 pages.
Robert P., Bertrand D., Defoix M. Mixture modelling in NIR spectroscopy
(1989). Proceeding of the fifth European conference on food chemistry,
Versailles, September 27-29, INRA pub., ref. EP5.


|