Application des statistiques multidimensionnelles
à l'étude des signaux continus numérisés.
Exemples dans le domaine de la spectroscopie infrarouge

Dominique BERTRAND
Directeur de Recherche
INRA, PHYTEC
Rue de la Géraudière-BP 71627-44316 NANTES CEDEX 03

 

Introduction

De nombreux capteurs physiques sont à l'origine de signaux qui se présentent sous la forme de courbes continues du type y=f(x). Par exemple, dans un chromatogramme, x peut représenter le temps de rétention dans la colonne de chromatographie, et y l'intensité mesurée par un capteur. Dans un spectre lumineux, x représente la longueur d'onde de la lumière étudiée, et y l'absorption lumineuse. De tels signaux sont souvent numérisés avant traitement informatique et statistique. Ils sont ainsi à l'origine de signaux formés de plusieurs centaines, voire plusieurs milliers de points de mesure. Nous prendrons comme exemple de tels signaux des collections de spectres proche infrarouge de produits agro-alimentaires (Osborne et Fearn, 1986). Ces spectres sont obtenus à l'aide d'un spectromètre (figure 1). L'échantillon à étudier est placé dans une coupelle de l'appareil, et éclairé successivement par des rayons lumineux caractérisés par leur longueur d'onde. Pour chacune des longueurs d'onde, l'appareil enregistre, par l'intermédiaire de capteurs photo-sensibles, la quantité de lumière qui a été absorbée par l'échantillon. Les unités de mesure de cette absorption lumineuse sont, en général, des absorbances. La plage de longueurs d'onde lumineuse du proche infrarouge se situe après celle du visible, entre 800 et 2500 nanomètres (10-9 mètres). Les spectromètres proche infrarouge sont capables d'effectuer un très grand nombre de mesures en quelques secondes, et l'intervalle de mesure est très étroit, par exemple de 2 nanomètres. On obtient ainsi plus de 800 valeurs numériques par échantillon. Les applications analytiques de la spectroscopie proche infrarouge consistent en une exploitation des données spectrales pour " prédire " la valeur d'une variable quantitative ou qualitative. Par exemple, cette technique est très couramment mise en œuvre dans l'industrie pour le dosage de constituants présents dans les produits agro-alimentaires, tels que l'eau, les glucides, les protéines ou les lipides. On applique également cette technique pour la détermination de variables qualitatives, tels que la conformité d'un produit à une spécification. On peut, à partir d'un spectre, vérifier qu'un produit est bien conforme à ce qui est déclaré sur l'étiquette. Par exemple, des études ont eu comme objectif de vérifier qu'une boisson était bien du jus d'orange, ou qu'un échantillon de café puisse porter le qualificatif 100% Arabica. Dans la plupart des situations analytiques, il existe évidemment une base théorique, reliée au domaine de l'étude, qui peut aider à trouver une démarche pour exploiter l'information présente dans le signal. Dans des cas favorables, on peut attribuer aux différents pics présents dans le signal une signification claire, et se fonder sur la connaissance spectroscopique théorique pour exploiter complètement les données. On constate cependant que cette démarche fondamentale est presque toujours insuffisante pour extraire efficacement l'information. En effet, dans les problèmes applicatifs, les spectres présentent de nombreux facteurs de variations, que la théorie est actuellement incapable de décrire complètement .
Le présent exposé a comme objectif principal de montrer les enjeux et les problèmes de l'application des statistiques à des signaux continus numérisés

 

L'analyse en composantes principales comme méthode de description et de modélisation des données spectrales


Face à cette variabilité des données spectrales, l'utilisateur doit accumuler des spectres de nombreux échantillons, représentatifs de ceux qui seront étudiés par la suite, et exploiter les données ainsi collectées. Un modèle non supervisé ou supervisé est établi à partir de ces données. Dans l'étape d'analyse en série, le modèle est ensuite appliqué pour extraire des informations utiles des spectres d'échantillons dont la nature est a priori inconnue, mais qui sont supposés appartenir à la même population que celle qui a servi à son établissement. La figure 2 montre une collection spectrale de 20 échantillons différents de maïs broyé. Chacun des spectres est ici un signal numérisé composé de 351 absorbances associées aux longueurs d'onde comprises entre 1100 et 2500 nanométres, avec un intervalle de 4 nanométres. On peut constater la très forte ressemblance entre les spectres, qui ne semblent différer les uns des autres que par leur intensité générale. Pour appliquer des traitements statistiques, les données spectrales sont regroupées dans une matrice X, dont les lignes représentent les spectres (individus) et les colonnes, les absorbances aux différentes longueurs d'onde de mesure. Dans la collection spectrale représentée figure 2, la matrice X comporte ainsi 20 lignes et 351 colonnes. Du point de vue statistique, les données spectrales ont des particularités remarquables, qui rendent nécessaire leur traitement par des méthodes spécifiques. Tout d'abord, dans le cas de signaux numérisés, la matrice X des données comporte en général beaucoup plus de variables (points de mesure) que d'observations (spectres). De plus les longueurs d'onde de mesure forment une suite ordonnée. On peut donc s'attendre, lorsque l'intervalle de mesure est petit, à ce que l'information présente dans deux longueurs d'onde consécutives du spectre numérisé soit très voisine. En revanche, des longueurs d'onde très différentes contiennent en général des informations qui peuvent en partie se compléter. A titre d'illustration, la figure 3 montre la matrice de corrélation des variables de cette collection. On peut constater la forte colinéarité des variables. Dans une application, il est en général nécessaire d'extraire l'information utile de tels signaux par des méthodes tenant compte de la variabilité des collections étudiées.

L'analyse en composantes principales est une méthode très efficace pour traiter de telles données. Les cartes factorielles permettent d'examiner la structure des collections et sont souvent riches d'information. La figure 4 illustre le résultat d'une expérience portant sur des mélanges modèles (Robert et al., 1989). Dans cette expérience, on a réalisé des mélanges de farines de trois matières premières différentes : tourteau de soja, maïs et manioc. Les mélanges sont effectués deux par deux, en faisant varier les proportions avec un intervalle de 5%. On constitue ainsi, par exemple le mélange binaire :
{manioc 5% - maïs 95% };{manioc 10% - maïs 90%} ;… ; {manioc 90% - maïs 10%}. Les mélanges tourteau de soja-maïs et tourteau de soja-manioc, sont formés de la même manière. Les spectres proche infrarouge de tous ces mélanges, et ceux des matières premières non mélangées, sont enregistrés. La matrice X des données spectrales est traitée par analyse en composantes principales. La figure 4 montre le premier plan factoriel des individus (spectres). Sur cette carte, les matières premières non mélangées forment les extrémités d'un triangle. L'allure générale de graphique nous donne deux informations importantes. Tout d'abord, les spectres des mélanges sont bien la somme pondérée des spectres des produits purs. Cette information se déduit du fait que les points soient placés sur des droites. De plus, les coefficients de cette pondération sont sensiblement proportionnels aux proportions des mélanges. En effet, l'intervalle entre les spectres de deux mélanges de proportions voisines reste à peu près identique pour une nature donné du mélange binaire. L'ACP nous donne ainsi un moyen de tester la linéarité de la réponse des capteurs. Nous avons utilisé cette approche pour connaître la pertinence de nombreux capteurs notamment dans le domaine de la vision artificielle.

D'une manière générale, l'ACP fournit une méthode pour apprécier la ressemblance entre les spectres. Il existe de nombreuses situations industrielles dans lesquelles le simple positionnement du spectre d'une matière première ou d'un produit en cours de transformation sur les plans factoriels les plus pertinents suffit à donner une indication de la qualité du produit et de sa conformité. Le nouveau spectre est alors considéré comme un individu supplémentaire d'une ACP préalablement calculée.
Un autre intérêt de l'ACP dans le domaine du traitement du signal est que cette méthode est à l'origine d'un modèle linéaire de décomposition spectrale, qui peut avoir un sens pour le spécialiste du domaine d'étude.

En effet, la matrice C des coordonnées factorielles des individus (spectres) est donnée par :

C = XV' [1]
où V sont les vecteurs propres (en ligne) de X'X. La matrice X est supposée centrée.

On a la relation de l'ACP, bien connue :
X'XV' = V'L
avec L, la matrice diagonale des valeurs propres.

En multipliant à droite les deux membres de [1] par V, on obtient :
CV = XV'V [2]

avec V'V = U, matrice unitaire.
L'équation [2] peut alors être simplifiée :
X = CV [3]

Cette équation de reconstruction spectrale est très intéressante pour le spectroscopiste. Elle indique en effet, que chacun des individus (spectre) peut être considéré comme une somme des vecteurs propres pondérés par la coordonnée factorielle correspondante. Il existe ainsi une analogie avec la notion de mélange de matière première présenté précédemment. Les vecteurs propres apparaissent comme analogues à des spectres de produits purs, et les coordonnées factorielles sont analogues à des concentrations. Cependant, l'analogie n'est pas parfaite, puisque les concentrations et les absorbances sont toujours positives, ce qui n'est pas le cas des éléments des vecteurs propres, ni des cordonnées factorielles. Il est alors intéressant de représenter chaque vecteur propre sous la forme d'un graphique, représentant un " profil spectral ". Dans ce graphique, l'axe des X représente les longueurs d'onde de mesure, et l'axe des Y la valeur numérique de l'élément du vecteur propre correspondant. On peut considérer ce graphique comme une courbe, homologue à un spectre, et non comme la représentation d'une suite de points. L'interprétation spectrale porte aussi bien sur les pics (maxima locaux) présents dans ces profils spectraux, que sur les creux (minima).

Les figure 5a et 5b illustrent l'intérêt des profils spectraux. L'expérience illustrée porte sur l'analyse de produit laitiers, dont la teneur en matière grasse varie fortement d'un échantillon à un autre. Le premier plan factoriel de l'ACP (figure 5a) montre que, selon le premier axe (et sans étalonnage) les spectres des échantillons se répartissent selon la teneur en matière grasse. Il est alors utile d'examiner le profil spectral associé au premier vecteur propre (figure 5b). Ce profil laisse apparaître un " pic négatif " représentatif des bandes d'absorption de l'eau, et un massif positif formé de deux pics très caractéristiques des lipides (matière grasse). En d'autre termes, et de manière logique, l'accroissement de la proportion de lipides se traduit par une réduction de la quantité d'eau dans le produit. Le spectre d'un produit laitier peut ainsi, dans ce cas, être considéré comme étant la somme du spectre moyen de la collection, auquel s'ajoute ou se retranche un profil qui traduit sa richesse en lipides.

L'ACP présente également d'autres intérêts. Elle permet de condenser l'information. On observe en pratique que seules les dix ou vingt premières composantes sont exploitables dans les applications spectroscopiques. En ne conservant que ces composantes (et les vecteurs propres correspondants) on réduit très considérablement la taille de la matrice des données informatives. La plupart des traitements ultérieurs (par exemple l'utilisation des réseaux neuronaux) peut avantageusement s'effectuer sur les coordonnées factorielles plutôt que sur les spectres d'origine. De nombreux traitements statistiques, tels que la régression linéaire ou l'analyse discriminante mettent en jeu l'inversion de la matrice de variance-covariance des variables. Dans le cas de données colinéaires, cette inversion est impossible, ce qui pose de nombreux problèmes numériques. L'orthogonalité des coordonnées factorielles rend, au contraire, ces méthodes très faciles à utiliser.

 

Régressions " robustes "

La plupart des applications analytiques de la spectroscopie proche infrarouge repose sur l'établissement d'un modèle prédictif qui lie une variable y à prédire avec la matrice X des données spectrales. On utilise presque toujours le modèle linéaire, de la forme :

[4]

où y est le vecteur-colonne de la variable dépendante, de dimensions n x 1; b0 et b les paramètres du modèle à déterminer, X est la matrice n x k des variables indépendantes et 1 un vecteur de dimension n x 1 dont tous les éléments sont égaux à 1.

La première étape d'une application consiste à collecter des échantillons qui serviront à l'étalonnage, à enregistrer leur spectres, et à doser par une méthode de référence le constituant à analyser dans chacun des échantillons. Les données spectrales constituent la matrice X, tandis que les résultats analytiques permettent de former le vecteur y. Cette étape est souvent fastidieuse et constitue la plus grande part du coût de la mise au point analytique.

L'ajustement des paramètres du modèle décrit par l'équation [4] est en général assez difficile. En effet, la quasi-colinéarité des variables prédictives rend délicate l'inversion de la matrice de variance-covariance. A l'heure actuelle, la plupart des utilisateurs mettent en jeu la régression linéaire multiple pas à pas (RLMP) pour établir le modèle. Dans cette méthode bien connue, les variables prédictives sont sélectionnées parmi les k disponibles, en respectant un critère d'optimisation statistique tel que les moindres carrés. On applique en général une succession d'une étape ascendante dans laquelle on introduit une variable prédictive, suivi d'une étape descendante, dans laquelle on élimine la variable la moins pertinente. L'expérience montre que les modèle linéaires ainsi établis doivent en général inclure moins de 10 termes. Bien que très utilisée, la RLMP présente certains défauts. Les critères d'arrêt de l'introduction des variables sont assez arbitraires, et délicats à utiliser. Il est toujours nécessaire de vérifier le modèle sur une collection de validation, constituée d'individus n'ayant pas participé à l'étalonnage mais pour lesquels on connaît la valeur de la variable dépendante. Il est en général impossible, à partir des paramètres du modèle établi par RLMP, de connaître la raison théorique sur lequel est bâti le modèle prédictif. Les risques d'utiliser un modèle inapproprié deviennent alors importants. Enfin, les variables sélectionnées sont assez arbitraires. Une autre RLMP effectuée en changeant légèrement les individus de la collection d'étalonnage peut conduire à une sélection de variables très différentes, ce qui peut surprendre défavorablement l'utilisateur.

De très nombreuses études ont eu comme objectif de trouver une alternative à la RLMP. On tente en particulier, d'éviter l'étape de sélection des variables et d'utiliser la totalité des données disponibles. Deux méthodes statistiques, qui atteignent cet objectif, ont rencontré un certain succès : la régression en composantes principales (RCP) et la méthodes des moindres carrés partiels (partial least square, ou PLS), que nous ne décrirons pas ici. La RCP consiste à appliquer tout d'abord une ACP sur la matrice des variables indépendantes. Les composantes principales servent ensuite de variables prédictives au lieu des variables d'origine. Si on introduit dans le modèle la totalité des composantes associées à des valeurs propres non nulles, on obtient les même résultats que ceux obtenus par la régression linéaire multiple usuelle. Il est donc intéressant de sélectionner, parmi les composantes disponibles, celles qui présentent la plus grande pertinence pour le problème considéré. Nous avons étudié la RCP dans un essai portant sur des spectres proche infrarouge de mélanges de farines (Bertrand et al., 1995). La collection comprenaient 50 spectres participant à l'étalonnage, et 49 pour la validation. La variable dépendante était un paramètre technologique, la production spécifique, qui traduit l'énergie mise en jeu pour fabriquer des aliments granulés. Nous avons comparé deux modes de sélection itérative des composantes. Dans la première méthode (RCP1) les composantes étaient introduites dans l'ordre de leur valeur propre décroissante. Dans la seconde approche (RCP2) les composantes étaient introduites dans l'ordre décroissant de leur coefficient de détermination partiel avec la variable dépendante. La pertinence des approches était évaluée par l'erreur résiduelle obtenue sur la collection de vérification, en fonction du nombre de termes de la régression (figure 6). Une méthode est " robuste " si l'erreur résiduelle ne dépend que faiblement du nombre de termes introduits dans le modèle. Il est surprenant de constater que la méthode RCP1 était la plus robuste, avec une erreur résiduelle faible pour une vingtaine de composantes introduites. Au contraire la méthode RCP2 donnait tout d'abord de bonnes performances, mais devenait peu fiable, après l'introduction du 7ème terme, correspondant à la 45ème composante.

 

Conclusion

L'exploitation de signaux provenant de capteurs présente un grand intérêt pratique, et pose des problèmes statistiques assez intéressants. Le spécialiste du domaine considéré est bien souvent démuni devant la diversité et la faible adéquation des outils statistiques disponibles dans des logiciels non spécifiques. Il n'existe pas, à l'heure actuelle, de démarche heuristique générale adaptée à ces problèmes d'exploitation de signaux numérisés.

 

Références Bibliographiques


Bertrand D., Vigneau E., Qannari M., Devaux M-F (1995). Comparaison de la régression en composantes principales et de la latent root regression. Application à la prédiction de la production spécifique de granulés par spectroscopie proche infrarouge. Actes du congrès de l'A.SU. " Agro-industrie et méthodes statistiques ", Dijon, 7-8 décembre 1995.

Osborne B.G., Fearn T. (1986). Near Infrared Spectroscopy in Food Analysis. Longman Scientific and Technical, UK, 200 pages.

Robert P., Bertrand D., Defoix M. Mixture modelling in NIR spectroscopy (1989). Proceeding of the fifth European conference on food chemistry, Versailles, September 27-29, INRA pub., ref. EP5.

vers documents pédgogiques

retour menu général