Chimiométrie

La chimiométrie est l'application des outils mathématiques, en particulier statistiques, pour obtenir le maximum d'informations à partir des données chimiques.

Cela comprend notamment :

  • les méthodes multivariées d'analyse de données
  • Les méthodes taxonomiques et de classification
  • les méthodes de traitement du signal
  • la validation des méthodes de mesures
  • la méthode des plans d'expérience qui a pour objectif d'organiser mathématiquement les conditions expérimentales pour choisir les plus informatives, ce qui permet de minimiser le nombre d'expériences tout en maximisant l'information obtenue
  • les méthodes d'optimisation
  • les outils statistiques de la qualité

Le but de la chimiométrie est d'améliorer par l'emploi de ces méthodes, le contrôle et l'optimisation des procédés ainsi que la qualité des produits fabriqués.

Chimiométrie

Sommaire

Signaux étudiés

Principaux signaux étudiés

L'une des grandes applications de la chimiométrie est dans la spectroscopie infrarouge : proche et moyen infra-rouge (PIR/MIR) sous différentes approches (multi/hyperspectral, spatial ou non). Mais d'autres signaux peuvent être étudiés également : spectroscopie RMN, spectroscopie de masse, spectroscopie Raman.

Spécificités des signaux

Donnée mono-variée vs. Donnée Multivariée

Auto-corrélation des variables et redondance de l'information

Distance entre spectres (malédiction de la multi-dimensionnalité)

Représentation commune des spectres

Méthodologie générale et bonnes pratiques

Schéma général d'étude

Apprentissage et robustesse

En apprentissage automatique, on cherche à construire un modèle mathématique sur la base des données. Pour ce faire, les données sont classiquement séparées en 3 : le jeu d'apprentissage, le jeu de validation et le jeu de test.

On a deux phases dans la construction du modèle finale :

1) une phase d'optimisation des (hyper-)paramètres du modèle (le nombre de plus proches voisins pour le kNN, le nombre de variables latentes dans une PLS) qui utilise un jeu d'apprentissage et le jeu de validation

2) une phase d'évaluation du modèle qui utilise le jeu de test

La meilleure pratique est de réaliser une double cross-validation : une cross-validation pour la phase 1, qui permettra de déterminer les hyperparamètres du modèle; puis une cross-validation pour la phase 2 qui permettra d'évaluer au mieux l'erreur associée.

Pendant la construction du modèle, on doit attacher une grande importance à ne pas biaiser artificiellement les critères de performances d'un modèle. Par exemple, les réplicats doivent être mis dans des jeux séparés, et le jeu test doit être le plus indépendant possible et représentatif de son utilisation.

Critères de performance et d'évaluation des modèles

Les critères employés pour l'évaluation de la performance : RMSEP, le R2 (et/ou le RPD qui est relié au R2).

Les critères employés pour l'évaluation de la qualité : coefficient de Durbin-Watson, le T2 d'Hoteling, le coefficient Q.

Techniques et méthodes employées

Traitement du signal

Différents effets à corriger : effets additifs, multiplicatifs et les bruits de mesure

Exploration de données (EDA) : méthodes non supervisées

Méthodes de réduction de dimension

ACP

Spécificité de l'ACP dans le cadre de la SPIR est de représenter les loadings de chaque composantes principales sous forme de spectre.

Autres méthodes

PARAFAC

Clustering

k-means et CAH

Prédiction d'une variable quantitative à partir de spectres

Linéaires

ACP et PLS

Non-linéaires

PLS locale (LWPLS, local PLS), ANN, CNN, SVM

Méthodes multiblocs

Prédiction d'une variable qualitative à partir de spectres (reconnaissance, classification, discrimination)

Linéaires

PLS-DA

Non-linéaires

kNN, CAH, RF, SVM

Décomposition et résolution spectrale (inversion du modèle de Beer Lambert)

MCR-ALS et ICA

Méthodes issues de la télédétection

SIMPLEX

Sélection de variables

Wrappers, Filters, Embedded

Méthodes particulièrement adaptées aux spectres

CovSel, VIP, UVE

Détection de points atypiques dans le multi-varié

Utilisation du T2 et Q

Outils employés

Langages couramment utilisés et les librairies

Matlab, Scilab, Octave: FACT toolbox

Python : pychem, scikit, numpy, scipy, skimage, Scikit-spectra

R : caret, mixOmics, ChemoSpec, RSpectra, prospectR

Autres

Outils libres : ChemFlow

Logiciels propriétaires :

Quelques exemples d'applications

Teneur en protéines du blé

Exemple pharmaceutique (MCR?)

Caractérisation des déchets organiques (FlashBMP)

Classification sur images hyperspectrales

Utilisation avec multibloc

Réseau Chimiométrie

Recherche (liste laboratoires)

Entreprises (liste entreprise/conseil)

Evenements (liste conf/seminaire/challenge/etc.)

  • Chimiométrie 2019 - 30 janvier > 1er février - Montpellier
  • NIRS 2019 -

Pour aller plus loin

Se former

Lecture

Liens (sites, vidéos)

Références

  1. Chemoocs est un projet collaboratif qui regroupe de nombreux chimiométriciens francophones issus d’universités (Lille, Brest, Aix-Marseille, Montpellier, Genève), d’écoles et d’instituts de recherche (Inra, Irstea, Oniris, AgroParistech), d’entreprises (Ondalys, Data_Frame) et d’une association (Héliospir). Porté par l’Inra, il est financé par Fondation Agropolis (Montpellier).