Statistiques des scores pour l'analyse et la comparaison
de séquences biologiques
La comparaison de deux séquences biologiques joue un rôle
primordial dans l'analyse des données issues de la biologie moléculaire.
Pour effectuer ces comparaisons, nous attribuons des pondérations,
appelées scores, aux différents couples de composants de
ces séquences (nucléotides ou acides aminés) et recherchons
la ou les régions qui correspondent au score maximal, appelé
score local.
Le problème statistique est de tester si le score calculé
est significatif ou non, afin de mettre en évidence un lien biologique
éventuel entre les séquences.
L'un de nos objectifs est donc de déterminer la distribution du score local.
Nous avons regardé deux approches qui diffèrent de celle de Karlin
et al. utilisée dans BLAST.
Nous modélisons les séquences par une suite
de variables aléatoires indépendantes et identiquement distribuées
à valeurs entières.
Nous nous plaçons tout d'abord sous l'hypothèse de scores
négatifs en moyenne. En utilisant la théorie des marches
aléatoires, nous établissons la distribution
du maximum des sommes partielles qui se présente comme
l'unique distribution invariante d'une chaîne de Markov. Cette distribution
s'écrit comme la combinaison linéaire de suites récurrentes
définies à partir de racines d'un polynôme qui dépend
directement de la distribution des scores. Nous tirons de ce résultat
une nouvelle approximation asymptotique de la distribution du score local
qui améliore numériquement celle donnée par Karlin
et al..
D'autre part, la distribution du score local
est ensuite obtenue en utilisant la théorie des chaînes de
Markov. Ce résultat, valable pour des scores en moyenne négatifs,
positifs ou bien nuls, se présente sous la forme de puissances d'une
certaine matrice. On en déduit une approximation pour la distribution
du score local de deux séquences avec décalage.
Les résultats peuvent être facilement généralisés
aux cas des suites à dépendance markovienne.
Analyse des biopuces
Nous travaillons sur plusieurs projets liés à l'analyse des
biopuces. Dans le cadre de l'analyse différentielle, nous modélisons
la variance de l'expression différentielle des gènes au moyen d'un
modèle de mélange. L'une des difficultés consiste à choisir le nombre
de classes. Nous avons aussi abordé la problématique des tests
multiples (contrôle du taux de faux positifs, FDR).
Un autre thème est la classification supervisée.
Nous somme aussi impliqués dans un travail de segmentation de
processus pour l'étude de puces CGH, travail qui fait ici encore appel
à un problème de sélection de modèles (choix du nombre de ruptures et
choix des niveaux de ces ruptures).
Analyse statistique des réseaux biologiques
Nous nous intéressons à trois sujets : développer des modèles de graphes
aléatoires qui s'ajustent de façon satisfaisante aux réseaux
biologiques, étudier la distribution du comptage de motifs dans des
graphes aléatoires pour mettre en évidence des motifs exceptionnels
dans des réseaux biologiques et enfin inférer un réseaux de régulation
à partir de cinétiques de données d'expression de gènes.