SSB : description des recherches

Statistics for Systems Biology

QUI SOMMES-NOUS ?

Membres

PUBLICATIONS

LOGICIELS

SEMINAIRE

PREPRINTS

EMPLOI

Intranet

Site hébergé par

Note
Mathematics for Biological Networks Paris Dec 17-18, 2007.

Description des recherches

Statistiques de motifs dans les séquences d'ADN
Homogénéité des séquences d'ADN
Cartographie physique
Statistiques des scores pour l'analyse et la comparaison de séquences biologiques
Analyse des biopuces
Analyse statistique des réseaux biologiques

Statistiques de motifs dans les séquences d'ADN

Le thème fondateur du groupe est la détection de motifs dont le nombre d'occurrences est inattendu dans les séquences d'ADN. On parle de mots sous-représentés et sur-représentés, voire "exceptionnels". De nombreux travaux ont été réalisés sur ce thème, en particulier sur la loi du comptage d'un mot dans une séquence markovienne. Deux autres thèmes ont alors émergé : l'analyse statistique de la répartition d'un motif ou d'un ensemble de motifs le long d'une séquence et la modélisation de la co-répartition de deux motifs. Une présentation plus détaillée est fait ici.

Homogénéité des séquences d'ADN

Nous nous intéressons à la prise en compte de l'hétérogénéité observée des séquences d'ADN dans la modélisation. Un exemple connu des biologistes est l'alternance de plages "riches en G+C" et de plages "pauvres en G+C". Il est ainsi réaliste de considérer que se succèdent des plages (dont on ignore a priori la longueur et la position) et que l'on dispose de 2 (voire 3, 4, ...) modèles, de sorte que l'un de ces modèles s'ajuste au mieux sur chaque plage. Cette hétérogénéité est prise en compte par des modèles de chaînes de Markov cachées où l'on suppose que les plages correspondent aux états non observés d'une chaîne de Markov. Il s'agit alors de reconstruire ces plages à partir de la séquence observée et d'estimer les paramètres des modèles régissant chacune. Différents algorithmes d'identification des chaînes cachées ont été comparés (EM, SEM, Gibbs, ...).
Le logiciel R'HOM permet ainsi d'identifier les plages homogènes d'une séquence et d'estimer les paramètres du modèle de chaînes de Markov cachées sous-jacent. Il a été utilisé notamment avec succès pour détecter des transferts horizontaux dans certains génomes bactériens.

L'utilisation du logiciel R'HOM a aussi mis en évidence sa capacité à délimiter les régions codantes dans les génomes bactériens. Des développements spécifiques ont été effectués en ce sens afin de réaliser un détecteur de gènes. C'est donc, entre autre, ce que permet le logiciel SHOW.

Nous nous intéressons aussi à des modèles semi-markoviens cachés qui permettent de s'affranchir de l'hypothèse géométrique des temps de séjour dans chacun des états cachés.

Afin de rendre mieux compte de l'hétérogénéïté des séquences ADN, nous étudions un nouveau modèle qui est en fait un prolongement des modèles de chaînes de Markov cachées : il s'agit de faire varier continûment la matrice de transition le long de la séquence (par exemple, en nous fixant une matrice de départ Pi_0 et une d'arrivée Pi_1, nous pourrions considérer une évolution linéaire de la matrice de transition Pi_k le long de la séquence : Pi_k = (1- k/n)Pi_0 + (k/n) Pi_1 où n est la longueur de la séquence) Nous parlons ici de chaînes de Markov régulées et ces modèles pourraient refléter plusieurs aspects biologiques des séquences tels une évolution douce entre deux états d'une chaîne de Markov cachée ou bien une évolution le long d'un gène (par exemple, la répartition des sites de restriction chez Escherichia coli : il y en a beaucoup au début puis de moins en moins).

Cartographie physique

Construire la carte physique du génome d'un organisme, ou disons d'un chromosome, consiste à recouvrir le chromosome à l'aide de plus petits fragments d'ADN qui se chevauchent. Ces fragments sont obtenus en coupant plusieurs copies du chromosome, par exemple par digestion partielle par des enzymes de restrictions ou par ultra-sons. On dispose donc d'une bibliothèque de fragments (appelés clones) Pour détecter les chevauchements entre les clones, plusieurs méthodes peuvent être utilisées. Dans la méthode par ancrage, celle qui nous intéresse ici, on utilise une bibliothèque d'ancres, qui sont des fragments d'ADN de seulement quelques dizaines de bases ne devant apparaître qu'une unique fois sur le chromosome. Ainsi, si deux clones pris au hasard dans la bibliothèque contiennent au moins une ancre en commun (détecté par PCR ou par hybridation), c'est qu'ils se chevauchent sur le chromosome. On peut ainsi assembler les clones qui contiennent des ancres en commun pour former des ``contigues'' ou des îles. On s'intéresse ici à l'approche consistant à générer les ancres ``aléatoirement'', contrairement à des approches où par exemple les ancres sont les extrémités des clones.
Une des questions importantes pour planifier un projet de cartographie physique est de pouvoir prédire son progrès, c'est à dire de prédire le nombre d'îles, leur longueur moyenne, la proportion de génome qui sera recouvert par les îles, ..., en fonction du nombre de clones et du nombres d'ancres. L'idée est de trouver un compromis entre le coût du projet (lié au nombre d'expériences et donc au nombre de clones et d'ancres) et le résultat, notamment la proportion de génome recouvert par les îles. Ce problème nécessite de modéliser les positions des clones et des ancres le long du chromosome.
Sous l'hypothèse de représentativité du chromosome par la bibliothèque de clones et d'homogénéité pour celle d'ancres, le modèle le plus utilisé est celui de deux processus de Poisson homogènes indépendants pour les ancres et les fins de clones, et des clones de longueurs i.i.d.
Les données de cartographie physique se multipliant, on s'aperçoit que les hypothèses d'homogénéité le long du génome faites ci-dessus ne sont pas réalisées en pratique, notamment à cause du biais de clonage bien connu des biologistes. Nous avons ainsi étudier l'effet de deux types d'hétérogénéité sur les prédictions des résultats d'un projet de cartographie physique. La première source d'inhomogénéité réside dans la répartition des clones et des ancres le long du chromosome; on utilise alors des processus de Poisson non homogènes. La seconde réside dans la distribution de la longueur des clones qui peut varier avec la position des clones le long du chromosome.

Statistiques des scores pour l'analyse et la comparaison de séquences biologiques

La comparaison de deux séquences biologiques joue un rôle primordial dans l'analyse des données issues de la biologie moléculaire. Pour effectuer ces comparaisons, nous attribuons des pondérations, appelées scores, aux différents couples de composants de ces séquences (nucléotides ou acides aminés) et recherchons la ou les régions qui correspondent au score maximal, appelé score local.
Le problème statistique est de tester si le score calculé est significatif ou non, afin de mettre en évidence un lien biologique éventuel entre les séquences. L'un de nos objectifs est donc de déterminer la distribution du score local.

Nous avons regardé deux approches qui diffèrent de celle de Karlin et al. utilisée dans BLAST.
Nous modélisons les séquences par une suite de variables aléatoires indépendantes et identiquement distribuées à valeurs entières.
Nous nous plaçons tout d'abord sous l'hypothèse de scores négatifs en moyenne. En utilisant la théorie des marches aléatoires, nous établissons la distribution du maximum des sommes partielles qui se présente comme l'unique distribution invariante d'une chaîne de Markov. Cette distribution s'écrit comme la combinaison linéaire de suites récurrentes définies à partir de racines d'un polynôme qui dépend directement de la distribution des scores. Nous tirons de ce résultat une nouvelle approximation asymptotique de la distribution du score local qui améliore numériquement celle donnée par Karlin et al..
D'autre part, la distribution du score local est ensuite obtenue en utilisant la théorie des chaînes de Markov. Ce résultat, valable pour des scores en moyenne négatifs, positifs ou bien nuls, se présente sous la forme de puissances d'une certaine matrice. On en déduit une approximation pour la distribution du score local de deux séquences avec décalage.

Les résultats peuvent être facilement généralisés aux cas des suites à dépendance markovienne.

Analyse des biopuces

Nous travaillons sur plusieurs projets liés à l'analyse des biopuces. Dans le cadre de l'analyse différentielle, nous modélisons la variance de l'expression différentielle des gènes au moyen d'un modèle de mélange. L'une des difficultés consiste à choisir le nombre de classes. Nous avons aussi abordé la problématique des tests multiples (contrôle du taux de faux positifs, FDR).

Un autre thème est la classification supervisée.

Nous somme aussi impliqués dans un travail de segmentation de processus pour l'étude de puces CGH, travail qui fait ici encore appel à un problème de sélection de modèles (choix du nombre de ruptures et choix des niveaux de ces ruptures).

Analyse statistique des réseaux biologiques

Nous nous intéressons à trois sujets : développer des modèles de graphes aléatoires qui s'ajustent de façon satisfaisante aux réseaux biologiques, étudier la distribution du comptage de motifs dans des graphes aléatoires pour mettre en évidence des motifs exceptionnels dans des réseaux biologiques et enfin inférer un réseaux de régulation à partir de cinétiques de données d'expression de gènes.

Copyright: © 2002 SSB (tous droits réservés)
Author:    Sophie Schbath <schbath@ jouy.inra.fr>
Generator: WML 2.0.9 (18-Oct-2002)
Modified:  2004-11-15 14:45:12
Created:   1996-10-25