SSB English Statistics for Systems Biology
QUI SOMMES-NOUS ?
Membres
Thèmes de recherche
PUBLICATIONS
Papiers
Thèses/HDR
Stages
LOGICIELS
SEMINAIRE
PREPRINTS
EMPLOI
Intranet

Site hébergé par MIG

Note
Mathematics for Biological Networks Paris Dec 17-18, 2007.
Statistiques des motifs



Mots de fréquence exceptionnelle dans les séquences d'ADN
Mots de répartition exceptionnelle le long de l'ADN
Mot(if)s corépartis le long des séquences



Mots de fréquence exceptionnelle dans les séquences d'ADN

Le thème fondateur du groupe est la détection de mots dont le nombre d'occurrences est inattendu dans les séquences d'ADN. On parle donc de mots sous-représentés et sur-représentés, voire "exceptionnels". Ce caractère exceptionnel est bien souvent la conséquence d'une fonction biologique qui est liée à ces mots et qui peut renvoyer à la maintenance, la réplication ou l'expression du génome. Le mot CHI de longueur 8 est un exemple de mot sur-représenté dans le génome de la bactérie E. coli ; il intervient dans la protection du génome. Au contraire, les sites de restriction des bactéries fragilisent l'ADN qui les porte ; ils sont sous-représentés dans le génome bactérien.

Les notions de sous-représentations et sur-représentations n'ont de sens que dans un modèle : le comptage observé est comparé à un comptage attendu calculé dans un modèle s'ajustant à la séquence d'ADN. La suite des bases A, G, C et T du génome est modélisée par des chaînes de Markov qui peuvent être d'ordre 1 ou plus élevé, avec des transitions homogènes ou périodiques (prise en compte de la période 3 dans les parties codantes), ... Pour les séquences d'ADN codantes, des modèles conditionnés par la traduction en acides aminés ont été étudiés.
Nous étudions également les chaînes de Markov à ordre variable qui permettent de réduire la dimension des modèles utilisés.

C'est la loi du comptage qui détermine si le comptage observé est significativement différent du comptage attendu sous le modèle choisi. Pour déterminer la loi du comptage, plusieurs approches ont été utilisées.

Deux asymptotiques ont d'abord été considérées conduisant à des approximations de la loi du comptage par des gaussiennes ou par une loi de Poisson composée (cette dernière se réduit à une loi de Poisson simple si le mot n'est pas recouvrant). Le logiciel R'MES se base ainsi sur ces deux approximations pour identifier les mots exceptionnels d'une séquence.
Puis nous avons déterminé la loi exacte du comptage en calculant sa fonction génératrice dans un modèle de chaîne de Markov d'ordre 1. Les probabilités ponctuelles peuvent en fait s'obtenir à l'aide d'une récurrence. Les temps de calculs pour la loi exacte sont toutefois important pour des séquences de plusieurs dizaines de milliers de paires de bases.

Si l'on met en balance le temps de calcul et la qualité des approximations de la loi du comptage, nous aboutissons aux conclusions suivantes : il est préférable d'utiliser la loi exacte pour des séquences d'au plus quelques dizaines de milliers de paires de bases. Pour les séquences plus longues, il est judicieux d'utiliser une loi gaussienne pour les mots fréquents (comptage attendu>> 100), et une loi de Poisson composée pour les mots rares (comptages attendus << 100).

Nous avons aussi étudié une approche de grandes déviations pour détecter les mots exceptionnels. Cette approche permet d'approcher efficacement la queue de distribution du comptage, quantité intéressante pour juger de l'exceptionnalité d'un mot. Elle est implémenté dans le logiciel Spat.

La plupart de nos résultats se généralisent à des mots dégénérés ou plus généralement à des familles de mots.

Mots de répartition exceptionnelle le long de l'ADN

Une façon d'étudier la répartition d'un ou plusieurs mots dans une séquence biologique est de considérer les distances qui séparent ses (ou leurs) occurrences successives. Pour pouvoir effectuer une étude locale de cette répartition, il convient, de plus, de disposer de résultats valables pour des séquences courtes i.e. des lois exactes et non asymptotiques. Sous l'hypothèse que la séquence étudiée est une chaîne de Markov (d'ordre 1), nous avons établi les lois exactes
  • des positions des occurrences successives,
  • des distances qui séparent ces occurrences,
  • des cumuls de r distances successives (r-scans).
Ces résultats sont essentiellement fondés sur les propriétés des fonctions génératrices et des processus semi-markoviens. Le calcul effectif des différentes probabilités se fait par récurrence et implique donc des temps de calcul assez longs pour les longues séquences (> 100 000 bps). De plus, quand on étudie plusieurs mots, les fonctions génératrices sont obtenues grâce à un logiciel de calcul symbolique. Ces résultats permettent de détecter des mots non seulement fréquents, mais ayant de plus une distribution particulièrement régulière (c'est le cas des mots ayant une fonction de protection du génome). Ils permettent également de détecter des zones particulièrement riches en un mot ou en une famille de mots (comme le CHI de H. influenzae, gntggtgg).

Nous avons ensuite généralisé ces résultats à un modèle plus pertinent qui tient compte de la fréquence du ou des mots : il s'agit d'un modèle de Poisson composé pour les occurrences de mots.

Homogénéité des séquences d'ADN

Nous nous intéressons à la prise en compte de l'hétérogénéité observée des séquences d'ADN dans la modélisation. Un exemple connu des biologistes est l'alternance de plages "riches en G+C" et de plages "pauvres en G+C". Il est ainsi réaliste de considérer que se succèdent des plages (dont on ignore a priori la longueur et la position) et que l'on dispose de 2 (voire 3, 4, ...) modèles, de sorte que l'un de ces modèles s'ajuste au mieux sur chaque plage. Cette hétérogénéité est prise en compte par des modèles de chaînes de Markov cachées où l'on suppose que les plages correspondent aux états non observés d'une chaîne de Markov. Il s'agit alors de reconstruire ces plages à partir de la séquence observée et d'estimer les paramètres des modèles régissant chacune. Différents algorithmes d'identification des chaînes cachées ont été comparés (EM, SEM, Gibbs, ...).
Le logiciel
R'HOM permet ainsi d'identifier les plages homogènes d'une séquence et d'estimer les paramètres du modèle de chaînes de Markov cachées sous-jacent. Il a été utilisé notamment avec succès pour détecter des transferts horizontaux dans certains génomes bactériens.

L'utilisation du logiciel R'HOM a aussi mis en évidence sa capacité à délimiter les régions codantes dans les génomes bactériens. Des développements spécifiques ont été effectués en ce sens afin de réaliser un détecteur de gènes. C'est donc, entre autre, ce que permet le logiciel SHOW.

Nous nous intéressons aussi à des modèles semi-markoviens cachés qui permettent de s'affranchir de l'hypothèse géométrique des temps de séjour dans chacun des états cachés.

Afin de rendre mieux compte de l'hétérogénéïté des séquences ADN, nous étudions un nouveau modèle qui est en fait un prolongement des modèles de chaînes de Markov cachées : il s'agit de faire varier continûment la matrice de transition le long de la séquence (par exemple, en nous fixant une matrice de départ Pi_0 et une d'arrivée Pi_1, nous pourrions considérer une évolution linéaire de la matrice de transition Pi_k le long de la séquence : Pi_k = (1- k/n)Pi_0 + (k/n) Pi_1 où n est la longueur de la séquence) Nous parlons ici de chaînes de Markov régulées et ces modèles pourraient refléter plusieurs aspects biologiques des séquences tels une évolution douce entre deux états d'une chaîne de Markov cachée ou bien une évolution le long d'un gène (par exemple, la répartition des sites de restriction chez Escherichia coli : il y en a beaucoup au début puis de moins en moins).

Cartographie physique

Construire la carte physique du génome d'un organisme, ou disons d'un chromosome, consiste à recouvrir le chromosome à l'aide de plus petits fragments d'ADN qui se chevauchent. Ces fragments sont obtenus en coupant plusieurs copies du chromosome, par exemple par digestion partielle par des enzymes de restrictions ou par ultra-sons. On dispose donc d'une bibliothèque de fragments (appelés clones) Pour détecter les chevauchements entre les clones, plusieurs méthodes peuvent être utilisées. Dans la méthode par ancrage, celle qui nous intéresse ici, on utilise une bibliothèque d'ancres, qui sont des fragments d'ADN de seulement quelques dizaines de bases ne devant apparaître qu'une unique fois sur le chromosome. Ainsi, si deux clones pris au hasard dans la bibliothèque contiennent au moins une ancre en commun (détecté par PCR ou par hybridation), c'est qu'ils se chevauchent sur le chromosome. On peut ainsi assembler les clones qui contiennent des ancres en commun pour former des ``contigues'' ou des îles. On s'intéresse ici à l'approche consistant à générer les ancres ``aléatoirement'', contrairement à des approches où par exemple les ancres sont les extrémités des clones.
Une des questions importantes pour planifier un projet de cartographie physique est de pouvoir prédire son progrès, c'est à dire de prédire le nombre d'îles, leur longueur moyenne, la proportion de génome qui sera recouvert par les îles, ..., en fonction du nombre de clones et du nombres d'ancres. L'idée est de trouver un compromis entre le coût du projet (lié au nombre d'expériences et donc au nombre de clones et d'ancres) et le résultat, notamment la proportion de génome recouvert par les îles. Ce problème nécessite de modéliser les positions des clones et des ancres le long du chromosome.
Sous l'hypothèse de représentativité du chromosome par la bibliothèque de clones et d'homogénéité pour celle d'ancres, le modèle le plus utilisé est celui de deux processus de Poisson homogènes indépendants pour les ancres et les fins de clones, et des clones de longueurs i.i.d.
Les données de cartographie physique se multipliant, on s'aperçoit que les hypothèses d'homogénéité le long du génome faites ci-dessus ne sont pas réalisées en pratique, notamment à cause du biais de clonage bien connu des biologistes. Nous avons ainsi étudier l'effet de deux types d'hétérogénéité sur les prédictions des résultats d'un projet de cartographie physique. La première source d'inhomogénéité réside dans la répartition des clones et des ancres le long du chromosome; on utilise alors des processus de Poisson non homogènes. La seconde réside dans la distribution de la longueur des clones qui peut varier avec la position des clones le long du chromosome.

Statistiques des scores pour l'analyse et la comparaison de séquences biologiques

La comparaison de deux séquences biologiques joue un rôle primordial dans l'analyse des données issues de la biologie moléculaire. Pour effectuer ces comparaisons, nous attribuons des pondérations, appelées scores, aux différents couples de composants de ces séquences (nucléotides ou acides aminés) et recherchons la ou les régions qui correspondent au score maximal, appelé score local.
Le problème statistique est de tester si le score calculé est significatif ou non, afin de mettre en évidence un lien biologique éventuel entre les séquences. L'un de nos objectifs est donc de déterminer la distribution du score local.

Nous avons regardé deux approches qui diffèrent de celle de Karlin et al. utilisée dans BLAST.
Nous modélisons les séquences par une suite de variables aléatoires indépendantes et identiquement distribuées à valeurs entières.
Nous nous plaçons tout d'abord sous l'hypothèse de scores négatifs en moyenne. En utilisant la théorie des marches aléatoires, nous établissons la distribution du maximum des sommes partielles qui se présente comme l'unique distribution invariante d'une chaîne de Markov. Cette distribution s'écrit comme la combinaison linéaire de suites récurrentes définies à partir de racines d'un polynôme qui dépend directement de la distribution des scores. Nous tirons de ce résultat une nouvelle approximation asymptotique de la distribution du score local qui améliore numériquement celle donnée par Karlin et al..
D'autre part, la distribution du score local est ensuite obtenue en utilisant la théorie des chaînes de Markov. Ce résultat, valable pour des scores en moyenne négatifs, positifs ou bien nuls, se présente sous la forme de puissances d'une certaine matrice. On en déduit une approximation pour la distribution du score local de deux séquences avec décalage.

Les résultats peuvent être facilement généralisés aux cas des suites à dépendance markovienne.
 

Mot(if)s corépartis le long des séquences

Nous avons entrepris en 2000 d'étudier la co-répartition de motifs le long d'un génome. L'un de nos objectifs était de détecter des motifs dont les occurrences sur une séquence ne sont pas indépendantes les unes des autres. Cette propriété pourrait en effet traduire leur appartenance à un même processus biologique lié à l'ADN. Nous voulons de plus caractériser les liens entre ces occurrences de motifs, à savoir quelles seraient les distances évitées ou au contraires favorisées entre ces motifs.
Notre démarche consiste alors à considérer les occurrences d'un motif comme un processus ponctuel dont l'intensité est celle du modèle linéaire de Hawkes et à estimer les paramètres intervenant dans cette intensité, en particulier les profils d'influence entre les mots. Ces profils sont décomposés sur une base de fonctions et l'estimation se fait en minimisant un contraste. On adopte alors une approche de sélection de modèle pour déterminer l'estimateur optimal.

Analyse des biopuces

Nous travaillons sur plusieurs projets liés à l'analyse des biopuces. Dans le cadre de l'analyse différentielle, nous modélisons la variance de l'expression différentielle des gènes au moyen d'un modèle de mélange. L'une des difficultés consiste à choisir le nombre de classes. Nous avons aussi abordé la problématique des tests multiples (contrôle du taux de faux positifs, FDR).

Un autre thème est la classification supervisée.

Nous somme aussi impliqués dans un travail de segmentation de processus pour l'étude de puces CGH, travail qui fait ici encore appel à un problème de sélection de modèles (choix du nombre de ruptures et choix des niveaux de ces ruptures).

Copyright: © 2002 SSB (tous droits réservés)
Author:    Sophie Schbath <schbath@ jouy.inra.fr>
Generator: WML 2.0.9 (18-Oct-2002)
Modified:  2004-11-15 14:45:12
Created:   1996-10-25