Olivier Thébaud, Université Paris V
L'analyse statistique d'une séquence d'ADN demande de décrire des modèles. Les plus utilisés sont fondés sur une hypothèse d'homogénéité tout au long de la séquences (chaînes de Markov stationnaires, ...) et ne peuvent refléter l'hétérogénéité pouvant exister entre différentes régions d'une même séquence. Un exemple connu des biologistes est la variation compositionnelle en GC le long du génome. Des régions "riches" en GC alternent avec des régions "pauvres" en GC. Depuis trois années dans ce groupe au sein du Laboratoire de Statistique Médicale, un travail de thèse a été poursuivi qui utilise un modèle, expliquant au mieux l'hétérogénéité observée, pour délimiter les régions homogènes de la séquence d'ADN étudiée (Muri, 1997). La détection de ces régions est importante d'un point de vue biologique car elle sera susceptible de révéler des différences de fonction ou de structure à l'intérieur de génome. L'approche statistique considérée dans cette thèse s'appuie sur des modèles de chaînes de Markov cachées. Ces modèles supposent l'existence de plages homogènes dans la séquence étudiée, plages dont on ignore à priori la taille et la position, et que l'on dispose d'un nombre fini de modèles ( typiquement 2, 3 ou 4) qui s'ajustent de façon satisfaisante sur chacune de ces plages.
Le travail que j'ai commencé il y a un an consiste à établir la théorie mathématique et statistique qui permettra de faire évoluer de façon continue la chaîne de Markov utilisée dans les modélisations déjà effectuées au sein de notre groupe de travail. On parle de chaînes de Markov dérivantes. Pour donner un exemple simple du type de modèles dont on se servira, il suffit de considérer une matrice de transition de départ TT0 et une d'arrivée TT1 et de considérer ensuite sur toute la séquence une matrice de transition TTt évoluant tout au long de notre séquence, par exemple :
TTt = (1- t/N) TT0 + t/N TT1 ,N étant la taille de la séquence étudiée.