Cha�nes de Markov d�rivantes et analyse de l'h�t�rog�n�it� du g�nome.

Olivier Th�baud, Universit� Paris V

L'analyse statistique d'une s�quence d'ADN demande de d�crire des mod�les. Les plus utilis�s sont fond�s sur une hypoth�se d'homog�n�it� tout au long de la s�quences (cha�nes de Markov stationnaires, ...) et ne peuvent refl�ter l'h�t�rog�n�it� pouvant exister entre diff�rentes r�gions d'une m�me s�quence. Un exemple connu des biologistes est la variation compositionnelle en GC le long du g�nome. Des r�gions "riches" en GC alternent avec des r�gions "pauvres" en GC. Depuis trois ann�es dans ce groupe au sein du Laboratoire de Statistique M�dicale, un travail de th�se a �t� poursuivi qui utilise un mod�le, expliquant au mieux l'h�t�rog�n�it� observ�e, pour d�limiter les r�gions homog�nes de la s�quence d'ADN �tudi�e (Muri, 1997). La d�tection de ces r�gions est importante d'un point de vue biologique car elle sera susceptible de r�v�ler des diff�rences de fonction ou de structure � l'int�rieur de g�nome. L'approche statistique consid�r�e dans cette th�se s'appuie sur des mod�les de cha�nes de Markov cach�es. Ces mod�les supposent l'existence de plages homog�nes dans la s�quence �tudi�e, plages dont on ignore � priori la taille et la position, et que l'on dispose d'un nombre fini de mod�les ( typiquement 2, 3 ou 4) qui s'ajustent de fa�on satisfaisante sur chacune de ces plages.

Le travail que j'ai commenc� il y a un an consiste � �tablir la th�orie math�matique et statistique qui permettra de faire �voluer de fa�on continue la cha�ne de Markov utilis�e dans les mod�lisations d�j� effectu�es au sein de notre groupe de travail. On parle de cha�nes de Markov d�rivantes. Pour donner un exemple simple du type de mod�les dont on se servira, il suffit de consid�rer une matrice de transition de d�part TT0 et une d'arriv�e TT1 et de consid�rer ensuite sur toute la s�quence une matrice de transition TTt �voluant tout au long de notre s�quence, par exemple :

TTt  = (1- t/N) TT0 + t/N TT1  ,
N �tant la taille de la s�quence �tudi�e.
Ce travail permettra vraisemblablement d'�viter les ruptures de mod�les observ�es entre deux plages successives dans l'optique cha�nes de Markov cach�es et permettra donc de d�river contin�ment entre ces deux plages. L'ensemble de mon travail sera appliqu� bien entendu � de vraies s�quences et les r�sultats pr�sent�s � des biologistes. D'autre part les programmes accompagnant ce travail seront mis ensuite � la disposition des biologistes dans une optique d'utilisation automatique de nos m�thodes.