Olivier Th�baud, Universit� Paris V
L'analyse statistique d'une s�quence d'ADN demande de d�crire des mod�les. Les plus utilis�s sont fond�s sur une hypoth�se d'homog�n�it� tout au long de la s�quences (cha�nes de Markov stationnaires, ...) et ne peuvent refl�ter l'h�t�rog�n�it� pouvant exister entre diff�rentes r�gions d'une m�me s�quence. Un exemple connu des biologistes est la variation compositionnelle en GC le long du g�nome. Des r�gions "riches" en GC alternent avec des r�gions "pauvres" en GC. Depuis trois ann�es dans ce groupe au sein du Laboratoire de Statistique M�dicale, un travail de th�se a �t� poursuivi qui utilise un mod�le, expliquant au mieux l'h�t�rog�n�it� observ�e, pour d�limiter les r�gions homog�nes de la s�quence d'ADN �tudi�e (Muri, 1997). La d�tection de ces r�gions est importante d'un point de vue biologique car elle sera susceptible de r�v�ler des diff�rences de fonction ou de structure � l'int�rieur de g�nome. L'approche statistique consid�r�e dans cette th�se s'appuie sur des mod�les de cha�nes de Markov cach�es. Ces mod�les supposent l'existence de plages homog�nes dans la s�quence �tudi�e, plages dont on ignore � priori la taille et la position, et que l'on dispose d'un nombre fini de mod�les ( typiquement 2, 3 ou 4) qui s'ajustent de fa�on satisfaisante sur chacune de ces plages.
Le travail que j'ai commenc� il y a un an consiste � �tablir la th�orie math�matique et statistique qui permettra de faire �voluer de fa�on continue la cha�ne de Markov utilis�e dans les mod�lisations d�j� effectu�es au sein de notre groupe de travail. On parle de cha�nes de Markov d�rivantes. Pour donner un exemple simple du type de mod�les dont on se servira, il suffit de consid�rer une matrice de transition de d�part TT0 et une d'arriv�e TT1 et de consid�rer ensuite sur toute la s�quence une matrice de transition TTt �voluant tout au long de notre s�quence, par exemple :
TTt = (1- t/N) TT0 + t/N TT1 ,N �tant la taille de la s�quence �tudi�e.