next up previous
Next: About this document ...

Traitement automatique du renommage de gène en biologie

Julien Jourde - MIG, INRA

Contexte

Le renommage, qui est un cas particulier de création de synonymie, est un problème qui touche de nombreux domaines (par exemple le renommage des astres ou des objets en astronomie, des gènes ou des protéines en biologies, etc). La reconnaissance automatique de ces relations entre entités nommées dans les documents, par des outils de traitement automatique du langage (TAL), est donc un enjeu important (D. Weissenbacher, 2004).

L'équipe Bibliome (unité MIG - INRA) développe de nombreuses applications documentaires en biologie qui nécessitent l'identification avec précision, de noms de gènes et protéines, voir par exemple la base CoCitation qui permet de rechercher des co-citations de gènes et de protéines dans les reférences PubMed, notamment celles relatives à la bactérie Bacillus subtilis. Pour maintenir cette base, les références sont régulièrement réannotées à l'aide de la chaine d'annotation AlvisNLP et des ressources les plus récentes relatives aux organismes traités, entre autres, un dictionnaire à jour des noms de gènes et de protéines de B. subtilis et leurs synonymes. Or, la synonymie est particulièrement riche chez cette espèce en raison d'une politique globale de renommage (bien que souvent le fait d'initiatives individuelles) :

Le renommage chez la bactérie modèle Bacillus subtilis

Nomenclatures

Pour rendre compte exhaustivement de la synonymie, l'annotation des références de la base CoCitation doit prendre en compte l'ensemble des informations contenues dans les 7 nomenclatures principales de B. subtilis :

La comparaison des nomenclatures révèle de graves incohérences entre les différentes bases ayant pour origines diverses causes :

Ajoutons à cela le fait qu'une partie de l'information est contenue dans les textes scientifiques et n'est répertoriée dans aucune base. Il apparait alors difficile d'établir un dictionnaire sûr et complet.

Compléter les nomenclatures et les comparer à la bibliographie

Dans l'objectif de maintenir une nomenclature aussi exhaustive que possible, mais conservant la trace de l'origine des noms, nous développons deux axes visant à :

L'extraction automatique de relation de renommage

Il existe de nombreuses formes de renommage des gènes et protéines chez Bacillus subtilis :

Par patrons manuels

Un premier outil de reconnaissance des renommages est basé sur des patrons manuels définis à l'aide d'un corpus de 192 résumés MedLine, bacsuRename-192. Le corpus bacsuRename-192 a été sélectionné par recherche de co-citations de noms de gènes. Les couples sont formés de noms canoniques de gènes associés à chacun de leurs synonymes respectifs tels que obtenus par la fusion des nomenclatures EA_list et BSORF.

Le Rappel et la Précision de ces patrons ont été mesurés sur le corpus annoté à la main : Rappel = 65,77% et Précision = 100%. Les résultats de l'extraction ont permis un ordonnancement temporel des renommages : frise temporelle des renommages

Les formulations simples sont facilement reconnaissables avec une grande précision. Les formes plus complexes (énumérations, ...) ou dépassant les frontières de phrases sont plus difficiles à capter. Le corpus d'entrainement doit être étendu pour obtenir davantage de formes étendues, et de façon suffisante afin de tester des techniques de reconnaissance par apprentissage supervisé à partir de corpus annoté.

Par apprentissage supervisé

Annotation de corpus

La nomenclature utilisée pour sélectionner le corpus étendu appelée Gold, est obtenue par la fusion des sept bases. Le nouveau corpus de 1 843 références PubMed, bacsuRename-1843, est obtenu par double sélection :

L'annotation manuelle est réalisée à l'aide de l'éditeur d'annotation XML Cadixe après la conversion des fichiers au format cadixe. Cadixe est un outil d'annotation issu d'une collaboration entre MIG et l'IMAG. Le fichier de logs associé indique quels couples ou termes ont été détectés lors de la sélection du corpus.

La dtd (Document Type Definition, fichier décrivant la structure des annotations utilisables dans Cadixe), la css (feuille de style) et les guidelines associées en rendent compte.

Une première phase d'annotation manuelle par TranSys

Les chercheurs du projet TranSys ont contribué à mettre le cadre de l'annotation au point. La session de travail TranSys :

Une deuxième phase d'annotation manuelle dans Quaero

L'annotation du corpus bacsuRename-1843 est en cours de finalisation avec l'INIST;

Cadre de l'apprentissage

Ce travail est partiellement financé par le projet Oséo Quaero.




next up previous
Next: About this document ...
julien 2010-02-22