Mathématique Informatique et Génome Extraction d'information en génomique (Caderige) Institut National de la Recherche Agronomique










 

Application de l'apprentissage à l'extraction de connaissances

à partir de notices bibliographiques en génomique

 
 
 

Laboratoire MIG (Mathématique, Informatique et Génome)

Département Biométrie et Intelligence Artificielle - INRA


Mots clef

extraction de connaissance, acquisition de connaissance, apprentissage automatique à partir de corpus,
traitement automatique de la langue, génomique.

[Contexte] [Etat de l'art] [Phases du projet] [Contact]

Contexte biologique et objectifs informatiques

Cette activité de MIG s'inscrit dans le cadre du projet Caderige.
Contexte biologique
Les programmes de génomique génèrent des masses de données qui sont de plus en plus systématiquement répertoriées dans des collections internationales en ligne, qu'elles soient génériques, ou spécialisées par espèce ou par fonction. Cette information concerne les séquences et les structures annotées, des résultats de prédictions ou d'expériences à grande échelle de séquençage, de cartographie, ou de génomique fonctionnelle. Par contre, les connaissances plus fines sur la régulation de l'expression des gènes, qui sont nécessaires à la compréhension des mécanismes cellulaires, ne sont décrites que sous la forme des travaux publiés dans la littérature scientifique. Dès lors, l'accès à cette information documentaire est un enjeu central dans la construction de modèles d'interactions entre gènes et protéines, car c'est par ce biais que les chercheurs peuvent valider leurs hypothèses, voire définir de nouveaux plans d'expérience. Dans ce cadre, si la recherche d'information à l'aide de mots-clefs offre des performances intéressantes en terme de rapidité de traitement, les résultats renvoyés ne sont pas directement exploitables et nécessitent un important travail d'analyse des documents sélectionnés pour extraire l'information pertinente.
Objectifs informatiques
 
L'objectif est de concevoir des méthodes d'automatisation de cette extraction. Le résultat de l'extraction formalisé dans un formulaire pourra être stocké dans une base de données ou de connaissances.
 
Ces différentes techniques informatiques seront validées en analysant les notices bibliographiques de MedLine concernant l'étude des interactions moléculaires. À terme, ce projet permettra donc une amélioration notable de l'exploitation qui est faite des ressources documentaires dans le domaine de la recherche d'interaction mais pas exclusivement dans celui-ci. En effet, dans la mesure où les méthodes informatiques qui seront développées sont basées, d'une part, sur l'apprentissage automatique de ressources lexicales et conceptuelles et d'autre part, sur des méthodes génériques d'analyse de la langue, elles seront transposables aux autres disciplines présentant le même type de phénomènes linguistiques. Ainsi nos méthodes seront exploitables dans l'ensemble du contexte de l'extraction de connaissance à partir de documentations scientifique et technique.

Etat de l'art

En biologie moléculaire, l'état de l'art est très en-deçà de ce qui est proposé ici. Les deux approches majoritaires consistent à construire des patrons manuellement [Blaschke et al., 99], [Thomas et al., 2000], [Ono et al., 2001], et le taux de rappel (de couverture), se situe par exemple entre 0 % et 30 % pour le problème d'identification des interactions géniques, ou à construire les patrons de faible précision sur des bases de co-occurrence statistique [Craven, 99], [Stapley & Benoit, 2000], [Pillet, 2000].
 
Références

Blaschke C., Andrade M. A., Ouzounis C. and Valencia A., "Automatic Extraction of biological information from scientific text: protein-protein interactions", in Proceedings of 7th International Conference on Intelligent Systems in Molecular Biology, (ISMB'99), p. 60-67, Heidelberg, Germany, AAAI Press, 1999.

Craven M. and Kumlien J., "Constructing Biological Knowledge Bases by Extracting Information from Text Sources", in Proceedings of the 7th International Conference on Intelligent Systems in Molecular Biology (ISMB-99), pp. 77-86, Heidelberg, Germany, AAAI Press, 1999.

Ono T., Hishigaki H., Tanigami A. and Takagi T., "Automated extraction of information on protein-protein interactions from the biological literature", in Bioinformatics vol 17, n° 2, pp. 155-161, Oxford Press, 2001.

Pereira F., Tishby N. and Lee L., "Distributional clustering of English words", in Proceedings of the Conference of the Association of Computational Linguistics (ACL'93), pp. 183-190, 1993.

Pillet V., Méthodologie d'extraction automatique d'information à partir de la littérature scientifique en vue d'alimenter un nouveau système d'information, thèse de l'Université de droit, d'économie et des sciences d'Aix-Marseille, 2000.

Stapley B. J. and Benoit G., "Bibliometrics: Information Retrieval and Visualization from Co-occurrence of Gene Names in MedLine Abstracts", In Proceedings of the Pacific Symposium on Biocomputing (PSB'2000), vol. 5, pp. 529-540, Honolulu, 2000.

Thomas, J., Milward, D., Ouzounis C., Pulman S. and Caroll M., "Automatic Extraction of Protein Interactions from Scientific Abstracts", in Proceedings of the Pacific Symposium on Biocomputing (PSB'2000), vol.5, p. 502-513, Honolulu, 2000.

Phases du projet
Nous abordons trois méthodes différentes d'exploitation d'une documentation scientifique : il s'agit de sélectionner les textes pertinents, de sélectionner les fragments les plus intéressants et enfin d'extraire de la connaissance véhiculée par les textes pour en donner une représentation formelle.
Ces trois méthodes sont complémentaires et reposent sur des techniques apparentées. Le processus devra se dérouler en trois étapes. Des traitements de complexité croissante sont effectués à chaque étape, mais les traitements intermédiaires apportent déjà une aide appréciable en matière d'exploration documentaire :
 
 



 
 
 
 
 
 

Fragment 1 Fonctionnal role
 Source : protein HIPK2
 Target : apoptosis
"Furthermore, HIPK2 and p53 cooperate in the activation of p53-dependant transcription and apoptotic pathways." Fonctionnal role
 Source : protein p53
 Target : apoptosis

 
 
Fragment 2 Membership
 Element : protein kinase-2
 Family : serine /threonine kinases


 

"Here we demonstrate that homeodomain-interacting protein kinase-2, a member of a novel family of nuclear serine/threonine kinases, activates p53 by directly phosphorylating it at Ser 46." Interaction
 Source : protein kinase-2
 Target : p53
 Type : Positive

Figure 2. Des fragments de texte, aux formulaires remplis.
 
 

Contact

Claire Nédellec
Laboratoire Mathématique, Informatique et Génome (MIG)
Institut National de la Recherche Agronomique (INRA)
Domaine de Vilvert
F-78352 Jouy-en-Josas cedex

Tél : +33 (0)1 34 65 28 78
Fax : +33 (0)1 34 65 29 01
email : claire.nedellecATjouy.inra.fr

Philippe Bessières
Laboratoire Mathématique, Informatique et Génome (MIG)
Institut National de la Recherche Agronomique (INRA)
Domaine de Vilvert
F-78352 Jouy-en-Josas cedex

Tél : +33 (0)1 28 87
Fax : +33 (0)1 34 65 29 01
email : philbATjouy.inra.fr