Extraction d'Information en Génomique Fonctionnelle

Projet Caderige

Contexte biologique
Les programmes de génomique génèrent des masses de données qui sont de plus en plus systématiquement répertoriées dans des collections internationales en ligne, qu'elles soient génériques, ou spécialisées par espèce ou par fonction. Cette information concerne les séquences et les structures annotées, des résultats de prédictions ou d'expériences à grande échelle de séquençage, de cartographie, ou de génomique fonctionnelle. Par contre, les connaissances plus fines sur la régulation de l'expression des gènes, qui sont nécessaires à la compréhension des mécanismes cellulaires, ne sont décrites que sous la forme des travaux publiés dans la littérature scientifique. Dès lors, l'accès à cette information documentaire est un enjeu central dans la construction de modèles d'interactions entre gènes et protéines, car c'est par ce biais que les chercheurs peuvent valider leurs hypothèses, voire définir de nouveaux plans d'expérience. Dans ce cadre, si la recherche d'information à l'aide de mots-clefs offre des performances intéressantes en terme de rapidité de traitement, les résultats renvoyés ne sont pas directement exploitables et nécessitent un important travail d'analyse des documents sélectionnés pour extraire l'information pertinente.
Objectifs informatiques
L'objectif de Caderige est de concevoir des méthodes d'automatisation de cette extraction. Le résultat de l'extraction formalisé dans un formulaire pourra être stocké dans une base de données ou de connaissances.
Plus de détail
Site du projet

Publications

Nédellec C., "Bibliographical Information Extraction in Genomics" in IEEE Intelligent Systems: Trends & Controversies - Mining Information for Functional Genomics, N. Shadbolt (éd.), p. 76-78, mai-juin, 2002.
Ould Abdel Vetah M., Nédellec C. et Bessières P., "Application de la classification supervisée au filtrage de phrase mentionnant des interactions géniques dans MedLine", Journées Ouvertes Biologie Mathématique (JOBIM'2002), J. Nicolas & C. Thèrmes (éds), INRIA (pub.), p. 337-341, Saint-Malo, juin 2002.
Nédellec C., Ould Abdel Vetah M., et Bessières P., "Sentence Filtering for Information Extraction in Genomics, a Classification Problem". In Proceedings of the Conference on Practical Knowledge Discovery in Databases, PKDD'2001, p. 326-338, Freiburg, septembre 2001.
Nédellec C., "Machine Learning Applied to Information Extraction in specific domains. An Example: gene interaction extraction from bibliography in genomics.", communication invitée. In Proceedings of the second 2nd ECML/PKDD'2002 Workshop on Semantic Web Mining, Berendt B. et al. (Eds), p. 1-7, Helsinki, Finlande, août 2002.
Bessières P., Bisson G., Nazarenko A., Nédellec C., Ould Abdel Vetah M. et Poibeau T, "Ontology learning for information extraction in genomics bibliography - the Caderige project", Journées IMPG Ontologie et Extraction d'Information en Génomique, Grenoble, Mai 2001.
Nédellec C. et Ould Abdel Vetah M., Bessières P., Brun C. et Jacq B., "Text filtering for information extraction in genomics, a classification problem". Journées IMPG Ontologie et Extraction d'Information en Génomique, Grenoble, Mai 2001.

Participants de MIG

Philippe Bessières email : philbATjouy.inra.fr
Claire Nédellec email : claire.nedellecATjouy.inra.fr
Sophie Aubin email : saubinATjouy.inra.fr
Mohamed Ould Abdel Vetah email : mouldATjouy.inra.fr
Alain-Pierre Manine email : apmaineATjouy.inra.fr