Mathématique Informatique et Génome Extraction d'information en génomique Institut National de la Recherche Agronomique






 

Application de l'apprentissage à l'extraction de connaissances

à partir de notices bibliographiques en génomique

 
 
 

Laboratoire MIG (Mathématique, Informatique et Génome)

Département Informatique et Mathématiques appliquées - INRA


Mots clef

extraction de connaissance, acquisition de connaissance, apprentissage automatique à partir de corpus,
traitement automatique de la langue, génomique.

[Contexte] [Phases du projet] [Contact]

Contexte biologique et objectifs informatiques

Cette activité de MIG s'inscrit dans le cadre des projets Caderige., Alvis et FSOV SAM et des compétitions internationales LLL et BioNLP Shard Tasks.
Contexte biologique
Les programmes de génomique génèrent des masses de données qui sont de plus en plus systématiquement répertoriées dans des collections internationales en ligne, qu'elles soient génériques, ou spécialisées par espèce ou par fonction. Cette information concerne les séquences et les structures annotées, des résultats de prédictions ou d'expériences à grande échelle de séquençage, de cartographie, ou de génomique fonctionnelle. Par contre, les connaissances plus fines sur la régulation de l'expression des gènes, qui sont nécessaires à la compréhension des mécanismes cellulaires, ne sont décrites que sous la forme des travaux publiés dans la littérature scientifique. Dès lors, l'accès à cette information documentaire est un enjeu central dans la construction de modèles d'interactions entre gènes et protéines, car c'est par ce biais que les chercheurs peuvent valider leurs hypothèses, voire définir de nouveaux plans d'expérience. Dans ce cadre, si la recherche d'information à l'aide de mots-clefs offre des performances intéressantes en terme de rapidité de traitement, les résultats renvoyés ne sont pas directement exploitables et nécessitent un important travail d'analyse des documents sélectionnés pour extraire l'information pertinente.
Objectifs informatiques
 
L'objectif est de concevoir des méthodes d'automatisation de cette extraction. Le résultat de l'extraction formalisé dans un formulaire pourra être stocké dans une base de données ou de connaissances.
 
Ces différentes techniques informatiques seront validées en analysant les notices bibliographiques de MedLine concernant l'étude des interactions moléculaires. À terme, ce projet permettra donc une amélioration notable de l'exploitation qui est faite des ressources documentaires dans le domaine de la recherche d'interaction mais pas exclusivement dans celui-ci. En effet, dans la mesure où les méthodes informatiques qui seront développées sont basées, d'une part, sur l'apprentissage automatique de ressources lexicales et conceptuelles et d'autre part, sur des méthodes génériques d'analyse de la langue, elles seront transposables aux autres disciplines présentant le même type de phénomènes linguistiques. Ainsi nos méthodes seront exploitables dans l'ensemble du contexte de l'extraction de connaissance à partir de documentations scientifique et technique.
Phases du projet
Nous abordons trois méthodes différentes d'exploitation d'une documentation scientifique : il s'agit de sélectionner les textes pertinents, de sélectionner les fragments les plus intéressants et enfin d'extraire de la connaissance véhiculée par les textes pour en donner une représentation formelle.
Ces trois méthodes sont complémentaires et reposent sur des techniques apparentées. Le processus se déroule en trois étapes. Des traitements de complexité croissante sont effectués à chaque étape, mais les traitements intermédiaires apportent déjà une aide appréciable en matière d'exploration documentaire :
 
 



 
 
 
 
 
 

Fragment 1 Fonctionnal role
 Source : protein HIPK2
 Target : apoptosis
"Furthermore, HIPK2 and p53 cooperate in the activation of p53-dependant transcription and apoptotic pathways." Fonctionnal role
 Source : protein p53
 Target : apoptosis

 
 
Fragment 2 Membership
 Element : protein kinase-2
 Family : serine /threonine kinases


 

"Here we demonstrate that homeodomain-interacting protein kinase-2, a member of a novel family of nuclear serine/threonine kinases, activates p53 by directly phosphorylating it at Ser 46." Interaction
 Source : protein kinase-2
 Target : p53
 Type : Positive

Figure 2. Des fragments de texte, aux formulaires remplis.
 
 

Contact

Claire Nédellec
Laboratoire Mathématique, Informatique et Génome (MIG)
Institut National de la Recherche Agronomique (INRA)
Domaine de Vilvert
F-78352 Jouy-en-Josas cedex

Tél : +33 (0)1 34 65 28 78
Fax : +33 (0)1 34 65 29 01
email : claire.nedellecATjouy.inra.fr

Philippe Bessières
Laboratoire Mathématique, Informatique et Génome (MIG)
Institut National de la Recherche Agronomique (INRA)
Domaine de Vilvert
F-78352 Jouy-en-Josas cedex

Tél : +33 (0)1 34 65 28 87
Fax : +33 (0)1 34 65 29 01
email : philbATjouy.inra.fr