Projet Caderige |
Les programmes de génomique génèrent des masses de données qui sont de plus en plus systématiquement répertoriées dans des collections internationales en ligne, qu'elles soient génériques, ou spécialisées par espèce ou par fonction. Cette information concerne les séquences et les structures annotées, des résultats de prédictions ou d'expériences à grande échelle de séquençage, de cartographie, ou de génomique fonctionnelle. Par contre, les connaissances plus fines sur la régulation de l'expression des gènes, qui sont nécessaires à la compréhension des mécanismes cellulaires, ne sont décrites que sous la forme des travaux publiés dans la littérature scientifique. Dès lors, l'accès à cette information documentaire est un enjeu central dans la construction de modèles d'interactions entre gènes et protéines, car c'est par ce biais que les chercheurs peuvent valider leurs hypothèses, voire définir de nouveaux plans d'expérience. Dans ce cadre, si la recherche d'information à l'aide de mots-clefs offre des performances intéressantes en terme de rapidité de traitement, les résultats renvoyés ne sont pas directement exploitables et nécessitent un important travail d'analyse des documents sélectionnés pour extraire l'information pertinente.
L'objectif de Caderige est de concevoir des méthodes d'automatisation de cette extraction. Le résultat de l'extraction formalisé dans un formulaire pourra être stocké dans une base de données ou de connaissances.
Publications |
Participants de MIG |