english version



Publications

Membres

BioNLP Shared Task

Liens
Laboratoire Mathématique Informatique et Génome,


Equipe Bibliome

Visit NEW Bibliome website


Contexte et objectifs

Créée en 2002, l'équipe de recherche Bibliome a pour objectif de développer des méthodes d'acquisition et d'annotation de connaissance exprimées en langage naturel dans des domaines spécialisés tel que la Biologie.

Les domaines concernés par nos recherches pluridisciplinaires relèvent de l'Intelligence Artificielle (Apprentissage Automatique, Traitement Automatique de la Langue, Extraction et Recherche d'Information), de la Biologie et de l'Information Scientifique et Technique.

Les applications concernées relèvent de l'extraction d'information (ex : interactions géniques) , de la recherche de document (ex : brevets, articles scientifiques), grâce au développement de méthodes automatiques en reconnaissance d'entité nommées, en acquisition d'ontologie et en annotation de relation sémantique.

Les domaines d'application de nos recherche sont principalement

  • la littérature scientifique en Biologie, par exemple, les références PubMed, les champs commentaires de SwissProt.

  • les brevets par exemple, dans le domaine des agrobiotechnologies.

Projets en cours

Projets passés

  • Transys : A system approach to defining membrane protein networks and applications. (Marie Curie ITN-FP7) Research Topic 4. Modelling interactions and networks. (2008-2012).

  • AIP TC : Texte et Connaissance AIP INRA (2010-2012).

  • GIS GC HP2E, Etude préalable à la conception d’un système d’information sur les grandes cultures avec des fonctions de recherche sémantique d’information (Systèmes de production de Grande Culture à Hautes Performances Economiques et Environnementales) (2011-2012)

  • VegA : Quelles biomasses pour le futur (ARP ANR) 2008-2010.

  • Epipagri : Towards European collective management of public intellectual property for agricultural biotechnologies (FP6 SSA) 2007-2008.

  • Alvis: Superpeer Semantic Search Engine 2004-2007.(FP6-IST-STREP)

  • ExtraPloDocs : EXTRAction de Connaissances pour l'exPLOitation de la DOCumentation Scientifique. 2002-2005. (RNTL)

  • Caderige I et II : Catégorisation Automatique de Documents pour l'Extraction de Réseaux d'Interaction Géniques. 2000-2003. (IMPG Inter-EPST)

  • BioMire : Reconnaissance des noms de gènes, de protéines et de voies métaboliques dans les textes scientifiques, en vue de l'indexation et de l'extraction automatique de connaissances. 2001-2002. (IMPG Inter-EPST)

Organisation de compétitions internationales

  • BioNLP Shared Task 2013 : Extraction d'événements à partir de textes en biologie. Deux tâches organisées par Bibliome : Genic Regulation Network et Bacteria Biotopes, 2012-2013.

  • BioNLP Shared Task 2011 : Extraction de relations sémantiques en biologie. Trois tâches organisées par Bibliome : Gene renaming, Genic Interaction et Bacteria Biotopes, 2010-2011.

  • LLL : Learning Language in Logics, 2005

Logiciels (2006-2013)

  • Alvis NLP/ML est une chaîne de traitement pour l'annotation sémantique de documents textuels, intégrant des outils de traitement automatique des langues naturelles pour la segmentation en mots/phrases, la reconnaissance d'entités nommées, l'analyse de termes, le typage sémantique et l'extraction de relations. Ces outils exploitent des ressources externes, comme des terminologies ou des ontologies. AlvisNLP/ML propose plusieurs outils pour l'acquisition (semi)-automatique de ces ressources, fondées sur des techniques d'apprentissage automatique. La chaîne est facilement configurable et extensible par ajout de nouveaux composants. Ce travail a été partiellement financé par le projet européen Alvis et le projet Quaero. Voir Nédellec et al., Handbook on Ontology, 2009
  • AlvisIR (Alvis Information Retrieval) est un moteur de recherche sémantique générique accessible par un navigateur. Une instance dans un domaine donnée peut être déployée en quelques heures pour une collection de documents et une ontologie. Une requêtete utilisateur qui porte sur un concept général de l'ontologie retrouve tous les documents traitant de ce concept, qu'ils soient sous la forme de synonymes ou de termes plus spécifiques. Le moteur traite également la recherche de relations. Voir par exemple l'instance développée pour la recherche sur les biotopes bactériens. Il intégré avec AlvisNLP et et AlvisAE. Ce travail a été partiellement financé par le projet européenAlvis et le projet Quaero.
  • AlvisAE (Alvis Annotation Editor) est un éditeur d'annotation en ligne. Il permet de visualiser et d'annoter les entités et les relations d'un texte. Il inclut des fonctions de gestion de campagne d'annotation. Il permet d'annoter les entités par les concepts d'une ontologie et de réviser l'ontologie en parallèle. Il est intégré à AlvisNLP. Ce travail a été partiellement financé par le projet Quaero..See LAW VI paper for more details.
  • BioYaTeA est une extension du logiciel YaTeA d'extraction terminologique. Il extrait des termes dans des textes en français et en anglais. Il inclut le traitement des adjectifs verbaux et des groupes prépositionnels en at et to. Il inclut des fichiers de filtrage de termes spécifiques à la biologie. Il est intégré dans AlvisNLP. Il est publiquement distribué sous forme de module CPAN. Ce travail a été partiellement financée par le projet européenAlvis et le projet Quaero. Voir l'article (Golik et al., CiCLING'2013) pour plus de détails
  • TyDI, (Terminology Design Interface) est un outil collaboratif pour la validation et la structuration de termes en ontologie. Les termes sont extraits d'un corpus de documents textuels par un extracteur de termes comme BioYatea ou proviennent d'une terminologie existante. L'ontologie est exportable en différents formats standard, pour être ensuite utilisés par d'autres outils d'analyse de texte en langue naturelle. Ce travail a été partiellement financé par le projet européenAlvis et le projet Quaero.Voir Golik et al., EKAW 2010 pour plus de détails.
  • Corpus et Ontologies en biologie (2005-2013)

    Les corpus et ontologies sont distribués sous la licence Creative Commons CC-BY-SA

  • Corpus LLL (Learning Language is Logic): Ce corpus est le corpus original de la compétition LLL. L'objectif de la compétition LLL est de comparer et d'évaluer les performances de systèmes d'Extraction d'Information pour l'identification d'interactions géniques et des gènes et des protéines qui interagissent. Le on-line service d'évaluation est accessible en ligne. Noter que le corpus LLL diffère du corpus BioInfer LLL. Le corpus LLL Bioinfer propose une tâche d'extraction plus simple sur le même texte, les arguments des relations sont donnés et les relations ne sont pas dirigées.
  • Corpus BI : ce corpus fait partie de la tâche Bacteria Interaction de la compétition BioNLP Shared Task 2011. L'objectif est l'extraction d'événements complexes d'interactions biologiques à partir de références Pubmed.
  • Corpus GRN : ce corpus fait partie de la tâche Gene Regulation Network in Bacteria task de la compétition BioNLP Shared Task 2013. L'objectif est l'extraction du réseau de régulation coplet de la sporulation chez Bacillus subtilis. Le service d'évaluation est accessible en ligne.
  • Corpus BB'11 : ce corpus fait partie de la tâche Bacteria Biotope de la compétition BioNLP Shared Task 2011. L'objectif est (1) d'identifier la bactérie et ses habitats qui doivent être catégorisés dans 7 types et (2) d'extraire les relations entre la bactérie et ses habitats.
  • Corpus BB'13 : ce corpus fait partie de la tâche Bacteria Biotope de la compétition BioNLP Shared Task 2011. L'objectif est (1) d'identifier la bactérie et ses habitats qui doivent être catégorisés par les concepts de l'ontologie OntoBiotope by the concept of the OntoBiotope ontologies et (2) d'extraire les relations entre la bactérie et ses habitats. Le service d'évaluation est accessible en ligne.
  • Ontologie OntoBiotope : L'ontologie OntoBiotope décrit des habitats de microorganismes sous forme hiérarchique. Elle est au format Obo. La version ioNLP-ST'13 contient 1700 concepts.
  • Ontologie ATOL : The Animal Trait Ontology for Livestock décrit les caractères des animaux d'élevage.