Olivier Elemento

Thèse : Phylogénie de familles multigéniques - application aux Immunoglobulines et Récepteurs T dans IMGT.


Laboratoires d'accueil : The ImMunoGeneTics database IMGT et le LIRMM
 
 

Motivations

Ce travail de thèse s'inscrit dans le cadre d'une collaboration entre le LIGM (Laboratoire d'Immunogénétique Moléculaire) et l'équipe MAAS du LIRMM (Laboratoire d'Informatique, de Robotique et Micro-éléctronique de Montpellier), dirigée par Olivier Gascuel. Il s'agit d'un travail débuté en Octobre 1999 (celui-ci n'a pas été amorcé avant attribution de l'allocation de recherche).
Le problème abordé dans cette thèse est celui de l'étude phylogénétique de familles multigéniques, et plus particulièrement de la reconstruction de l'histoire de duplication de gènes dupliqués en tandem. Il s'est vite avéré que les méthodes traditionnelles de reconstruction phylogénétique (utilisées pour reconstruire l'histoire de spéciation d'un groupe d'espèces à partir de séquences nucléotidiques) n'étaient pas adaptées dans le cadre des familles multigéniques, du fait de la non-intégration des contraintes engendrées par les mécanismes de duplication.

Etapes du travail effectué

Les différentes étapes du travail effectué depuis Septembre 1999 sont les suivantes:

  • Septembre 1999 à Janvier 2000 : état de l'art en reconstruction phylogénétique, recherches bibliographiques et formation aux concepts biologiques (biologie moléculaire, immunogénétique)
  • Janvier 2000 : mise au point d'un modèle mathématique de duplication par recombinaison inégale (très généralement à l'origine de la formation de ce type de séquences)
  • Janvier 2000 à Janvier 2001 : définition de plusieurs objets mathématiques (histoire de duplication valuée par le temps, arbre de duplication, histoire ordinale de duplication) et de leur représentation, permettant de décrire l'évolution d'un série de gènes répétés sous forme d'arbre.
  • Février 2000 : mise au point et implémentation d'une procédure de recherche exhaustive permettant à partir de séquences nucléotidique de gènes répétés en tandem, de retrouver l'arbre de duplication optimisant un critère de parcimonie calculé sur ces séquences.
  • Février 2000 : mise au point et implémentation d'un algorithme permettant de déterminer si une phylogénie donnée est un arbre de duplication. Cet algorithme nous a également permi de compter (ou d'estimer) le nombre d'arbres de duplication, et de le comparer au nombre de phylogénies distinctes.
  • Mars 2000 : application de ces algorithmes aux locus TRGV (9 gènes répétés en tandem) et IGLC (7 gènes). L'arbre de duplication obtenu est dans les deux cas identique à la phylogénie la plus parcimonieuse, ce qui compte tenu du faible nombre d'arbres de duplication valide très fortement le modèle de duplication retenu.
  • Avril 2000 : analyse de type bootstrap pour évaluer la robustesse des résultats (ce travail à également nécéssité la conception d'outils de parallèlisation permettant de répartir les calculs correspondant à un jeu de données bootstrappé sur plusieurs machines)
  • Juin 2000: mise au point de méthodes d'enracinement d'arbres de duplication. Les enracinements des arbres obtenus sur les locus TRGV et IGLC sont en bonne concordance avec le
  • Juin 2000 à Janvier 2001: rédaction d'un article en anglais destiné à une revue d'évolution moléculaire.
  • Juillet 2000 : raffinement algorithmique de l'algorithme DTFinder, permettant une nette amélioration des performances.
  • Octobre
  • Novembre 2001: présentation des résultats lors de diverses occasions (réunions d'équipe, journée des Doctorants, séminaires internes à l'Institut de Génétique Humaine)
  • Janvier 2001 : envoi de l'article à la revue "Molecular Biological Evolution" (la revue la plus côtée du domaine). Cet article s'intitule "Reconstructing the duplication history of tandemly repeated genes" (compte tenu des délais habituels, les résultats devraient nous parvenir d'ici très peu de temps).
  • Janvier 2001: envoi d'un article pour JOBIM (conférence nationale majeure en bioinformatique). Cet article à été accepté pour une présentation longue (20 min)
  • Fevrier 2001: mise au point et implémentation d'un algorithme de reconstruction heuristique, pour accélerer la reconstruction sous un critère de parcimonie, notamment pour des locus présentant un grand nombre de gènes répétés.
  • Février 2001: intégration d'un critère de distance (évolution minimum) dans la reconstruction heuristique (but: comparer distance et parcimonie)
  • Mars 2001: mise au point d'une interface web à DTBuilder, permettant de soumettre facilement des séquences préalablement alignés, et d'en obtenir le ou les arbres de duplication les plus parcimonieux, ou celui minimisant un critère d'évolution minimum.
  • Mars 2001: présentation de mes travaux aux journées ALPHY de l'action IMPG (40 minutes) devant les principaux chercheurs du domaine.
  • Avril 2001: envoi d'un abstract pour la présentation d'un poster à ISMB'2001 (conférence internationale majeure dans le domaine de la bioinformatique)
  • Avril 2001: mise au point d'un générateur d'arbre de duplication et de données simulées, dans le bur de valider l'algorithme de reconstruction heuristique.

    Articles et conférences

  • Article soumis à Molecular Biological Evolution (en cours de reviewing, preprint)
  • Article envoyé à Jobim et accepté pour une présentation longue (slides, article)
  • Article envoyé pour une présentation poster à ISMB'2001 (accepté, preprint)

    Logiciels

  • DTFinder : programme de reconstruction d'arbres de duplications par recherche exhaustive
  • DTdetect : programme permettant de déterminer si une phylogénie est un arbre de duplication
  • DTBuilder : programme de reconstruction heuristique de l'arbre de duplication le plus parcimonieux.
  • IMGT-DTBuilder : interface web à DTBuilder, permettant de soumettre des séquences et d'en obtenir l'arbre de duplication de façon graphique (au format PDF et Postcript)
  • DTGen : production de jeux de données simulées

    En prévision

  • Série de pages web sur la phylogénie des différents locus
  • article dans un journal informatique présentant la reconstruction heuristique de d'arbres de duplication
  • Caractèrisation mathématique des arbres de duplication, notamment par le biais de collaborations avec des combinatoriciens.
  • version Branch & Bound de l'algorithme de recherche d'arbre de duplication, permettant de trouver en des temps généralement court l'arbre de duplication le plus parcimonieux.
  • article dans Bioinformatics sur DTBuilder, suite à Jobim
  • implémentation de réarrangements au sein de DTBuilder.

    Eté 2001

  • étudier en profondeur l'article de Waterman publié à Recomb 2001 qui reprend le même modèle de duplication que nous, mais l'applique aux Zinc Fingers. Dans cet article est décrit une méthode de reconstruction pour des histoires de duplication ne présentant que des duplications simples (ce que nous appelons des 1-duplications). Cette méthode est basée sur une procédure de programmation dynamique. Est également décrite une méthode de reconstruction basées sur les distances entre séquences : en fait c'est exactement ce que je voulais faire tout au début, mais Olivier m'a orienté sur autre chose. Je pense néanmoins que cet article (et la thèse de l'élève de Waterman) peuvent m'apporter des idées interessantes.
  • travailler avec Andy McKenzie (postdoc au LIRMM) sur l'amélioration des performances de la reconstruction. Andy est un très bon mathématicien, très calé dans le domaine combinatoire et est habitué à manier des objets mathématiques complexes (les arbres de duplication sont des objets mathématiques complexes, bien plus complexes que les phylogénies) Le but est d'utiliser cela pour la production de l'article à destination de Bioinformatics, qui devrait s'intituler "Efficient algorithms for reconstructing the duplication history of tandemly repeated genes". Cet article devrait également reprendre ce que j'avais présenté devant les gens d'EMBL, a savoir une méthode de reconstruction basée sur une heuristique gloutonne.
  • generer les arbres tant demandés sur les locus IG et TR. Le problème est de plusieurs ordres : il est difficile d'extraire d'IMGT tous les gènes (et pseudogènes) d'un même locus (en tout cas je n'y suis pas arrivé, mes requètes renvoient un nombre de séquences bien supérieur au véritable nombre de gènes, le surplus correspond, je suppose, à des séquences anciennes, ou bien à des allèles moins fréquentes). En ce qui concerne IGHV par exemple, j'ai du prendre la séquence de Genbank, en extraire les V-GENES avec un programme en Perl. Ca semble marcher, mais je prefererai recuperer les séquences dans IMGT. Une fois ces séquences extraites, mon but est d'automatiser la production des arbres et même la génération des images GIF et des pages HTML. Se pose ici un autre problème : les programmes de dessin d'arbre de PHYLIP ne permettent pas d'inclure les valeurs des proportions bootstrap sur les dessins arbres. Je ne pense donc pas que les arbres auront des proportions bootstrap (de toute façon, je ne suis pas sur que beaucoup de monde sache véritablement ce qu'est une proportion bootstrap).
  • rédiger quelques morceaux de thèse : je profite de ce que je n'ai pas de deadlines trop proches pour coucher sur papier une partie de ce que j'ai fait jusqu'a maintenant (pas mal de choses en réalité).

    Quelques idées pour le développement d'IMGT

  • développement d'outils d'analyse phylogénétique des gènes IG, TR et IG-LIKE et d'applications utilisant la phylogénie (évolution des CDR, SSR, etc., découvertes des mutations corrélées à partir de la phylogénie par la méthode des contrastes, découvertes des mutations positivement sélectionnées)
  • utilisation du XML pour la représentation, la distribution, l'indexation des données et la création de moteur de recherche intelligent sur les données IMGT.
  • construction d'une base de données d'expression de gènes IG et TR, avec outils de data mining (cartes de Kohonen, clustering hierarchique, etc. )
  • developpement d'outil d'analyse de données dans IMGT (clustering de profils structuraux, découvertes des sites présentant des mutations correlées), application de modèles de Markov cachés aux données IMGT : automatisation des alignements (par apprentissage de profils avec HMMER) de nouvelles séquences, analyse des données textuelles dans IMGT pour la découvertes de réseaux sémantiques
  • construction d'un API IMGT permettant le développement rapide d'applications par des parties tierces, ou le mirroring de la base.

    Quelques morceaux de codes produits au cours de cette thèse (il y en a beaucoup d'autres que je rendrai disponible dès que possible) :

    Quelques utilitaires qui me sont bien utiles :


    sous gnuplot :
    eval.txt
    5       700000  145593
    6       900000  88458
    7       1100000 43763
    8       1300000 19396
    9       1500000 7293
    10      1700000 2469
    11      1900000 689
    12      2100000 219
    13      2300000 45
    plot "< awk '{ print $1, log($2/$3) }' eval.txt" title "f" with lines
    set notitle pour virer le titre
    set nokey pour virer le titre bis
    set terminal postscript, puis set output "fichier.ps"

    Links

  • Home pafe for Evan Eichler