Spécialité : « Biochimie : du gène au médicament »
Parcours « Protéomique structurale et fonctionnelle »
TP Modélisation moléculaire
18 octobre 2007
Exercice 1 une modélisation automatique
Voici une séquence dont la structure n'existe pas dans la PDB. Il s'agit d'une protéine de la famille des FK506 Binding Proteins.
La séquence est au format FASTA, très répandu sur les serveurs de modélisation.
>Q57726|FKBP1_METJA Putative FKBP-type peptidyl-prolyl cis-trans isomerase MJ0278 - Methanococcus jannaschii.
MINLIKKGDYVKVDYILEVDGKVIDTSIEEVAKENKIYYPEREYEPIGFIVGNGELIEGF
EEAVIGMEVGEEKTVTIPPEKGYGLRDERLIQEIPKEMFADADFEPQEGMLILASGIPAK
IIKVTDDTVTLDFNHELAGKELKFTIKVRDVQPAESE
Faire un modèle de cette séquence en utilisant les serveurs automatiques (cela peut prendre un moment, à lancer en début de TP). En particulier il convient de s'enregistrer sur le serveur Robetta.
La première chose qu'il convient d'évaluer est la séparation en domaines. Est-ce une protéine mono domaine ou non? Quels serveurs peut-on utiliser pour le savoir?
Les différents serveurs sont plus ou moins bavards. Certains effectuent toute la modélisation sans revenir vers l'utilisateur, d'autres s'interrompe après une étape pour demander à l'utilisateur de valider le pas suivant. Cerains encore proposent des paramètres dès le début de la requête. Ils ont tous des paramètres par défaut qui ne sont pas forcément les plus astucieux pour ce que vous avez à faire. Vous vous assurez des supports qu'ils prennent pour faire leur modèle (templates).
On rappelle un certain nombre de sites. Certains sont parfois en dérangement, d'autres demandent une adresse pour envoyer leurs résultats :
Le méta serveur de Montpellier http://bioserv.cbs.cnrs.fr/HTML_BIO/frame_meta.html
Le méta serveur de Poznan http://bioinfo.pl/meta/
Le serveur du PBIL http://geno3d-pbil.ibcp.fr/cgi-bin/geno3d_automat.pl?page=/GENO3D/geno3d_home.html
Swiss Model http://swissmodel.expasy.org/
Robetta http://robetta.bakerlab.org/
ESyPred3D http://www.fundp.ac.be/urbm/bioinfo/esypred/
CPH http://www.cbs.dtu.dk/services/CPHmodels/
N'oubliez pas d'aller voir dans le répertoire des modèles déjà réalisés dans Modbase mis en place par l'équipe d'Andrej Sali
http://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi
Une fois que le modèle est obtenu (certains serveurs sont très rapides pour une séquence courte), il convient de le valider avec quelques logiciels tels que
Prosa Web à l'adresse https://prosa.services.came.sbg.ac.at/prosa.php
errat à l'adresse http://nihserver.mbi.ucla.edu/ERRATv2/
Le serveur de Stockholm, SBC à l'adresse : http://www.sbc.su.se/~bjornw/ProQ/
Exercice 2 : de l’utilité de travailler sur des domaines
VASP est une vasodilatator stimulated phosphoprotein qui appartient à la famille ENA/VASP, ENA pour ENAbled protein. ENA et VASP partagent deux domaines homologues, nommés domaines EVH1, pour Ena-Vasp Homology Domain 1. Il est situé dans la partie N terminale de la séquence. EVH1 est responsable de la liaison de VASP aux protéines qui interagissent avec le cytosquelette. Les données biochimiques indiquent que ce domaine agit comme intermédiaire des interactions avec les domaines riches en prolines de la protéine bactérienne ActA. EVH1 présente des similitudes avec le domaine N terminal de la protéine du syndrome de Wilscott-Aldrich (WASP). Ce dernier domaine est appelé WH1 pour Wasp Homology domain 1 et il est responsable de la liaison de WASP avec un domaine de polyprolines. Des similitudes ont par ailleurs été mises en évidence avec la protéine Homer, qui contient aussi un domaine WH1.
Rechercher la séquence de VASP humain dans la swiss prot (http://www.expasy.org/sprot/). A partir de la fiche de cette séquence, retrouver dans les différents serveurs de domaines (Interpro, SMART, PFAM, Prodom…) la localisation du domaine EVH1.
Existe-t-il des structures de ce domaine ?
Trouvez-vous mentionnée la similitude avec la protéine Homer ?
Il se trouve que le domaine EVH1/WH1/Homer est aussi homologue à un domaine des protéines de liaisons à Ran de la famille RanBP1.
En effectuant avec BLAST (http://www.ncbi.nlm.nih.gov/blast) une recherche comprenant toute la séquence obtient-on le domaine RanBP1 ?
Même question en ne prenant comme requête à BLAST que le domaine proprement découpé ?
Retrouver une structure correspondant à la séquence de vasp_human dans la pdb. S’il y a plusieurs choix, quel code PDB prend on ?
Retrouver une structure correspond à un domaine RanBP, par exemple rbp2_human.
Comparer les séquences des domaines EVH1 de vasp_human et et de rbp2_human, sur le serveur de votre choix. Les serveurs de superposition structurale fournissent aussi, dans la plupart des cas, un alignement de séquences.
On donne quelques serveurs qui permettent de réaliser des superpositions structurales (et en déduitre les alignements).
Matras au Japon http://biunit.aist-nara.ac.jp/matras/
MSD à l’EBI http://www.ebi.ac.uk/msd-srv/ssm/cgi-bin/ssmserver
CE http://bioinformatics.albany.edu/~cemc/
iSuperpose http://bioserv.rpbs.jussieu.fr/cgi-bin/iSuperpose/
Quelles valeurs du rms obtenez vous pour les différents serveurs, quel taux d'identité ?
Est-ce compatible avec la courbe de Lesk et Chothia ? C
Exercice 3 Pourquoi tout le monde s’est trompé à CASP4
Voici la séquence à modéliser lors du concours CASP.
TSAMDQQAEARAFLSEEMIAEFKAAFDMFDADGGGDISTKELGTVMRMLGQNPTKEELDA
IIEEVDEDGSGTIDFEEFLVMMVRQMKEDAKGKSEEELADCFRIFDKNADGFIDIEELGE
ILRATGEHVTEEDIEDLMKDSDKNNDGRIDFDEFLKMMEGVQ
Aujourd’hui la structure, celle de la troponine, est dans la PDB, donc la réponse est évidente avec n'importe quel logiciel de criblage. A l'époque du concours, la structure de la troponine n'existait pas et les équipes qui concourraient ont pris le template de la calmoduline le plus proche en terme de séquence. Si on lance une reqête BLAST sur la PDB, il sort en tête de listing une dizaine de troponines C et la calmoduline la plus proche est à 52% d'identité environ.
Si on compare avec le visualisaseur disponible sur le site de la PDB, que constate t on entre le support (template) et la protéine modèle (de code 4tnc). Si on superpose la totalité de la structure qu'obtient on? Et si on délimite bien les deux domaines, quelle valeur obtient on comme rms lorsqu'on les superpose?
Les structures sont toutes sur le site de la PDB, qui offre un outil de visualisation en ligne, KING
PDBSUM http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/
CATH http://www.biochem.ucl.ac.uk/bsm/cath_new/
SCOP http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.html
PFAM Protein Families Database of alignments and HMM http://www.sanger.ac.uk/Software/Pfam/index.shtml
SMART http://smart.embl-heidelberg.de/
InterPro http://www.ebi.ac.uk/interpro/