Master Sciences et Technologies UPMC

Mention « Biologie Moléculaire et Cellulaire »

Spécialité : « Biochimie : du gène au médicament »

Parcours « Protéomique structurale et fonctionnelle »

 

TP Modélisation moléculaire

18 octobre 200­7

 

Exercice 1 une modélisation automatique

Voici une séquence dont la structure n'existe pas dans la PDB. Il s'agit d'une protéine de la famille des FK506 Binding Proteins.

La séquence est au format FASTA, très répandu sur les serveurs de modélisation.

>Q57726|FKBP1_METJA Putative FKBP-type peptidyl-prolyl cis-trans isomerase MJ0278 - Methanococcus jannaschii.

MINLIKKGDYVKVDYILEVDGKVIDTSIEEVAKENKIYYPEREYEPIGFIVGNGELIEGF

EEAVIGMEVGEEKTVTIPPEKGYGLRDERLIQEIPKEMFADADFEPQEGMLILASGIPAK

IIKVTDDTVTLDFNHELAGKELKFTIKVRDVQPAESE


Faire un modèle de cette séquence en utilisant les serveurs automatiques (cela peut prendre un moment, à lancer en début de TP). En particulier il convient de s'enregistrer sur le serveur Robetta.

La première chose qu'il convient d'évaluer est la séparation en domaines. Est-ce une protéine mono domaine ou non? Quels serveurs peut-on utiliser pour le savoir?

Les différents serveurs sont plus ou moins bavards. Certains effectuent toute la modélisation sans revenir vers l'utilisateur, d'autres s'interrompe après une étape pour demander à l'utilisateur de valider le pas suivant. Cerains encore proposent des paramètres dès le début de la requête. Ils ont tous des paramètres par défaut qui ne sont pas forcément les plus astucieux pour ce que vous avez à faire. Vous vous assurez des supports qu'ils prennent pour faire leur modèle (templates).

On rappelle un certain nombre de sites. Certains sont parfois en dérangement, d'autres demandent une adresse pour envoyer leurs résultats  :

Le méta serveur de Montpellier http://bioserv.cbs.cnrs.fr/HTML_BIO/frame_meta.html

Le méta serveur de Poznan http://bioinfo.pl/meta/

Le serveur du PBIL http://geno3d-pbil.ibcp.fr/cgi-bin/geno3d_automat.pl?page=/GENO3D/geno3d_home.html

Swiss Model http://swissmodel.expasy.org/

Robetta            http://robetta.bakerlab.org/

ESyPred3D http://www.fundp.ac.be/urbm/bioinfo/esypred/

CPH http://www.cbs.dtu.dk/services/CPHmodels/

N'oubliez pas d'aller voir dans le répertoire des modèles déjà réalisés dans Modbase mis en place par l'équipe d'Andrej Sali

http://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi

Une fois que le modèle est obtenu (certains serveurs sont très rapides pour une séquence courte), il convient de le valider avec quelques logiciels tels que

Prosa Web à l'adresse https://prosa.services.came.sbg.ac.at/prosa.php

errat à l'adresse http://nihserver.mbi.ucla.edu/ERRATv2/

Le serveur de Stockholm, SBC à l'adresse : http://www.sbc.su.se/~bjornw/ProQ/





Exercice 2 : de l’utilité de travailler sur des domaines

VASP est une vasodilatator stimulated phosphoprotein qui appartient à la famille ENA/VASP, ENA pour ENAbled protein. ENA et VASP partagent deux domaines homologues, nommés domaines EVH1, pour Ena-Vasp Homology Domain 1. Il est situé dans la partie N terminale de la séquence. EVH1 est responsable de la liaison de VASP aux protéines qui interagissent avec le cytosquelette. Les données biochimiques indiquent que ce domaine agit comme intermédiaire des interactions avec les domaines riches en prolines de la protéine bactérienne ActA. EVH1 présente des similitudes avec le domaine N terminal de la protéine du syndrome de Wilscott-Aldrich (WASP). Ce dernier domaine est appelé WH1 pour Wasp Homology domain 1 et il est responsable de la liaison de WASP avec un domaine de polyprolines. Des similitudes ont par ailleurs été mises en évidence avec la protéine Homer, qui contient aussi un domaine WH1.

 

Rechercher la séquence de VASP humain dans la swiss prot (http://www.expasy.org/sprot/). A partir de la fiche de cette séquence, retrouver dans les différents serveurs de domaines (Interpro, SMART, PFAM, Prodom…) la localisation du domaine EVH1.

Existe-t-il des structures de ce domaine ?

Trouvez-vous mentionnée la similitude avec la protéine Homer ?



Il se trouve que le domaine EVH1/WH1/Homer est aussi homologue à un domaine des protéines de liaisons à Ran de la famille RanBP1.

En effectuant avec BLAST (http://www.ncbi.nlm.nih.gov/blast) une recherche comprenant toute la séquence obtient-on le domaine RanBP1 ?

Même question en ne prenant comme requête à BLAST que le domaine proprement découpé ?

 

Retrouver une structure correspondant à la séquence de vasp_human dans la pdb.  S’il y a plusieurs choix, quel code PDB prend on ?

Retrouver une structure correspond à un domaine RanBP, par exemple rbp2_human.

Comparer les séquences des domaines EVH1 de vasp_human et et de rbp2_human, sur le serveur de votre choix. Les serveurs de superposition structurale fournissent aussi, dans la plupart des cas, un alignement de séquences.

On donne quelques serveurs qui permettent de réaliser des superpositions structurales (et en déduitre les alignements).

Matras au Japon            http://biunit.aist-nara.ac.jp/matras/

MSD à l’EBI            http://www.ebi.ac.uk/msd-srv/ssm/cgi-bin/ssmserver

CE            http://bioinformatics.albany.edu/~cemc/

iSuperpose http://bioserv.rpbs.jussieu.fr/cgi-bin/iSuperpose/

Quelles valeurs du rms obtenez vous pour les différents serveurs, quel taux d'identité ?

Est-ce compatible avec la courbe de Lesk et Chothia ? C

 

Exercice 3 Pourquoi tout le monde s’est trompé à CASP4

Voici la séquence à modéliser lors du concours CASP.

TSAMDQQAEARAFLSEEMIAEFKAAFDMFDADGGGDISTKELGTVMRMLGQNPTKEELDA

IIEEVDEDGSGTIDFEEFLVMMVRQMKEDAKGKSEEELADCFRIFDKNADGFIDIEELGE

ILRATGEHVTEEDIEDLMKDSDKNNDGRIDFDEFLKMMEGVQ

Aujourd’hui la structure, celle de la troponine, est dans la PDB, donc la réponse est évidente avec n'importe quel logiciel de criblage. A l'époque du concours, la structure de la troponine n'existait pas et les équipes qui concourraient ont pris le template de la calmoduline le plus proche en terme de séquence. Si on lance une reqête BLAST sur la PDB, il sort en tête de listing une dizaine de troponines C et la calmoduline la plus proche est à 52% d'identité environ.

Si on compare avec le visualisaseur disponible sur le site de la PDB, que constate t on entre le support (template) et la protéine modèle (de code 4tnc). Si on superpose la totalité de la structure qu'obtient on? Et si on délimite bien les deux domaines, quelle valeur obtient on comme rms lorsqu'on les superpose?



 Les structures sont toutes sur le site de la PDB, qui offre un outil de visualisation en ligne, KING

http://www.rcsb.org/pdb/

Les sites de classification des structures de protéines

PDBSUM http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/

CATH http://www.biochem.ucl.ac.uk/bsm/cath_new/

SCOP http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.html

PFAM Protein Families Database of alignments and HMM http://www.sanger.ac.uk/Software/Pfam/index.shtml

SMART http://smart.embl-heidelberg.de/

InterPro  http://www.ebi.ac.uk/interpro/