Analysera sekvenser

Analysera sekvenser på nätet

I stort sett alla sekvenser av gener och proteiner som någonsin bestämts finns idag tillgängliga för alla intresserade via Internet. Du ska nu plocka fram sekvensen för receptorn för signalämnet PDGF (Platelet Derived Growth Factor), och använda olika verktyg på nätet för att analysera detta protein.

Hämta en aminosyresekvens

Börja med att plocka fram sekvensen för proteinet:

(a) Gå till NCBI.  (b) I det gråa fältet högt upp på sidan (se pil i bilden nedan), välj i det övre vita fönstret databasen ”Protein”, och skriv i det nedre fönstret ”PDGF receptor mouse”. Klicka på ”Search”.

(b) Du får nu en lista på nummer och namn på olika sekvenser. Tyvärr inte bara av det protein vi söker, utan också av andra med liknande namn. Välj det som rätt och slätt benämns ”platelet derived growth factor receptor”, med kod 1210315A. Klicka på det understrukna namnet.

(c) Du får nu upp en sida med mängder av information (figur 3.2). Högt upp hittar du sekvensens ”accession-number”, dvs sekvensens namn i databasen. Längre ner hittar du referens till den vetenskapliga artikel, där sekvensen publicerades. Och längst ner själva sekvensen, med var aminosyra angiven med enbokstavskod. Bokstäverna är grupperade tio och tio, med en siffra i början av var rad. Kopiera accession-nummer och själva aminosyresekvensen till ett worddokument. Det gör inget att ni får med en massa siffror och oregelbundna radbrytningar.

Undersöka om proteinet sitter i ett membran

När forskare hittat en gen frågar de sig ofta vilken funktion dess protein har. En viktig fråga är då om proteinet sitter förankrad i ett membran eller ej. Forskare analyserar därför rutinmässigt sekvensen hos nya gener och deras proteiner för att leta efter sträckor på 15-20 aminosyror, vilka skulle kunna bilda en hydrofob alfahelix som sträcker sig genom ett biologiskt membran. De låter då ett dataprogram göra en hydrofobicitetsplot (Kyte-Doolittle plot) över proteinet. Finner man då en sekvens med 15-20 aminosyror med ett värde över 1,8 kan man i det närmaste vara säker på att dessa bildar ett membranankare. Du ska nu göra nu en hydrofobicitetsplot för PDGF-receptorn:

Gå till en sida, där man kan göra en hydrofobicitetsplot. På den sida som kommer upp: Vid (A), välj Kyte-Doolittle Hydropathy plot. Vid (B): Välj FASTA format och klistra in din aminosyresekvensen i det stora vita fönstret. Vid (C): Klicka på ”Submit sequence”.

Du får nu upp en hydrofobicitetsplot. Ifall hydrofobicitetsindex under en sträcka av 15-20 aminosyror kommer ordentligt över en viss nivå (1,8) kan man känna sig nästan säker på att denna del av aminosyrekedjan formar en alfahelix som passerar genom ett membran. Du ser nu att PDGF-receptorn har en sådan alfahelix ungefär halvvägs in i sin aminosyresekvens. Halva proteinet befinner sig alltså på utsidan av ett membran, och andra halvan på insidan!

Hitta konserverade domäner och besläktade proteiner

För att komma vidare i jakten på proteinets funktion undersöker man om där finns så kallade konserverade domäner, dvs regioner med en påtaglig likhet i aminosyresekvens med regioner i andra proteiner. Sådana konserverade domäner kan i de flesta fall antas ha behållit sin funktion under evolutionen. Därefter frågar man sig vilka andra proteiner i databaserna, som det nya proteinet som helhet har störst likhet med.

Gå därför åter till NCBI. I rutan till höger på den sida som då dyker upp, välj ”BLAST”. En liten bit ner på den sida som då kommer, välj ”protein blast”. I den sida som då kommer, klistra in sekvensen eller accession nummer i det stora fönstret (pil i bilden nedan).  Ange ett namn för din sökning i fönstret lite längre ned. Klicka sedan den blåa knappen BLAST längst ned till vänster.

Först kommer nu resultatet av en sökning efter konserverade domäner (se nedan). Proteinets aminosyresekvens representeras av en grå linje, under vilken olika färgade boxar markerar områden med likhet med kända konserverade domäner. Genom att klicka på dessa (eller genom att klicka på bilden och få en ny mer detaljerad bild och göra mouse over på de färgade boxar som då visar sig) kan man få veta mer om dessa domäner.  Här kan man se att proteinet på ena sidan av membranet har två domäner som påminner om immunoglobuliner, vilket visar att de antagligen binder till någonting. Och en domän som har proteinkinasaktivitet (dvs fäster en fosfatgrupp på ett annat protein, antagligen för att aktivera eller stänga av detta).

Efter en liten stund kommer så resultaten av jämförelserna med andra proteiner. De liknande proteiner som hittats presenteras på tre sätt:

  • I en box där de hittade sekvenserna markeras som en linje längs med de delar av sekvensen de är homologa med. Färgen på linjen markerar grad av likhet, ju högre alignment score, desto likare.
  • I en lista med länk, namn och grad av likhet. Det värde som är intressantast är E-score, detta är sannolikheten för att den likhet man hittat mellan din sekvens och den som hittats skulle kunnat uppkomma av en slump. Ju lägre E-värde, desto större likhet, alltså.
  • Med sekvensen av musens PDGF-receptor skriven ovanför sekvensen för den liknande sekvensen, där på raden mellan de två sekvenserna likheter markerats. Är aminosyran på en position identisk skrivs beteckningen för aminosyran ut, har aminosyrorna liknande kemiska egenskaper (exempelvis att bägge är små och hydrofoba) markeras positionen med ett plus, har de olika egenskaper med ett tomrum. Är man tvungen att lägga in ett ”gap” i den ena sekvensen för att få likhet markeras gapet med streck.

Titta nu på listan med besläktade proteiner, och kasta en blick på E-värdet. Föga förvånande ser du att proteinet har störst likhet med sig självt (många olika sekvensbestämningar har gett olika poster i databasen), och med sig självt hos andra arter. När E-värdet blir så stort att det över huvud taget kan anges som e upphöjt till ett negativt tal med mindre än fyra siffror (alltså fortfarande utomordentligt litet …) kommer vi till närbesläktade men inte identiska proteiner hos olika arter.



Övning för elever

Studera gener hos sjukdomsbakterie: Elever får olika gener hittade hos en påhittad nyupptäckt sjukdomsalstrande bakterie, översätter i datorer DNA-sekvensen till en aminosyresekvens, analyserar dessa och sätter sig till slut i grupper där de olika generna är representerade, och diskuterar hur dessa gener tillsammans kan göra bakterien så aggressiv. Övningen finns här!.