Următorul conținut este furnizat de MIT OpenCourseWare sub o licență Creative Commons. Informații suplimentare despre licența noastră și despre MIT OpenCourseWare în general, sunt disponibile la ocw.mit.edu. GEORGE CHURCH: OK. Bine ați revenit în a doua jumătate, unde vom vorbi despre alinierea multisecvență, pentru început. Și am spus că voi arăta din nou acest diapozitiv. De data aceasta, înainte, era să introducem cum am putea obține o matrice de substituție empirică din secvențe de proteine ​​înrudite la distanță , cum ar fi membrii familiei de imunoglobuline înrudite la distanță . Acum, am dori să întrebăm, cum am obținut acea aliniere multisecvență? Acesta este un mod de a gândi despre asta ca o generalizare a matricei bidimensionale pe care am avut-o înainte, unde am avea, să zicem, două secvențe, una orizontală, una verticală. Acum, a treia dimensiune este a treia secvență. Acest lucru devine din ce în ce mai greu de vizualizat ca număr de secvențe pe care le introduceți, dar să ne gândim la asta în trei dimensiuni pentru doar un moment aici. Și când aveți o aliniere multiplă, vă puteți gândi la aceasta ca la o programare dinamică pe această hiperrețea și că indelurile pentru orice combinație pe perechi pot să nu fie optime pentru triplu. Și să trecem dincolo de triplu, dar la o aliniere a dinucleotidelor foarte simplă . Și vom spune că aceasta este alinierea multiplă optimă. Puteți vedea aici că multiplele exemple de AT ancorează A și T ca fiind poziții separate, chiar dacă, în mod normal, dacă ați face doar o aliniere în perechi cu o penalizare de decalaj mare, ar exista o tendință de a alinia A cu T. Nu ați avea aceste indels de anulare. Dar în contextul multialinierii, acum aveți o interpretare diferită. Deci vrem să generalizăm tipul de algoritmi pe care i-am folosit. Și din nou, acesta va fi un algoritm recursiv în care scorul unui șir de două caractere este definit în termeni de maximul diferitelor șiruri mai scurte . Deci în partea de sus este cazul în care nu avem inserții -- cel mai simplu caz, în care nu avem inserții sau ștergeri. Și ne întrebăm doar care este scorul de a avea un [? VSA, ?] adică această comparație triplă cu un singur aminoacid , la fel cum a fost scorul de a avea un V înlocuit cu un s. Acum, întrebăm un V înlocuit cu un S înlocuit cu un A. Acum, numărul de cazuri diferite pe care le avem aici - înainte, era 3 pentru o aliniere globală, care a fost k, fiind numărul de secvențe, a fost 2. Acum k este 3 pentru o comparație în trei. Și toate submulțimile posibile sunt de la 2 la k minus 1, în acest caz, deci este 7. Deci șapte cazuri, și puteți doar să treceți prin ele. Puteți vedea că primul nu este inserții sau ștergeri. Următoarele trei sunt două inserări sau ștergeri în cele trei moduri diferite care se pot întâmpla. Și apoi ultimele trei sunt un substituent, una dintre aceste liniuțe, ceea ce înseamnă că celelalte două secvențe au inserții în raport cu cea întreruptă. Deci, acestea sunt cele șapte cazuri pentru o comparație în trei. Acum, pe măsură ce k crește, atunci atât complexitatea spațiului -- cantitatea de puncte de rețea pe care trebuie să le stocați undeva, fie în RAM, fie pe disc, sau undeva -- crește cu n până la puterea k-a unde secvențele sunt aproximativ n lung și numărul de secvențe este k. Acum, pentru a calcula fiecare dintre acele noduri - ei bine, vreau să spun, ce va fi de ordinul 2 la puterea k, pentru că nu uitați că am spus că numărul de submulțimi în general va fi 2 la k minus 1 sau aproximativ aproximativ 2 la k. Și astfel, complexitatea timpului este de a face 2 la k comparații pe nod. Și există n la k noduri, deci este de ordinul 2 de k ori n la k. Acum, acesta nu este un om de paie. Acesta nu este un algoritm naiv. Acest lucru folosește toată puterea pe care am dezvoltat-o ​​pentru comparația pe perechi și doar o generalizăm. Și deci aceasta este de fapt o problemă grea. Acest lucru se scalează exponențial cu k. Și nu este ca și cum vrem doar să facem k egal cu 2. Există motive foarte bune pentru a deduce structura sau funcția fără experimente, doar din secvență. Și cu cât k este mai mare, cu atât poți explora mai mult. Este ca și cum ai face un experiment uriaș de mutageneză și ai explora mutanți viabili. Deci vrem să facem aliniamente multisecvențe, deci cum ne descurcăm cu asta? Acesta este modul în care ne descurcăm cu majoritatea calculelor nepolinomiale, adică, în acest caz, exponențiale, care este aproximarea. Acum, puteți obține ceva care este foarte aproape de adevăratul optim dacă cum să tăiați această hiperrețea. Ține minte, unul dintre exemplele pe care le-am arătat a fost că poți lua această trupă. Dacă știți de unde ar trebui să înceapă banda și cât de largă ar trebui să fie, puteți, în esență, să tăiați multe dintre noduri fără a pierde cu adevărat optimitatea. Dar trebuie să fii foarte sigur că știi de unde să o începi și cât de largă ar trebui să fie. Deci este optim în aceste constrângeri. Apoi mai sunt altele care sunt mai euristice. Nu se garantează că sunt optime, dar, pe de altă parte, nu necesită neapărat tăierea arbitrară. Și cele două pe care le vom ilustra în următoarele două diapozitive sunt o aliniere a arborelui, așa cum este ilustrat de ClustalW. Apropo, tăierea este ilustrată de un program numit MSA, care este prescurtarea pentru aliniere multisecvență. Și vom arăta o aliniere a stelei. Și apoi, când vom ajunge, mai târziu, în partea transcriptom a cursului, vom vorbi despre algoritmul Gibbs. Așa că haideți să trecem prin ClustalW și apoi un algoritm stea. Deci, iată alinierea multiplă progresivă. Și cred că majoritatea dintre voi, dacă v-aș fi oferit luxul de a vă gândi la asta în timpul pauzei, cum ați face multialinierea, acesta ar putea fi algoritmul cu care ați veni. Aproape întotdeauna are sens să începem cu aliniamentele în perechi, deoarece aceasta este o problemă rezolvată și avem o scalare destul de bună pentru asta. Și aici, luați fiecare dintre , să spunem patru secvențe și faceți toate aliniamentele pe perechi. Și obțineți această matrice 4 cu 4. Va fi simetric, așa că trebuie să faceți doar diagonala și diagonalele off pe jumătate din ea și. Și obțineți cel mai bun scor este S1 cu S3, care are un scor de 9. Și astfel puteți construi un copac. Și acesta este... în principiu, începem să descriem metoda prin care construim un copac, cum ar fi acel copac al vieții pe care l-am arătat de câteva ori acum. Și astfel, când construiți un arbore, luați cele două secvențe de punctaj cele mai apropiate și le indicați ca ramuri terminale ale arborelui. Și le conectezi la o furcă, un punct de ramificație. Și distanța fiecăruia față de strămoșul comun este indicată de lungimea acestor linii. Și astfel, al doilea cel mai bun scor este S2 și S4. Este o asemănare puțin mai slabă decât S1 și S3. Deci aveți aceste ramuri mai lungi care indică o divergență mai mare. Și sunt în propriul lor grup. Acum, se dovedește că atunci strămoșul comun pentru toate secvențele, care ar fi strămoșul comun al strămoșilor comuni ai primelor două grupuri, este reprezentat de această ramificare finală cea mai apropiată de trunchiul copacului sau de rădăcinile copacului. Și aici, distanța este această axă orizontală. Și apoi, odată ce aveți această dendrogramă, următorul pas, sau pașii completi, sunt alinierea fiecărei secvențe, ceea ce trebuia să le fi făcut deja pentru a calcula matricea de similaritate - și din nou, acestea sunt o aliniere perechi de S1, S2 și S4. Pașii 1 și 2 au fost deja făcuți pentru a obține o matrice de similaritate. Acum, pasul 3 este nou. Dacă aliniați această aliniere, o vom numi perechea S1, S3, cu perechea S2, S4. Și vă puteți imagina că continuați să faceți acest proces ierarhic. Dacă ar exista secvențe suplimentare care sunt și mai îndepărtate legate, să spunem S5, ați lua această aliniere a S1, S2, S3, S4 și ați alinia-o cu o singură secvență S5. Așa că puteți vedea cum puteți alinia nu numai secvențe, ci și pseudosecvențe, care au aceste mici indel bashs în ele. Deci aceasta este o metodă. Aceasta este o metodă diferită. Și aici, premisa este că aveți o secvență care este suficient de aproape de toate celelalte secvențe încât să o puteți folosi ca secvență de ancorare. Și orice indel-uri pe care le puneți individual în perechi, pentru acea secvență, pot fi propagate în întreaga aliniere multisecvență. Deci, aici, începem la fel. Aici, avem cinci secvențe în loc de patru, dar este același lucru. Faceți toate asemănările pe perechi și acordați un scor. Aceste scoruri sunt scorurile care ar fi ieșit la sfârșitul acelei urmăriri în aliniamentele pe perechi. Deci aceasta nu este o matrice pe perechi. Acestea sunt rezultatele de 5 ori 4 peste 2 aliniamente perechi. Fiecare dintre aceste casete în sine este rezultatul unei matrice complete pe S1 versus S2, de exemplu. Și puteți vedea din acest set de scoruri că cel mai bun scor, sau cel mai bun set de scoruri pentru orice secvență, este S1 are cel mai bun scor pentru S2 și are cel mai bun scor general pentru toate secvențele. Și așa vom folosi S1 ca focus al geometriei stelei. Și vom spune OK, am comparat deja fiecare secvență cu S1. Am comparat fiecare secvență cu fiecare secvență. Dar să ne concentrăm pe asta. Și acum luați oriunde au fost indels care au fost necesare pentru a obține cel mai bun scor pentru S1 cu fiecare dintre ceilalți și au S1 în roșu în fiecare caz și utilizați-l ca ancoră. Și apoi, în multialignment, iei toate indelurile în raport cu cel roșu și le introduci astfel încât să fie ancora. Deci acestea sunt două moduri radical diferite. Și vom ajunge la proba Gibbs mai târziu. Dar eșantionarea Gibbs, pe scurt, este, în general, atunci când aveți o problemă grea, în care nu puteți parcurge întreg spațiul, ceea ce faceți este să o probă. Spuneți, să încercăm câteva lucruri și să încercăm să le probem aleatoriu și poate chiar să ne dezvoltăm local. Dacă, după eșantionarea aleatorie în anumite locuri, arată mai bine, atunci uitați-vă aproape de acolo și găsiți alte soluții și continuați să optimizați. Pe scurt, acesta este Gibbs. Acum, am explorat compromisurile de precizie spațiu-timp. Puteți îmbunătăți timpul având această stocare, această secvență în perechi sau multi într-o matrice - deci, de fapt, ați făcut un compromis în care ați ocupat memoria computerului pentru a economisi timp. Și apoi, dacă sunteți dispus să sacrificați puțină precizie sau puțină comprehensiune, atunci puteți economisi și mai mult timp sau memorie. Acum vrem să folosim motive, care este genul de lucru pe care îl obțineți din aliniamentele locale, pentru a găsi gene. Și vom folosi motivele și genele de găsire ca o modalitate de a introduce un anumit motiv, care este un motiv CG, ca un exemplu simplu de model Markov ascuns . Acum, cum găsim genele? Genele au mici fragmente de secvență la început, la mijloc sau la sfârșit, care sunt distinctive. Au proprietăți distinctive, de obicei proprietăți de secvență. Deci, la începutul genei, înainte de regiunea de codificare a proteinei sau regiunea de codificare a ARN, veți avea elemente de reglementare, cum ar fi promotori și așa-numitele insule CG. Acum, amintiți-vă de insulele CG, pentru că asta vom folosi pentru a ilustra HMM-urile. Insulele CG sunt practic o abundență a dinucleotidei CG. Dintre cele 16 dinucleotide diferite, CG se întâmplă să fie subreprezentat în genomul general al nevertebratelor și suprareprezentat în regiunile promotoare din amonte de gene. Și motivul este probabil că se leagă de factorii de transcripție, iar factorii de transcripție îi protejează de metilare și, prin urmare, îi protejează de un proces mutagen care altfel i-ar determina să devină un TG. Acum, acesta este exemplul unui element de secvență distinctiv care indică începutul unei gene sau chiar înainte de începutul genei. În interiorul genei, mai ales... ei bine, numai... dacă este o regiune care codifică proteine, vei avea codoni preferați. Acestea sunt preferințe care sunt stabilite de abundența particulară a ARN-urilor de transfer în celulă, precum și de alte constrângeri asupra secvenței. Dacă vă aflați într-un organism care face splicing ARN, veți avea semnale de ARN splicing , iar acestea vor avea caracteristici distinctive de secvență. Veți avea... dacă aveți îmbinare ARN, atunci va trebui să mențineți cadrul de citire translațional peste joncțiunile de îmbinare. Acesta este un indiciu. Dacă aveți aliniamente multisecvențe, atunci puteți căuta poziții conservate și conservarea între specii . Înșelăciunea finală este că dacă aveți un ADNc în cazul speciilor care sunt îmbinate, atunci vă puteți da seama de îmbinare doar empiric prin prezența secvențierii efective a ARN-ului mesager care vă codifică gena. Deci știi că există o genă acolo pentru că ai găsit- o prezentă în populația de ARN mesager și ai secvențiat-o. Acum, există probleme cu fiecare dintre aceste abordări. Promotorii și insulele CG sunt oarecum degenerate. Sunt semnături de secvențe slabe. Există o mare varietate și sunt folosite în combinații. Când ne uităm la codoni preferați, avem nevoie de mulți codoni la rând pentru a vedea o preferință față de secvențele aleatorii. Secvențele aleatoare vor conține, de asemenea, unii dintre aceiași codoni. Și dacă ai nevoie de altele mai lungi, atunci îți vor lipsi proteinele minuscule. Și vom vorbi despre asta într-un moment, exemple concrete. În mod similar, pentru splicing ARN, puteți avea motive slabe, din nou. Și splicing alternativ-- nu este ca și cum ar fi un splicing specific care are loc într-un anumit segment de genă. Pot exista mai multe feluri. Conservarea necesită să aveți speciile potrivite, că cel puțin unele dintre speciile din alinierea multisecvență sunt doar la distanța potrivită - nu prea aproape, nici prea departe. Și cADN-urile sunt grozave, dacă le aveți. Dar dacă aveți foarte rare [? tendințe, ?] trebuie să aveți tipul de celulă și ARN-ul mesager rar [INAUDIBIL], rar într-un tip de celulă. Deci haideți să vorbim despre dimensiunile proteinelor. Dacă te uiți aici, am trasat dimensiunile proteinelor din genomurile adnotate -- doi dintre primii genomi adnotat sunt cea mai mică drojdie eucariotă și cea mai mică Mycoplasma procariotă -- și am întrebat care sunt dimensiunile proteinelor care sunt adnotate? Proteinele între ghilimele, pentru că asta au ales oamenii și programele de calculator împreună să reprezinte. Acesta nu este adevărul, neapărat. Și puteți vedea că merge la peste 900 de aminoacizi. Și dacă te duci la oameni, asta s-ar reduce la 10 de mii de aminoacizi pentru cele mai mari proteine. Dar să ne concentrăm atenția asupra celor mai mici proteine. Cum se face că scade brusc la 100 de aminoacizi? De ce sunt atât de puține proteine ​​​​care sunt scurte? Și există puțin mai multe proteine ​​​​scurte în Mycoplasma? Vreo ghici de ce sunt atât de puțini? De ce scade la 100 de aminoacizi? STUDENT: Sunt mai multe, dar nu le găsim? GEORGE CHURCH: Da, probabil că sunt mai multe. Nu că noi nu putem, ci că adnotatorii au ales să nu o facă. Și de ce au ales să nu o facă? Au fost de acord că se vor opri la 100. Era prea scurt. Și acesta este ceea ce ilustrează de ce. Aici, fiecare genom are propriul său conținut GC, propriul codon de utilizare și așa mai departe. Aici, vorbim doar despre procentul de ordinul întâi al GC față de AT. Și codul genetic, teoretic și așa cum s-a observat, poate restricționa genomii astfel încât să poată avea într-adevăr un conținut de minim 25% GC, sau 28% și maximum 75%. Și, în esență, toți genomii se încadrează în acest interval, iar drojdia este în jur de 39% sau cam asa ceva. Și apoi, dacă complotezi... codonii de oprire tind să fie alcătuiți din As și Ts. Codonii de oprire sunt TAG, TGA și TAA. Deci, dacă aveți un genom bogat în AT, veți avea tendința de a avea multe. Ai tendința de a întâlni un codon de oprire la întâmplare destul de des. Deci, dacă aveți un cadru de citire deschis lung într-un genom bogat în AT , este foarte-- dacă aveți un cadru de citire deschis modest , este foarte semnificativ, un genom bogat în AT. Dar aveți un genom bogat în GC, apoi puteți merge mult timp la întâmplare fără să întâlniți codonul stop, deci este mai puțin semnificativ. Deci, trebuie să aveți mai mulți codoni la rând într-un genom bogat în CG pentru a vă convinge. Deci, de obicei, este undeva la mijloc. Și puteți vedea că există această tendință generală. Trebuie să aveți mai mulți codoni la rând pentru a vă convinge pe măsură ce conținutul GC pe axa orizontală crește. Și practic, locul în care începi să primești prea multe fals pozitive este în jur de 100 de aminoacizi. Și de aceea comunitatea a decis să se oprească de acolo. Când ajungem la proteomică, vom vorbi despre modalități prin care poți găsi empiric, prin spectrometrie de masă și așa mai departe, acele proteine ​​mici. Și genetic, desigur, le puteți găsi. Să vorbim despre cele mai extrem de mici și să ne întrebăm dacă aceste cadre de lectură deschise extrem de mici sunt interesante. Și cred că sunt exemple extreme sunt foarte interesante. Deci, cea mai mică pe care o cunosc este o pentapeptidă, care este de fapt codificată nu doar în unul, ci în multe ARN-uri ribozomale mari, diverse din punct de vedere filogenetic. Deci, aici, ARN-ul ribozomal acționează în mod normal ca parte a aparatului de traducere, dar aici, acesta acționează ca ARN mesager, de asemenea, probabil o moleculă separată, poate o versiune degradată a acesteia. Dar într-un fel sau altul, cei 23 de ARNs codifică această pentapeptidă, care nu este doar niște junk-- poți avea ADN nedorit, poți avea peptide junk. Dar acesta conferă de fapt rezistență la eritromicină la niveluri scăzute la tipul sălbatic. Nu este un tip mutant de peptidă. Este pentapeptida normală. Acum, iată trei exemple care sunt legate între ele. Au undeva între 14 și 16 codoni și au această compoziție foarte ciudată de aminoacizi atunci când faci traducerea conceptual în computer. Amintiți-vă, triptofanul era un aminoacid rar. Ei bine, iată două dintre ele la rând. Este destul de neobișnuit. Iată șapte fenilalanine într-o scurtă perioadă. Și iată șapte histidine chiar la rând. Acest lucru este cu adevărat bizar. Și, în plus, ceea ce devine și mai conspirativ pentru că aceste șapte histidine la rând se întâmplă să fie... următoarea genă în jos este o genă biosintetică a histidinei. Și nu numai atât, ci aproximativ opt gene de histidină la rând vin după aceea. Și același lucru cu fenilalaninele în amonte de genele biosintetice ale fenilalaninei, iar acest exces ciudat de triptofan este în amonte de genele biosintetice ale triptofanului. Deci, ce înseamnă toate acestea? Ceea ce înseamnă, probabil -- și există de fapt destul de multe experimente în acest sens -- este că aceasta este o buclă de feedback excelentă, în care doriți să faceți feedback în cel mai relevant mod. Așa că aici, dacă doriți să știți dacă trebuie să faceți triptofan, fenilalanină sau histidină, vă întrebați dacă este suficient în jur pentru a face traducere. Asta e foarte relevant. Și deci aceasta trebuie să fie detectarea procesului de traducere în sine. Se întreabă dacă ARN-urile de transfer sunt încărcate cu aminoacizi suficient pentru a obține o traducere eficientă. Dacă nu ești, atunci te vei opri aici. Acel ribozom va ezita, așteptând ARN-ul de transfer potrivit . Și pe măsură ce ezită, acest ARN se schimbă. Se pliază. Și o serie de evenimente rezultă în... dacă ezită, atunci vrea să facă genele biosintetice în aval pentru a produce mai mulți aminoacizi. Deci ARNt-ul trebuie să fie încărcat. Așadar, obțineți această buclă drăguță, mică de feedback, că ezitarea provoacă o schimbare a ARN-ului, care provoacă schimbarea transcripției și faceți mai mult din ceea ce aveți nevoie. Deci, cred că acestea sunt exemple interesante. Și, bineînțeles, dacă ai ști dinainte că cauți o serie de histidine, ar fi grozav. Dar pentru alte cadre de lectură deschise, poate exista o poveste diferită. Și deci trebuie să aveți metode de căutare a motivelor foarte scurte. Deci, să ne întoarcem la întrebarea mai mare a motivelor și să ne întrebăm cum le tratăm mai riguros? Iar modul în care le tratăm mai riguros sunt aceste profiluri. Acum, ceea ce vom face este să luăm o aliniere multisecvență. Acum știi cum să faci aliniamente multisecvențe. Și acum vrem să captăm acele informații și să ne ocupăm de aceste profiluri specifice poziției. Amintiți-vă că am menționat PSI-BLAST și alți algoritmi. Recunoașteți că nu aveți o matrice de substituție generică pentru toate pozițiile din toate proteinele sau toți acizii nucleici. Aveți o matrice de substituție diferită pentru fiecare poziție. Pentru că o poziție ar putea fi, să zicem, o spirală alfa. Avem o matrice de substituție. Și altul ar putea fi într-o bobină. Așadar, aici, totul este despre motivele. Fiecare poziție are un set diferit de reguli. Deci prima poziție în această tetranucleotidă... nu-i pasă ce este. Poate fi A, C, G sau T. Acestea sunt patru secvențe diferite, site-uri de pornire reale, pe care le-am aliniat, fie manual, fie pe computer. Este foarte ușor să faci alinierea, dar interpretarea aici este poziția în amonte de codonul de pornire nu contează. Deci, matricea dvs. de mai jos este -- A, C, G și T primesc fiecare un 1, care este o numărătoare. Am putea face asta în ceea ce privește frecvențele, procentele. O facem în termeni de numărare aici, deoarece aceasta este doar o reformulare a datelor. Poziția T și G la capătul 3-prim al codonilor sunt, în acest eșantion mic, invariante. Și astfel obțin un număr de 4 pentru baza corectă și un număr de 0 pentru toate alternativele, A, C și G, de exemplu, în loc de T. Și poziția A nu este destul de invariantă în acest eșantion. GTG este un codon de început perfect bun în, să zicem, 1 secvență din 10 sau 1 din 4 în acest caz. Și astfel obțineți 3 și un 1. Deci aceasta este matricea de ponderi sau matricea de substituție sensibilă la poziție . Aceasta este mai precisă decât, să zicem, o secvență consens sau o singură secvență din probă. Dar nu este cel mai precis mod de a reprezenta acest lucru. Este sensibil la poziție, dar am pierdut corelațiile de ordin superior dintre poziții. Cu alte cuvinte, am pierdut dependențele bazelor adiacente sau bazele care sunt la câteva baze distanță. Dar să vedem cum se desfășoară, această poziție sensibilă. Acesta este un alt mod de a reprezenta în termeni-- este o versiune a acestei teorii a informațiilor, în care înălțimea completă a fiecărei baze este de 2 biți. Și sunt aceiași 2 biți despre care am vorbit în prima prelegere, deoarece există patru baze. Și acesta este același motiv, ATG. T și G au fost invariante în acest eșantion mai mare sau aproape invariante în dimensiunea eșantionului de acum în loc de doar 4, dar mai mult de 1.000 de secvențe. Și din nou, A și G au fost cele predominante. Puteți vedea un pic de T acolo în prima poziție. Și apoi baza chiar în amonte de ATG este aproape complet aleatorie. Și astfel conținutul său de informații este aproape de zero și deci este 0 biți. Acum, acest lucru este suficient de ușor încât să puteți face o căutare mare aliniind pe ATG, ceea ce este un lucru foarte izbitor , și să vă uitați să vedeți dacă există alte informații reziduale în lateral. Și destul de sigur, găsiți acest mic pic de G și As, în cea mai mare parte, la minus 9 în raport cu A de ATG la 0. Și se dovedește că-- din nou, verificat experimental-- acest motiv -- așa că motivul ATG se leagă pentru a transfera ARN, iar motivul bogat în GA se leagă de fapt la o secvență de ARN ribozomal . Și atunci, practic, ARN-ul mesager este înduplecat în poziția corectă, pentru a fi în poziția corectă a ribozomilor unde ARNt-ul poate lega inițiatorul. Deci, iată un exemplu în care puteți face o aliniere multisecvență. Iată 1.000 de secvențe. k este egal cu 1055 -- rețineți, acesta este exponențial pentru k. Și puteți găsi aceste motive care au o mare semnificație biologică. Acum, odată ce ați făcut alinierea multisecvență și ați derivat matricea de greutate, această matrice de substituție sensibilă la poziție, acum doriți să puteți căuta aceste lucruri în genomul. Știi cum arată un motiv de început. Vrei să le găsești pe toate. Și nu ar fi doar ATG, ar fi atât de plin, inclusiv motivul bogat în GA. Și modul în care faceți asta este acum să luați această matrice de greutate și să cereți fiecare -- scanăm genomul și ne întâlnim cu secvența [? AAT?] AATG. Acum vrei să știi, cât de bună este această potrivire cu această matrice de greutate, care a fost luată fie din 4 secvențe, fie din 1.000 de secvențe? Și modul în care o faci este pentru fiecare poziție, te întrebi care a fost scorul în întregul set de învățare? Și acum acesta ar trebui să fie un set de testare independent pe care îl încercați. Aici, setul de învățare și locul de testare sunt aceleași. Dar, practic, aveți A este un scor de 1, ceea ce nu va fi o contribuție mare pentru că au fost toate la fel. Deci, al doilea A este un scor de 3, iar T și G sunt un scor de 4, pentru un scor total de 12 pentru această tetranucleotidă particulară a acestui motiv reprezentat de această matrice de greutate. Și apoi puteți vedea că primele trei secvențe, care au toate ATG, au cele mai bune scoruri. Iar cel de jos, GTG, deși este un membru valid al setului de învățare, a fost ceva care a fost subreprezentat statistic. GTG tinde să fie întâlnit mai puțin frecvent decât ATG și, prin urmare, obține un scor mai mic atunci când îl căutați în genomul. Deci, dacă le prioritizați , acestea vor fi prioritizate în această ordine cu 12, 12, 12, 10. Deci, acum subiectul final, care vorbește despre un motiv foarte simplu și scurt, care este motivul CG, despre care am pretins că este peste- reprezentate în promotori la vertebrate. Dar înainte de a vorbi despre aceste motive foarte scurte, să vorbim despre motivul pentru care avem modele probabilistice în analiza secvenței în general. Și există trei utilizări principale. Una dintre ele este recunoașterea -- de exemplu, recunoașterea pe care o facem este, este o anumită secvență a proteinei? Cu alte cuvinte, are un scor care este semnificativ statistic? Practic asta făceam, foarte anecdotic, în slide-urile anterioare. Sau o altă sarcină este discriminarea. Adresăm întrebări de genul, această proteină este mai mult ca o hemoglobină sau ca o mioglobină? Prima întrebare este despre o secvență relativă , de exemplu, la o matrice de ponderi. Celălalt este despre două secvențe, întrebând cum - sau trei secvențe - dacă o anumită proteină seamănă mai mult cu una decât cu alta. Și într-o căutare în baza de date, am parcurge. O întrebare ar putea fi , care sunt toate secvențele din [INAUDIBLE] care arată ca o serin protează? Acest lucru ar însemna să ceri recunoaștere de mai multe ori, iar și iar. Deci, aici este ideea de bază - care va fi o idee bayesiană în curând, în următorul diapozitiv - este să atribuiți un număr fiecărei secvențe posibile, astfel încât probabilitatea acelei secvențe având în vedere un model - deci acest jargon aici, P de s /m, s bar m-- este probabilitatea de a obține acea secvență având în vedere un model. Deci modelul ar putea fi această matrice de greutate despre care am vorbit sau ar putea fi ceva mai complicat. Deci, care este probabilitatea ca să obținem secvența ATG, având în vedere modelul, modelul matricei cu greutate completă? Și ca în cazul oricărei probabilități bune, așa cum am menționat în prima clasă, acestea ar trebui să se însumeze la 1. Dacă însumați sigma lui s, însumați toate secvențele, atunci probabilitatea dată modelelor ar trebui să se însumeze la 1. Acum, că va fi adevărată pentru p-ul secvențelor dat un model însumat peste toate secvențele. De asemenea, putem avea probabilitatea unei secvențe în populația dvs. de secvențe, indiferent de model. Și acestea ar trebui să se însumeze la 1. Și probabilitatea modelelor din colecția ta de modele, indiferent de secvență. Și iată o teoremă foarte utilă , numită teorema lui Bayes. Și acest lucru este complet general. Nu depinde de modele și secvențe. L- ați putea numi doar m și s, unde m și s sunt doar două lucruri. Și acest lucru este în general adevărat, este că probabilitatea ca modelul dat secvența să fie egală cu probabilitatea modelului înmulțit cu probabilitatea secvenței dat modelul împărțit la probabilitatea secvenței. Și mai mult jargon, dar explicația unora dintre acești termeni aici, este că probabilitatea modelului și probabilitatea secvenței sunt probabilități anterioare. Acestea sunt probabilități care nu sunt condiționate. Ei nu depind de altceva. Ei bine, când ai această bară mică în mijloc, înseamnă că ai probabilitatea modelului dat în secvență. Se numește probabilitate posterioară. Acum să vedem la ce sunt utile toate chestiile astea bayesiene. Vom face... dintre diferitele aplicații, am avut discriminare prin recunoaștere și căutare în baze de date. Deci, iată exemplul unei căutări în baze de date. Vom avea două modele, un model pe care de fapt avem o hidrolază și modelul pe care îl avem aleatoriu. Așa că numim asta modelul nul sau modelul n, iar m este modelul care ne interesează, sunt hidrolaze. Deci avem baze aleatorii sau aminoacizi aleatori. Aceasta este hidrolaza și aminoacizi. Deci vrem să raportăm toate secvențele în care probabilitatea ca acea secvență, dat fiind modelul, să fie mai bună decât acea secvență având în vedere un model nul sau aminoacizi aleatori, că este semnificativă și este semnificativă prin delta dintre doar nul față de probabilitatea modelului în general. Deci, dacă ne uităm, dacă, să zicem, facem o căutare în baza de date în care avem valori de punctaj la fel ca cele pe care le-am dezvoltat mai devreme în discuție și vom nota pentru secvențe aleatorii, vom obține o distribuție în portocaliu. Și dacă punctăm pentru hidrolaze fide, am putea obține această distribuție în albastru. Și ne întrebăm dacă probabilitatea de a obține o anumită secvență, având în vedere modelul acesta este o hidrolază, este mai bună decât probabilitatea de a obține acea secvență la întâmplare, portocaliu. Și vrei ca asta să fie semnificativ statistic. Deci, puteți reformula acest lucru în termeni de biți sau în termeni de nivel de semnificație al probabilității de 5%, ceea ce este de obicei cazul. Acum, când vorbim despre probabilitatea unei anumite secvențe, unde putem avea abateri de la aleatoriu la nivel de mononucleotide, la nivel de dinucleotide și așa mai departe, și mai degrabă decât să vă arunc asta ca pe un fapt matematic, eu vreau să vă ofer o rațiune biologică pentru ce puteți avea non-aleatorie la fiecare ordin al unui lanț Markov, adică fiecare lungime a secvenței. Deci, lanțul de ordinul întâi, lanțul de ordinul cel mai jos, ar fi mononucleotidele. Și s-ar putea să aveți o prejudecată în care C ar fi rar deoarece C-urile se transformă în Noi. Și în organismele cărora le lipsește o uracil glicozilază, care apoi o va readuce la un C, Cs se va schimba în Noi, deoarece este o reacție chimică foarte comună . Se numește dezaminare a citozinei. Dar un deoxi U este o bază anormală. Este recunoscut ca o bază anormală și există reparații în majoritatea organismelor care [INAUDIBILE], dar există unele care nu. Și există o tendință a acelor genomuri de a viza conținutul ridicat. C-urile dispar și, prin urmare, iau G-urile cu ei. În mod similar, multe organisme se repară - ei bine, un T lângă un T în prezența luminii ultraviolete va fi mutat în altceva. Și dacă nu o poți repara înapoi la o secvență T-T, este reparată la altceva sau devine mutată la altceva. Și astfel vei pierde acea dinucleotidă specială din cele 16 dinucleotide posibile. Am menționat deja că CG este rar. Și motivul este că acesta este metilat din diverse motive de reglementare. Și acum, pentru că este metilat, chiar dacă aveți uracil glicozilază, care ar lua apoi toate C-urile obișnuite care se transformă în Us, ne-ar deoxi și le-ar transforma înapoi în C-uri dezoxi, acum un 5-metil C se transformă într-un T și nu poți spune că este anormal. T este un lucru perfect rezonabil de obținut. Și astfel, fiecare loc în care aveți un CG de metil se transformă într-un TG și aveți tendința de a pierde CG-urile, cu excepția cazului în care nu sunt metilate. Și vom ajunge la asta. Și, în mod similar, puteți avea codoni rari. Și, prin urmare, acestea se transformă în tripleți rare. Puteți avea tetranucleotide rare dacă, de exemplu, aveți o metilază, metilaza este o pentanucleotidă și de fiecare dată când vedeți asta - de fiecare dată când bacteria vede această secvență CTAG-G asociată, care spune, oh, trebuie să fi fost. una dintre aceste probleme de dezaminare prin metilare. Să o reparăm. Să facem această pentanucleotidă. Și, în consecință, CTAG tinde să fie subreprezentat . În mod similar, porțiuni foarte lungi de As - nu doar tetranucleotide, dar puteți obține excese de As datorită faptului că ARN-ul mesager se termină în poliA. Ele sunt transcrise invers, reintroduse în genom și acum aveți o pistă poliA. Sau puteți obține polimeri în general prin alunecarea polimerazei. Deci toate aceste lucruri pot cauza prejudecăți. Și tocmai am detaliat unul dintre ele aici, care este părtinirea tripletului, documentat aici că această frecvență de 10 ori mai mică a ATG decât a unora dintre ceilalți codoni de arginină. Deci acum să vorbim despre un model Markov. Acesta nu este încă un model Markov ascuns. În doar o clipă, va fi. Este un model Markov pentru că ne întrebăm ce sunt -- coloanele pe care le-am păstrat independente când făceam profile sau matrice de greutate, am spus că cele două nucleotide, fie CG sau AA sau orice altceva, sunt independente. Acum, nu îi vom mai face independenți. Le vom permite să recunoască codependența. Uită de plusuri chiar acum. Să presupunem că vor fi explicate când ajungem la partea ascunsă a asta. Deci sunt ascunse deocamdată. Dar despre ce vorbim este, care este probabilitatea de a obține un A dat un A? Avem un A în primul, în poziţia 5-prime. Care este probabilitatea acum de a obține un A dependent de acesta? Deci recunoaștem această dependență. Am spus că CG-urile sunt subreprezentate în genomul ca întreg și sunt suprareprezentate în promotori. Deci, această tranziție particulară a probabilității de a obține un G dat un C în poziția 5-primă - aceasta este una dintre acele probabilități condiționate. Acesta este un Bayesian pe care îl instalasem cu câteva diapozitive înapoi. Și astfel această săgeată care merge de la un C la un G este reprezentată de această probabilitate. Și puteți vedea că a merge în altă direcție este o probabilitate diferită. Acesta ar fi p de C dat G. Și aceste săgeți mici se vor referi la ele însele, este un exemplu de p al unui A dat un A. Deci aceasta este o dinucleotidă AA. Și puteți vedea că există 16 tranziții posibile, inclusiv patru homopolimeri, AA, TT, CC, GG și 12 tranziții ale celorlalte dinucleotide. Acum, ce înțelegem prin ascuns? Avem insule CG unde CG-urile au fost protejate de metilare și, prin urmare, protejate de mutații. Deci sunt destul de abundente. Sunt implicați în reglarea factorilor de transcripție obligatorii . Și aceste insule vor avea o lungime variabilă și au doar o concentrație crescută de CG. Și apoi afară sunt oceanele, care nu sunt protejate. Nu sunt implicați în transcripție și suferă mutații. Și sunt foarte scăzute în CG. Și vrei să știi unde începe și unde se termină insula, pentru că asta te ajută să știi unde sunt factorii de reglementare. Deci, acum, partea ascunsă este că atunci când te uiți la o nouă secvență, nu vei ști dacă te afli sau nu pe o insulă. Și așa că acest model Markov pe care îl aveți trebuie să fie diferit, indiferent dacă vă aflați pe o insulă sau nu, dar nu știți în ce vă aflați. Așa că aici este partea ascunsă. Deci ai un model Markov pentru tranzițiile dintr-o insulă. Și, în acest caz, vă așteptați ca CG-urile să fie mari, aproximativ la fel ca celelalte dinucleotide, posibil mai mari. Și în oceanele în care se pierd, te aștepți ca CG, această tranziție specială de la C la G, să fie scăzută, iar majoritatea celorlalte tranziții să fie normale, poate ocupând unele dintre sloturi. Deci sunt 16 dinucleotide diferite în insulele din stânga. Și sunt 16 în oceane în dreapta. În plus, există un întreg set de tranziții între insule și oceane. Genomul nu este doar blocuri. Toate sunt conectate. Și astfel puteți face o tranziție de la orice nucleotidă dintr-o insulă la orice nucleotidă dintr-un ocean. Și deci iată una care este ilustrată, această linie punctată, maro , unde scrie probabilitatea unui C minus -- adică într-un ocean-- având în vedere că aveți un A plus-- adică într-o insulă-- în poziția 5-primă . Deci, acesta ar fi un punct de tranziție care merge de la 5 prim la 3 prim, de la o insulă într-un ocean, mergând de la un A la un C. Nu ești bucuros că am ales o dinucleotidă pentru a ilustra asta? OK, iată un exemplu real. Iată un exemplu în care am decupat și lipit o secvență foarte scurtă cu un singur ocean în stânga și o insulă în dreapta, cu litere aldine și majuscule. Vi se oferă asta ca set de învățare. Cineva a decis, de mână, că granița are loc la această primă dinucleotidă CG. Nu există CG-uri la stânga și există trei CG-uri la dreapta. Și atunci când faceți acest tabel-- îl vom numi un tabel A mai târziu-- acest tabel A are tranziția de la un A în poziția 5-primă la un A în poziția 3-primă. Deci, acesta este p A dat A. Și iată dinucleotida CG, tranziția C la G, toate într-o insulă indicată prin plus. Și puteți vedea că este destul de frecvent. Și apoi, dedesubt, să ne uităm la aceeași dinucleotidă CG care merge de la C la G într-un ocean. Și aici nu se observă în acest mic exemplu de jucărie pe care ți l-am dat, deci este un 0. Deci 43% în acest exemplu real-- și poți calcula cifrele pentru că totul este aici-- și există o singură tranziție între insule și oceane. , și se întâmplă să fie un CC, un C într-un ocean mergând către un C într-o insulă. Și asta ne dă 0,2. Și toate celelalte sunt 0-uri. Acum, 0-urile sunt o problemă, atât pentru dinucleotida CG din ocean, cât și pentru tranzițiile dintre oceane și insule. Iar felul în care te descurci se numește pseudocounts. Practic spui, ce se întâmplă dacă am ratat să găsim acel lucru? Vom adăuga 1 pentru că, oricât de mari ar fi numărul, poți oricând să adaugi 1, iar asta ți-ar da o senzație că... nu prea ai 0-uri acolo. Nu poți avea încredere în 0. Și există chiar și un mod mai riguros de a face asta numit Dirichlet, în care poți face aceste pseudonumărări. Și așa poți vedea. Puteți calcula de fapt aceste probabilități condiționate manual în intimitatea casei dvs., nu în timp ce hoardele așteaptă să intre în cameră. Și puteți recrea aceste numere cu acea formulă simplă acolo. Acum, acesta este un adevărat set de antrenament bazat pe 48 de insule cunoscute, adnotate din nou de o persoană. Și puteți vedea pe acelea că această matrice A, concentrându-se pe acele lucruri care erau 43 și 0 înainte, acum numere mai realiste sunt 27% și 8% pentru o insulă și, respectiv, un ocean. Acum o să punem aceste numere-- practic, am tăiat tabelele de tranziție, care sunt în dreapta. Acum să le folosim pentru a face efectiv un HMM. În algoritmul Viterbi, amintiți-vă că am spus că programul dinamic este un erou și vom termina cu asta. Recursiunea pe care o avem aici, scorul Viterbi pentru-- deci l și k sunt stările. Sunt două state, insula plus, oceanul minus. Și i este secvența. Aici, lungimea secvenței este de 4. Eu merg de la 1 la 4. Și secvența pe care o testăm este: CGCG este într-un ocean sau într-o insulă? Ce presupuneți? Acesta este un caz destul de extrem. Dar, de fapt, se folosesc numerele din slide-ul precedent, care au fost luate din oceane și insule reale. Și astfel începeți cu probabilitățile fiind la fel de probabile că puteți începe de la C. Deci există opt stări diferite, așa că împărțim doar 1 peste 8 este un punct de plecare, sau 0,125. Și deci există două locuri posibile în care poate fi și ele sunt la fel de probabile. Este într-un ocean sau insulă, doar dat fiind C, 1/8. Acum faceți o tranziție în care înmulțiți de această dată matricea A, A sub k l, deci treceți de la starea 1 la starea 1, de la o insulă la o insulă. Și dacă te uiți înapoi la un diapozitiv, îți amintești că există un 0,27 pentru a merge la o dinucleotidă CG. Deci recursiunea aici este că înmulțiți aceasta-- este o emisie, care este întotdeauna 1. Înmulțiți maximul Viterbi anterior, deci i plus 1 și i, ori matricea A, care în diapozitivul anterior este .27. Deci, precedentul a fost 1/8, iar apoi ori 0,27, obțineți 0,034. Și dacă ai început într-un ocean și ai rămâne într-un ocean, ar scădea deja la 0,01. Deci, puteți vedea că probabilitatea mai bună este deja să vă aflați pe o insulă. Și dacă duci asta până la toate cele patru tetranucleotide, ai o probabilitate mult mai mare de a fi pe insulă, de 0,032, decât de a fi în ocean, de 0,002. Întrebare. STUDENT: Cunoașteți baza pentru a crede că contextul unei dinucleotide este fie un ocean, fie o insulă, cu alte cuvinte, doar două stări? De ce nu ar putea contextul să fie cinci stări? GEORGE CHURCH: OK.