Următorul
conținut este furnizat
de MIT OpenCourseWare sub
o licență Creative Commons.
Informații suplimentare
despre licența noastră
și despre MIT OpenCourseWare
în general,
sunt disponibile la ocw.mit.edu.
GEORGE CHURCH: OK.
Bine ați revenit în a
doua jumătate, unde
vom vorbi despre
alinierea multisecvență, pentru început.
Și am spus că voi
arăta din nou acest diapozitiv.
De data aceasta, înainte,
era să introducem
cum am putea obține
o matrice de substituție empirică
din secvențe de
proteine ​​înrudite la distanță
, cum ar fi membrii
familiei de imunoglobuline înrudite la distanță
.
Acum, am dori să
întrebăm, cum am obținut
acea aliniere multisecvență?
Acesta este un mod de a
gândi despre asta
ca o generalizare a
matricei bidimensionale pe
care am avut-o înainte, unde am
avea, să zicem, două secvențe,
una orizontală, una verticală.
Acum, a treia dimensiune
este a treia secvență.
Acest lucru devine din ce în ce mai
greu de vizualizat
ca număr de
secvențe pe care le introduceți,
dar să ne gândim la
asta în trei dimensiuni
pentru doar un moment aici.
Și când aveți o
aliniere multiplă, vă
puteți gândi la aceasta
ca la o programare dinamică
pe această hiperrețea
și că indelurile
pentru orice combinație pe perechi pot să
nu fie optime pentru triplu.
Și să trecem dincolo de triplu, dar
la o aliniere a dinucleotidelor foarte simplă
.
Și vom spune că aceasta este
alinierea multiplă optimă.
Puteți vedea aici că
multiplele exemple de AT
ancorează A și T ca
fiind poziții separate,
chiar dacă, în mod normal, dacă ați
face doar o aliniere în perechi
cu o penalizare de decalaj mare,
ar exista o tendință
de a alinia A cu
T.  Nu ați
avea aceste indels de anulare.
Dar în contextul
multialinierii,
acum aveți o
interpretare diferită.
Deci vrem să
generalizăm tipul
de algoritmi pe care i-am folosit.
Și din nou, acesta va fi
un algoritm recursiv în
care scorul unui
șir de două caractere
este definit în termeni de
maximul diferitelor șiruri mai scurte
.
Deci în partea de sus este cazul în
care nu avem inserții -- cel
mai simplu caz, în care
nu avem inserții sau ștergeri.
Și ne întrebăm doar care
este scorul de a avea
un [?  VSA, ?] adică
această comparație triplă cu un singur aminoacid
, la fel cum a fost
scorul de a avea
un V înlocuit cu un s.
Acum, întrebăm
un V înlocuit
cu un S înlocuit cu un A.
Acum, numărul de
cazuri diferite pe care le avem aici -
înainte, era 3 pentru
o aliniere globală,
care a fost k, fiind
numărul de secvențe, a fost  2.
Acum k este 3 pentru o
comparație în trei.
Și toate submulțimile posibile sunt de la 2
la k minus 1, în acest caz,
deci este 7.
Deci șapte cazuri, și
puteți doar să treceți prin ele.
Puteți vedea că primul
nu este inserții sau ștergeri.
Următoarele trei sunt două
inserări sau ștergeri
în cele trei
moduri diferite care se pot întâmpla.
Și apoi ultimele trei
sunt un substituent,
una dintre aceste liniuțe, ceea ce
înseamnă că celelalte două
secvențe au inserții în
raport cu cea întreruptă.
Deci, acestea sunt cele șapte cazuri
pentru o comparație în trei.
Acum, pe măsură ce k crește, atunci atât
complexitatea spațiului --
cantitatea de puncte de rețea pe
care trebuie să le stocați
undeva, fie în RAM,
fie pe disc, sau undeva --
crește cu n până la
puterea k-a unde
secvențele sunt aproximativ  n
lung și numărul de secvențe
este k.
Acum, pentru a calcula fiecare
dintre acele noduri - ei
bine, vreau să spun, ce va fi de
ordinul 2 la puterea k,
pentru că nu uitați că am spus că
numărul de submulțimi în general
va fi 2 la k minus
1 sau aproximativ  aproximativ 2 la k.
Și astfel,
complexitatea timpului este de a face 2
la k comparații pe nod.
Și există n la k
noduri, deci este de ordinul 2 de
k ori n la k.
Acum, acesta nu este un om de paie.
Acesta nu este un
algoritm naiv.
Acest lucru folosește toată
puterea pe care am
dezvoltat-o ​​pentru
comparația pe perechi
și doar o generalizăm.
Și deci aceasta este de fapt
o problemă grea.
Acest lucru se scalează
exponențial cu k.
Și nu este ca și cum vrem doar
să facem k egal cu 2.
Există motive foarte bune pentru a
deduce structura sau funcția
fără experimente,
doar din secvență.
Și cu cât k este mai mare, cu
atât poți explora mai mult.
Este ca și cum ai face un
experiment uriaș de mutageneză
și ai explora mutanți viabili.
Deci vrem să facem
aliniamente multisecvențe, deci
cum ne descurcăm cu asta?
Acesta este modul în care ne
descurcăm cu majoritatea
calculelor nepolinomiale,
adică,
în acest caz, exponențiale,
care este aproximarea.
Acum, puteți obține
ceva care este
foarte aproape de
adevăratul optim dacă cum să
tăiați această hiperrețea.
Ține minte, unul dintre
exemplele pe care le-am arătat a fost că
poți lua această trupă.
Dacă știți de unde ar trebui să
înceapă banda
și cât de largă ar trebui să
fie, puteți, în esență, să
tăiați multe dintre
noduri fără a
pierde cu adevărat optimitatea.
Dar trebuie să fii foarte sigur că
știi de unde să o începi
și cât de largă ar trebui să fie.
Deci este optim în
aceste constrângeri.
Apoi mai sunt altele
care sunt mai euristice.
Nu se garantează că sunt
optime, dar, pe de altă parte,
nu
necesită neapărat tăierea arbitrară.
Și cele două pe care le
vom ilustra
în următoarele două
diapozitive sunt o aliniere a arborelui,
așa cum este ilustrat de ClustalW.
Apropo, tăierea
este ilustrată
de un program numit
MSA, care este
prescurtarea pentru
aliniere multisecvență.
Și vom arăta o aliniere a stelei.
Și apoi, când vom ajunge, mai târziu,
în partea transcriptom
a cursului, vom vorbi
despre algoritmul Gibbs.
Așa că haideți să trecem prin ClustalW
și apoi un algoritm stea.
Deci, iată
alinierea multiplă progresivă.
Și cred că majoritatea dintre
voi, dacă v-aș fi oferit
luxul de a vă gândi la asta în
timpul pauzei, cum
ați face
multialinierea, acesta
ar putea fi algoritmul
cu care ați veni.
Aproape întotdeauna
are sens să începem
cu
aliniamentele în perechi, deoarece aceasta
este o problemă rezolvată și avem o
scalare destul de bună pentru asta.
Și aici, luați fiecare dintre
, să spunem patru secvențe
și faceți toate aliniamentele pe perechi.
Și obțineți această matrice 4 cu 4.  Va
fi
simetric, așa că
trebuie să faceți doar diagonala și
diagonalele off pe jumătate din ea
și.
Și obțineți cel mai bun
scor este S1 cu S3,
care are un scor de 9.
Și astfel puteți construi un copac.
Și acesta este... în principiu,
începem
să descriem metoda
prin care construim
un copac, cum ar fi
acel copac al vieții pe
care l-am arătat de
câteva ori acum.
Și astfel, când
construiți un arbore,
luați cele două secvențe de punctaj cele mai apropiate

și le indicați ca
ramuri terminale ale arborelui.
Și le conectezi la
o furcă, un punct de ramificație.
Și distanța fiecăruia față de
strămoșul comun
este indicată de
lungimea acestor linii.
Și astfel, al doilea cel mai bun
scor este S2 și S4.
Este o asemănare puțin mai slabă
decât S1 și S3.
Deci aveți aceste
ramuri mai lungi care
indică o divergență mai mare.
Și sunt în
propriul lor grup.
Acum, se dovedește că
atunci strămoșul comun
pentru toate
secvențele, care ar
fi strămoșul comun
al strămoșilor comuni
ai primelor două
grupuri, este reprezentat
de această ramificare finală cea mai apropiată
de trunchiul copacului
sau de rădăcinile copacului.
Și aici, distanța este
această axă orizontală.
Și apoi, odată ce aveți această
dendrogramă, următorul pas,
sau pașii completi, sunt alinierea
fiecărei secvențe, ceea ce
trebuia să le fi
făcut deja pentru a
calcula
matricea de similaritate -
și din nou, acestea sunt o
aliniere perechi de  S1, S2 și S4.
Pașii 1 și 2 au fost deja făcuți
pentru a obține o matrice de similaritate.
Acum, pasul 3 este nou.  Dacă
aliniați această aliniere, o vom
numi perechea S1, S3,
cu perechea S2, S4.
Și vă puteți
imagina că continuați să faceți
acest proces ierarhic.
Dacă ar exista
secvențe suplimentare care
sunt și mai îndepărtate
legate, să spunem S5,
ați lua această
aliniere a S1, S2, S3, S4
și ați alinia-o cu o
singură secvență S5.
Așa că puteți vedea cum puteți
alinia nu numai secvențe,
ci și
pseudosecvențe,
care au aceste mici
indel bashs în ele.
Deci aceasta este o metodă.
Aceasta este o metodă diferită.
Și aici, premisa
este că
aveți o secvență care este
suficient de aproape de toate
celelalte secvențe încât să o puteți
folosi ca secvență de ancorare.
Și orice indel-uri pe care le puneți
individual în perechi,
pentru acea secvență,
pot fi propagate
în întreaga
aliniere multisecvență.
Deci, aici, începem la fel.
Aici, avem cinci
secvențe în loc de patru,
dar este același lucru.
Faceți toate asemănările pe perechi

și acordați un scor.
Aceste scoruri sunt scorurile
care ar fi ieșit
la sfârșitul acelei urmăriri
în aliniamentele pe perechi.
Deci aceasta nu este o
matrice pe perechi.
Acestea sunt rezultatele de 5 ori
4 peste 2 aliniamente perechi.
Fiecare dintre aceste casete în sine este
rezultatul unei matrice complete
pe S1 versus S2, de exemplu.
Și puteți vedea din
acest set de scoruri
că cel mai bun scor, sau cel mai bun
set de scoruri pentru orice secvență,
este S1 are cel mai bun
scor pentru S2 și
are cel mai bun scor general
pentru toate secvențele.
Și așa vom folosi S1 ca
focus al geometriei stelei.
Și vom spune OK, am
comparat deja fiecare secvență cu S1.
Am comparat fiecare secvență
cu fiecare secvență.
Dar să ne concentrăm pe asta.
Și acum luați oriunde au
fost indels
care au fost necesare pentru a
obține cel mai bun scor pentru S1
cu fiecare dintre ceilalți și
au S1 în roșu în fiecare caz
și utilizați-l ca ancoră.
Și apoi, în
multialignment,
iei toate indelurile în
raport cu cel roșu
și le introduci astfel încât să
fie ancora.
Deci acestea sunt două
moduri radical diferite.
Și vom ajunge la
proba Gibbs mai târziu.
Dar eșantionarea Gibbs, pe
scurt,
este, în general, atunci când
aveți o problemă grea, în
care nu puteți
parcurge întreg spațiul,
ceea ce faceți este să o probă.
Spuneți, să încercăm câteva lucruri
și să încercăm să le probem aleatoriu
și poate chiar să ne dezvoltăm local.
Dacă, după eșantionarea aleatorie
în anumite locuri, arată mai bine,
atunci uitați-vă aproape de acolo
și găsiți alte soluții
și continuați să optimizați.
Pe scurt, acesta este Gibbs.
Acum, am explorat
compromisurile de precizie spațiu-timp.
Puteți îmbunătăți timpul având
această stocare, această
secvență în perechi sau multi într-o matrice -
deci, de fapt,
ați făcut un compromis în care
ați ocupat
memoria computerului pentru a economisi timp.
Și apoi, dacă sunteți
dispus să sacrificați
puțină precizie sau
puțină comprehensiune,
atunci puteți economisi și mai
mult timp sau memorie.
Acum vrem să folosim motive,
care este genul de lucru pe
care îl obțineți din
aliniamentele locale, pentru a găsi gene.
Și vom folosi
motivele și genele de găsire
ca o modalitate de a introduce
un anumit motiv, care
este un motiv CG, ca un
exemplu simplu de model Markov ascuns
.
Acum, cum găsim genele?
Genele au mici fragmente de
secvență la început,
la mijloc sau la sfârșit,
care sunt distinctive.
Au
proprietăți distinctive, de obicei
proprietăți de secvență.
Deci, la începutul
genei, înainte de
regiunea de codificare a proteinei
sau regiunea de codificare a ARN,
veți avea
elemente de reglementare, cum ar fi promotori
și așa-numitele insule CG.
Acum, amintiți-vă de
insulele CG, pentru că asta vom
folosi
pentru a ilustra HMM-urile.
Insulele CG sunt
practic o abundență
a dinucleotidei CG.
Dintre cele 16
dinucleotide diferite,
CG se întâmplă să fie
subreprezentat
în genomul general al nevertebratelor
și suprareprezentat
în regiunile promotoare din
amonte de gene.
Și motivul este
probabil că se
leagă de factorii de transcripție,
iar factorii de transcripție
îi protejează de metilare
și, prin urmare, îi protejează
de un proces mutagen
care altfel
i-ar determina să devină un TG.
Acum, acesta este exemplul unui
element de secvență distinctiv
care indică
începutul unei gene sau chiar
înainte de începutul genei.
În interiorul genei,
mai ales... ei bine,
numai... dacă este o
regiune care codifică proteine,
vei avea codoni preferați.
Acestea sunt preferințe
care sunt stabilite
de abundența particulară
a ARN-urilor de transfer în celulă,
precum și de alte
constrângeri asupra secvenței.
Dacă vă aflați într-un organism
care face splicing ARN,
veți avea semnale de ARN splicing
, iar acestea vor
avea
caracteristici distinctive de secvență.  Veți avea...
dacă
aveți îmbinare ARN,
atunci va trebui să mențineți
cadrul de citire translațional
peste joncțiunile de îmbinare.
Acesta este un indiciu.
Dacă aveți
aliniamente multisecvențe,
atunci puteți căuta
poziții conservate și conservarea între specii
.
Înșelăciunea finală
este că dacă aveți
un ADNc în cazul
speciilor care sunt îmbinate,
atunci vă puteți da seama de
îmbinare doar
empiric prin
prezența secvențierii efective a

ARN-ului mesager care vă codifică gena.
Deci știi că există o genă
acolo pentru că ai găsit-
o prezentă în
populația de ARN mesager
și ai secvențiat-o.
Acum, există probleme cu
fiecare dintre aceste abordări.
Promotorii și insulele CG
sunt oarecum degenerate.
Sunt
semnături de secvențe slabe.
Există o mare varietate și
sunt folosite în combinații.
Când ne uităm
la codoni preferați,
avem nevoie de mulți codoni la
rând pentru a vedea o preferință
față de secvențele aleatorii.
Secvențele aleatoare
vor conține, de asemenea,
unii dintre aceiași codoni.
Și dacă ai nevoie de altele mai lungi,
atunci îți vor lipsi proteinele minuscule.
Și vom vorbi despre
asta într-un moment,
exemple concrete.  În
mod similar, pentru splicing ARN,
puteți avea motive slabe, din nou.
Și
splicing alternativ-- nu este
ca și cum ar fi un
splicing specific care are loc
într-un anumit segment de genă.
Pot exista mai multe feluri.
Conservarea necesită să
aveți speciile potrivite,
că cel puțin unele
dintre speciile
din
alinierea multisecvență sunt doar la
distanța potrivită - nu prea
aproape, nici prea departe.
Și cADN-urile sunt grozave,
dacă le aveți.
Dar dacă aveți foarte
rare [?  tendințe, ?]
trebuie să aveți
tipul de celulă și ARN-ul mesager rar [INAUDIBIL],
rar
într-un tip de celulă.
Deci haideți să vorbim despre
dimensiunile proteinelor.
Dacă te uiți aici, am trasat
dimensiunile proteinelor
din genomurile adnotate --
doi dintre primii
genomi adnotat
sunt cea mai mică drojdie eucariotă
și cea mai mică Mycoplasma procariotă --
și am întrebat care sunt
dimensiunile proteinelor care
sunt adnotate?
Proteinele între ghilimele,
pentru că asta au ales
oamenii și
programele de calculator împreună
să reprezinte.
Acesta nu este adevărul, neapărat.
Și puteți vedea că merge
la peste 900 de aminoacizi.
Și dacă te duci la oameni,
asta s-ar reduce
la 10 de mii
de aminoacizi
pentru cele mai mari proteine.
Dar să ne concentrăm atenția
asupra celor mai mici proteine.
Cum se face că
scade brusc la 100 de aminoacizi?
De ce sunt atât de puține
proteine ​​​​care sunt scurte?
Și există puțin mai multe
proteine ​​​​scurte în Mycoplasma?
Vreo ghici de ce sunt atât de puțini?
De ce scade
la 100 de aminoacizi?
STUDENT: Sunt mai multe,
dar nu le găsim?
GEORGE CHURCH: Da,
probabil că sunt mai multe.
Nu că noi nu putem,
ci că adnotatorii
au ales să nu o facă.
Și de ce au ales să nu o facă?
Au fost de acord că se
vor opri la 100.
Era prea scurt.
Și acesta este ceea ce
ilustrează de ce.
Aici, fiecare genom are
propriul său conținut GC, propriul codon de
utilizare și așa mai departe.
Aici, vorbim doar
despre procentul de ordinul întâi
al GC față de AT.
Și codul genetic,
teoretic și așa cum s-a observat,
poate restricționa genomii
astfel încât să
poată avea într-adevăr un conținut de minim
25% GC, sau 28%
și maximum 75%.
Și, în esență, toți
genomii se încadrează în acest interval,
iar drojdia este în jur de 39% sau cam asa ceva.
Și apoi, dacă complotezi...
codonii de oprire tind să fie
alcătuiți din As și Ts.
Codonii de oprire sunt
TAG, TGA și TAA.
Deci, dacă aveți un
genom bogat în AT,
veți avea
tendința de a avea multe.
Ai tendința de a întâlni
un codon de oprire la întâmplare
destul de des.
Deci, dacă aveți un
cadru de citire deschis lung într-un genom bogat în AT
, este foarte--
dacă aveți un cadru de
citire deschis modest
, este foarte
semnificativ, un genom bogat în AT.
Dar aveți un
genom bogat în GC, apoi
puteți merge mult timp
la întâmplare fără să întâlniți
codonul stop, deci
este mai puțin semnificativ.
Deci, trebuie să aveți mai mulți codoni
la rând într-un genom bogat în CG
pentru a vă convinge.
Deci, de obicei, este
undeva la mijloc.
Și puteți vedea că
există această tendință generală.
Trebuie să aveți
mai mulți codoni la rând
pentru a vă convinge pe măsură ce
conținutul GC pe axa orizontală
crește.
Și practic,
locul în care
începi să primești prea
multe fals pozitive
este în jur de 100 de aminoacizi.
Și de aceea comunitatea a
decis să se oprească de acolo.
Când ajungem la proteomică,
vom vorbi despre modalități prin
care poți găsi empiric, prin
spectrometrie de masă și așa mai departe,
acele proteine ​​mici.
Și genetic,
desigur, le puteți găsi.  Să
vorbim despre cele mai
extrem de mici
și să ne întrebăm dacă aceste
cadre de lectură deschise extrem de mici
sunt interesante.
Și cred că sunt
exemple extreme sunt foarte interesante.
Deci, cea mai mică pe care o
cunosc este o pentapeptidă,
care este de fapt
codificată nu doar în
unul, ci în multe

ARN-uri ribozomale mari, diverse din punct de vedere filogenetic.
Deci, aici, ARN-ul ribozomal acționează în mod normal
ca parte a
aparatului de traducere, dar
aici, acesta acționează
ca ARN mesager, de asemenea,
probabil o moleculă separată,
poate o
versiune degradată a acesteia.
Dar într-un fel sau
altul, cei 23 de ARNs
codifică această
pentapeptidă, care nu este doar
niște junk--
poți avea ADN nedorit,
poți avea peptide junk.
Dar acesta conferă de fapt
rezistență la eritromicină
la niveluri scăzute la tipul sălbatic.
Nu este un
tip mutant de peptidă.
Este pentapeptida normală.
Acum, iată trei exemple care
sunt legate între ele.
Au undeva
între 14 și 16 codoni
și au această
compoziție foarte ciudată de aminoacizi
atunci când faci traducerea
conceptual în computer.
Amintiți-vă, triptofanul
era un aminoacid rar.  Ei
bine, iată două
dintre ele la rând.
Este destul de neobișnuit.
Iată șapte fenilalanine
într-o scurtă perioadă.
Și iată șapte
histidine chiar la rând.
Acest lucru este cu adevărat bizar.
Și, în plus, ceea ce devine și
mai conspirativ
pentru că aceste șapte histidine
la rând se întâmplă să fie...
următoarea genă în jos este o
genă biosintetică a histidinei.
Și nu numai atât, ci aproximativ
opt gene de histidină la rând
vin după aceea.
Și același lucru cu
fenilalaninele în amonte
de
genele biosintetice ale fenilalaninei,
iar acest
exces ciudat de triptofan
este în amonte de
genele biosintetice ale triptofanului.
Deci, ce înseamnă toate acestea?
Ceea ce înseamnă, probabil --
și există de fapt
destul de multe experimente
în acest sens -- este că aceasta este o
buclă de feedback excelentă, în care
doriți să faceți feedback
în cel mai relevant mod.
Așa că aici, dacă doriți
să știți dacă
trebuie să faceți triptofan,
fenilalanină sau histidină,
vă întrebați dacă este suficient în
jur pentru a face traducere.
Asta e foarte relevant.
Și deci aceasta trebuie să fie detectarea
procesului de traducere în sine.  Se
întreabă dacă
ARN-urile de transfer sunt încărcate
cu aminoacizi
suficient pentru a
obține o traducere eficientă.
Dacă nu ești, atunci te
vei opri aici.
Acel ribozom va ezita,
așteptând ARN-ul de transfer potrivit
.
Și pe măsură ce ezită,
acest ARN se schimbă.
Se pliază.
Și o serie de
evenimente rezultă în...
dacă ezită,
atunci vrea
să facă
genele biosintetice în aval
pentru a produce mai mulți aminoacizi.
Deci ARNt-ul trebuie să
fie încărcat.
Așadar, obțineți această buclă drăguță,
mică de feedback,
că ezitarea provoacă
o schimbare a ARN-ului, care
provoacă schimbarea
transcripției și
faceți mai mult din ceea ce aveți nevoie.
Deci, cred că acestea sunt
exemple interesante.
Și, bineînțeles, dacă ai
ști dinainte că cauți o

serie de histidine,
ar fi grozav.
Dar pentru alte
cadre de lectură deschise,
poate exista o poveste diferită.
Și deci trebuie să aveți
metode de căutare
a motivelor foarte scurte.
Deci, să ne întoarcem la
întrebarea mai mare a motivelor
și să ne întrebăm cum
le tratăm mai riguros?
Iar modul în care
le tratăm mai
riguros sunt aceste profiluri.
Acum, ceea ce vom
face este să
luăm o
aliniere multisecvență.
Acum știi cum să faci aliniamente
multisecvențe.
Și acum vrem să
captăm acele informații
și să ne ocupăm de aceste
profiluri specifice poziției.
Amintiți-vă că am menționat
PSI-BLAST și alți algoritmi.
Recunoașteți că nu
aveți o matrice de substituție generică
pentru toate pozițiile din toate
proteinele sau toți acizii nucleici.
Aveți o
matrice de substituție diferită
pentru fiecare poziție.
Pentru că o poziție ar putea
fi, să zicem, o spirală alfa.
Avem o matrice de substituție.
Și altul
ar putea fi într-o bobină.
Așadar, aici, totul este despre
motivele.
Fiecare poziție are un
set diferit de reguli.
Deci prima poziție în
această tetranucleotidă...
nu-i pasă ce este.
Poate fi A, C, G sau T.
Acestea sunt patru
secvențe diferite, site-uri de pornire reale, pe
care le-am aliniat, fie
manual, fie pe computer.
Este foarte ușor
să faci alinierea,
dar interpretarea
aici este poziția în
amonte de
codonul de pornire nu contează.
Deci, matricea dvs. de mai jos este --
A, C, G și T primesc fiecare
un 1, care este o numărătoare.
Am putea face asta în ceea ce privește
frecvențele, procentele.
O facem în
termeni de numărare
aici, deoarece aceasta este doar
o reformulare a datelor.
Poziția T și G la
capătul 3-prim al codonilor
sunt, în acest
eșantion mic, invariante.
Și astfel obțin un număr de 4 pentru
baza corectă și un număr de 0
pentru toate alternativele,
A, C și G,
de exemplu, în loc de T.
Și poziția A nu este
destul de invariantă în acest eșantion.
GTG este un codon de început perfect bun
în, să zicem, 1 secvență
din 10 sau 1 din 4 în acest caz.
Și astfel obțineți 3 și un 1.
Deci aceasta este matricea de ponderi sau matricea de
substituție sensibilă la poziție
.
Aceasta este mai precisă decât, să
zicem, o secvență consens
sau o singură secvență
din probă.
Dar nu este cel mai precis
mod de a reprezenta acest lucru.
Este sensibil la poziție, dar
am pierdut corelațiile de ordin superior
dintre poziții.
Cu alte cuvinte, am pierdut
dependențele bazelor adiacente
sau bazele care sunt la
câteva baze distanță.
Dar să vedem cum se
desfășoară, această poziție sensibilă.
Acesta este un alt
mod de a reprezenta
în termeni-- este o

versiune a acestei teorii a informațiilor, în care
înălțimea completă a fiecărei baze
este de 2 biți.
Și sunt aceiași 2
biți despre care am vorbit
în prima prelegere,
deoarece există patru baze.
Și acesta este același motiv, ATG.
T și G au fost invariante
în acest eșantion mai mare
sau aproape invariante
în
dimensiunea eșantionului de acum în loc de doar 4,
dar mai mult de 1.000 de secvențe.
Și din nou, A și G au fost
cele predominante.
Puteți vedea un pic de
T acolo în prima poziție.
Și apoi baza chiar în
amonte de ATG
este aproape complet aleatorie.
Și astfel conținutul său de informații
este aproape de zero
și deci este 0 biți.
Acum, acest lucru este
suficient de ușor încât să puteți
face o căutare mare aliniind
pe ATG, ceea ce
este un lucru foarte izbitor
, și să vă uitați să
vedeți dacă există
alte informații reziduale
în lateral.
Și destul de sigur, găsiți
acest mic pic de G și As, în
cea mai mare parte, la minus 9 în raport
cu A de ATG la 0.
Și se dovedește că--
din nou,
verificat experimental-- acest motiv --
așa că motivul ATG se
leagă  pentru a transfera ARN,
iar motivul bogat în GA se leagă de fapt
la o secvență de ARN ribozomal
.
Și atunci, practic,
ARN-ul mesager
este înduplecat în
poziția corectă,
pentru a fi în
poziția corectă a ribozomilor
unde ARNt-ul poate
lega inițiatorul.
Deci, iată un exemplu în care
puteți
face o aliniere multisecvență.
Iată 1.000 de
secvențe.  k este egal cu 1055 --
rețineți, acesta este
exponențial pentru k.
Și puteți găsi
aceste motive care au o
mare semnificație biologică.
Acum, odată ce ați făcut
alinierea multisecvență
și ați derivat
matricea de greutate,
această
matrice de substituție sensibilă la poziție, acum
doriți să puteți căuta
aceste lucruri în genomul.
Știi cum
arată un motiv de început.
Vrei să le găsești pe toate.
Și nu ar fi doar
ATG, ar fi atât de plin,
inclusiv motivul bogat în GA.
Și modul în care faceți asta este
acum să luați această matrice de greutate
și să cereți fiecare --
scanăm
genomul și ne
întâlnim cu secvența
[?  AAT?] AATG.
Acum vrei să știi,
cât de bună
este această potrivire cu această matrice de greutate,
care a fost luată fie din 4
secvențe, fie din 1.000 de secvențe?
Și modul în care o faci
este pentru fiecare poziție,
te întrebi care a fost scorul
în întregul set de învățare?
Și acum acesta ar trebui să fie
un set de testare independent pe care îl
încercați.
Aici, setul de învățare și
locul de testare sunt aceleași.
Dar, practic, aveți A
este un scor de 1, ceea ce nu
va fi o contribuție mare
pentru că au fost toate la fel.
Deci, al doilea
A este un scor de 3,
iar T și G
sunt un scor de 4,
pentru un scor total de 12 pentru
această tetranucleotidă particulară
a acestui motiv
reprezentat de această
matrice de greutate.
Și apoi puteți vedea că
primele trei secvențe, care
au toate ATG, au cele mai bune scoruri.
Iar cel de jos,
GTG, deși este
un membru valid al
setului de învățare,
a fost ceva care a fost
subreprezentat statistic.
GTG tinde să fie întâlnit mai puțin
frecvent decât ATG
și, prin urmare, obține un
scor mai mic atunci când îl
căutați în genomul.
Deci, dacă le prioritizați
, acestea vor
fi prioritizate în această
ordine cu 12, 12, 12, 10.
Deci, acum
subiectul final, care vorbește
despre un motiv foarte simplu
și scurt, care
este motivul CG,
despre care am pretins că
este peste-  reprezentate în
promotori la vertebrate.
Dar înainte de a vorbi despre
aceste motive foarte scurte, să
vorbim despre motivul pentru care avem
modele probabilistice
în analiza secvenței în general.
Și există trei utilizări principale.
Una dintre ele este recunoașterea --
de exemplu, recunoașterea pe
care o facem
este, este o anumită
secvență a proteinei?
Cu alte cuvinte,
are un scor care
este semnificativ statistic?
Practic asta
făceam, foarte anecdotic,
în slide-urile anterioare.
Sau o altă sarcină
este discriminarea.
Adresăm întrebări de genul, această
proteină este mai mult ca o hemoglobină
sau ca o mioglobină?
Prima întrebare este
despre o secvență relativă
, de exemplu, la o matrice de ponderi.
Celălalt este despre două
secvențe, întrebând cum -
sau trei secvențe -
dacă o anumită proteină
seamănă mai mult cu una decât cu alta.
Și într-o căutare în baza de date, am
parcurge.
O întrebare ar putea fi
, care sunt toate
secvențele din [INAUDIBLE] care
arată ca o serin protează?
Acest lucru ar însemna să ceri
recunoaștere de mai multe ori,
iar și iar.
Deci, aici este ideea de bază -
care va fi o idee bayesiană
în curând, în următorul diapozitiv -
este să atribuiți un număr
fiecărei secvențe posibile,
astfel încât probabilitatea
acelei secvențe având în vedere un model -
deci acest jargon aici,
P de s  /m, s bar m--
este probabilitatea
de a obține
acea secvență având în vedere un model.
Deci modelul ar putea
fi această matrice de greutate despre care am
vorbit
sau ar putea
fi ceva mai complicat.
Deci, care este probabilitatea
ca să obținem secvența ATG,
având în vedere modelul,
modelul matricei cu greutate completă?
Și ca în cazul oricărei
probabilități bune,
așa cum am menționat în prima
clasă, acestea ar trebui să se însumeze la 1.
Dacă însumați sigma lui
s, însumați toate secvențele,
atunci probabilitatea dată
modelelor ar trebui să se însumeze la 1.
Acum, că  va fi adevărată
pentru p-ul secvențelor
dat un model însumat
peste toate secvențele.  De
asemenea, putem avea
probabilitatea unei secvențe
în populația dvs. de secvențe,
indiferent de model.
Și acestea ar trebui să se însumeze la 1.
Și probabilitatea
modelelor din colecția ta
de modele, indiferent
de secvență.
Și iată o teoremă foarte utilă
, numită teorema lui Bayes.
Și acest lucru este complet general.
Nu depinde de
modele și secvențe.  L-
ați putea numi doar
m și s, unde
m și s sunt doar două lucruri.
Și acest lucru este în general adevărat,
este că probabilitatea
ca modelul
dat secvența să
fie egală cu probabilitatea
modelului înmulțit cu probabilitatea
secvenței dat
modelul împărțit
la probabilitatea
secvenței.
Și mai mult jargon, dar explicația
unora dintre acești termeni aici,
este că probabilitatea
modelului și probabilitatea
secvenței sunt
probabilități anterioare.
Acestea sunt probabilități
care nu sunt condiționate.  Ei
nu depind de
altceva.
Ei bine, când ai această
bară mică în mijloc,
înseamnă că ai
probabilitatea modelului dat în
secvență.
Se numește
probabilitate posterioară.
Acum să vedem la ce
sunt utile toate chestiile astea bayesiene.  Vom
face...
dintre diferitele aplicații, am
avut discriminare prin recunoaștere
și căutare în baze de date.
Deci, iată exemplul
unei căutări în baze de date.
Vom avea două modele,
un model pe care de fapt
avem o hidrolază și
modelul pe care îl avem aleatoriu.
Așa că numim asta
modelul nul sau modelul n,
iar m este modelul care
ne interesează,
sunt hidrolaze.
Deci avem baze aleatorii
sau aminoacizi aleatori.
Aceasta este hidrolaza
și aminoacizi.
Deci vrem să raportăm
toate secvențele
în care probabilitatea ca
acea secvență, dat fiind modelul,
să fie mai bună decât
acea secvență având în vedere
un model nul sau
aminoacizi aleatori,
că este
semnificativă și este
semnificativă prin
delta dintre doar
nul față de  probabilitatea
modelului în general.
Deci, dacă ne uităm, dacă, să
zicem, facem o căutare în baza de date în care
avem
valori de punctaj la fel ca cele pe care le-am
dezvoltat
mai devreme în discuție
și vom nota pentru
secvențe aleatorii,
vom obține o
distribuție în portocaliu.
Și dacă punctăm pentru
hidrolaze fide,
am putea obține această
distribuție în albastru.
Și ne întrebăm
dacă probabilitatea
de a obține o anumită
secvență, având în vedere modelul acesta
este o hidrolază, este
mai bună decât probabilitatea
de a obține acea secvență
la întâmplare, portocaliu.
Și vrei ca asta să fie
semnificativ statistic.
Deci, puteți reformula
acest lucru în termeni de biți
sau în termeni de
nivel de semnificație al probabilității
de 5%, ceea ce este
de obicei cazul.
Acum, când vorbim
despre probabilitatea
unei anumite secvențe,
unde putem avea abateri de la
aleatoriu la
nivel de mononucleotide, la
nivel de dinucleotide și
așa mai departe, și mai degrabă decât să
vă arunc asta ca pe
un fapt matematic,
eu  vreau să vă ofer o
rațiune biologică pentru ce
puteți avea non-aleatorie la
fiecare ordin al unui lanț Markov,
adică fiecare
lungime a secvenței.
Deci, lanțul de ordinul întâi,
lanțul de ordinul cel mai jos,
ar fi mononucleotidele.
Și s-ar putea să aveți o prejudecată în care
C ar fi rar deoarece C-urile
se transformă în Noi.
Și în organismele cărora le lipsește
o uracil glicozilază, care
apoi
o va readuce la un C,
Cs se va schimba în Noi, deoarece
este o reacție chimică foarte comună
.
Se numește
dezaminare a citozinei.
Dar un deoxi U este
o bază anormală.
Este recunoscut
ca o bază anormală
și există reparații în majoritatea
organismelor care [INAUDIBILE],
dar există unele care nu.
Și există o tendință
a acelor genomuri de a
viza conținutul ridicat.
C-urile dispar și, prin urmare,
iau G-urile cu ei.  În mod
similar, multe
organisme se repară -
ei bine, un T lângă un T în
prezența luminii ultraviolete
va fi mutat
în altceva.
Și dacă nu o poți repara
înapoi la o secvență T-T,
este reparată
la altceva
sau devine mutată
la altceva.
Și astfel vei pierde acea
dinucleotidă specială
din cele 16
dinucleotide posibile.  Am
menționat deja
că CG este rar.
Și motivul este că
acesta este metilat
din diverse motive de reglementare.
Și acum, pentru că
este metilat,
chiar dacă aveți uracil
glicozilază, care ar
lua apoi toate
C-urile obișnuite care se transformă în
Us, ne-ar deoxi și le-ar transforma
înapoi în C-uri dezoxi,
acum un 5-metil C se transformă
într-un T și
nu poți spune că este anormal.
T este un
lucru perfect rezonabil de obținut.
Și astfel, fiecare loc în care aveți
un CG de metil se transformă într-un TG
și aveți tendința de a pierde CG-urile,
cu excepția cazului în care nu sunt metilate.
Și vom ajunge la asta.
Și, în mod similar,
puteți avea codoni rari.
Și, prin urmare, acestea se transformă
în tripleți rare.
Puteți avea tetranucleotide rare

dacă, de exemplu,
aveți o metilază,
metilaza este
o pentanucleotidă
și de fiecare dată când vedeți asta - de
fiecare dată când bacteria vede
această secvență CTAG-G asociată,
care spune, oh,
trebuie să fi fost.
una dintre aceste
probleme de dezaminare prin metilare.
Să o reparăm.
Să facem această
pentanucleotidă.
Și, în consecință, CTAG tinde să
fie subreprezentat
.  În
mod similar, porțiuni foarte lungi
de As - nu doar
tetranucleotide,
dar puteți obține
excese de As datorită
faptului că ARN-ul mesager se termină
în poliA.
Ele sunt transcrise invers,
reintroduse în genom
și acum
aveți o pistă poliA.
Sau puteți obține polimeri în
general prin alunecarea polimerazei.
Deci toate aceste lucruri
pot cauza prejudecăți.
Și tocmai am detaliat
unul dintre ele
aici, care este
părtinirea tripletului, documentat aici
că această frecvență de 10 ori mai mică
a ATG decât a unora
dintre ceilalți codoni de arginină.
Deci acum să vorbim
despre un model Markov.
Acesta nu este
încă un model Markov ascuns.
În doar o clipă, va fi.
Este un model Markov pentru că ne
întrebăm ce sunt --
coloanele pe care le-am
păstrat independente
când făceam profile
sau matrice de greutate, am spus că
cele două nucleotide, fie
CG sau AA sau orice altceva,
sunt independente.
Acum, nu
îi vom mai face independenți.
Le vom permite să
recunoască codependența.
Uită de plusuri chiar acum.  Să
presupunem că vor fi
explicate când
ajungem la partea ascunsă a asta.
Deci sunt ascunse deocamdată.
Dar despre ce vorbim
este, care este probabilitatea
de a obține un A dat un A?
Avem un A în primul,
în poziţia 5-prime.
Care este probabilitatea
acum de a obține
un A dependent de acesta?
Deci recunoaștem
această dependență.  Am
spus că CG-urile
sunt subreprezentate
în genomul ca
întreg și sunt
suprareprezentate în promotori.
Deci, această
tranziție particulară a
probabilității de a
obține un G dat
un C în poziția 5-primă -
aceasta
este una dintre acele
probabilități condiționate.
Acesta este un Bayesian pe care îl
instalasem cu câteva diapozitive înapoi.
Și astfel această
săgeată care merge de la un C la un G
este reprezentată de
această probabilitate.
Și puteți vedea că a merge în altă
direcție este o probabilitate diferită.
Acesta ar fi p de C dat G.
Și aceste săgeți mici se
vor referi la ele însele,
este un exemplu de p al
unui A dat un A. Deci
aceasta este o dinucleotidă AA.
Și puteți vedea că există 16
tranziții posibile, inclusiv
patru homopolimeri, AA, TT,
CC, GG și 12 tranziții
ale celorlalte dinucleotide.
Acum, ce înțelegem prin ascuns?
Avem insule CG
unde CG-urile au
fost protejate de
metilare și, prin urmare,
protejate de mutații.
Deci sunt destul de abundente.
Sunt implicați în reglarea factorilor de
transcripție obligatorii
.
Și aceste insule vor
avea o lungime variabilă
și au doar o
concentrație crescută de CG.
Și apoi afară sunt
oceanele, care nu sunt protejate.
Nu sunt implicați în
transcripție și suferă mutații.
Și sunt foarte scăzute în CG.
Și vrei să știi unde
începe și unde se termină insula,
pentru că asta
te ajută să știi unde
sunt factorii de reglementare.
Deci, acum, partea ascunsă este că atunci când
te uiți la o nouă secvență,
nu vei ști dacă
te afli sau nu pe o insulă.
Și așa că acest
model Markov pe care îl aveți trebuie să
fie diferit, indiferent dacă
vă aflați pe o insulă sau nu,
dar nu știți în
ce vă aflați. Așa
că aici este partea ascunsă.
Deci ai un
model Markov pentru tranzițiile
dintr-o insulă.
Și, în acest caz, vă
așteptați ca CG-urile să fie mari,
aproximativ la fel ca celelalte
dinucleotide, posibil mai mari.
Și în oceanele
în care se pierd,
te aștepți ca CG, această
tranziție specială
de la C la G, să fie scăzută, iar
majoritatea celorlalte tranziții
să fie normale, poate
ocupând unele dintre sloturi.
Deci sunt 16
dinucleotide diferite
în insulele din stânga.
Și sunt 16 în
oceane în dreapta.
În plus, există un
întreg set de tranziții
între insule și oceane.
Genomul nu este doar blocuri.
Toate sunt conectate.
Și astfel puteți face o
tranziție de la orice nucleotidă
dintr-o insulă la orice
nucleotidă dintr-un ocean.
Și deci iată una
care este ilustrată,
această linie punctată, maro
, unde
scrie probabilitatea unui C minus --
adică într-un ocean--
având în vedere că aveți un A
plus-- adică într-o insulă--
în poziția 5-primă  .
Deci, acesta ar fi un
punct de tranziție care merge de la
5 prim la 3 prim, de la
o insulă într-un ocean,
mergând de la un A la un C.
Nu ești bucuros că am
ales o dinucleotidă
pentru a ilustra asta?
OK, iată un exemplu real.
Iată un exemplu în care am
decupat și lipit
o secvență foarte scurtă cu
un singur ocean în stânga și o
insulă în dreapta, cu
litere aldine și majuscule.
Vi se oferă asta
ca set de învățare.
Cineva a decis, de mână,
că granița are loc
la această primă dinucleotidă CG.
Nu există CG-uri la
stânga și
există trei CG-uri la dreapta.
Și atunci când
faceți acest tabel-- îl
vom numi un
tabel A mai târziu--
acest tabel A are
tranziția de la un A
în poziția 5-primă la
un A în poziția 3-primă.
Deci, acesta este p A
dat A. Și iată
dinucleotida CG,
tranziția C la G,
toate într-o insulă
indicată prin plus.
Și puteți vedea
că este destul de frecvent.
Și apoi, dedesubt, să ne uităm
la aceeași dinucleotidă CG care
merge de la C la G într-un ocean.
Și aici nu se observă
în acest mic exemplu de jucărie pe
care ți l-am dat, deci este un 0.
Deci 43% în acest exemplu real--
și poți calcula cifrele
pentru că totul este aici--
și există o singură tranziție
între insule și oceane.  ,
și se întâmplă să fie un CC,
un C într-un ocean mergând către un C
într-o insulă.
Și asta ne dă 0,2.
Și toate celelalte sunt 0-uri.
Acum, 0-urile sunt o problemă, atât
pentru dinucleotida CG
din ocean, cât și
pentru tranzițiile
dintre oceane și insule.
Iar felul în care te descurci
se numește pseudocounts.
Practic spui, ce se întâmplă dacă am
ratat să găsim acel lucru?
Vom adăuga 1
pentru că, oricât de mari ar
fi numărul,
poți oricând să adaugi 1,
iar asta ți-ar da
o senzație că...
nu prea ai 0-uri acolo.
Nu poți avea încredere în 0.
Și există chiar și un
mod mai riguros
de a face asta numit
Dirichlet, în care
poți face aceste pseudonumărări.
Și așa poți vedea.
Puteți calcula de fapt
aceste probabilități condiționate
manual în
intimitatea casei dvs.,
nu în timp ce hoardele
așteaptă să intre în cameră.
Și puteți recrea
aceste numere
cu acea formulă simplă acolo.
Acum, acesta este un adevărat
set de antrenament bazat pe 48 de insule cunoscute,
adnotate din nou de o persoană.
Și puteți vedea pe acelea
că această matrice A,
concentrându-se pe acele
lucruri care erau
43 și 0 înainte, acum
numere mai realiste sunt
27% și 8% pentru o insulă
și, respectiv, un ocean.
Acum o să
punem aceste numere--
practic, am tăiat
tabelele de tranziție,
care sunt în dreapta.
Acum să le folosim pentru a
face efectiv un HMM.
În
algoritmul Viterbi, amintiți-vă că am
spus că
programul dinamic este un erou
și vom termina cu asta.
Recursiunea pe care o avem aici,
scorul Viterbi pentru--
deci l și k sunt stările.
Sunt două state,
insula plus, oceanul minus.
Și i este secvența.
Aici, lungimea secvenței
este de 4. Eu merg de la 1 la 4.
Și secvența pe care o
testăm este:
CGCG este într-un ocean sau într-o insulă?
Ce presupuneți?
Acesta este un caz destul de extrem.
Dar, de fapt, se
folosesc numerele
din slide-ul precedent, care
au fost luate din oceane
și insule reale.
Și astfel începeți
cu probabilitățile
fiind la fel de probabile
că puteți începe de la C.
Deci există opt
stări diferite, așa că
împărțim doar 1 peste 8
este un punct de plecare, sau 0,125.
Și deci există două
locuri posibile în care poate fi
și ele sunt la fel de probabile.
Este într-un ocean sau insulă,
doar dat fiind C, 1/8.
Acum faceți o tranziție
în care înmulțiți de
această dată matricea A, A sub k
l, deci treceți de la starea 1
la starea 1, de la o
insulă la o insulă.
Și dacă te uiți
înapoi la un diapozitiv, îți
amintești că există un 0,27 pentru
a merge la o dinucleotidă CG.
Deci recursiunea aici
este că înmulțiți aceasta--
este o emisie,
care este întotdeauna 1.
Înmulțiți maximul
Viterbi anterior,
deci i plus 1 și i, ori
matricea A, care
în diapozitivul anterior este .27.
Deci, precedentul a fost 1/8, iar
apoi ori 0,27, obțineți 0,034.
Și dacă ai început într-un
ocean și ai rămâne într-un ocean,
ar scădea deja la 0,01.
Deci, puteți vedea că probabilitatea mai bună
este deja să
vă aflați pe o insulă.
Și dacă duci asta până
la toate cele patru
tetranucleotide, ai
o probabilitate mult mai mare
de a fi pe
insulă, de 0,032,
decât de a fi în ocean, de 0,002.
Întrebare.
STUDENT: Cunoașteți
baza pentru a crede
că contextul
unei dinucleotide
este fie un ocean, fie o
insulă, cu alte cuvinte, doar
două stări?
De ce nu ar putea
contextul să fie cinci stări?
GEORGE CHURCH: OK.