Următorul
conținut este furnizat
de MIT OpenCourseWare sub
o licență Creative Commons.
Informații suplimentare
despre licența noastră
și despre MIT OpenCourseWare
în general,
sunt disponibile la ocw.mit.edu.
GEORGE CHURCH: Am ajuns
la a cincea prelegere,
prima dintr-o serie, despre
ARN și analiza expresiei.  În
primul rând, o scurtă trecere în revistă
a săptămânii trecute și
are
conexiuni semnificative săptămâna aceasta,
unde am vorbit despre
subiectul aliniamentelor
și al diferiților algoritmi pentru
obținerea aliniamentelor pe perechi.
În special
programarea dinamică,
aceasta a condus la o
problemă și mai grea,
care este alinierea cu mai multe secvențe
, din care
vom trage destul de mult la
începutul discuției de
astăzi.
Și apoi, problemele
obținerii motivelor, un
alt subiect pe care îl vom aborda de
mai multe ori astăzi,
cum obțineți-- odată ce aveți o
aliniere cu mai multe secvențe, cum
aceasta vă oferă fie o
matrice de greutate independentă în care
diferite poziții sunt
independente, fie în  un
model Markov ascuns în care există o
anumită dependență între, de exemplu,
nucleotidele adiacente într-o
secvență simplă, cum ar fi CG.
Deci, haideți să transmitem
aceste gânduri
despre motivele de aliniere cu mai multe secvențe

și neindependența
pozițiilor în secvențe
la nivelul următor superior.  În
cele din urmă vom
vorbi despre
structura tridimensională a proteinelor.
Dar un intermediar foarte frumos
între proteine
sunt complexitatea
structurii proteinelor
și simplitatea
ADN-ului dublu catenar
este plierea
ARN-urilor, deoarece se
bazează pe aceleași reguli
ale ADN-ului dublu catenar,
dar au
structurile complicate
de...  începe să aibă o
structură complicată de proteine.
Așa că vom începe cu
această integrare
a alinierii multi-secvențe
a motivelor cu structura ARN
și apoi vom trece pentru a
spune despre modul în care aceste
structuri ARN își joacă
rolul prin atingerea
diferitelor niveluri în celulă.
Cu alte cuvinte, vrem
să începem să introducem
modul în care devenim cantitativi în ceea ce privește
cantitățile și localizarea
ARN-urilor în celulă.
Unele dintre măsurile despre care vom
vorbi și instrumentul --
instrumentele de calcul
vor fi mai potrivite
pentru măsurile individuale,
iar altele vor fi mai mult,
ceea ce numim noi,
grad de genomică, debit mare
și precizie ridicată.
Și avem asta--
deoarece aceasta este o nouă
categorie de date biologice,
trebuie să abordăm
erorile aleatoare și sistematice,
așa cum am făcut pentru
genotipare și date de secvență.
Acesta este un nou set de
ele și un nou set
de soluții despre aceleași
teme de erori aleatoare și sistematice
.
Și apoi vom vorbi
despre un anumit set
de
probleme de interpretare care duc
la considerații suplimentare.
Și vom încheia cu
datele serii de timp, care
va fi o temă
care va conecta
această discuție cu discuțiile mult mai târziu
și cu biologia sistemelor,
în care capacitatea de a se
conecta cu o serie de timp
va ajuta la stabilirea
cauzalității și a conectivității.
Și o vom lega de
subiectul analizei ARN,
uitându-ne la
ARN-ul mesager la k.
Acum, diapozitivul trei este un
memento pe care îl vom
folosi în două
contexte diferite în seara asta.  În
primul rând, acestea sunt
curbele clopot pe care le-ați văzut,
cel puțin trei dintre ele
integrate înainte -
cele două
binomiale discrete Poisson
și normala, care este
simetrică în jurul mediei
lui 20, în acest caz.
Și doar pentru a vă conecta la
discuția de data trecută în care am
întrebat care ar putea fi
semnificația unei potriviri
a unei singure secvențe
cu o bază de date,
atunci când cereți o potrivire
a unei baze de date cu o singură secvență,
de obicei sunteți cu adevărat
cerând potrivirea maximă,
sau maximul--
potrivirile cele mai extreme.
Și atunci când
vorbiți despre extreme,
când eșantionați
dintr-o distribuție
și căutați
cea mai extremă valoare
pentru eșantionarea finită
a acelei distribuții,
aceasta tinde să nu fie din
distribuția normală, care
ar fi eșantionarea aleatorie,
dar de la... care
este această curbă de mijloc magenta.
Dar, în schimb, ar fi
distribuția valorii extreme, care
este această curbă albastră, pe care o
puteți vedea în acest caz,
deoarece
căutăm maximul extrem,
este deplasată ușor
spre dreapta.
Și astfel puteți vedea că
intră în interiorul celorlalte
curbe de clopot, pe
partea stângă, și iese
afară, pe partea dreaptă.
Dacă am fi căutat
valori extrem de scăzute, atunci ar fi
fost
deplasat la stânga.
Și amintiți-vă, toate aceste
funcții continue merg
la infinit negativ
și infinit pozitiv,
deși la
niveluri extrem de scăzute.
Și apoi aceasta este
distribuția extremă a valorii.
Acum, pentru a conecta această
secvență de nucleotide, pe care am
văzut-o, are aceste
minunate perechi de baze Watson Crick
care au fost
TNA și așa mai departe,
la această
structură terțiară mai complicată.  Vom
trece
printr-o
structură intermediară a secundară
în care ne
uităm cu adevărat dacă ce fel
de perechi de baze se pot forma.
Și voi
introduce imediat câteva complexități,
astfel încât să nu fiți prea
mulțumiți de la început.
Undeva în acest slide de
perechi de baze non-Watson-Crick
este o pereche de baze Watson-Crick.
Fă-ți un moment să-l găsești.
Amenda.
BINE.
Deci, din moment ce nu am introdus
perechi de baze, va... ei
bine, l-am văzut de două ori
acum în ADN-ul dublu catenar.
Chiar în mijloc,
aici sunt etichetate
A este o pereche de baze AU,
care este Watson-Crick,
unde punctul negru
indică atașarea
la riboză din ARN sau
la oxiriboză din ADN.
Și veți găsi
alte trei perechi de baze AT.
Unul în dreapta în dreapta
și două în jos.
Și aceste patru
perechi de baze AT sunt toate
diferite una de
cealaltă, cel mai ușor de
imaginat în ceea ce privește
orientarea
ribozelor, aceste
puncte negre, unul față de celălalt.
Și fiecare are nume.
Dar important
este că toate acestea
sunt ilustrate astfel
încât să mențină
coplanaritatea bazelor.
Ele mențin de obicei
una, două sau chiar
trei legături de hidrogen.
Și planaritatea le permite
să se stivuească pe perechi de baze
dedesubt și de deasupra lor,
la fel cum ați face
în ADN-ul dublu catenar normal.
Dar uneori, geometria
distorsionează dubla helix
suficient de mult încât s-
ar putea obține o penalizare
în energia liberă în
sens termodinamic,
sau cinetică, într-un fel.
Acum iată un altul.
Deci puteți găsi aproape...
puteți
face una dintre aceste
perechi de baze pentru toate
combinațiile posibile
de ACG și U din ARN.
Și toate
vor fi coplanare
și vor avea una
sau mai multe legături de hidrogen.
Probabil cea mai
stabilă și cel mai frecvent
întâlnită în elice duble de
ARN, altfel normale,
este
o pereche de baze GU.
Și puteți vedea că aceasta
are o geometrie destul de similară
cu perechea de baze AU sau, de
altfel, cu perechea de baze GC.
Deci, să vedem cum
apar aceste perechi de baze non-Watson-Crick.
Și acesta este
ARN-ul de transfer pe care l-am
văzut acum câteva diapozitive
, învârtindu-se
în trei dimensiuni.
Și secvența
care era în spatele ei
a fost secvența ADN
care corespunde
acestei secvențe de ARN nemodificate
din partea dreaptă.
Ce avem... vă puteți gândi la
asta ca fiind patru
elice duble de tip Watson-Crick destul de canonice
pentru elice duble de ARN, care
sunt ușor diferite de
elice duble ADN.
Dar în aceasta-- deci avem
șapte perechi de baze, dintre care șase
sunt Watson-Crick în
bucla tulpină superioară,
începând cu poziția numărul
unu cu capătul 5-prim
și se termină cu poziția 72.
Deci, unu și 72 sunt o pereche de baze GC.  .
Și puteți vedea că
anticodonul unde se
întâlnește cu ARN-ul mesager se află
în partea din dreapta jos
a diapozitivei.
Și dacă te uiți doar
la acea buclă și...
ai o buclă cu șapte baze
și o tulpină anticodon cu cinci perechi de baze
.
Și astfel, fiecare dintre acestea,
astfel încât fiecare dintre aceste tulpini să aibă
unele trăsături distinctive,
un număr de perechi de baze
variază de la patru la șapte.
Ai o pereche de baze GU în
mijlocul tijei superioare.
Și aveți
mici casete de secvențe
care sunt destul de conservate,
cum ar fi acest T psi CG. De
fapt, în
forma sa originală este un UU CG.
Și T și
psi, sau pseudouridina,
sunt exemple de
baze modificate, care sunt afișate
în partea stângă a diapozitivului.
Puteți vedea că sunt
destul de multe dintre ele.
Puteți adăuga o
grupare metil de grupări ch3
la oricare dintre baze, cum
ar fi o grupare metil pe G.
Sau le puteți adăuga la
riboze, cum ar fi cele două
grupări metil prime, care pot
merge pe oricare dintre cele patru baze,
deoarece  modifică
riboza care este generică.
Majoritatea celorlalte sunt
foarte specifice unei baze.
Deci, de exemplu, dihidrouridina
este o modificare care
poate apărea numai la uridine.
Pseudouridina...
lucru similar.
Și așa mai departe.
Deci fiecare dintre acestea
necesită o enzimă.
Și vom evidenția una dintre
enzimele care este implicată
în introducerea
grupărilor metil pe zaharuri, [?
0,2 ?] [?  trimetil ?]
în doar câteva diapozitive.
Dar acum,
ceea ce vrem să întrebăm
este cum am obținut această
structură pliabilă.
Acum aceasta nu este
structura tridimensională.
Acesta este intermediarul
dintre secvența primară de ADN
și structura tridimensională complet
modificată, complet pliată, pe

care am văzut-o învârtindu-se în jurul cu
câteva diapozitive în urmă.
Deci primul lucru este
modul -- puteți încerca să pliați
acest lucru, pentru că vă opuneți
fiecărei perechi de baze pe rând
pentru a căuta posibile potriviri.
Și apoi, ceea ce am
făcut din punct de vedere istoric -
asta la
mijlocul și la sfârșitul anilor '60 -
a fost să luați fiecare nouă
secvență de ARN de transfer
și să întrebați dacă
face o pliu decent
în această
reprezentare plană simplă
care este legată de
cele anterioare,
în ipoteza,
speranța că ar
exista o oarecare conservare, nu
numai a secvenței unora
dintre aceste motive precum PSI
CG, ci și a modului în care se
pliază.
Și ați putea chiar să emiteți
ipoteza că poate
nu contează care
este secvența în unele dintre aceste tulpini.
Important este că este
capabil să formeze o tulpină,
că poziţia unu este
complementară cu poziţia 72.
Dacă poziţia unu s-ar
schimba de la un G la un A,
atunci poziţia 72 ar trebui să se
schimbe de la un C la un U.
oficializam asta?
Cum oficializăm
procesul prin care generăm
acest așa-numit
structural cu frunze de trifoi
sau orice model de pliere similar
pentru acizi nucleici mici.
Și care sunt limitările
acelor algoritmi.
Și aceste
linii punctate, vedeți, sunt
unele dintre
perechile care nu sunt bazate pe Watson-Crick.
Unele dintre ele se vor stivui.
Multe dintre ele-- unele
dintre ele vor forma de fapt
legăturile de hidrogen ale
perechii bazate pe Watson-Crick,
dar altfel nu vor avea
restul geometriei.
Și puteți vedea
că unele dintre acestea
vor oferi conexiuni
între două bucle care
sunt separate prin tulpini.
Și acest tip de pliere
înapoi înseamnă că nu este
un simplu set de elice.
Așadar, modul în care
formalizăm acest lucru
este să spunem că poziția
numărul unu, dacă este
legată de poziția numărul 72,
iar secvența exactă poate
nu este la fel de importantă ca
abilitatea lor de a asocia bine cu alta,
atunci te aștepți dacă iei un
număr mare  de transfer de ARN
și faceți o aliniere cu mai multe secvențe
, așa cum am făcut data trecută,
apoi, în acea
aliniere cu mai multe secvențe, vă
așteptați ca
atunci când G se schimbă, și
C se va schimba.
Și asta se numește covarianță.
Și dacă te uiți la
axa verticală,
maximul care poate fi atins
este același tip de maxim
pe care l-am avut în
ultima prelegere cu motive.
Motivele, de fapt, le-am
avut de câteva ori.
Poate ajunge până la doi biți.
Doi biți reprezintă
scara completă pentru o pereche de baze,
sau bază, care poate avea
patru valori diferite, A, C,
G sau T. Și numim
această informație reciprocă
dacă are aceleași unități, o
scară completă de zero  la doi biți.
Și așa vedem de-a lungul
axei orizontale, aici...
numiți-le pozițiile I și J,
care variază de la unu la 72,
care este partea centrală
a ARN-ului de transfer.
Ultimele patru baze sunt adăugate
de o enzimă specializată.
Dar poziţia numărul
unu şi poziţia 72
covariate
[?  presupune?] acest vârf
din regiunea extremă stângă.
De fapt, există șapte
vârfuri pe rând acolo,
care corespund celor șapte
perechi de baze stivuite pe care le covară.  În mod
similar, în tulpina TC la UC despre
care am vorbit de câteva
ori acolo, acele
cinci nucleotide covară
așa cum ați obține într-o tulpină.
Tulpina anti-codon
este încă cinci.
Și acea tulpină D, numită așa după
modificările hidrourodinei
este de patru perechi de baze.
Și felul în care
aceasta este derivată -
și vom lucra
cu asta, un exemplu,
în următorul diapozitiv - dar doar ca
o etichetare a acestei axe aici,
informațiile reciproce dintre
baza I și baza J,
adică pentru a vedea, de exemplu,
între I este egal cu 1 și J este egal cu
72, este pur și simplu suma
frecvenței obținerii acelui
I, N, J--
F este frecvența
obținerii, de exemplu, a
unui G ca poziție unu și
un C la poziția de 72 de
ori mai mare decât baza logaritmică 2.
Amintiți-vă, când
vorbim despre
conținutul de informații nucleare--
sau despre informații în
general, biți dintr-un computer
sau nucleotide dintr-o secvență,
facem baza logaritmică 2 și  --
așa cum a fost introdus de
Shannon și alții.
Deci acum va fi
jurnalul aceleiași frecvențe.
Deci, frecvența de
obținere a aceluiași

tip de bază I și J particular s-
a normalizat acum la cât de
frecvent apar acele două baze
în acele poziții.
Cu alte cuvinte, știi
cât de des apar
în acele două poziții.
Acum, cât de des apar ele
independent unul de celălalt?
Și asta
este numitorul aici.
Deci, când luați acest raport,
îl puneți pe o scară convențională
și apoi aveți
ceva care este
analog cu legea P
P a teoriei informațiilor.
Și însumați toate
bazele observate
la pozițiile I și J.
Și că asta este pentru
un anumit I și J,
însumați toate X-urile care
apar la pozițiile, să zicem, unu
și 72.
Și apoi repeți asta.
Puteți obține această Nth de IJ
pentru fiecare element de matrice care
merge de la unu la 72 într-o
matrice pătrată simetrică.
Deci, haideți să trecem prin asta
pentru două exemple extreme.
Cazul extrem în care
aveți o covarianță perfectă
și cazul extrem în care
nu aveți o asociere reală.
Așa că vom ilustra
acest lucru cu o aliniere cu mai multe secvențe de jucărie
aici.
Acesta este același mod în care am
făcut alinierea cu mai multe secvențe
în ultima clasă.
Aici nu există
inserări sau ștergeri,
dar este același lucru.
Puteți obține o
matrice de greutate pentru aceasta.
Și veți vedea că
prima coloană -
coloana din stânga extremă, I este egală cu una, are
toate cele patru posibilități,
și la fel și
coloana din dreapta a

alinierii J este egală cu șase.
Și, deci, să calculăm,
sunt acestea covariabile
în această aliniere simplă cu mai multe secvențe
de patru [INAUDIBIL]..
Așa că calculăm
informațiile reciproce pentru I egal cu unu,
J este egal cu șase N-uri dintr-o șesime.  Va
fi egal cu suma.
Primul termen din
sumă este pentru UA.
Și apoi vom
merge prin CG, GC, UA.
Deci vor fi patru
termeni în sumă.
Fiecare dintre termeni va avea,
întâmplător, în acest caz,
aceeași frecvență pentru
acea împerechere specială de AU.
Și amintiți-vă că aceasta nu
este o pereche de bază.
Aceasta este o
pereche covariantă de nucleotide
care ar fi putut fi
oriunde în secvență.
Se întâmplă să alegem
prima și ultima bază.
Deci toate au
aceeași frecvență.
Frecvența respectivă este 1/4.
Deci AU are loc
un sfert din
secvențele pentru
alinierea cu mai multe secvențe,
deci este un sfert.
Și apoi, amintiți-vă că este aceeași
frecvență în interiorul logaritmului,
dar acum, la
numitor, o vom
normaliza
la frecvența
în care A apare în I
este egal cu o poziție, care
este un sfert, și
frecvența cu care
apare U.  în J este egal cu șase
poziție, adică un sfert.
Deci este un sfert peste
un sfert pătrat, sau patru.
Deci de 0,25 ori baza logaritmică la a
de patru va fi doi.
Și 0,25 ori doi va
fi 0,5.
Și acesta este primul termen.
Asta pentru perechea AU.
Dacă parcurgeți toți
cei patru termeni,
toți ajung
să fie aceeași formă.
Frecvența va
fi întotdeauna 0,25 pentru pereche și 0,25
pentru fiecare dintre
bazele individuale.
Așa că ajungi cu patru dintre
acestea, patru exemple
pentru fiecare dintre cele patru cazuri.
Și deci de patru ori 0,5 înseamnă două.
Deci, asta este în concordanță,
sperăm, cu ceea ce
te-ai fi așteptat
pentru o covarianță perfectă.
Obțineți conținutul
complet de informații
, întreaga
gamă de doi biți
și asta este ceea ce am realizat.
Deci, acum, în calitate de controler, este
doar o satisfacție suplimentară
că
înțelegem de fapt acest lucru,
deoarece lucrăm prin
exemplul de comparare a
I egal cu 1 cu J este egal cu
2, deci cele două coloane îndepărtate.
Și aici, sunteți
familiarizat cu I de 1.
J egal cu 2 este întotdeauna
C și, prin urmare, nu
covariază cu prima coloană
ca în exemplul anterior.
Așa că haideți să o rezolvăm în
același mod.
Deci, primul termen din
serie este din nou 0,25,
deoarece perechea AC, nu
perechea de baze, ci perechea de baze,
apare o singură dată în cele patru
aliniamente multi-secvențe,
deci este 0,25.
Apoi, aveți
baza logaritmului doi din același 0,25
acum normalizat la
frecvența A
din coloana sa, o
coloană, care este 0,25.
Și C din coloana J este egal cu
2, care este --
este întotdeauna acolo ca
unitate, deci este una.
Deci, aceasta este
marea schimbare aici, în
loc să aibă 0,25 în
ambii termeni a numitorului,
acum este de 0,25 ori unul.
Acum este 0,25 peste 0,25,
deci aveți baza logaritmică
2 a unuia, care va fi zero.
Și asta reduce la zero
întregul termen.
Și astfel aveți
informații reciproce de zero,
așa cum v-ați aștepta de la
acest exemplu de jucărie
în care coloanele unu și
doi nu covariază.
Și deci acestea sunt aceleași formule
care au fost în diapozitivul anterior.
Și o generalizare a
celei pe care am parcurs-o termen
cu termen.
Și aici este
referința pentru asta.
Deci cum mergem...
deci a fost... am luat acum
sute, posibil
mii, de ARN de transfer.
Am făcut o
aliniere cu mai multe secvențe.  Am
produs acel
tipar de informare reciprocă pe
care l-am văzut înainte
cu cea de la 72-- o

comparație de la 72 la 72 la 72
unde ai obținut vârfurile la
fiecare elice duble.
Acum, cum transformăm asta
într-o practică mai generală.
Cum generăm
structuri secundare
care sunt oarecum
la acest intermediar
între secvența primară
și
structura tridimensională folosind o anumită
clasă de date experimentale
combinate cu datele secvenței.
Acest lucru nu
necesită neapărat
setul mare de
secvențe de linii, dar, evident,
beneficiază de pe urma acestuia.
Puteți face o
structură secundară
pentru fiecare element din
secvența aliniată pentru a--
și utiliza
informațiile reciproce, dacă le aveți.
Dar să vorbim doar despre
simpla aplicare
a acestor
parametri termodinamici la predicția
structurii secundare.
Și care sunt
așteptările noastre înainte de a
trece prin algoritm.
Cât de bun este?
În această lucrare destul de aproape de ultimă
generație, care
analizează peste 700 de
structuri generate,
ei au --
în fiecare set,
conține o structură
care, în medie, are 86%
din perechile de baze cunoscute.
Asta nu înseamnă
că este neapărat
identificată ca
cea mai bună structură.
Se spune că are o singură
structură după criteriul pe care îl
folosesc.
Asta ca o slabă laudă de sine.
Dar haideți să vedem
cum funcționează.
Când cineva spune
că va
prezice o
structură secundară sau o
structură tridimensională dintr-o
secvență primară,
mai mult sau mai puțin, de la zero,
de obicei
înseamnă că va exista o
varietate de alte date chimice
pe care le va lua în considerare.  cont,
dar vor fi date generice.
Nu vor fi
date chimice specifice
pentru această moleculă anume.
Și
datele generice, în acest caz,
sunt măsurători ale
termodinamicii de topire
a
oligonucleotidelor model, de obicei
cantități mari din acestea, monitorizate
spectral fotometric.
Și din temperaturile
de topire, practic,
la echilibru în care
obțineți structuri pe jumătate topite,
puteți determina
energiile libere
în care energiile libere negative
sunt cele dorite,
cele care sunt probabil
să se întâmple dacă lăsați
sistemul să meargă la  echilibru.
Și acesta este un fel de
aplicație interesantă
a energiilor libere
pentru acizii nucleici.
Aici, algoritmul pe
care îl folosești
se referă în principal
la perechile de baze adiacente
de perechi de baze.
Deci nu este o
pereche de baze, deoarece ați putea
crede că legăturile de hidrogen
care determină perechile de baze Watson-Crick
și non-Watson-Crick
ar domina.
În schimb, interacțiunile de stivuire sunt cele
care domină.
Și deoarece interacțiunile de stivuire sunt cele
care domină,
legăturile de hidrogen
schimbă practic o legătură de hidrogen de apă
cu o
legătură de hidrogen pereche de baze.
Pare foarte specific, dar
în ceea ce privește energia liberă,
este destul de slabă.
Energia liberă este determinată
mai mult de stivuirea
orbitalilor pi, deoarece
depinde de geometria pe care o
obțineți, de exemplu,
atunci când aveți o
bază GC-- o bază CG deasupra
unei perechi de baze AU
aici, în partea de jos
a acestei spirale.
Și acea stivă vă oferă
-2,1 kilocalorii pe mol.
Toate unitățile de pe aceasta sunt
kilocalorii pe mol.
Și mergând și
luând fiecare dintre aceste stive
o pereche de perechi de baze este
ceea ce măsori.
Puteți obține toată
energia negativă gratuită,
astfel încât acestea să fie stivuite.
Apoi ai niște
penalități, niște lucruri
care sunt mai puțin favorabile, care
nu s-ar întâmpla spontan
dacă nu ar avea deja acumulate
aceste energii libere negative atenuante

, care ar
fi bucla și umflarea aici.
Perechile de baze de pe ambele
părți ale acelei umflături se
vor stivui una pe cealaltă.
Și acea umflătură se va cam
ieși din
elica dublă obișnuită, altfel.  În mod
similar, bazele de la
final au o ușoară penalizare.
Și astfel,
puteți adăuga totul
și puteți calcula
delta
G totală pentru întreaga structură.
Și dacă faci destule
din aceste lucruri,
poți avea o impresie
despre care dintre ele
este probabil să
apară în ARN-urile tale.
Acum, acest lucru ar trebui să
declanșeze în mintea dvs.,
ca al treilea exemplu pe care l-am avut în
cazul în care ideea unei
analize de motiv, că puteți face
o aliniere cu mai multe secvențe
și fiecare coloană și
aliniere cu mai multe secvențe
este independentă.
Acesta este al treilea exemplu
în care nu este adevărat.
Avem aici că cele trei
energii sunt dependente de perechi de
perechi de baze.
Exemplele anterioare au fost
conexiunile foarte îndepărtate pe
care le puteți obține în
plierea unui ARN de transfer.
Și exemplul anterior
au fost dinucleotidele CG.
Asumarea
independenței coloanelor
într-o aliniere cu mai multe secvențe
este una foarte puternică.
Nu vreau să-l
subminez prea mult.
Dar nu te strica să
ai trei exemple la începutul
cursului.  A pune
la îndoială
independența coloanelor
în alinieri cu mai multe secvențe --
lucru foarte important de pus la
îndoială.
Avem
teoria informațiilor reciproce pe
care am avut-o cu câteva
diapozitive în urmă ca fiind una
dintre cele mai puternice modalități
de a pune la îndoială asta atunci când
o vezi.
Acum, acesta este modul în care
această
pereche de baze, pe care o vedem
aici, este un exemplu --
acum puteți lua fiecare dintre acestea
și puteți muta jumătatea din dreapta
a moleculei în raport cu
partea stângă cu o pereche de baze.
Asta ți-ar oferi
un set mult mai sărac
de energii și mult, mult
mai multe umflături și mai multe--
bucle mai lungi și așa mai departe.
Și ajungi cu
o delta G slabă.
Și ceea ce poți
face este să poți clasa
și să faci una dintre aceste
căutări cu valoare maximă
trecând prin asta.
Acest lucru ar trebui să declanșeze
în mintea ta, acesta
este un alt mod de a gândi
acea căutare.
Luați întreaga secvență,
fie că este vorba de ARN de transfer
sau, în acest caz, de o
secvență de 400 de acizi nucleici,
și trasați linii între
fiecare bază unde
aveți o energie liberă favorabilă.
Și căutați un set
de linii care să nu se
suprapună una pe cealaltă,
deoarece acestea
ar reprezenta
secvențe scurte de local--
vă puteți gândi la aceasta
ca la o aliniere a secvenței locale
între o
jumătate de acid nucleic
și cealaltă jumătate.
Acum, aceasta nu este o
identitate de secvență, amintiți-vă,
aceasta este o
complementaritate de secvență.
Adică, un
complement invers
în care complement înseamnă că ați
înlocuit As pentru Us și Cs
cu Gs.
Deci cauți...
dar în multe alte
moduri, aceasta este analogă
cu
programarea dinamică în care am
luat două secvențe independente
și le-am alunecat una de-a lungul
alteia și am permis
inserții și ștergeri.
În aceea, în
echilibrul dinamic anterior,
am făcut asta în mod formal, toate
astfel de derapaje posibile,
setându-le ca cele
două axe ale unui tabel
și apoi umplem
pătratele pentru toate meciurile.
Aici, am completa
pătratele, nu pentru meciuri,
ci pentru
energia liberă a stivuirii
pentru aceste scurte subsecvențe.
Acum, motivul pentru care
nu se încrucișează
și motivul pentru această
mică notă din colțul din stânga jos

al slide-ului 11, care
nu se ocupă de pseudo-noduri.
Psuedo noduri pe care le vom
explica în continuare --
vom arăta
exemple grafice în următorul diapozitiv.
Dar, practic,
înseamnă că, dacă
permiteți ca astfel de secvențe
să apară vrând-nevrând pe
parcursul secvenței,
atunci veți obține aceste încurcături
pe care o vreme
oamenii nu au fost siguri
dacă au avut loc sau nu.
Cele una sau două
perechi de baze non-Watson-Crick pe
care le-ați putea găsi conectând
ARNt în aceste încurcături
nu au fost considerate
lungi întinderi
care ar conecta bucle.
Dar de atunci, s-a
dovedit
a fi de mare
importanță biologică.
În orice caz, a face acest lucru
fără pseudo-noduri,
fără a permite nicio încrucișare
este încă o problemă provocatoare.
Practic, este
programarea dinamică în
care N este lungimea
secvenței primare, apoi ia
ordinea N pătratului și
calculează timpul și spațiul pentru a
afla toate
împerecherile posibile care pot apărea.
Și apoi le treci
și le ierarhești,
care dă cea
mai bună energie gratuită,
apoi faci urmărirea înapoi
și obții cele mai bune scoruri
pentru acea moleculă.
Acum să vorbim
despre pseudo-note.  Am
exclus asta, dar
acum o vom reinvita.
Am avut acei micuți,
câteva perechi de baze
în ARN-ul de transfer.
Dar una mult mai dramatică la care am făcut
aluzie în a doua
prelegere.
Am vorbit despre
codul genetic.
Și pentru a vă prezenta
excepțiile de la codul genetic,
am dat un exemplu în
care ribozomul a
sărit peste 50 de
perechi de baze dacă este prezentat
în contextul potrivit.
Nu a urmat
codul normal de a avea
un triplet și
un alt triplet drept
la rând, fără punctuație.
Aici aveam
punctuația care impunea,
ceea ce poate să fi alunecat
pe atunci, un pseudo nod.
Și acesta este un exemplu de un
astfel de pseudo-nod în cel mai bun lucru pe care îl
putem face dintr-o
schema bidimensională.
Și apoi ceva
puțin mai bun, unde
avem o vedere mai tridimensională
și o altă
vedere tridimensională a acestui lucru.
Și acesta este
pseudo-nodul ARN, care
este-- unul dintre ei, care
este responsabil pentru
schimbarea cadrului în-- care
rupe acest cod genetic.
Și haideți să
urmărim cum merge asta.
Aveți practic
o spirală normală aici,
în partea de jos, începând de la
primele cinci în pozițiile unu
până la șapte.
Ar trece printr-o buclă
normală de cinci baze-- scuze--
șase baze, de la
opt la 13, și apoi
termina tulpina de la 14 la 18.
Aceasta ar fi o buclă normală de tulpină
în care bucla este lungă de șase, de la
opt la 13.
Dar la sfârșitul anului optsprezece,
aveți această mică buclă verde
care merge înapoi și acum face
o
tulpină Watson-Crick cu patru baze și perfectă.
Acum, în mijlocul a ceea ce
ar fi fost o buclă -
și deci acest pliu înapoi este ceea ce am
vrut să spunem prin pseudo-nod
și ceea ce ar fi
fost reprezentat
de o încrucișare a acelor
linii roșii din diapozitivul anterior -
ceva care o face
mult mai greu de calculat.
De fapt,
în diapozitivul următor este mult mai dificil,
încât trece de la un
ordin de N pătrat, care
este
programarea dinamică tipică
într-o aliniere perechi, la ordinea
în al șaselea în timpul CPU și ordinea
în a patra
putere în  spațiu de memorie
pe care trebuie să-l rezervați
pentru stocarea
tabelului de
posibile pseudo-noduri
care pot apărea în contextul

cercului altfel normal cu
conexiunile care nu se suprapun.
Aceasta este o inovație relativ recentă
în care un algoritm dinamic -- este
încă un
algoritm de programare dinamică,
are doar mai multe
posibilități, mai complex -- o
complexitate algoritmică mai mare.
Iar combinația dintre
descoperirea biologică
și pseudo-noduri sunt importante
pentru schimbarea cadrului unei varietăți
de alte fenomene biologice.
Și acum
structura tridimensională și acum un algoritm
plasează pseudo-noduri bine
în genul de lucruri
pe care ar trebui să te
simți confortabil.
Acum ne vom
întoarce la modelele Markov ascunse
într-un
context puțin mai complicat
aici, pe care îl luăm pe
cel mai simplu pe care l-am putut,
care a fost un ADN dinucleotid,
simplu, desfășurat.
Și partea care a fost
ascunsă, după cum vă veți aminti,
a fost dacă
dinucleotidele CG-- sau scuze--
dinucleotidele,
care ar putea fi
oricare dintre posibilele
dinucleotide,
inclusiv AA, CG și așa mai departe,
dacă era prezent în  o
insulă CG, sau dacă se afla într-
o regiune a cromozomului
care era probabil să
aibă CG, sau dacă se
afla într-un ocean CG care avea un
conținut scăzut de dinucleotide CG.
Deci partea ascunsă
a fost plus-minus
indiferent dacă era pe
o insulă sau nu.
Acum, ceea ce vom face acum
este să luăm asta și să le transferăm
la tipurile de motive pe care le
găsim în ARN-uri,
cum ar fi ARN-ul de transfer și o
altă clasă de ARN
și să spunem OK, acum, dacă este vorba despre
partea ascunsă a lui Markov.
modelul este aceste
probabilități de tranziție.
Partea ascunsă este dacă se
află într-o anumită
structură secundară sau nu, nu dacă
este într-o insulă sau nu,
ci într-o structură secundară.
În acest caz particular

despre care vom vorbi, este
o
ilustrație biologică foarte interesantă în care
modelele Markov ascunse vor
modela aceste casete, aceste
motive, care sunt implicate
în împerecherea bazelor sau
recunoașterea care
formează
structura secundară a...
dacă este necesar.  pentru
ghidarea unei anumite enzime.
Acum, amintiți-vă că aveam toate aceste
baze modificate pe care le-am folosit, pe care le-am
văzut în ARN-ul de transfer.
Unele dintre acestea sunt
interacțiuni simple de proteine
cu ARN-ul de transfer care adaugă
o grupare metil aici sau acolo.
Se pare că toate
grupările metil,
grupările metil prim O2, acestea sunt
pe zahărul ribozei.
În ARN-ul ribozomal, câțiva, doar
un număr mic de câteva zeci
de ribozomi din acest
ARN ribozomal multikilobază
sunt în poziție O2 metilat.
Cum
știe enzima sau enzimele
să obțină exact acele baze?
Modul în care știe este că nu
folosește forța brută a proteinelor pure
pentru a face o suprafață complementară
de acid nucleic proteic.  De
fapt, folosește această
eleganță a împerecherii bazelor
pentru a face o secvență de ghidare.
Și așa că ceea ce
caută este că
proteina cooperează cu un
ARN mic, așa-numitul ARN de zăpadă
sau ARN nucleolar mic
, pentru a găsi un loc
în care zăpada va
recunoaște locul pe care
vrei să-l metilezi.
Și apoi proteina
metilează baza
în mijlocul
acelei secvențe de ghidare.
Deci, jocul,
jocul de biologie computațională, pe
care l-au jucat acești autori,
a fost cum putem
găsi toți
ARN-urile mici, ARN-urile de zăpadă,
prezente într-un genom, atunci când avem foarte
puține informații despre genomul?
Ceea ce știau ei era că
știau secvența genomului.
Aceasta este pentru drojdie.  Au
avut câteva exemple
de ARN de zăpadă la oameni -
aproape niciunul în drojdie.
Ei au avut subsecvența
ARN-ului ribozomal, desigur.
Și ar putea--
ceea ce au vrut
să facă atunci este să întrebe unde în
genom avem mici
secvențe ghid flancate de unele
dintre aceste alte motive
și caracteristici, cum ar fi o
pereche de baze, tulpina de 4-8 perechi de baze,
care se va potrivi cu
ARN-ul ribozomal.  .
Deci, practic, mergi de-a
lungul algoritmilor,
mergi de-a lungul
ARN-ului ribozomal căutând potriviri în
altă parte a genomului.
Și apoi întrebați dacă acele
potriviri în altă parte a genomului
au unele dintre aceste alte
contexte, caracteristici.
Puteți vedea că acesta va
fi un algoritm mai complicat
decât doar căutarea CG-urilor.
Deci așa funcționează.
Acea tulpină pe care am avut-o
este acum articolul numărul unu.
Diferitele casete care
erau practic secvențe
sunt acum transformate în
modele Markov ascunse negalate.
Partea ascunsă a acesteia
este dacă este prezentă
sau nu în contextul care se
adaugă acestei secvențe de ghid.
Secvența ghid în sine este
un model Markov ascuns care
trebuie să fie un duplex imperfect,
probabil imperfect,
cu ARN-ul ribozomal.
Deci așa este modelat.  Cel
mai complicat
este acea
tulpină terminală numărul unu, care
este așa-numita
gramatică stocastică fără context.
Asta înseamnă SCFG.
Și asta înseamnă doar că
este chiar mai puțin constrâns
decât HMM.
HMM este mai puțin constrâns
decât un motiv simplu,
care este mai puțin constrâns decât,
să zicem, o secvență consens.
Este constrâns, are
gramatica, dacă vreți,
sau regulile particulare
pentru împerecherea bazelor
care trebuie să apară
într-o anumită regiune
într-o anumită parte a
acestui presupus ARN de zăpadă.
Deci, oricum, aplicați
fiecare dintre aceste criterii
și aveți
probabilități de tranziție
care provin dintr-un
set de învățare, cum ar fi
ARN-urile umane de zăpadă.
Aveți un
set de învățare care vă spune
care
vor fi aceste probabilități de tranziție.
Și tu și tu acum aplicați asta
întregului genom de drojdie
și obțineți o grămadă de
candidați,
gene care codifică ARN-ul zăpezii.
Acum nu puteți folosi lucruri
precum cadrele lungi de citire deschise pe
care le-
ați folosi în mod normal pentru a găsi gene.
Deci, acesta este un instrument foarte valoros.
Dar acum cum
vă convingeți
că aceasta este o genă, că aceasta
codifică de fapt un ARN de zăpadă
și că aceștia sunt
responsabili pentru ghidarea
metilării în anumite
poziții din ARN-ul ribozomal.
Modul în care faci asta este...
înainte de a ajunge la
cum faci asta,
vrem să ne întrebăm cum
funcționează acest algoritm în
comparație cu alții...
puținii
algoritmi care există
pentru a găsi gene care
nu codifică proteine.
Și primul dintre acestea datează de fapt cu
mult înainte de 1991.
Dar au existat modalități de a căuta
ARN-uri de transfer în secvență.
Ei ar folosi tot ceea ce
știm despre ARN-urile de transfer -
micile cutii
care sunt conservate
ca secvențe, regiunile
care sunt conservate doar -
nu ca secvențe, ci ca
potențial de împerechere a bazelor etc.
Lungimile buclei arată...
sunt limitate.
Toate constrângerile pe care le
puteți aduna încă din '91
au fost aplicate.
Și a fost destul de lent.
Ar face doar 400 de perechi de baze de
fragmente de genom pe secundă.
Și când ai genomuri de
ordinul multor mega baze,
acest lucru este lent.
Și avea... a ratat aproximativ
5% dintre aspectele pozitive adevărate.
A avut 95%.
Și fals pozitive sună
impresionant-- doar 10
la minus 6.
Dar când te gândești la
un dublu catenar--
ambele fire de E. coli
având aproximativ 10 milioane de baze,
atunci acestea sunt aproximativ
patru false pozitive.
Și genomul mai mare,
desigur, ar fi un număr chiar mai mare
la scară absolută.
Deci, șase ani mai târziu,
viteza este acum de 100 de ori mai mare.
Acum îți lipsesc doar 0,5%
din aspectele pozitive adevărate în loc
de 5%.
Și falsele pozitive
sunt acum extrem de mici.
Așa că, de foarte multe ori, puteți
schimba în mod arbitrar
numărul de
pozitive adevărate pe care le pierdeți
cu numărul
de pozitive false pe care le
obțineți și să faceți unul --
profitați de un avantaj de celălalt.
Dar aici, a fost o
situație de câștig-câștig.
Amândoi au mers într-o
direcție favorabilă.
Deci, cum se
compară ARN-urile zăpezii cu asta?
Aici au mai trecut doi ani.
Avem ARN-urile de zăpadă
abia la început.
Ei au, probabil, puțin
mai bine decât 93% pozitive adevărate.
Acest lucru nu este la fel de bun
ca ARN-urile de transfer.
Acest lucru poate fi... acest lucru se poate
îmbunătăți sau poate nu.  Rata
fals pozitive
este acceptabilă.
Deci, întrebarea devine,
cum urmăriți...
după ce găsiți
aceste gene,
cum demonstrați apoi că
ele fac ceea ce credeți că fac,
că de fapt sunt
responsabile pentru metilarea
ribozelor sau a
bazelor în cauză?
Deci, se dovedește că
tehnologia pe care am stabilit-o
în prelegerea de secvențiere și
genotipizare, în
care extindeți cu
ADN polimerază un primer
pe un șablon, astfel încât primerul
să se leagă de șablon
și vă extindeți
fie cu mai multe perechi de baze,
ca în
secvențierea convențională dideoxi,
sau una sau două perechi de baze
în unele dintre cele mai
inovatoare
metode de genotipizare.
Acele metode de extensie, acele metode de
extensie bazate pe ADN polimerază se
vor bloca atunci când veți
întâlni acest tip special
de bază modificată în care un
grup voluminos este introdus
în cele două poziții principale
ale ribozei de pe șablon.
Deci extindeți grundul,
așezați pe șablon
și se va bloca aici.
Și se blochează mai mult atunci când
scazi concentrația

trifosfaților deoxinucleotid în
reacția de extensie.
Deci asta înseamnă
aceste mici pene
în partea de sus a
fiecăreia dintre aceste coloane.
Au făcut o extensie cu
toți cei patru trifosfați prezenți,
fie în
cantități mari la capătul mare
al panei, fie în cantități mici în
capetele mici ale panei.
Și pentru a spune unde vă aflați
în secvență - asta
este ceea ce folosind polimeraza
transcriptază inversă
pe un
șablon de ARN ribozomal -
pentru a afla unde
vă aflați, faceți
acest dideoxi, care este în
principiu secvențierea ADN convențională
.
Acolo unde terminați, se
folosește fie Us,
Gs, Cs, fie As în șablon.
Acest lucru vă permite să vă orientați.
Și, practic, succesiunea ta
pe
setul de benzi din extrema stângă.
Și aceste
site-uri de pauză prezentul nostru, să
zicem, tipul sălbatic este
prima pereche de benzi
de lângă benzile de secvență
din partea stângă
a acestui afișaj.
Și puteți vedea că există o
pauză la fiecare
bază metilată cunoscută.
Puteți determina
bazele metilate și prin alte metode.
Dar acum,
biologia computațională a
prezis un set de gene de zăpadă.
De fapt, în cele din urmă, toate
genele de zăpadă din
genomul drojdiei ne gândim, explicând,
cel puțin, toate grupurile metil.
Și unul câte unul, acestea
au fost eliminate curat,
astfel încât să nu mai existe nicio genă acolo
pentru ARN-ul mic.
Și apoi vă întrebați, ei
bine, cum
afectează acest lucru metilarea, așa cum este
detectată de acest
test de extensie?
Și dacă te uiți în
partea dreaptă pentru
numărul șters 40 și poți
vedea că poziția numărul
596, în partea de jos,
încercuită cu roșu, care
este prezentă în tipul sălbatic
și în toți ceilalți mutanți,
este absentă.
anume mutantul numărul 40.
Deci nu există nicio pauză acolo.  Se
deduce că
nu există metilare.
Și acesta a fost
locul specific pe care se prevedea că se leagă acea secvență de ghidare a ARN-ului de zăpadă
.
Este aliniat cu
poziția din ghid
în care vă așteptați să aibă
loc o metilare.
Și puteți vedea pe fiecare bandă că există
un alt
site de pauză negru, încercuit roșu.
Și până ajungem la
cel din mijloc,
numerele Newton pentru
ARN-ul din zăpadă numărul 60--
și iată, de fapt, două
benzi lipsă pe aceeași bandă.
Și cum se poate întâmpla asta,
există două moduri diferite în
care un ARN de zăpadă poate --
eliminând o singură
genă, un singur ARN de zăpadă
poate avea un efect asupra a două
grupuri de metil diferite.
Una este dacă secvența ghid se
poate lega la două locuri diferite
din ARN-ul ribozomal.
Și celălalt este dacă
există două secvențe ghiduri
în același ARN de zăpadă.
Așa că acum că avem cel
puțin o anumită bază
în tipul de structuri
care pot apărea, acum ne vom

întreba cum monitorizăm
și măsurăm cantitățile
acestor structuri
în sistemele biologice.
Și vom vedea, de asemenea, cum aceste
structuri influențează metodele
pe care le folosim pentru
cuantificarea structurilor.
Deci avem opțiuni de
molecule pe care le vom
măsura
atunci când monitorizăm
diferitele molecule
din celulă.
De ce ne concentrăm pe ARN?  Ei
bine, o parte din aceasta se datorează
continuității sale structurale
între ADN-ul simplu și
proteinele foarte complicate.
Dar celălalt este că, dacă
vrem să studiem diferite puncte
din rețelele de reglementare și
metabolice despre
care vom vorbi
la sfârșitul acestui curs, care au legătură
cu
biologia sistemelor, dacă alegem --
vrem -- fiecare parte a
este supus unui fel
de control.
Controlul transcripțional este
una dintre etapele incipiente.
Și apoi există multe etape
ulterioare care duc
la proteine ​​și
fenotipuri finale care au ca
rezultat proliferarea
speciei.
Dacă vrei să te uiți la
controlul transcripțional,
nu ar fi bine
să studiezi proteinele,
deoarece cel mai apropiat lucru
de controlul transcripțional pe
care îl poți măsura
sunt produsele ARN.
Puteți studia direct
controlul transcripțional
, de asemenea, studiind
interacțiunile proteinelor ADN.
Dar dacă doriți să măsurați,
o moleculă de ARN defuzibilă
este lucrul de făcut.
Și există mai multe
metode diferite
pentru a ajunge la un
set coreglat de gene, co-reglate
la nivel transcripțional.
Vom ilustra câteva aici.
Și de ce avem nevoie de
mai multe metode?  Ei
bine, am vorbit despre
erori aleatorii și sistematice.  Erorile aleatoare pe care le
puteți compensa
repetând experimentul.

În cele din urmă, erorile aleatoare vor avea o medie.
Erorile sistematice se vor întâmpla în
același mod iar și
iar.
Așa că doriți să aveți
ceva din cutie
care să vă permită să-l verificați
sau să-l modelați
sau să vă permită
să faceți integrare,
așa cum ați dori să aveți
în sistemele complicate.
Așa că aici, doar pentru a începe să ne
gândim la integrare
și la verificarea diferitelor modalități
de a obține
coreglarea transcripțională,
să ne gândim la --
dacă te uiți prin toate
proteinele care apar,
vei găsi proteine ​​care
apar împreună, frecvent,
fie ca fuziuni.  sau
ca proteine ​​separate.
În cazul operanzilor, aceștia vor
apărea ca regiuni de codificare
care sunt grupate
împreună la unele specii
sau poate mai puțin grupate
la alte specii.
Când avem căi metabolice
în care o moleculă mică va
fi împărtășită de...
deoarece produsul uneia va
fi substratul altuia
și așa mai departe, veți avea acest
lanț de evenimente ca în
colțul din stânga jos.
Și aceste seturi de enzime care
trebuie să lucreze împreună,
trebuie să fie co-exprimate.
Trebuie să urce
împreună și să coboare împreună
când nu este nevoie de ei.
Trebuie să apară atunci când
este nevoie dintr-o dată.
Și astfel, s-ar putea să aveți o
cale întreagă, sau un set de căi,
care sunt co-exprimate.
Și o modalitate de a face asta este să
le grupați în genom.
Când sunt co-exprimate,
veți
găsi uneori în amonte de ele,
motive, ca acesta.
Din nou, iată cei doi biți
pentru scara verticală,
unde aceasta ar putea fi îmbogățită.
Și, deci, acesta ar fi un
alt indiciu, așa că
atunci când le găsiți
în fața genelor,
vă puteți aștepta ca acestea
să fie co-reglementate.
Când găsiți un set de proteine
care sunt în mod constant împreună
în diferite organisme,
așa-numitele
profiluri filogenetice, veți descoperi că
acest set de proteine ​​care este
implicat într-o cale enzimatică comună
, cale metabolică,
nu sunt doar co-reglate
și găsite împreună.  dar în-- de-a
lungul cromozomului,
dar se
găsesc împreună când treci
prin multe specii diferite.
Ele vor fi șterse
sau inserate ca un bloc,
sau vor fi găsite
împrăștiate în jurul genomului.
Dar vei descoperi că
atunci când unul dispare,
toate dispar, în general,
statistic vorbind.
Această
co-apariție filogenetică
este un alt indiciu că
te-ai putea aștepta ca
ele să fie co-reglementate în acei
genomi în care apar
concomitent.
Oricum, și
micromatricele vor fi...
iar variațiile pe
tema respectivă vor fi principalul lucru despre care vom
vorbi.
Dar am vrut să
o pun în context.
Și voi extinde doar
una dintre acestea în partea de jos
aici, în diapozitivul 22.
Acesta este un algoritm
pentru reconstruirea
combinațiilor probabile în
care, în unele organisme, s-
ar putea să aveți întreaga
cale biosintetică
ca o serie de gene care
codifică una câte una,
toate  proteine ​​în acest
caz care sunt implicate
în biosinteza purinelor
din molecule mai simple.
Dar în alte
organisme, s-ar putea să
le aveți împrăștiate pe tot
genomul,
dar ar putea fi co-reglate.
ARN-urile lor ar putea merge în
sus și în jos împreună.
Și astfel, dacă te uiți la
destui genomi,
poți reconstrui
combinația probabilă de enzime.
Și iată cum ar putea funcționa.
În oricare dintre acestea,
de exemplu, E. coli, s-
ar putea să vedeți că sunt
împrăștiate pe-- o pereche aici
și o pereche acolo.
Singletons nu ajută prea mult.
Dar dacă luați toate
perechile de la o mulțime
de organisme diferite,
puteți reconstrui această rețea
în care spuneți,
oh, această genă va
numi L, Q, Y, C - toate
acestea sunt probabil
implicate în același proces.
Dacă obțineți un indiciu despre ceea ce
face oricare dintre ei,
să zicem, unul dintre ei este implicat
în biosinteza purinelor,
deci atunci descoperiți
că toți sunt.
Și dacă ghiciți că acestea ar putea
fi co-reglementate foarte strâns.
Așa că acum să ne dăm
seama cum măsurăm de fapt
că acestea sunt
coreglementate foarte strâns.
Și modul în care putem face asta -
pe măsură ce facem asta, indiferent de
metoda pe care o folosim, vrem să ne întrebăm dacă
ne interesează
rapoartele, schimbările relative
sau suntem interesați
de valorile absolute?
Există diverse
lucruri pe care le putem
face cu
sume absolute, care sunt
foarte greu de făcut cu rapoarte.
În special, dacă
vrem să întrebăm,
este un anumit nivel de proteină
ridicat pentru că traducerea sa este
eficientă sau este mare pentru că
transcripția sa este eficientă,
dacă descoperiți că este
plin de codoni abundenți
de parcă ar vrea să fie
tradus eficient, nu este  au, de asemenea,
un promotor de nivel înalt
ca și cum ar vrea
să fie activ din punct de vedere transcripțional?
Acest tip de
întrebări chiar beneficiază
de a avea
cantități absolute, adică
atât de multe molecule
de ARN per celulă,
atât de multe molecule
de proteine ​​per celulă.
Dar ajungem la
cauzalitatea directă,
vrem să ajungem la motive.
Acesta ar fi unul dintre
obiectivele
cuantificării ARN, pentru a
ne permite să grupăm ARN-urile care
sunt co-exprimate și apoi
să începem să căutăm motive
și cauzalitate directă.  Un
alt lucru pe care am putea
dori să-l facem este să clasificăm.
Ne putem întreba dacă
moleculele mici sau mutațiile,
cum ar fi cele care apar în cancer,
provoacă o semnătură suficientă pe
care apoi să o poți folosi pentru a spune:
OK, această stare de sine pe care o vedem
este un efect de moleculă mică de recunoscut
, sau un efect de stres
sau mutațional.  efect, cancer.
Acum, când vom... vom
vorbi
despre microarray
și metode conexe,
dar vreau să puneți la îndoială
avantajele și dezavantajele
acestor metode.
Și așa o voi compara
cu un număr,
dar să începem cu cea mai
dramatică comparație, care
este cu hibridizarea in situ.
Deci, în hibridizarea matricei,
veți avea zeci de mii
de sonde genetice diferite
mobilizate pe o suprafață solidă.
Și veți eticheta ARN-ul dintr-
un amestec de celule diferite -
amestec diferit de
ARN-uri diferite într-o celulă.
Dar vei putea
pune întrebări
despre 10.000 de gene la un moment dat.
Într-un experiment in situ,
este invers.
Luați o celulă în
mediul ei destul de natural,
de obicei fix, dar
fix cu menținerea
aspectelor spațiale.
Apoi, dacă te uiți
în interiorul celulei,
cu o singură genă la
un moment dat, sau poate două
sau trei la un moment dat, un număr foarte mic
, nu zeci de mii,
poți să vezi dacă
ARN-ul este
răspândit uniform în întreaga celulă.  și
răspândit uniform în toate
celulele din țesut,
sau în, să zicem,
aveți o populație mixtă
de celule de drojdie, indiferent.
Și puteți găsi cazuri
în literatură
în care nu este
prezent uniform în toate celulele
și nici măcar uniform
într-o celulă.
Iată unul dintre
cazurile mai dramatice în care
cei doi cromozomi X la
mamifere se comportă diferit
unul de celălalt.
Femelele mamifere
vor avea un ARN --
un cromozom care exprimă majoritatea
ARN-urilor sale la niveluri normale,
iar celălalt cromozom nu
exprimă aproape niciun ARN.
Exprimă cel puțin
un ARN și acel ARN este...
care este XIST și
acoperă întregul cromozom
sau este localizat peste
acel cromozom și nu pe
restul celulei.
Deci acesta este un
caz extrem de localizare pe
care îl puteți monitoriza
cu metode microscopice,
metode microscopice fluorescente.
În schimb, vom păstra asta în
mintea ta în timp ce te
uiți prin microarray
și alte experimente în care
amesteci o
varietate de celule care s-ar putea afla
în diferite stadii
ale ciclului celular,
ar putea avea
medii ușor diferite.
și chiar și în interiorul
celulei, ARN-ul...
pierzi informațiile
despre localizarea ARN-ului.  Să luăm
o scurtă pauză și
apoi să revenim și să ne conectăm la --
terminăm hibridizarea in situ
și să ne conectăm la alte metode
de cuantificare a ARN-ului.