Următorul
conținut este furnizat
de MIT OpenCourseWare sub
o licență Creative Commons.
Informații suplimentare
despre licența noastră
și despre MIT OpenCourseWare
în general
sunt disponibile la ocw.mit.edu.
PROFESOR: OK, bine ați venit la
ARN 2, care desigur începe
cu o prezentare generală a ARN 1 în care am
vorbit
despre structura secundară și
terțiară a ARN
și despre cum se integrează
programarea dinamică
în acei algoritmi.
Și apoi acest lucru este
important în modul în care
procedăm la măsurători
și afectează
anumite simțuri tehnice.
Și la
nivel de interpretare, afectează
modul în care ne gândim la
cuantificarea RNAm, care
a fost subiectul principal data trecută.
Și astăzi, după ce avem
datele analizate
astfel încât să avem
cuantificarea ARN-ului și
erorile sistematice aleatorii
au stabilit o idee despre
consecințele interpretării
și poate date din seria temporală,
întrebarea este,
ce facem în continuare?
Ceea ce facem în continuare sunt
practic două lucruri.
Cel putin pentru subiectul de azi.
Ne grupăm, întrebăm
ce produse de expresie genică
, indiferent dacă
sunt ARN sau proteine,
merg în sus și în jos împreună.
Și dacă urcă și coboară
împreună într-o varietate
de condiții sau momente de timp
în diferite condiții,
atunci vrem să știm de ce.
Care este mecanismul prin
care merg în sus și în jos?
Și către ce scop comun sunt
direcționate aceste produse genetice?
Cu alte cuvinte,
două motive diferite.
De ce mecanic.
Și de ce în ceea ce privește
modul în care
pot ajuta întregul sistem.
Deci, pentru a ne ocupa
de clustering,
vom intra în destul de multe
detalii despre opțiunile pe care le
avem pentru a
face clustering.
Și veți vedea că sunt
un număr destul de mare de combinații.
Vom trece prin distanța
măsurilor de similitudine, de la

gruparea și clasificarea ierarhică la non-ierarhică.
Acum, acesta este un fel
de foaie de parcurs -
o privire de ansamblu asupra tuturor
diferitelor decizii
pe care trebuie să le luăm pentru a
stabili gruparea expresiei genelor
.
Mergând de la stânga la dreapta,
avem opțiuni de normalizare a datelor,
avem valori de distanță din care să
alegeți.
Metode de legare, când
legăm două clustere împreună
sau două tipuri de ARN împreună,
ce metode folosim.
Și, în cele din urmă,
metoda de grupare în sine
în
partea dreaptă extremă a diapozitivului trei.
Și apoi, lucrând înapoi
de la metoda de grupare,
aveți două
obiective de bază, vă puteți gândi.
De obicei, când ne
gândim la clustering,
vorbim în principal despre
metode nesupravegheate.
Adică, unde
lăsăm cu adevărat datele să ne spună
ce au de spus, ce
produse de expresie genetică merg
împreună.
Într-o posibilă
alternativă sau [INAUDIBILĂ]
la asta ar fi să întrebăm,
putem folosi acele descoperiri
într-un sens pentru a supraveghea
clasificarea?
Deci, în loc să descoperim ce
produse genetice merg în sus și în jos
împreună, întrebați-i pe cei care merg în
sus și în jos împreună să folosească--
pentru a ne permite să clasificăm
diferitele condiții
din care
a fost constatată expresia genei.
Deci clasificate ca
stări patologice, stări infecțioase,
stări de cancer și așa mai departe.  Așa că
acum vom
lucra
înapoi de la
metodele de grupare nesupravegheată
și apoi vom trece la
metricile distanței și legăturile.
Deci, practic, lucrăm de la
dreapta la stânga pe această diagramă.  În
primul rând, cu o privire de ansamblu asupra
obiectivelor unor astfel de

metode de clasificare cuantitativă,
aceasta a fost într-o
prelegere anterioară.
Dar, practic, putem
începe cu datele ARN pe
care le-am redus la un tabel
în prelegerea anterioară.
Vă puteți gândi la el ca un
tabel de expresii ARN de-a
lungul axei verticale
și diferite condiții de-a
lungul axei orizontale, unde
putem avea o schimbare completă, să spunem
rapoarte sau niveluri absolute.
Și putem face fie
grupare, fie clasificare.
Și când ajungem la
grupare și descoperire,
unul dintre lucrurile pe care le
putem face este să folosim motive
pentru a ajunge la cauzalitatea directă.
Acestea sunt doar câteva
cuvinte la modă pe care le
veți găsi în această
prelegere și setul de probleme
și în exterior.
Doar exemple ale celor
două tipuri de obiective
ale analizei expresiei genelor sau
chiar mai multe colecții generale
de date cantitative.
Patru exemple -- patru exemple
de grupare nesupravegheată,
grupare k-means,
hărți de auto-organizare,
descompunere cu o singură valoare,
analiză cluster [INAUDIBILĂ].  S-
ar putea să le fi auzit
în diverse contexte.
Îmi adun pe toți
aici în această categorie.
Și vom aprofunda în special
în k-means ca un exemplu.  Am
putea aprofunda în oricare dintre ele,
dar trebuie să obținem o oarecare profunzime.
Și apoi doar pentru
referință, iată
câteva exemple de
învățare supravegheată
dacă urma să intrați
în clasificare.
Iată câteva exemple de
încercări timpurii de grupare.
Acestea sunt deosebit de
interesante de privit
deoarece au fost timpurii și
foarte puțină literatură anterioară.  Au
avut tendința să arunce o
privire proaspătă, mai proaspătă
decât ați putea vedea în cele
mai recente ziare.
Mai puține ipoteze și,
prin urmare, mai multă expunere
despre unde simt că gruparea
provine din alte domenii
și este aplicabilă acestui domeniu.
Principala dihotomie pe care o
subliniez aici
este cea a grupării după genă.
Adică prin ARN sau
produs genetic sau proteină ARN.
Sau puteți grupa după
tipul de celulă de condiție sau chiar cursul de timp.
Deci vă puteți gândi la asta ca... după
genă ca această axă verticală,
cel puțin în formatele în care o vor avea
majoritatea articolelor și această prelegere
.
Și apoi, după condiție, va
fi axa voastră orizontală.
Sau puteți face prin grupare,
care este gruparea de ambele.
Și apoi aici
este un exemplu de una
dintre multele surse de
software liber pe care le
puteți consulta, atât pentru
analiza microarray, cât și pentru clustering.
Scopul general al
acesteia este de a împărți mostrele
în grupuri destul de omogene.
În mod clar, din cauza
variației biologice
care pot fi
semnificative sau aleatorii,
acestea nu vor fi
perfect omogene.
Când vom găsi
genele coreglate, dar unele dintre metodele despre care am
vorbit în
clasele anterioare,
vom dori să știm care sunt
complexele proteice
care reglează mecanic

și
funcțiile din aval ale acestora.
Din nou, dihotomia majoră
dintre învățarea nesupravegheată
este dacă
faci ierarhic
sau non-ierarhic.
Vom arăta un exemplu pentru fiecare.
De obicei, ierarhicul
este reprezentat
de un arbore foarte
asemănător cu arborii pe
care îi avem pentru
asemănarea secvenței
și pentru pedigree,
filogenie și așa mai departe.
Acestea sunt practic
ramurile terminale ale copacului
sau frunzele copacului
sunt speciile individuale de ARN care
reprezintă un vector
de cuantificare diferită a ARN.
Cu cele non-ierarhice,
vei avea tendința să fi
reprezentat -
acestea sunt
reprezentări vizuale, precum și
algoritmi de bază.
Ele vor fi reprezentate mai mult ca un
plic multidimensional, de exemplu,
o sferă sau o elipsă
care încearcă să cuprindă
un set de
valori legate de expresia genelor.
Acum vom folosi
diagrame ca aceasta,
în principal cele două din partea
stângă a diapozitivului nouă,
unde veți avea
grupuri circulare sau sferice destul de strânse
în care este destul de evident
modul în care sunt conectate.
Sau puteți avea mai multe grupuri alungite
sau mai penetrante interioare
.
Și cum ne descurcăm cu acestea?
Termenii cheie pe care
vom încerca să îi definim
sunt de fapt foarte asemănători cu
cei despre care am vorbit înainte.
Aveam fie distanță
de similitudine.
Acestea sunt în
reversul aceleiași monede.  Cu
cât distanța este mai mare,
cu atât mai puțină asemănare.
Dendrogramele sunt
același tip de copaci pe
care i-am văzut înainte.
Acum, cel mai general mod de a
discuta despre măsurarea distanței
este metrica Minkowski.
Acesta este de fapt
un set de valori.
Și despre ce vom
vorbi
aici sunt două obiecte
care sunt într-adevăr două--
în scopul
discuției, două ARN-uri.
Numiți-le RNAx și RNAy, geneX
și geneY, au caracteristici cheie.
Înseamnă că aveți P
condiții diferite, P puncte de timp.
Le vei numi
uneori dimensiuni.
Și astfel, aceasta înseamnă
că expresia genică
a lui x în condițiile de la
unu la P
este comparată și cu
expresia genică a lui y
în acele diferite
condiții.  Vă
puteți gândi la aceștia ca fiind
vectori cu P intrări în ei.
Și astfel distanța va
fi o
rădăcină R-a a unei sume la puterea R.
Și vom trece prin
trei exemple diferite în
acest sens.
Și cred că veți--
sperăm că, până când vom
parcurge acest lucru,
veți vedea avantajele
acestei
forme generale și specifice.
Deci, cele trei
exemple vor avea R
egal cu 2, 1 și
infinit pe diapozitivul 12.
Acestea sunt cele mai
comune valori.
Și ar trebui să le vezi
ca fiind destul de familiare.
Când R este egal cu 2 în
acea formulă, acum
aveți rădăcina pătrată
a sumei pătratelor.
Și acest lucru ar trebui să vă reamintească de
reprezentarea dvs. carteziană simplă
a distanței dintre
două puncte pe hârtie milimetrică
unde puteți lua orice
diagonală, cea mai scurtă cale.
Pe de altă parte,
dacă navighezi pe
străzile din Manhattan,
vei avea tendința să nu iei diagonale
prin zidurile de piatră.
Veți avea tendința de a respecta
blocurile și
poate fi necesar să mergeți trei blocuri în acest
sens și patru blocuri în acest sens,
mai degrabă decât rădăcini pătrate.
Și apoi, în sfârșit,
ultima este distanța maximă pe care s-
ar putea să o parcurgeți într-
o anumită direcție.
Deci, puteți crede că,
dacă luați
rădăcina R-a a sumei
diferențelor dintre aceste două
măsuri, x și y--
măsurile celor doi ARN-uri
în aceeași condiție--
că, pe măsură ce R merge la
infinit, veți
așteptați cea mai mare
diferență de distanță de-a lungul tuturor
axelor diferite.
Și apoi vei duce
R-ul până la asta.
Și atunci va
fi practic valoarea absolută
a acelei diferențe.
Și așa sunt
cele trei măsuri.
Dar să vedem câteva
exemple concrete.
Aici avem două puncte.
Deci ai... acesta este
cel mai simplu caz posibil.
Două ARN în două
condiții diferite.
Și să spunem pe această
scară arbitrară, distanța dintre y
și x de-a lungul
dimensiunilor orizontale,
adică condiția
orizontală, este de patru
și condiția
verticală este de trei.
Asta e diferența
dintre ei.
Și acolo unde este
absolut relativă,
originea nu contează în
niciuna dintre aceste trei metrici.
Diagonala -
distanța directă sau distanța euclidiană
va fi
rădăcina pătrată a lui 4
pătrat plus 3 pătrat,
care va fi 5.
Și distanța Manhattan,
nu puteți lua asta -
nu puteți merge așa  cioara zboară.
Trebuie să mergi cu patru blocuri la
stânga și trei blocuri în sus.
Și sunt șapte.
Și apoi maximul
dintre cele două măsuri,
dacă vă gândiți la acestea la fel de
multe măsuri diferite,
cea mai mare distanță într-
o anumită direcție
ar fi patru.
Acum, iată un exemplu în care
distanța Manhattan se numește
distanța Hamming când
toate caracteristicile sunt binare.
Și de ce este asta interesant?
Am menționat, cred,
în prima prelegere
că mulți biologi și
oameni de știință în general,
atunci când au ocazia,
vor clasifica lucrurile
ca fiind activate și oprite chiar și atunci când
există o anumită natură cantitativă subiacentă
.
Tranzistorul poate fi pornit sau oprit
pentru toate scopurile.
Și un circuit de genă sau o
expresie a unei gene anume
poate fi considerat
dezactivat sau activat, 0 sau 1.
Și așa că acum, dacă aveți
17 niveluri diferite de expresie genică
, acesta poate fi considerat
un șir binar de 17 cifre.
Și cele două gene, A și
B, aici pot fi comparate.
Dacă vorbiți mai degrabă despre distanță
decât despre asemănare,
de fiecare dată când există un
conflict de 01 sau 10,
atunci adăugați asta la sumă
și aveți un total de cinci
dintre aceste cazuri în care
există o diferență.
Deci, distanța Hamming
este de cinci în acest caz.
Deci, puteți vedea că acest lucru
are o oarecare atractie intuitivă
dacă veți face
această biologie a sistemului boolean.
Iată încă una.
Aceasta este o a patra măsură a
asemănării sau distanței aici.
Și am mai adus-o în discuție.
Coeficientul de corelație.
Aceasta este o modalitate de a compara acest
vector de niveluri de expresie a ARN
x sub i cu y.
Deci, acum, în loc să luăm
diferența dintre x și y,
sub i, ceea ce
făceam cu
metricile Minkowski, luăm
produsul celor doi.
Dar dacă x și y sunt la
o scară arbitrară,
atunci nu vom avea cu adevărat o
modalitate de a compara un experiment
cu altul.
Acesta este un exemplu
de normalizare.
Vom folosi normalizarea în
câteva moduri diferite
în această clasă.
Dar toate sunt
legate în sensul că
doriți să le puneți la o
scară care să fie
recunoscută universal.
De obicei, de la 0 la 1 sau de la -1 la 1.
În acest caz, de la -1 la 1.
Și, deci, ceea ce faceți este pentru a
ajunge în același centru,
scădeți mediile
atât din x, cât și din y.
Așadar, acum centroidul
este la 0 în loc
de la bara x, care este doar
definita mediei, ca de obicei.
Și apoi pentru a obține
scara aceeași
sau pe o
scară la care se face referire în mod obișnuit,
împărțiți la
produsul lor din pătrate.
Deci rezultatul
acestui lucru, așa cum am discutat anterior despre

coeficientul de corelație,
este că
coeficientul de corelație
variază între minus 1 și 1.
Dacă este 1 pe slide
16, înseamnă că
sunt perfect corelate.
Ceea ce, desigur, este
rar, dar suportați-ne.
Dacă produsele genetice
urcă și coboară
perfect în toate
condițiile și în toate
momentele de timp la care te uiți
, atunci vor
obține un
coeficient de corelație liniară de 1.
Dacă sunt perfect
corelate negativ,
atunci vor crește  și în
jos exact defazat
sau exact când unul
este la acest maxim,
celălalt va
fi la minim.
Și dacă nu există o
corelație liniară,
atunci va fi un
coeficient de corelație liniară
de zero.
Acum pot exista tot felul
de relații neliniare complicate
.
Adică, ele ar putea fi
foarte, foarte codependente,
să zicem, pătratice și
încă au un zero
pentru
coeficientul lor de corelație liniară.
Deci exercițiu pentru cititor.
Care dintre acestea este
1 minus 1 și 0?
Vom începe cu
cel din stânga sus.
Este 1?
Minus 1.
Bine.
Si acesta?
1 corect.
Și zero.
Grozav.
Și veți vedea
că acelea nu au
fost normalizate pentru că
coeficientul de corelație va
face normalizarea pentru noi.
Peste un moment, ne vom ocupa de... ne vom
întoarce la
distanțele euclidiene,
dar mai
întâi vom face o normalizare.
Acum, iată un exemplu de dendrograme de
grupare ierarhică -
tocmai sa
întâmplat să fie făcut
pentru tumori și țesuturi normale.
Și puteți vedea că
tumorile desemnate de T
tind să se agrupeze împreună,
iar țesuturile normale
din partea dreaptă a diapozitivei
18 tind să se grupeze împreună.
Dar nu este perfect.
Există o oarecare întrepătrundere.
Puteți vedea că aceasta ar fi o problemă de
clasificare provocatoare
.
Modul în care a
fost derivat acel arbore ierarhic
este să începi
prin a spune, fiecare obiect --
genă -- și
vei măsura
expresia genelor, care de
obicei este ARN sau proteină.
Și vei numi fiecare
ARN individual un grup.
Este un grup de unul.
Este un grup trivial.
Și apoi, pe măsură ce vă uitați
prin fiecare pas din
gruparea ierarhică,
foarte similar cu unii
dintre algoritmii lacomi pe care îi
folosim pentru alinierea secvenței,
luați cele
mai apropiate două grupuri,
chiar dacă sunt un grup de
unul și le veți îmbina.
Și acum îl numesc
noul cluster.
Acum este un grup de doi
și așa mai departe și așa mai departe.
Până în cele din urmă, totul
este într-un grup
și ai păstrat o serie de
tot ce este cel mai aproape de cine
.
Și asta produce un copac.
Acum, pentru a
genera acel arbore,
aveți alte patru
metode de grupare.
Aveți posibilitatea de a alege
metrica distanței,
modul de a pune împreună
distanțele pe care le-ați măsurat.
Deci distanța pe care am măsurat-o
poate fi ceva Minkowski
sau coeficient de corelație.
Dar le puteți pune
împreună fie concentrându-vă
pe cel mai apropiat
vecin al grupului,
fie pe cel mai îndepărtat vecin.
Acesta este linkul unic
pentru această lungime completă.
Și vom vorbi despre asta.
Și apoi celelalte metode
despre care nu vom vorbi
sunt centroide, dacă vă puteți
gândi la centrul de masă
pentru cluster pe măsură ce acesta apare.
Și media, adică doar
media tuturor
perechilor de clustere încrucișate.
Dacă ai două grupuri
și faci totul în perechi.
Deci, să facem linkul unic
versus linkul complet.  În
primul rând,
linkul unic din diapozitivul 21.
Și vom folosi exact
aceeași matrice de distanță
pentru ambele exemple.
Deci nu trebuie să
schimbați prea mult viteza.
Principalul lucru este că singurul
lucru pe care îl vom schimba
este între simplu
și [INAUDIBIL]..
Și
aici folosim distanța euclidiană,
care este
suma pătratului rădăcină pătrată.
Și aici puteți vedea că AB
sunt cele mai apropiate două, iar A
și B sunt cele mai îndepărtate.
Și astfel
distanța euclidiană pentru AB este 2
și AB este 6, de exemplu.
Și astfel, în
metoda cu o singură lungime,
aceasta începe odată ce începeți să
prăbușiți prima legătură.
Deci faci legătura
dintre A și B,
asta este evident pentru că
este cea mai scurtă distanță.
Dar modul în care
îl restrângeți depinde de -
cum
îl comparați cu alte puncte
este despre ce
este vorba despre metoda legăturii unice.
Așa că acum AB va fi tratat
ca o unitate-- un cluster.
Și veți întreba,
cât de departe este AB de C?  Ei
bine, deoarece aceasta
este o singură legătură,
ești interesat de cea
mai apropiată distanță și aceasta este BC.
Și BC, din prima
matrice din stânga a fost trei.
Deci completați pentru
AB la C la trei.
Și, în mod similar, D
este punctul cel mai apropiat.
De la AB la D este cinci.
Este diagonala
de la B la D și așa mai departe.
Și așa ai
pierdut rândul de sus,
și sunt trei și cinci.
Și acum, când le compari
, următoarea legătură pe care o vei

face va fi cea
mai mică din
întregul tabel, adică trei.
Și se întâmplă că
clusterul AB este cel mai apropiat de C.
Și, deci, acesta va fi
următorul link pe care îl faceți.
Și apoi restul
jocului s-a terminat.
Doar că
clusterul ABC este aproape de D.
Așa că vă puteți imagina deja în
minte cum va arăta acel copac
.
A și B se apropie cel mai mult,
apoi aduci C.
Și apoi aduci în sfârșit
D. Și s-
ar putea să te gândești în acest moment,
că este singura modalitate de a face asta.
Dar
versiunea de lungime completă a acesteia
este exact aceeași matrice.
Începi în același loc.
AB este încă cel
mai apropiat, așa că acesta este
cel pe care îl veți
lega mai întâi.
Dar modul în care obții acest punct
în timp ce faci această legătură
este puțin diferit acum.
Pentru că acum ești
îngrijorat de
toate distanțele de la
clusterul AB până, de exemplu, C.
Acum B este aproape,
dar A este departe.
Și ne interesează
și acea distanță mai mare.
Și astfel întregul grup de
AB obține distanța de la A
la C, cea mai lungă
distanță, cinci.
Și astfel cinci merge
în acea poziție.
Și șase merge atâta timp cât acesta
este de la AB la D, care din nou,
este de la A la D. Și așa că acum
aveți o complet diferită -
doar comutați înainte și înapoi
între diapozitivele 22 și, 21
și puteți vedea că
a trecut de la trei  , cinci,
patru la cinci, șase patru.
Deci, acum, când
faci următoarea legătură,
prima legătură este
evidentă în ambele cazuri, AB.
Următoarea legătură este acum
CD, deoarece cea mai mică
din acea matrice două câte două
este patru.
Și asta se întâmplă
între C și D.
Și acum C și D
sunt următoarea verigă.
Și acum jocul s-a terminat.
Conectați CD-ul și
AB și legătura este --
așa că acum puteți vedea că veți
obține doi arbori foarte diferiți
din metoda legăturii unice din
partea stângă a diapozitivului 23,
AB aduce
C și, în sfârșit, D.
În timp ce
link complet, aveți
AB și CD ca două perechi separate
și apoi vin împreună.
Acum, acesta este cel mai simplu
exemplu posibil
cu care aș fi putut veni.
Dar cred că, în combinație cu
următoarele două diapozitive,
va arăta importanța
metodei de grupare
pe care o utilizați.
Aici
metoda de legătură, o parte din ea.
Din nou, concentrați-vă pe
partea stângă a
unde aveți
grupuri circulare sferice mai compacte
sau mai alungite.
Vom lua
trei exemple aici.
Sferic, alungit,
ceva la mijloc.
Un singur link în
mijlocul diapozitivului 25.
Și apoi link complet în
partea dreaptă.
Într-o singură lungime,
Acum, puteți
vedea de ce se numesc
link unic și link complet.
Acesta este un mod diferit
de a le vizualiza.
Aici, lungimea unică
face o treabă grozavă
pentru grupurile de sus și de
jos - formele
circulare și
liniare.
Dar când începi să obții
ceva care este undeva
la mijloc, obții
această legătură unică ciudată
care, cel puțin pentru
ochiul meu, conectează
cele două grupuri
de-a lungul inferioarei aici
și apoi lasă acest
grup mic ca al doilea grup.

Pe de altă parte, linkul complet, în
care măsori
toate distanțele
dintre clusterele anterioare
și noile clustere pe care le
vei adăuga,
merge bine pe cel de sus.
Și cel din mijloc, dar
face acest lucru ciudat
cu
ciorchinii alungiți, unde este
nevoie de un grup mic
care pare, ochiului meu,
să includă lucruri care
nu sunt atât de legate.
Deci linkul unic se descurcă
bine în partea de sus și de jos,
iar linkul complet se descurcă
bine în partea de sus și din mijloc.
Și astfel puteți
vedea că, în funcție de
cum credeți că
vor arăta datele dvs.,
dacă vor
arăta grupuri strâns distanțate,
dar compacte, care
ar putea avea o singură lungime
și mai alungite, dar
separate de distanță, atunci s-
ar putea să doriți o  legătură.
Așadar, unde suntem în această
foaie de parcurs generală din diapozitivul 26?  Ne-am
mutat
de la dreapta unde am
trecut de la
metodele de grupare,
supravegheate, nesupravegheate,
ierarhice, non-ierarhice.
Am trecut prin
valorile de distanță și valorile de conectare.
Acum să vedem cum
funcționează cu o
anumită
metodă non-ierarhică.
Ne-am concentrat
pe ierarhic.
Acum vom merge la
k-means non-ierarhici
și vom aduce probleme
de normalizare a datelor.
În acest caz,
normalizarea genelor în care
încercăm să punem
gene care sunt extrem de
diferite în ceea ce privește valoarea lor absolută
de exprimare
la aceeași scară.
Deci ar putea fi o
fluctuație foarte mică
la un fel de nivel mediu.  Un
altul ar putea fi o
fluctuație foarte mare
de la linia de bază până la
un nivel foarte ridicat.
Și doriți să luați în considerare
această diferență de referință
și această diferență de scară.
Și deci ceea ce faci...
și asta sunt toate aceste trei
mici parcele de expresie normalizate
.
Reprezintă ele acest
tabel, așa cum am menționat,
al genelor de-a lungul
axei verticale sau al nivelurilor de expresie a genelor--
gene care merg-- unde vom

măsura
nivelurile de expresie de-a lungul axei verticale
și punctele sau condițiile de-a lungul axei verticale?
axa orizontală.
Și așa avem două
reprezentări.
Unul este acest tip de
reprezentare a plicului de grup de puncte
în mijloc, unde aveți,
în acest caz, trei dimensiuni.
Dar într-un caz care este
puțin mai greu de vizualizat,
mai multe dimensiuni -
17, 15 dimensiuni.
Aceasta este o reprezentare în
care originea este în esență
media în care
o normalizi, media devine zero.
Și apoi distanța
de la acea origine
poate fi fie
pozitivă, fie negativă
și este numărul de
abateri standard de la medie.  Așa o vom

normaliza.
Deci, fiecare dintre aceste
diagrame individuale
ar fi comportamentul mediu
în fiecare dintre aceste clustere.
Și vom arunca o privire la asta,
media și abaterea
de la medie.
Dar unitățile de aici
în axa verticală
a acestor mici parcele vor
fi expresie normalizată.
Numărul de
abateri standard în cadrul clusterului
de la media clusterului.
Acum, când vom
măsura distanțe
dintre clustere în care avem
același tabel de date cu expresii normalizate -
și aceasta este
dimensiunea tridimensională -
aceasta este
reprezentarea tridimensională, în acest caz,
sau
reprezentarea multidimensională.
Unde originea este zero
sau media pentru
fiecare dintre axe și
distanța de la acea medie zero
este numărul de
abateri standard.
Și când vom măsura,
aceasta distanță ascunsă va măsura
rădăcina pătrată a sumei
pătratelor pe toate
dimensiunile.
Și vreau să subliniez
că fiecare dintre aceste clustere
nu este un punct -- dacă
expresia genelor ar fi reglată
de
factori de transcripție care se leagă
la fiecare site cu exact
aceeași constantă de legare,
atunci ați putea -
și dacă ar exista
presiuni de selecție care să forțeze
acest lucru.  în cazul în care
forțarea tuturor
să fie precis...
totul dintr-un cluster ar
fi reglementat cu precizie,
atunci aceste grupuri
ar fi foarte strânse.  Ar
fi aproape
un punct și nu ar
exista nicio suprapunere între ele.
Dar, în realitate, nu există
astfel de presiuni selective.
Și,
ca rezultat, factorii de transcripție
sunt posibil
diverși în mod intenționat.
Și obțineți aceste
grupuri răspândite.
Și astfel aceste mici bare albastre de pe
fiecare dintre punctele din aceste
grafice de expresie normalizată în serii de timp --

cele trei ori trei diagrame --
acele mici
bare albastre nu
reprezintă neapărat o eroare experimentală.
Ele reprezintă
diversitatea expresiei genelor
într-un cluster.
Acum, dacă ați
făcut accidental mai multe-- ați
atribuit mai puține clustere decât
este numărul natural
de clustere, atunci veți obține
mai multă dispersie în acel număr
decât v-ați dori.
Și acesta ar putea fi un
indiciu că aveți de fapt
nevoie de mai mult cluster - trebuie să
îl împărțiți în mai multe clustere
și să reduceți acest lucru.
Evident, dacă îl despărțiți
în prea multe clustere care
vor avea un
set diferit de patologii,
veți avea distanța dintre
clustere, unele dintre clustere
vor fi anormal de apropiate.  Vor fi
aproape ca și cum s-ar
atinge corect.
Și acesta este sfatul că
aveți prea multe grupuri.
Iar numărul de
clustere este ceva pe
care fie îl puteți
determina în avans,
fie îl puteți descoperi pe măsură ce mergeți.
Dar acestea sunt exemplele
de criterii pe care le puteți folosi.
Prea multă dispersie în
acele mici bare de aer albastre
înseamnă că ați încercat să
grupați prea multe lucruri într-un singur
grup.
Și o distanță prea mică
între grupurile adiacente
înseamnă că probabil le-ați
împărțit prea în final.
Acum, cum începem să evaluăm
dacă metodele de grupare pe
care le folosim sunt optime?
Am vorbit despre
toate tipurile diferite
de metode de grupare pe
care le puteți utiliza.
Una dintre modalitățile de a evalua
dacă sunt optime--
vom vorbi despre multe.
Dar una este să privim departe de
cutie la o resursă
pe care, poate,
comunitatea biologică are
funcții curate.
Acum ar putea să spună asta în
moduri foarte vagi și frustrante,
dar credem că
au făcut o treabă bună.
Și cu siguranță o
muncă independentă a experimentului
care se face.
Experimentul care se face
este o nouă
analiză cuprinzătoare a expresiei genelor.
Și așadar, dacă găsiți un cluster
dintr-o analiză a expresiei genelor
care coincide cu
această bază de date complet independentă
de
categorii funcționale,
nu contează ce
înseamnă [INAUDIBLE].
Aceasta este o abreviere
pentru un Institut.
Nici nu contează cu adevărat
ce înseamnă aici numele genelor.
Dar ceea ce veți găsi este că
un anumit set de gene,
odată ce îl căutați
în baza de date,
va declanșa un steag
pe care scrie ribozom.
Și știi ce
înseamnă ribozom.
Iar altele vor fi necunoscute.
Dar ideea este
că acestea vor fi
un set ordonat, un set
care poate este îmbogățit...
îmbogățit în mod neașteptat.
Și vrei să ai un fel
de surpriză cantitativă
de a găsi atât de multe
tipuri de funcții
în clusterul tău de ARN.
Într-un fel, asta este
ceea ce speri să găsești.
Este o surpriza placuta.
Vrei ca clusterele tale
să aibă o anumită coerență
în funcția lor.
Vrei să găsești și câteva
surprize, fie necunoscute,
fie noi combinații de funcții la
care nu te așteptai.
Acum acesta este un exemplu de
experiment de grupare.
Este un mod popular
de a-l reprezenta.
Iată copacii despre care am
vorbit aici, cei
mai apropiați...
vârfurile, frunzele de aici
sunt gene individuale.
Abia le poți vedea
la această scară.
Acesta este un mic subset
al genelor umane.
Aceasta este o
expresie a ARN care a
fost măsurată în timp de
stimulare a serului.
Și având în vedere
diapozitivul anterior
al diferitelor
categorii funcționale, ceea ce
doriți pe măsură ce
aranjați ierarhic aceste lucruri,
aveți timp ca
axa naturală pe orizontală.
Și apoi ați
încercat să le sortați
astfel încât să fie apropiate unele de altele
în arborele ierarhic.
Și ați și ați
reprezentat dacă sunt
mult induse sau
foarte suprimate
în timpul acestei stimulări serice.
Luați unul din timp -
punctul de timp zero este
punctul de referință.
Și apoi
crește sau scade foarte mult
reprezentat de roșu și,
respectiv, verde.
Și apoi, în fiecare
dintre aceste grupuri,
aveți mici
zone în care toate
au același tip de model
de negru, gri, verde și roșu.
Și așa, de exemplu, E din partea de
jos în zona roșie
aici este vindecarea rănilor
și remodelarea țesuturilor.
Și acestea sunt
genele la care v-ați putea
aștepta să fie îmbogățite
într-o paradigmă de stimulare a creșterii
, cum ar fi cea de
aici în care
simulați cu
stimularea serică a fibroblastelor.
Acesta este un
exemplu special de cum ați putea--
dar s-ar putea să doriți să
cuantificați acest lucru, mai degrabă decât să
o arătați aici.
Și vom vedea
exact cum faci
acea cuantificare într-un moment.
Acesta este doar o imagine rapidă
a cât de departe merge această grupare.
De fapt, merge dincolo de
biologie.
Dar iată ceva
care este pentru diapozitivul 32 în afara
intervalului de expresie a ARN.
Aici avem compuși pe
axa verticală și ținte,
adică proteine ​​pe
axa orizontală.
Și puteți vedea toate
aceste conexiuni
între diferite
terapii pentru cancer, diferite
linii de celule canceroase și
potențiale ținte.
Dar acum să revenim la ARN.
Și vrem să întrebăm cum
evaluăm colectarea datelor matricei ARN
,
metodele de grupare?
Și cum mergem...
și cum mergem dincolo de
asta în diferite direcții,
atât ca validare a
aspectelor tehnice,
dar ca arătând că de
fapt descoperim
și ajungem la mecanism.
Deci, una dintre diferitele metode pe care le-am
folosit -- am
menționat deja căutăm
categorii funcționale,
dar alta
caută motive.
Dacă găsim un
set consistent de motive,
acesta este și el o parte a
procesului de validare.
Și acestea sunt câteva dintre
exemplele de algoritmi.
Primul care ne vine
în minte atunci când matematicienii
și fizicienii intră în
domeniu și cel pe
care l-am folosit un mare
avantaj în
partea de căutare a secvenței a acestui curs
a fost frecvența oligonucleotidelor.
Deci, puteți utiliza oligonucleotide scurte

ca chei de hashing convenabile sau
ca modalități de a efectua căutarea -
o căutare foarte rapidă pentru
secvențe și în găsirea
potrivirilor.
Și acest lucru este și
mai potrivit
aici pentru motivele implicate
în reglarea transcripțională,
deoarece, dintr-o varietate
de studii cristalografice biologice și chimice,

motivele
sunt în intervalul de la 7 la
10 nucleotide adesea -
perechi de baze în
ADN dublu catenar.
Și astfel puteți folosi
frecvențele oligonucleotidice.  Cu
toate acestea, ele sunt limitate
prin faptul că nu sunt la fel de
bogate ca matricele de greutate
pe care le-am obținut atunci când
avem o aliniere cu mai multe secvențe.
Și când vorbeam despre
alinieri multi-secvențe,
am subliniat că a fost greu
să facem ca algoritmii să se scaleze
dincolo de perechi.
Deoarece perechi a fost n pătrat
unde n este lungimea secvenței.
Și apoi, pe măsură ce treceți la
alinierea cu mai multe secvențe,
aceasta crește exponențial
cu numărul de secvențe.
Vrei totuși ca numărul de
secvențe să fie mare.
Pentru că cu cât este mai mare
, cu atât
înveți mai multe despre
caracteristicile
acelei familii de secvențe.
Deci, oricum, eșantionarea Gibbs
a fost una dintre metodele
pe care am spus că o vom
amâna pentru o clasă ulterioară.
Aceasta este clasa ulterioară.
Vom vorbi despre
eșantionarea Gibbs ca o modalitate de a -
ideea de a eșantiona
acest spațiu foarte mare
în care numărul mare de
secvențe multiple - secvențele multiple pe care le

comparați este că
nu doriți să rămâneți prins
într-un  minim local.
Poți avea acești algoritmi de coborâre abrupte cu adevărat lacomi
,
dar vei ajunge la
fundul acelei gropi,
dar nu vei
găsi neapărat globalul.
Dacă
spațiul de eșantionare este prea mare,
nici măcar eșantionarea nu
vă va salva, deoarece veți
eșantiona o mulțime de puține
[INAUDIBILE] locale.
Dar, oricum, Gibbs este
un exemplu în care
folosiți randomizarea pentru a-l găsi.
Înseamnă ca exemplu de maximizare
a așteptărilor și [INAUDIBLE]
și așa mai departe sunt alte
moduri de a face acest lucru.  Ne vom

concentra cu adevărat pe una dintre acestea.
Nu pot acoperi totul.  Am
vorbit despre
eșantionarea lui Gibbs.
Și vrem să o punem
în contextul...
și lucrul care
ar putea fi atrăgător.
De ce nu putem doar...
dacă programul pentru
reglarea factorului de transcripție
este inerent
genomului, atunci ar
trebui doar să ne uităm la
secvența genomului
și să putem vedea modele
de motive în fața genelor.
Și apoi găsiți grupuri de gene
care sunt exprimate și așa mai departe.
Problema cu acea imagine--
chiar și pentru unul dintre cele mai bune
scenarii, [INAUDIBLE],
care este de aproximativ 12 mega baze--
așa cum am spus, aceste
locuri de control transcripțional
sunt aproximativ șapte baze,
să spunem, ale inflamației.
Iată unul care va
fi o vedetă pentru câteva
diapozitive aici după
acum și am pauză.
Acesta este GCM4.
Puteți vedea că are
cinci
baze conservate pe doi biți la scară completă.
Și apoi restul
bazelor din acest motiv --
celelalte cinci
baze s-ar putea adăuga
la alte două baze de
informații sau 14 biți
împreună.
Acum 14 biți, vă puteți
gândi la asta ca 4
la a șaptea putere aproximativ
1 meci la fiecare 16.000 de baze.
Acum, dacă aveți un
genom de 12 megabaze
și, din moment ce
nu este simetric,
trebuie să vă uitați la ambele fire.
Trebuie să vă gândiți la
factorul de transcripție care scanează
ADN-ul în ambele direcții.
Apoi aveți 24 de megaocteți
mega baze de site-uri.
24 de milioane de site-uri.
Și la întâmplare, te
aștepți la 1 peste 1.600.
Deci ai o medie de 1.500.
Acum, aici putem aduce
în vechiul nostru prieten
distribuția Poisson.
Și ne vom aminti
că media
și varianța unei
distribuții Poisson sunt aceleași.
Și astfel
abaterea standard va
fi
rădăcina pătrată a varianței,
așa cum este pentru toate variațiile
și toate abaterile standard.
Așadar, abaterea standard
va fi de aproximativ 40.
Deci, dacă vă așteptați să
vă convingeți
că aveți
ceva interesant,
atunci doriți să fie cu aproximativ
două sau trei abateri standard
peste medie.
Deci zgomotul tău cu care te
lupți
este despre-- vrei
să obții de 2 ori 1/2
ori 40 sau aproximativ 100 de site-uri.  Ei
bine, multe fenomene biologice
nu au 100 de locuri.
Ele nu sunt 100 -- s-
ar putea să nu existe 100 de site-uri GCM4
în genom, de exemplu.
Și deci, ceea ce ai nevoie este o modalitate
de a dezvălui genomurile.
Nu ne uităm
prin întregul genom,
dar ne îmbogățim
în diferite moduri.
Care sunt diferitele
moduri prin care ne putem îmbogăți?  Ei
bine, primele trei le vom
aduna ca modalități prin care le
putem
grupa biologic.
Practic, aceasta a fost tema
primelor minute
ale acestei prelegeri.
Modalități prin care putem pune
împreună cinci gene care
sunt... în care produsele de expresie a genelor se
descompun împreună.
Și acestea ar fi, de exemplu,
datele întregului genom [INAUDIBILE].
Aceasta este linia de sus a diapozitivului 36.
Sau ar putea fi... și am
avut un mic diapozitiv
despre asta mai devreme
despre diferitele moduri prin
care genele ar putea arăta că
ar trebui să meargă împreună.
Ar putea avea un
fenotip comun.  Ai
putea face knockout-uri
și au caracteristici
biochimice sau
morfologice similare.
Și așa le pui în
aceeași categorie funcțională.
Aceasta ar putea fi sursa unora
dintre categoriile funcționale
despre care am vorbit astăzi.
Ele pot fi conservate
între diferite specii.
Speciile le vor moșteni --
vor tinde să le moștenească
ca grup și alții.
Deci acesta este exemplul de ce
genele ar trebui să meargă împreună.
Și apoi vei reduce
spațiul de secvență
pentru a fi
elementele de reglementare care
merg cu acele gene și
nu cu restul genomului.
Și acestea sunt modalitățile
de selectare a genelor.
Dar apoi selectând secvența
în sine lângă acele gene
sau în acele gene.  S-
ar putea să doriți să eliminați
regiunile de codificare a proteinelor,
secvențele repetitive
sau orice altă secvență
nu este susceptibilă să controleze site-urile.
Acest lucru vă ajută prin reducerea
spațiului de secvență.
Este un fel de ajutor banal.
De fapt, un ajutor important.
Dar, pe lângă
asta, vrei...
ei te ajută prin eliminarea
capcanelor în care vei
găsi
motive, dar că
este puțin probabil ca acestea a priori să fie
relevante pentru
controlul transcripțional.
Ceea ce
încercați cu adevărat să
ajungeți aici pentru a valida
și a extinde descoperirile pe care le
găsiți din
gruparea nesupravegheată.
Și de ce spun asta?
De ce regiunile care codifică proteinele
și regiunile repetitive --
elementele repetitive ar fi o părtinire?  Ei
bine,
regiuni care codifică proteine ​​care,
pentru genele care se grupează,
dintr-un motiv sau altul,
probabil a priori să aibă proteine
care au funcții similare.  Se
grupează
pentru că
au funcții similare.
Ei ar putea împărtăși
domenii de proteine ​​în comun.
Deci veți găsi
motive de acid nucleic
care sunt similare între
ele, nu pentru că sunt
implicate în reglare, ci pentru că
codul geniculat se
transformă în motive proteice care
sunt similare între ele.
Deci ei pot îndeplini
o funcție similară.
Și de aceea, ele
și
regiunile repetitive sunt cu siguranță
destinate să ofere
motive în comun
datorită
proprietăților lor de replicare egoistă.
Întreaga
secvență repetitivă de la o margine la alta
va sări în jurul genomului.
Și astfel nu vor exista aceste
mici șapte motive de perechi de baze.  Vor
fi un motiv de bază de 10 kg.
Și asta nu vă va spune
prea multe despre transcriere.
Acestea fiind spuse, ne
ocupăm de reducerea spațiului de secvență
.
Atât primele trei metode, cât și
această metodă de jos
vor exclude anumite
tipuri de descoperiri.
Dar odată ce ați găsit motivul
limitând sever
o secvență, puteți apoi să
căutați acel motiv
și să alegeți
exemplele pe care le-
ați fi eliminat în
prima trecere într-un mod mult mai puțin zgomotos
.
Aveți acest
motiv adevărat, acum
doriți să găsiți toate
celelalte exemple.
Într-un fel, testezi
specificul motivului.
Deci, de exemplu, ar putea
exista elemente de reglare a ARN
în regiunile care codifică proteine.  Ar
putea fi unele în
regiuni repetitive.
În prelegerea pe care am
susținut-o despre polimorfismele cu un singur nucleotide
, am
ales în mod pervers unul foarte interesant,
care apare într-una dintre cele
mai comune repetări dispersate
din genomul uman,
care este repetiția ALU.
Acesta are o
semnificație de reglementare,
dar îl vom exclude inițial
din spațiul nostru de căutare,
astfel încât să putem
obține o mulțime de exemple bune
într-o casetă mică.
Deci acestea sunt principalele modalități
de reducere a spațiului de căutare.
Și vom
lumina acest lucru
cu un anumit algoritm --
o modificare care
oferă eșantionarea motivelor,
care este aceasta
în care eșantionați

stările de aliniere multi-secvențe aleatoriu,
astfel încât să nu treceți de
minimul local.
Și aceasta se numește elemente conservate de
acid nucleic [INAUDIBIL]
.
Accentul pus pe acidul nucleic.
Și care sunt
avantajele de a oferi
o eșantionare profundă [INAUDIBILĂ]?
De ce ne concentrăm asupra ei?
Ei bine, eșantionarea [INAUDIBILĂ]
, așa cum am spus,
vă ține departe de minimele locale.
Există un număr de
site-uri pe secvență de intrare.  S-
ar putea ca în
genele pe care le-ați
găsit în
grupul dvs., unele dintre ele
ar putea avea trei dintre aceste
motive în fața sa.
Alții vor avea
unul sau chiar zero,
pentru că s-ar putea ca
anumite co-clustere de gene să fie
cauzate de un alt
set de motive care se întâmplă
să aibă aceleași
proprietăți ca și motivul pe care îl
privești
la un moment dat.
Deci, puteți avea de la zero la
un număr mare de motive.
Și asta e important.
Acest algoritm se ocupă de asta.
Alți algoritmi presupun că există
exact un site pe secvență.
Și asta introduce zgomot.
Puteți distribui
conținutul informațional
în diferite moduri.
Veți vedea, putem regla fin
forma unui motiv într-un fel.
Unii dintre acești algoritmi s-au
bazat pe proteine.
Proteinele au o singură catenă.
Nu au un Watson și un
Crick care merg în sens invers se
completează unul pe celălalt.
Și deci trebuie să faceți un
efort conștient pentru a adapta acel
algoritm astfel încât să fie... încât
, într-un anumit
sens, să recunoască
dualitatea și
complementele inverse ale catenelor ADN.
Și trebuie să...
există mai multe
motive distincte care
diferă de
numărul variabil de site-uri pe secvență.
Odată ce găsiți motivul
numărul unu, acesta
poate fi motivul dominant pe
care îl găsiți din nou și din nou
într-o aliniere cu mai multe secvențe.
Trebuie să te întorci
și să găsești numărul doi.
Pentru că ar putea fi
numărul unu, nu este singurul
sau nu este
motivul major semnificativ biologic.  Ar
putea fi oricare două sau trei
motive care acționează în concert.
Deci nu te poți
odihni pe lauri
când găsești primul motiv.
Și pentru fiecare motiv, pot
exista mai multe exemple de ele
pe secvență.
Oriunde de la zero în sus.
Deci, să facem acest lucru
mult mai concret
și să analizăm cu adevărat
un exemplu specific.
Acest exemplu--
exemplul real--
este luat din
genele de biosinteză a aminoacizilor din drojdia
saccharomyces.
Deci aici am aplicat
cele două clase majore
pentru reducerea secvenței.
Primul este de
funcția biologică aici.
Acestea sunt toate
gene biosintetice de aminoacizi,
histidină,
aminoacizi aromatici, [INAUDIBIL]..
Toate sunt în
partea dreaptă a diapozitivului 39.
Dar, pe lângă
reducerea biologică
a doar poate 116 gene care
sunt implicate în acest proces,
Am făcut, de asemenea,
reducerea spațiului de secvență în apropierea genei
pentru a exclude
regiunile de codificare a proteinei
și ne uităm doar la 300
până la 600 de baze în amonte.
De ce 300 sau 600?
Dacă genele sunt cu
adevărat apropiate,
nu doriți să
treceți cu mult peste 300,
deoarece puteți intra în regiunea de
codificare a proteinei
a unei gene adiacente.
Dacă genele sunt foarte
îndepărtate în această parte particulară
a genomului, nu doriți
să obțineți mai mult de 600,
altfel veți
ajunge în
secvențe repetitive sau alte
lucruri care sunt
alte elemente de reglare care nu
au legătură cu
proteina dvs.  .
Sau ați putea ajunge într-
o genă care codifică ARN.
Deci, 300 până la 600 este bun pentru
acest organism special.
Dar s-ar putea să ai nevoie de
unul diferit pentru, să zicem, uman.
Va trebui să te
uiți în introni și mult
mai departe în amonte, ceea ce o face
o problemă mult mai dificilă.
Oricum aceasta este
faza de reducere a secvenței.
Și acum să spunem, ei bine,
vezi motivele aici?
Adică, cei dintre voi
care sunteți buni în calcul
ar trebui să puteți face acest
algoritm în capul vostru.
Dar iată răspunsul.
Și apoi vom--
acum vom trece prin
și vom spune
cum am ajuns la acel răspuns
cu
algoritmul Gibbs de eșantionare aliniere.
Răspunsul aici este GCN4.
Acesta este cel pe care l-am
folosit pentru a ilustra că
avem aproximativ șapte
biți de informații
aici în acest format de logo Snyder.
Și în dreapta jos,
are un scor pe hartă
pe care îl vom defini destul de curând.
Practic, cu cât
scorul pe hărți este mai mare, cu atât mai bine.
Trebuie să fie mai mare
decât 0 pentru a fi non-aleatoriu.
Și aici este în
partea stângă a diapozitivului 40
alinierea cu mai multe secvențe,
la fel ca alinierea cu mai multe secvențe despre care am
vorbit
în ultima prelegere --
acum două prelegeri.
Și aici în roșu sunt
toate aceste săgeți.
Ele indică fie de la
stânga la dreapta, fie de la dreapta
la stânga, în funcție de
șuvița pe care se află, așa că
nu sunt exacte complemente inverse.
Deși, acest lucru are un
pic de simetrie în el.
Dar puteți vedea că
aveți oriunde
de la una la două dintre acestea în
fața fiecăreia dintre aceste gene.
OK, deci acum cum ajungem acolo?  Să
mergem pas cu pas.
Și unii dintre voi ar putea găsi acest
algoritm contraintuitiv
la început, așa că nu fiți
surprinși dacă este.
Primul pas este să semănăm aleatoriu
.  Mai dăm
jos, să zicem,
încă 10 secvențe
lungi de 10 nucleotide, am
ales-o în mod arbitrar ca lungime
și le-am aruncat la întâmplare
pe aceste secvențe aici.
Așadar, am reprezentat aici șapte dintre cele
116 gene de biosinteză a aminoacizilor din
amonte.
Și tocmai am evidențiat
roșu în mod arbitrar
două roșii, 10 [INAUDIBIL]
pe cel de sus,
apoi niciunul pe al doilea,
apoi unul pe al treilea
și așa mai departe.
Și apoi, deoarece acestea sunt date
și care este prima poziție
este dată, atunci este o
chestiune banală să le aliniați.
Doar luați toate primele
poziții și luați o sumă,
iar aceasta este matricea de greutate.
Acum nu te-ai aștepta, deoarece
toate acestea au fost alese aleatoriu
pentru secvențe reale,
nu te-ai aștepta
să fie o
matrice de greutate uimitor de non-aleatorie.
Și nu este.
Are un scor pe hărți
care este negativ.
Și așa cum am spus, asta este
practic întâmplător.
Câteva baze tind
să își ridice capul puțin
peste
zgomotul aleator de 0,25
dacă acesta ar fi un
genom aleatoriu sau oricare ar
fi compoziția de bază.
Și niciunul dintre ei nu este de
2 biți.
Aș spune că niciunul dintre ei nu este
perfect reprezentat.
Deci acum care este următorul pas?
Aceasta este
însămânțarea inițială și vă oferă
o aromă pentru ceea ce se va
întâmpla în continuare.
Dar există câteva
lucruri interesante pe
care le puteți face pentru a crește
șansele de a obține
un motiv bun.
Deci următorul lucru pe care îl faceți este
fie să adăugați un alt site.
Mai adaugi 10 [INAUDIBIL].
Deci, rândul de sus al părții 42--
secvența de sus are deja
două, dar adăugați încă una.
Adaugi un al treilea.
Numărul secvenței, săgeata patru
încă nu are niciuna.
Dar ai adăugat un al treilea la
întâmplare în partea de sus
și acum ai două
aliniamente de secvență.
Chiar nu ai reușit să
faci nimic până acum.
Aveți acum două
aliniamente multi-secvențe.
Și te întrebi, care
este mai bun?
Ei bine, să presupunem că cea din
dreapta este puțin mai bună,
cea la care adăugați secvența
este puțin mai bună.
Acum nu doar
orbi programul.
Nu acceptă doar orbește
acest lucru ca fiind cea mai bună
aliniere multisecventă.
Este probabil să
acceptați acest lucru.
Și asta din nou, pentru a te împiedica să
treci printr-un
algoritm complet lacom.
Fiecare îmbunătățire va
fi probabilistică.
Dar cu siguranță vei avea
tendința
de a accepta fiecare îmbunătățire.
Deci asta a fost adăugarea unei secvențe.
Așa s-ar putea să o îmbunătățiți.
Sau poți elimina unul.
Puteți adăuga și elimina încă
două din secvența de sus aici.
Adăugați unul, eliminați unul.
Și v-am întrebat asta dacă
secvența multiplă din dreapta
este puțin mai bună.
Dacă este, atunci
aveți o mare probabilitate
de a le accepta pe cele două.
Modificările de adăugare și eliminare.
Acestea sunt adăugarea sau
eliminarea unor secvențe întregi.
Continuați, adăugați și eliminați.  Un
alt lucru pe care îl poți face
este să spui, ei bine, poate că
bazele importante nu sunt
toate la rând -
10 la rând.
Poate vrei să
o faci puțin mai lung?
Poate că motivele ar trebui să
fie puțin mai lungi?
Poate că unele dintre
cele din mijloc
nu sunt importante, așa că
vom dezactiva una dintre ele
și vom muta coloanele.
Deci acum motivele sunt
puțin mai largi,
dar are tot
același număr de coloane.
Și dacă asta se îmbunătățește-- dacă asta
vă oferă un scor mai bun pe hartă,
o surpriză mai mare în sensul
probabilității pe care o aveți--
că veți avea
acest număr de site-uri
care sunt partajate la acest grad
în acest număr de secvențe,
atunci ai o mare probabilitate
de a accepta acea schimbare.
Acum nu schimbați doar
colecția de secvențe despre care
credeți că aparțin
acelei familii de motive,
ci de fapt schimbați
structura elementelor
pe care le veți
numi matricea greutății.
Schimbați
structura coloanei.
Și asta este și probabilist.
Și din toată această
aleatorie, având în vedere multe cicluri,
în cele din urmă obțineți cel
mai bun motiv.
Acesta ar putea fi cel mai bun motiv pentru
acest set special de învățare.
Dar acum vrei să obții
al doilea cel mai bun motiv.
Pentru că acesta nu este neapărat
cel mai bun motiv din punct de vedere biologic.
Și acesta poate să nu acționeze singur.
Poate avea un altul
care este, de asemenea, îmbogățit
și s-ar putea ca
apariția lor concomitentă să fie
chiar mai semnificativă decât
oricare dintre ele să apară
separat.
Deci ce facem?
Și cred că ceea ce
vom face
este să
luăm o mică pauză.
Și atunci când ne întoarcem,
curiozitatea ta incredibilă
va fi satisfăcută cu privire la modul în care
obținem al doilea motiv.
Așa că ia o mică pauză.