Următorul conținut este furnizat de MIT OpenCourseWare sub o licență Creative Commons. Informații suplimentare despre licența noastră și MIT OpenCourseWare, în general, sunt disponibile la ocw.mit.edu. GEORGE CHURCH: Bine, bine ai revenit. Sunt sigur că morți de nerăbdare să știți răspunsul, așa că v-ați întors mai repede decât de obicei. [Râsete] Deci, cum ajungem de la primul punctaj de top la cel de-al doilea? Și vă voi arăta, doar pentru a condimenta acest lucru, voi vedea doi algoritmi diferiți pe care au făcut-o, din punct de vedere istoric, și îmbunătățirea de 100 de ori a vitezei și, de asemenea, a preciziei care vine din schimbare. Deci, primul mod, și deja puteți vedea negativ predispus la acest lucru, dar dacă vă uitați la motiv, câștigătorul, dacă vreți, prima dată, are anumite poziții de bază care sunt deosebit de informative concept. Adică domină cu adevărat și, probabil, sunt esențiale pentru a găsi un motiv. Dacă ai avea o modalitate, să zicem, de a-l elimina pe unul dintre cei din secvență, din toate secvențele care au contribuit la acest motiv, atunci ți- ar reduce foarte mult șansele să- l regăsești. Și așa vom face în diapozitivul 47, este să trecem și să alegem una dintre acele baze și să o transformăm într-un X. Deci un X nu se potrivește cu niciuna dintre matricele de greutate. Și astfel, ori de câte ori aveți un motiv care se suprapune, nu va avea un scor bun. Și astfel nu vei construi... nu vei avea această tranziție. Prelevatorul Gibbs nu va merge în acea direcție. Acum, acest lucru are câteva dezavantaje din punct de vedere al preciziei, prin faptul că pot exista unele motive care vă plac foarte mult și care se suprapun ușor cu motivul original. Și îți vor lipsi acelea în timpul prelevării. Deci, o modalitate alternativă de a căuta astfel de lucruri, în loc să luați cea mai bună eșantionare continuă în această versiune Xed out, în schimb, ceea ce puteți face este să mențineți o listă cu toate motivele pe care le-ați găsit până în acest moment. În acest caz, avem doar unul. Și acum, pentru că folosim AlignACE pentru a face această aliniere cu mai multe secvențe prin eșantionare, dar acum, pe măsură ce mergi mai departe, construind, inițial, un motiv aleatoriu, îl compari cu primul câștigător. Și spuneți, este acest motiv aleatoriu, sau acest motiv care iese din acest proces aleatoriu, seamănă deloc cu cel anterior? Dacă începe să arate convingător ca câștigătorul înainte, știi unde va ajunge. Doar că va deveni din ce în ce mai mult așa. Deci ai putea la fel de bine să renunți mai devreme. Și asta este ceea ce faci este că acum nu ai eliminat nicio bază anume. Toate informațiile sunt acolo. Puteți lua orice fel de motiv care se extinde și schimbă coloanele și așa mai departe. Și dacă te înclini spre un motiv pe care l-ai văzut înainte, îl poți respinge. Acest proces are avantajul dublu de a vă permite acum să obțineți motive suprapuse care ar putea avea o structură a coloanei suficient de diferită sau o matrice de greutate suficient de diferită sau sunt ușor decalate, astfel încât să fie într-adevăr un motiv diferit. Le poți găsi. Algoritmul pe care îl utilizați pentru a le compara pe acestea îl vom folosi de câteva ori astăzi. Îl vom numi CompareACE pentru a compara aceste elemente de consens sau aceste matrici de greutate. Și astfel nu numai că vă îmbunătățește capacitatea de a discrimina elementele de consens legate, dar separabile statistic, dar are și o creștere de aproximativ 100 de ori a vitezei. Pentru că te poți opri de 100 de ori mai devreme în această eșantionare a motivelor, care merge-- odată ce te blochezi într-un motiv, mergi și mergi până când obții cu adevărat cel mai bun punctaj posibil. Dar acum îi poți respinge pe cei mai slabi mai devreme. Acum, poate te-ai întrebat tot timpul, probabil că ai un sentiment intuitiv pentru care este scorul MAP-- și voi lua-- și la sfârșitul acestui lucru, nu vei putea rederive asta din primele principii pentru că nu am de gând să intru în asta în profunzime. Dar vreau să vă expun câțiva dintre termenii care sunt implicați în acest punctaj maxim a posteriori. Desigur, eroul oricărui tip de funcție de notare este matricea de ponderi, numărul real de numărări de As, Cs, Gs și Ts pe care le aveți la fiecare poziție din fiecare coloană din această matrice. Acum, amintiți-vă, am criticat deja acest lucru, că matricele de greutate tipice, nu există codependență a coloanelor așa cum a fost în structura secundară a ARN sau în insulele CpG sau alte lanțuri Markov. Acestea sunt coloane independente. Deci jucătorul cheie, eroul de aici, este f sub jb. Aceasta este matricea de greutate. Și aceasta nu este o frecvență, ci acesta este numărul real de apariții ale fiecărei baze - A, C, G sau T, care este B, la poziția j în matricea coloanei. Acestea pot fi coloanele active, j merge-- și apoi numărul de apariții este doar suma acelor apariții. Am vorbit deja despre modul în care lățimea motivului poate include unele coloane care sunt practic activate și dezactivate, coloane pe care le considerați semnificative și cele care nu sunt. Deci numărul de coloane, c, este mai mic sau egal cu lățimea. Deci, de exemplu, când făceam exemplul GCN4, aveam o lățime de 10 sau s-ar putea, la un moment dat, să se extindă la lățimea de 11 cu 10 coloane active, c egal cu 10. Veți recunoaște-- aici este steaua, f sub jb aici. Și adaugi aceste pseudonumărări aici, aceste beta, pe care îți amintești că de fiecare dată când ai un pericol , pentru că ai o bază de date limitată pe care o cauți, un număr limitat de site-uri observate efectiv, ai putea obțineți un număr de site-uri egal cu 0. Și nu doriți să aveți zerouri acolo. Pentru că, practic, recunoașteți, pentru că am făcut eșantionare lambda, ar fi putut fi 1. Dacă aș fi eșantionat încă unul, ar fi putut fi 1. Și astfel, o estimare ar fi să adăugați un alt pseudonumăr. Și acest lucru poate fi reprezentat aici. Nu vrei să ai... și aceste gamma la care te poți gândi, sunt ca factorii. Și iei produse. Pi este produse. Și apoi s-ar putea să fi menționat că poate doriți să țineți cont de nivelurile de fundal ale bazelor. Dacă obțineți, să zicem, un motiv care este doar un șir de As și îl faceți într-un genom care este foarte bogat în AT, atunci doriți să luați în considerare. Este mai puțin surprinzător dacă găsiți un șir de As într-un genom care este bogat în GC. Și asta este ceea ce acest g sub b este frecvența genomului de fundal pentru baza b. Acum, într-un ADN dublu catenar , frecvența lui As va fi egală cu frecvența lui Ts. Dar un virus ARN monocatenar , de exemplu, va exista într-adevăr un set foarte independent de fundaluri pentru Gs, As, Ts și Cs, sau Us. Deci, aceasta vă oferă o aromă a ceea ce este în scorul MAP. O versiune mult prea simplificată a acestui diapozitiv detaliat 49 este în diapozitivul 50 -- în mod ridicol de simplificat -- este, în principiu, suprareprezentarea acestor site-uri este ceea ce vorbim. Înseamnă că aceste site-uri, acordați un scor mai mare dacă există o suprareprezentare în acel set de învățare. Nu vă spune nimic despre restul genomului. S- ar putea ca acestea să fie suprareprezentate și în restul genomului. Și în asta vom merge în continuare. Dar primești un bonus pentru numărul de site-uri aliniate și suprareprezentarea acelor site-uri. Acesta este scorul MAP. STUDENT: Fundalul este [INAUDIBIL]? GEORGE CHURCH: Hmm? STUDENT: Fundalul este [INAUDIBIL]? GEORGE CHURCH: Fundalul este ignorat în această simplificare excesivă, dar este explicit în diapozitivul 49. Ar trebui să ignorați acest lucru și să vă gândiți mai mult la precedentul. Dar principalul aspect pe care îl fac este că suprareprezentarea este doar jumătate din poveste. Cealaltă jumătate este specificul. Cu alte cuvinte, dacă este prezent în setul tău de învățare sau în setul tău îmbogățit, vrei să te întrebi în continuare dacă este prezent în restul genomului? Pentru că dacă este prezent-- și poate asta este ceea ce vrei să spui prin fundal-- dacă este prezent în restul genomului, atunci asta nu este grozav. Și, deci, ceea ce vom face este că acesta este un exemplu de trecere prin -- după ce obțineți primul motiv -- trecerea prin multe alte motive. Deci cel mai bun motiv dintre toate pentru un set mai mare decât cele la care ne uitam. Ne uitam la șapte, dar sunt 116 dintre acestea în [INAUDIBLE]. Când parcurgeți totul, scorul MAP de top, cel mai suprareprezentat, este acesta bogat. Acum vrei să întrebi, asta este specific genelor de biosinteză a aminoacizilor? Sau se găsește peste tot? Și vom ajunge la asta, cum măsori asta, într-un moment. Cel pe care l-am evidențiat aici este în GCN4 este oarecum modest - aceasta nu este o listă de ordine de rang. Acest lucru este oarecum în ordine aleatorie. Dar vă vom arăta cum puteți face ordinea de rang, de asemenea, cum puteți comanda asta. Dar vezi tot felul de motive, unele care sunt întinse, diferite compoziții. Deci, pentru a evalua semnificația motivului, avem aceste cinci exemple pe care le vom parcurge. Este specificul despre care am tot vorbit și va fi subiectul următorului slide. Acea săgeată mică înseamnă diapozitivul care trebuie aici. Specificul grupului-- este specific grupului pe care l-ați găsit prin grupare sau este peste tot? Îmbogățirea funcțională-- am vorbit despre asta de câteva ori. Genele pe care le găsiți în grup sau genele cu care găsiți acest motiv în fața sunt îmbogățite de niște criterii destul de obiective? Motivele pe care le găsiți se află într-o anumită poziție în elementele din amonte? Pentru că au o poziție în promotori sau amplificatori. Are motivul pe care l-ați găsit are proprietăți de simetrie interesante , așa cum v-ați aștepta de la proteine, care se leagă ca multimeri? S- ar putea să aibă repetări inversate sau în tandem, unde elementele fie indică unul către celălalt, fie în tandem. Motivele pe care le găsiți sunt legate în vreun fel de motive care erau cunoscute înainte prin teste biochimice și genetice mai complicate? Deci, primul, specificul grupului, pentru a întreba dacă motivul pe care l-ați găsit în subgrupul mic al genomului este prezent în restul genomului, avem nevoie de o modalitate de scanare. Acum, când introducem matrice de greutate în prelegerea de aliniere cu mai multe secvențe și spunem că vom amâna eșantionarea motivului Gibbs până astăzi, am introdus deja o modalitate foarte trivială de scanare a genomului, în care, practic, luați matricea de greutate, o mutați. în fiecare poziție și faci o sumă simplă. Practic, asta este o sumă simplă. Dar luăm rapoarte logaritmice ale acestor numărări. Din nou, eroul, contează, la fel ca f-- deci bj înainte, acum este n sub l b, nomenclatură ușor diferită luată din articole diferite, dar este aceeași idee. Acesta este un număr de apariții ale bazei b la poziția l. Aceasta este matricea de ponderi ca numărători, nu ca frecvențe. Și în numitor este numărul de apariții ale celei mai comune baze. Acum, acesta ar putea fi b, sau poate fi altul. Dar acesta este cel mai comun. Aceasta va tinde să fie mai mare sau egală cu capetele lb, care este matricea de greutate. Și o să însumați peste l, pe lungimea locului de legare. Acesta a fost w în precedentul. Și o să scanezi asta de-a lungul întregului genom, trecând peste o bază pe rând și revenind pe firul opus. Și acesta va fi ScanACE. Deci, aveți comparații AlignACE cu ScanACE. Acum îl vom scana pentru a vedea specificitatea. Din nou, ai aceste 0,5. Poți să te gândești la acestea ca fiind pseudocontoare. Țineți zerourile afară. Nu doriți să aveți un logaritm de 0. Acum, să parcurgem acest lucru printr-un anumit set de date biologice. Acesta este un set de date despre ciclul celular care trece prin două cicluri, cicluri de diviziune celulară. Aici. Există puncte, 15 puncte de timp semnificative, de-a lungul axei orizontale. Și acesta este un cluster anume. Din 30 de grupuri diferite, acesta are un vârf chiar înainte de faza S, faza și ciclul celular în care încercați să obțineți replicarea celulei în faza S este locul în care sintetizați de fapt un nou set de ADN. molecule. Îl duplicați, așa cum am vorbit în prima prelegere. Și de fapt, din moment ce ați înregistrat o serie de timp prin două cicluri de diviziune celulară, vă așteptați să existe periodicitate. Sau genele care sunt dobândite în prima fază S, vă așteptați să fie dobândite în a doua fază S. Acesta este gândul care stau la baza proiectării acestui experiment este că veți sincroniza toate celulele. În mod normal, celulele sunt peste tot. Unele dintre ele sunt în S. Unele dintre ele sunt în M, care este locul în care se separă cromozomii de metafază. Dar în acest sens, le sincronizați pe toate printr-o metodă despre care vom vorbi într-un moment. Și apoi aceasta este acea diagramă în care avem numărul de abateri standard de la medie. Acesta este un semnal normalizat al expresiei ARN. Pe axa verticală și pe axa orizontală această serie de timp este descrisă categoric ca G1-- decalajul 1-- sinteză, decalajul 2-- metafaza-- mitoză și așa mai departe. Acum, ce învățăm din acest cluster anume? Acest cluster are 186 de gene în el. Asta înseamnă că ARN-urile pentru acele 186 de gene erau într-un plic frumos. Nu înseamnă că nu pot fi strict 185, 187. S-ar putea să fie niște valori aberante pe margini. Dar acesta este numărul pentru care vom face aceste calcule. Modalitățile în care o vom evalua este, în primul rând, dacă categoriile funcționale au sens. Există o îmbogățire pentru o anumită categorie funcțională? Poate că ați avut deja, acei biologi dintre voi, s- ar putea să fi avut deja o ipoteză despre ce categorii funcționale ar trebui să fie îmbogățite. Dacă va atinge vârful, dacă acestea sunt ARN-urile care vor atinge vârful chiar înainte de faza S, chiar înainte de a avea nevoie de ele pentru sinteza ADN-ului, poate că acestea pot codifica gene care sunt implicate - gene [? posibil?] implicat-- în sinteza ADN-ului. Desigur, cea mai frapantă observație este că în această bază de date, această bază de date MIPS de categorii funcționale, aveți 82 de gene care sunt descrise ca fiind implicate în sinteza ADN-ului. Și din acest cluster care sunt co-exprimați la vârf, la S, aveți o suprapunere de 23 cu acesta. Și s-ar putea să nu sune ca o suprapunere uriașă -- câteva -- dar este foarte semnificativă din punct de vedere statistic. Este de la 10 la -16 probabilitatea ca aceasta să se întâmple la întâmplare, din cele aproximativ 6.000 de gene [INAUDIBILE], că această suprapunere de 23 este foarte semnificativă. Deci asta e primul. Și vom arăta, într- un moment, cum am făcut acest calcul. Dar acesta este primul tău test. Există o îmbogățire de categorie funcțională. În continuare, găsiți motivele. Folosiți AlignACE. Tu treci prin. Găsiți motivul de sus. Este MCB. Te duci și găsești cel mai apropiat motiv al doilea cel mai înalt. Este SCB. Acestea nu sunt alese manual. Toate acestea se fac algoritmic. Singura intrare - nu există nicio intrare în literatură, cu excepția verificării acestor categorii funcționale - pentru găsirea motivelor, sunt doar datele microarray și secvența în amonte de genele care ies din acest cluster. Așa au fost găsite acestea. Acum, trebuie să aibă nume. MCB și SCB, le-am fi putut numi doar x și y. Dar aceste nume înseamnă că scorul CompareACE cu ceva care a fost în literatură este bun. Dar o realizare foarte profundă a acestui lucru este că acum, spre deosebire de literatura de specialitate, unde este destul de dificil să găsești legătura dintr-o concluzie, așa cum este probabil ca acest motiv să regleze această genă, este probabil să se îmbogățească în această clasă de gene - aici , este direct urmăribil. Puteți vedea logica care conectează acest motiv MCB la acest cluster prin algoritmul Gibbs. Și acest cluster poate fi urmărit până la profilele ARN de pe microarray. Acesta este un studiu foarte simplu, cuprinzător. Dar acum vrei să întrebi, este acest motiv... știm că are un scor MAP ridicat. Este foarte îmbogățit. Și este foarte puțin probabil ca un motiv atât de puternic să fi apărut în acest grup de gene de dimensiune. Dar ceea ce vrei să întrebi, este specific? Acesta este lucrul pe care l-am amânat de puțin timp. Este specific? Și dacă te uiți la cele 30 de grupuri atunci când grupezi întregul set de gene care variază în timpul ciclului celular în 30 de plicuri, acesta anume , plicul numărul 2, clusterul numărul 2, care este afișat în stânga sus, în jos în partea de jos. stânga, puteți vedea că toate motivele MCB, aproape toate, se găsesc în clusterul 2 când utilizați ScanACE și foarte puține dintre ele se găsesc în restul genomului - în mod similar pentru al doilea cel mai impresionant motiv de către Scoruri AlignACE MAP, SCB. Și este, de asemenea, specific pentru grupul 2. Faptul că vedeți această îmbogățire non-aleatoare pentru categoria funcțională, această îmbogățire non-aleatoare pentru un motiv, această specificitate non-aleatoare a acelui motiv și a unui al doilea motiv, oarecum vă spune că totul funcționează, că colecția ta de date ARN funcționează-- ceea ce, s-ar putea să cheltuiești o mulțime de bani pentru a ajunge în acest punct, ar trebui să fii mulțumit-- și gruparea funcționează, iar găsirea motivelor și scorurile de specificitate, toate asta functioneaza. Nu înseamnă că este perfect reglat și totul, dar îți oferă feedback că faci un pas în direcția corectă. În mod similar, poziția acestui motiv în promotor este non-aleatorie. Vedeți acest mic vârf care apare chiar înainte de... ar putea fi începutul transcripției sau al traducerii. În acest caz, ATG este începutul traducerii. Și nu este aleatoriu. Cum măsurăm fiecare dintre aceste lucruri? Cum obținem asta? Ei bine, înainte de a obține asta, vă voi da încă două exemple, același format, doar pentru a vă arăta că obțineți motive diferite când mergeți la grupuri diferite - încă două grupuri. Următorul este de asemenea periodic. Are un vârf acum ușor deplasat la dreapta față de funcția periodică anterioară. Și se repetă exact cu aceeași periodicitate ca și cum ar fi parte din aceeași funcție periodică, care este exact modul în care a fost conceput experimentul. Diferența dintre acesta și precedentul este acum, cele două motive de vârf nu sunt motive cunoscute anterior. Nu înseamnă că sunt mai rău. Dar sunt noi. Și modul în care evaluezi dacă sunt specifice este același mod pentru care am obținut specificul. Acum sunt în grupul 14, care este acest grup în partea stângă sus. Și ambele sunt la fel de specifice ca cele din slide-ul anterior. Categoria funcțională nu este la fel de impresionantă. Este 10 la minus 6 în loc de-- îmi pare rău, 10 la minus 4, nu 10 la minus 6, precedentul este 10 la minus 16. Acum, acest lucru este încă semnificativ statistic. Dar ar putea însemna că acest mod special de clasificare funcțională pe care o folosesc curatorii poate să nu fie ideal pentru acest mecanism de reglementare special , regulonul de reglementare. Deci aceasta poate fi o descoperire atât a unui nou set de reglementare, cât și a două noi motive. Dar pentru a stabili asta, ai avea nevoie de niște experimente pentru a, să zicem , să eliminați aceste motive și să vedeți care sunt consecințele. Acum, al treilea grup ilustrează încă un alt set de idei. Aici, chiar dacă experimentul a fost conceput special pentru a îmbogăți cea mai abundentă - sau îmi pare rău, pentru expresia genică cea mai periodică, au existat inevitabil caracteristici ale designului experimental care nu erau periodice. În special, când sincronizați celulele, le forțați pe toate să fie în sincronie pentru ciclul diviziunii celulare , ați făcut asta luând un mutant sensibil la temperatură în ciclul diviziunii celulare , să zicem CDC15 sau 28. Și acel mutant sensibil la temperatură , asta necesită să ridici temperatura pentru a opri funcția acelei gene prin desfășurarea proteinei. Și astfel aveți o schimbare de temperatură pentru a le permite să revină în ciclul celular. Deci treci de la temperatură ridicată la temperatură scăzută. Ăsta e un lucru. Și astfel că temperatura scade în esență rapid. Și apoi ai restul acelui stingere în timp. În plus, există toate efectele fiziologice. Toate aceste lucruri le așteptau într-o stare fiziologică amuzantă. Și apoi asta se deteriorează cu timpul. Deci nu este ciclic. Acea perturbare este o dezintegrare liniară. Și destul de sigur, găsiți exemple de clustere care nu sunt periodice. Acesta atinge vârfuri în al doilea ciclu celular, dar nu în punctul corespunzător al primului ciclu celular. Și, de fapt, cele mai multe dintre cele 30 de grupuri, când le împarți în 30-- întregul spațiu de expresie în 30-- sunt așa. Nu sunt periodice. Dar este in regula. Pentru că ceea ce cauți este gruparea, ca și cum acestea ar fi condiții diferite sau momente de timp diferite . Nu contează ce este. Pentru că sunt coexprimate, deci merg în sus și în jos împreună, eventual în timpul unor factori accidentali. Dar puteți aplica în continuare aceleași criterii pentru a întreba dacă sunteți impresionat de acest cluster sau nu. Are îmbogățire pentru o categorie funcțională în partea din stânga sus a lui 556? Și wow, chiar da. Acesta este cel mai impresionant dintre toate cele 30 de grupuri. Are o probabilitate de la 10 la minus 54 ca să găsiți acest grad de suprapunere între categoria funcțională - gândiți-vă la aceasta ca la o diagramă Venn a cercurilor suprapuse - suprapunerea dintre clasa proteinelor ribozomale și clasa acestui particular cluster, care nu este periodic, este uimitor de semnificativ. În plus, găsiți două motive. Primele două motive sunt foarte îmbogățite. Asta înseamnă sigla Snyder de conținut de informații și este foarte specific. Asta înseamnă linia de jos. Acesta este... este prezent în clusterul 1 și foarte puțin în oricare dintre celelalte clustere de către ScanACE folosind matricea motivelor. Deci acestea sunt trei grupuri, fiecare cu o poveste diferită. Primul era două motive cunoscute. Al doilea au fost două motive necunoscute și posibil o nouă categorie funcțională. Al treilea este o potrivire grozavă cu o categorie funcțională, unul cunoscut, un motiv necunoscut și totul neperiodic, chiar dacă designul experimental a fost periodic. Așa că acum am arătat că puteți cuantifica toate aceste lucruri care sunt adesea tratate în mod obișnuit în secțiunea de discuții a lucrărilor biologice. Aici, toate au fost tratate cantitativ. Dar cum facem asta? Care este algoritmul din spatele fiecăruia dintre aceste lucruri? Nu vom vorbi despre modul în care măsurăm periodicitatea. Dar vă puteți imagina că puteți măsura periodicitatea. Și avem. Ai putea cere specificitate. Cum am măsurat specificitatea și atribuțiile funcționale? Se pare că este aproape aceeași funcție statistică pe care o folosim pentru acele două lucruri -- sarcini funcționale, specificitatea grupului. Prejudecățile poziționale sunt altele. Și CompareACE îl putem folosi nu numai pentru căutarea motivelor anterioare, așa cum am făcut în algoritmul AlignACE însuși și când facem ceea ce vrem să căutăm prin baze de date de motive, putem, de asemenea, să arătăm că motivul arată simetrie în sine. Deci, așa facem fiecare dintre acestea. Avem de ales. Când întrebăm dacă intersecția a două subseturi ale tuturor genelor posibile - să spunem clusterul nostru și o categorie funcțională sau un cluster și toate cele mai bune rezultate cu ScanACE - dacă acestea se suprapun într- un mod semnificativ, ne putem gândi la asta. ca eşantionare dintr-o populaţie. Întrebarea este, eșantionăm cu înlocuire sau fără înlocuire? Este un lucru ușor de încurcat. Și vă îndemn să priviți înapoi la definițiile acestora offline. Dar acolo, de fapt, a făcut o greșeală în literatură de către un autor care ar fi trebuit să știe mai bine pentru că a înțeles bine prima dată și greșit a doua oară. Dar utilizarea corectă - și de fapt, în utilizare pe scară largă - este hipergeometria. Pentru că de fapt, aici, prelevăm probe fără înlocuire. Când faci asta, cele două mulțimi, cele două submulțimi ale mulțimii mari -- mulțimea mare este n și cele două submulțimi sunt s1 și s2 -- ai aceste combinatorice, această combinatorie simplă, unde ai s1 alege x unde x este intersecția dintre cele două mulțimi. Și acest lucru va fi mult mai clar în următorul diapozitiv, unde avem un fel de diagramă pentru a merge cu ea. Dar aceasta este șansa de a obține exact x. În următorul diapozitiv, vom arăta cum trebuie să luăm în considerare posibilitatea ca acesta să fie x sau mai mare. Acum, deci aceasta este diagrama. n este numărul total de gene în [? drojdie, ?] undeva peste 6.000. Și apoi subsetul 1 ar putea fi numărul de gene din cluster pe care le-ai scos din experimentul tău cu microarray. Și s2 este numărul de gene găsite în categoria funcțională. Aceasta este baza de date MIPS. Cât de surprinși suntem că am găsit x ca intersecție între cele două mulțimi? Ei bine, să presupunem că x era 1, iar cele două seturi erau aproximativ 100 fiecare. Nu e prea surprinzător, nu? Dar acea formulă hipergeometrică, dacă conectezi 1, e foarte surprinzător că ai luat exact una. Dar motivul este că ar fi putut fi mai mare decât... noi spunem că este semnificativ faptul că se suprapun atât de mult. Ei bine, dacă este 1, trebuie să luăm în considerare 1 sau mai mare. Pentru că, practic, spunem că ar putea fi 1 sau mai mare. Și deci ceea ce trebuie să faci este să faci o sumă de la 1 în sus. Și ceea ce veți găsi este că acest lucru este foarte probabil, deloc surprinzător. Pe de altă parte, dacă am avut o suprapunere foarte semnificativă cu aceste două, atunci ipoteza că acestea două sunt foarte legate -- cu alte cuvinte, că ai o îmbogățire, că clusterul tău este îmbogățit pentru această categorie funcțională, deoarece Am, să zicem, 100 în s1 și 100 în S2 și suprapunerea este 99, atunci ai fi fost surprins de 99 și ai fi fost surprins de 100. Dar atât 99 cât și 100 împreună sunt încă foarte rare. Și așa ești surprins. Și astfel, suma trebuie să plece din orice ai în sus. Și asta este. Și asta e ușor de uitat. Oamenii ar putea spune doar, oh, această intersecție este surprinzătoare. Deci trebuie să ai suma respectivă. Acum, voi trece de la diapozitivul 59 la 60. Și va fi relativ, grafic, o diferență foarte mică. Dar este un lucru radical diferit pe care îl facem. Acum facem scorul de specificitate a grupului. Acesta este motivul pe care l-ați găsit în grupul s1. Te-ai uitat prin s1. AlignACE a găsit motivul dvs. Acum vrei să întrebi dacă este specific sau nu. Deci cauți prin întregul genom și alegi primele 100 de potriviri. Și acestea sunt în amonte de genele din s2, subsetul 2. Dacă există o suprapunere uriașă a s1 și s2, vom numi x, atunci veți fi surprinși. Și din nou, luați suma peste această distribuție hipergeometrică. Și dacă acesta este un număr mic, o probabilitate mică, atunci aceasta este o măsură a cât de surprins ești. Deci, dacă este 10 la minus 6, atunci ești foarte surprins. Acum, acelea erau hipergeometrice. Dar părtinirea pozițională acum, este binomială. Și ar trebui să vă puteți aminti că binomul este acest termen combinatoric în care t este numărul total de site-uri și i este suma de care sunteți surprins. Deci m este numărul de site-uri care se află în fereastra cea mai îmbogățită. Acum, puteți lua o fereastră de orice dimensiune doriți. Dacă îl faceți prea mic, veți obține statistici de eșantionare. Dacă îl faceți prea mare, va include întreaga regiune fără codificare de 600 de perechi de bază. Deci poți încerca o grămadă de... poți încerca ferestre diferite. Dar, practic, ceea ce cauți este cât de surprins ești că ai mai multe site-uri în acea fereastră. Dacă ești surprins de 10 site-uri, atunci ai fi și mai surprins de mai mult de 10. Așa că trebuie să iei suma. Deci este o sumă la fel ca cele hipergeometrice anterioare. Dar acum a trecut peste un binom. Și amintiți-vă, binomul este acest termen combinatoriu, o probabilitate pentru puterea i și 1 minus acea probabilitate pentru puterea totală minus i. Deci asta ar trebui să fie foarte recunoscut. Aceasta este șansa de a avea o îmbogățire într-o anumită parte a promotorului. Acum, dacă putem compara motivele -- am menționat deja acest lucru -- îl folosim în algoritmul AlignACE în sine pentru a ne reduce pierderile atunci când începem să găsim din nou același motiv. Îl folosim pentru a afla dacă au existat motive similare. Și prin experiență și seturi de antrenament-- și puteți descoperi că, la fel ca un coeficient de corelație, scorul CompareACE, pe măsură ce se apropie de 1, este din ce în ce mai credibil. Și aproximativ 0,7 este locul în care obțineți potriviri semnificative statistic cu alte motive. Și iată un exemplu în care puteți trata de fapt distanțele față de alte motive, atât de asemănătoare cu alte motive, unde 1 este perfect similar. Pe măsură ce treceți de-a lungul diagonalei, orice motiv este similar cu el însuși, prin definiție. Și puteți construi o mică matrice de asemănări de motive. Și apoi puteți face gruparea ierarhică a motivelor. Și puteți, dacă a și b sunt suficient de apropiați unul de celălalt, atunci ați putea considera că sunt același motiv sau sunt factori de transcripție în care factorul de transcripție care se leagă de acel motiv ADN poate fi legat de nivelul secvenței proteinei. Acestea sunt predicții pe care le puteți face din acest tip de grupare bazată pe compararea matricelor de greutate. Acum, dacă compari un motiv cu el însuși, ce înseamnă asta? Dacă îl comparați cu el însuși în întregime, în aceeași orientare -- asta este cel precedent -- veți obține un scor comparativ de 1. Cu toate acestea, dacă îl întoarceți -- amintiți-vă că ADN-ul este dublu catenar, spre deosebire de proteine-- când îl răsuciți și comparați matricele de greutate, acum vă întrebați dacă are simetrie dublă. Și aceasta este o altă legătură foarte profundă, cred, între matricele de pondere, care sunt un fel de rezumat al unei alinieri a multor secvențe cu semnificație evolutivă sau, în acest caz, semnificație regulatorie. Dar este o matrice de greutate a secvenței aliniate. Aceasta este de fapt direct legată, legată conceptual, de un gând foarte diferit , și anume că structura tridimensională a interacțiunii proteină-acid nucleic are o oarecare simetrie în ea. Dacă aveți un dimer proteic sau un domeniu proteic care este duplicat, dacă aveți o simetrie celulară față de un complement invers al unui motiv, înseamnă că, în structură tridimensională, cele două motive proteice sunt legate printr-o simetrie a diadei. Asta înseamnă o axă dublă în care rotiți 180 de grade în trei dimensiuni. Pe de altă parte, dacă elementul, dacă jumătățile elementului sau treimi ale elementului sunt legate printr-o translație directă în spațiul motiv, în alinierea multisecvență, atunci asta înseamnă că aveți o repetare directă a interacțiunilor ADN-proteină. unde translația și rotația elicoidală a axei se reflectă în ADN-ul proteic. Deci, oricum, există o legătură între matricele de motive și structurile tridimensionale. Și iată cum se joacă atunci când faci un CompareACE unde mergi de fapt și compari, coloană cu coloană, matricele de greutate ale motivului 1 cu el însuși în complement invers. Și puteți vedea că aceste trei PRR-uri sunt în [INAUDIBLE] luate din genomi bacterieni sunt foarte semnificative atunci când îl comparați cu complementul său invers. Asta înseamnă că, foarte probabil, există un dimer proteic sau poate un heterodimer înrudit strâns secvențial care leagă o simetrie de 180 de grade. Pe de altă parte, aici, când comparați CPXR cu el însuși completat invers, un scor AlignACE foarte slab. Înseamnă că nu are această simetrie a diadelor. Cu toate acestea, dacă ați lua cele două jumătăți și le-ați compara -- nu vă arăt -- dar fără îndoială ați obține un AlignACE foarte puternic -- un scor CompareACE între cele două jumătăți, indicând o repetare directă în spațiul secvenței și sortarea a unei repetări elicoidale în spațiul structurii tridimensionale . Cred că aceasta este o legătură foarte puternică între acestea două. Și asta, desigur, poate fi cuantificat. Acum vrem să spunem, în culise , tot timpul, a trebuit să ai o oarecare încredere în ceea ce înseamnă scorurile AlignACE. Și faci asta făcând un set de testare. Un test care trebuie să fie compus din controale negative și controale pozitive și un set foarte mare de categorii funcționale din care am arătat câteva exemple în contextul controalelor negative, controale pozitive. Deci, controalele negative pot fi gene selectate aleatoriu. Și doriți să încercați diferite dimensiuni de cluster pentru a vedea efectul dimensiunii clusterului asupra întregului algoritm. S- ar putea să poți prezice acest lucru complet teoretic. Dar este foarte îmbucurător, indiferent dacă poți sau nu, să-l rulezi prin exact același algoritm, același software, cu seturi alese aleatoriu. Acum, asta este foarte scump. Pentru că puteți genera - trebuie să generați - mult mai multe seturi selectate aleatoriu decât seturile de testare reale. Și apoi, pentru controale pozitive, există de fapt relativ puține dintre acestea. Acestea sunt cazuri în care aveți factori de transcripție cu adevărat bine definiți , care trebuie să aibă și faptul că au cinci sau mai multe site-uri cunoscute. Deoarece trebuie să aveți cinci sau mai multe site-uri pentru ca AlignACE să înțeleagă problema și să producă o aliniere frumoasă cu mai multe secvențe. OK, deci haideți să trecem prin, mai întâi, rezultatele categoriilor funcționale-- 248 de categorii funcționale-- din aceste baze de date diferite și apoi să trecem prin controalele negative și pozitive. Așadar, iată câțiva dintre prietenii pe care se întâmplă să-i găsim -- acum, totul se face din categorii funcționale. Acest lucru nu a fost făcut din microarray. Dar iată câțiva dintre prietenii pe care i-am găsit în aceste date de microarray ciclului celular. RAF1 a fost cel ribozomal. GCN4 pe care l-am mai văzut. Și MCB era cel care era în faza S. Și puteți vedea că acestea au fost clasate. Și amintiți-vă, astfel încât să le puteți clasifica prin trei metode diferite - după scorul MAP, care este puțin probabil să găsiți acest motiv bun de conținut de informații în setul de învățare. Nu vă spune despre specificitate. Aceasta este următoarea coloană din dreapta. Există MAP, scorul de specificitate, ceea ce înseamnă că este prezent în acea categorie funcțională și nu în multe alte părți ale genomului și apoi poziționați botul. Și amintiți-vă, asta a fost făcut prin intersectarea diagramei Venn hipergeometrice. Și apoi părtinirea pozițională-- acesta a fost binomul-- este cât de poziționat non-aleatoriu este în promotori? Și astfel, acest lucru este clasificat în funcție de specificitate. Și puteți vedea că RAF1 este foarte specific acelei categorii funcționale. Acum să le clasificăm după părtinire pozițională. Și ai o poveste foarte diferită. Cei care au fost în partea de sus a celui precedent sunt în afara graficului aici. MCB abia ajunge la numărul 14. Și acest logo al secvenței bogate în A , care ați putea crede că este ceva care este peste tot și, de fapt, este. Are un scor de specificitate destul de slab. Are un scor MAP ridicat. Prejudecățile sale poziționale sunt astronomice. Se găsește într-un anumit loc în mulți promotori de-a lungul genomului. Deci, acesta este o modalitate prin care cuantificați fiecare dintre aceste trei lucruri, caracterul non-aleatoriu dintr-un set de învățare, specificul pentru acel set și părtinirea pozițională în cadrul promotorilor, în general. Deci, care sunt controalele negative aici? Clustere de dimensiuni de 20, 40, 60, 80, 100 de cadre de citire deschise, adică gene pentru care ați putea avea categorii funcționale. Și acest lucru vă permite să calibrați ratele fals pozitive. Și ceea ce faci este că cauți... am putea folosi orice criteriu aici. Am spus că un scor MAP poate fi, în medie, 0 dacă este aleatoriu. Dar dacă urcăm peste 10, vom obține un scor de specificitate de îmbogățire mai mare de 10 la minus 5 sau mai mic, adică -- și apoi aplicăm aceste două criterii categoriilor funcționale și controalelor aleatoare. Iar categoriile funcționale sunt mult mai mari decât controalele aleatorii. Și astfel putem spune că aproximativ jumătate din rundele din categoria funcțională sunt probabil motive reale. Dintre acestea, aproximativ jumătate dintre acestea sunt cunoscute. Și, deci, restul sunt probabil noi motive descoperite și noi reglementări descoperite - gene de reglementare conectate. Acum, se spune că controalele pozitive sunt mai greu de obținut. Există 29 de factori de transcripție. Acestea sunt incomplet curatate. Unul dintre avantajele care va veni din această analiză sistematică a datelor de microarray și a categoriilor funcționale va fi o mulțime de noi controale pozitive. Dar până nu le obținem, nu le putem folosi. Deci asta este ceea ce se poate folosi chiar acum. Și în 21 din 29 de cazuri, un motiv adecvat, adică trebuie să rulați din nou AlignACE pentru că nu puteți folosi cu adevărat matricele de greutate din literatură. Au fost obținute prin metode ușor diferite. Dar le puteți folosi pentru a activa AlignACE. Este un lucru banal ca AlignACE să obțină acum o matrice de greutate. Și apoi îl compari cu matricele de greutate care ies din teste. Și 21 și 29 funcționează. Și dintre cei opt -- diferența dintre acestea două este de opt -- și dintre cei opt, cinci erau de fapt o categorie funcțională adecvată . Deci, în funcție de modul în care interpretați aceste două fapte, puteți spune că rata fals negative este de 10% până la 30% -- nu grozav, dar nici setul de control pozitiv și nici algoritmul nu sunt perfecte aici. Acum, unde mergem de aici? Trebuie să generalizăm și să reducem ipotezele, astfel încât să putem descoperi lucruri noi. Deci, de exemplu, una dintre presupunerile pe care le-am făcut este că motivele acționează izolat. Am descoperit motive pe rând. Îl vom găsi pe cel mai bun. Îl vom elimina de pe lista noastră sau le vom filtra pe cele ulterioare. Vom găsi tot restul. Dar ceea ce poate fi cu adevărat semnificativ din punct de vedere statistic, și ne putem lipsi uitându-ne pe rând, sunt interacțiunile cu motive. Și [INAUDIBLE] și colegii de muncă au urmărit asta cu răzbunare. Și cred că aceasta este o direcție foarte interesantă în care poate merge proteinele - cum două sau trei sau mai multe motive pot interacționa pentru a produce coreglarea. Apoi avem aceste motive ADN care ies din aceste date de microarray. Dar ce se leagă de el? Cum găsim această legătură? Ei bine, o modalitate dintre multe este reticulare in vivo. Există, de asemenea, așa-numiții acizi uni-hibrizi și așa mai departe. Dar gândește-te la asta conceptual. Pe măsură ce îl prinzi în flagrant, îl apuci. Și apoi faci proteomică pentru a găsi ce proteine ​​sunt conectate la ce acizi nucleici. Și direcția finală este că am spus că diferitele coloane din matricele de greutate sunt independente. Și am văzut deja mai multe exemple în trecut - de fapt, le subliniez intenționat - în care coloanele nu sunt independente în structura secundară a ARN, în CpG și așa mai departe. Și există unele dovezi din această lucrare că interdependența dintre coloane ar putea fi ceva ce puteți pune la îndoială. Deci, în rezumat, am vorbit în principal despre clustering și apoi despre unde mergeți pentru a verifica dacă clusterele dumneavoastră sunt semnificative din punct de vedere biologic, dacă ați făcut descoperiri și cunoașteți limitele descoperirilor voastre. Care sunt ratele fals pozitive și fals negative? Cum măsori specificul motivelor tale? Cum măsori îmbogățirea funcțională, lucruri care sunt casual în literatura clasică? Așa că aștept cu nerăbdare să ne vedem săptămâna viitoare. Mulțumesc.