Următorul conținut este furnizat de MIT OpenCourseWare sub o licență Creative Commons. Informații suplimentare despre licența noastră și despre MIT OpenCourseWare în general sunt disponibile la ocw.mit.edu. PROFESOR: OK, bine ați venit la ARN 2, care desigur începe cu o prezentare generală a ARN 1 în care am vorbit despre structura secundară și terțiară a ARN și despre cum se integrează programarea dinamică în acei algoritmi. Și apoi acest lucru este important în modul în care procedăm la măsurători și afectează anumite simțuri tehnice. Și la nivel de interpretare, afectează modul în care ne gândim la cuantificarea RNAm, care a fost subiectul principal data trecută. Și astăzi, după ce avem datele analizate astfel încât să avem cuantificarea ARN-ului și erorile sistematice aleatorii au stabilit o idee despre consecințele interpretării și poate date din seria temporală, întrebarea este, ce facem în continuare? Ceea ce facem în continuare sunt practic două lucruri. Cel putin pentru subiectul de azi. Ne grupăm, întrebăm ce produse de expresie genică , indiferent dacă sunt ARN sau proteine, merg în sus și în jos împreună. Și dacă urcă și coboară împreună într-o varietate de condiții sau momente de timp în diferite condiții, atunci vrem să știm de ce. Care este mecanismul prin care merg în sus și în jos? Și către ce scop comun sunt direcționate aceste produse genetice? Cu alte cuvinte, două motive diferite. De ce mecanic. Și de ce în ceea ce privește modul în care pot ajuta întregul sistem. Deci, pentru a ne ocupa de clustering, vom intra în destul de multe detalii despre opțiunile pe care le avem pentru a face clustering. Și veți vedea că sunt un număr destul de mare de combinații. Vom trece prin distanța măsurilor de similitudine, de la gruparea și clasificarea ierarhică la non-ierarhică. Acum, acesta este un fel de foaie de parcurs - o privire de ansamblu asupra tuturor diferitelor decizii pe care trebuie să le luăm pentru a stabili gruparea expresiei genelor . Mergând de la stânga la dreapta, avem opțiuni de normalizare a datelor, avem valori de distanță din care să alegeți. Metode de legare, când legăm două clustere împreună sau două tipuri de ARN împreună, ce metode folosim. Și, în cele din urmă, metoda de grupare în sine în partea dreaptă extremă a diapozitivului trei. Și apoi, lucrând înapoi de la metoda de grupare, aveți două obiective de bază, vă puteți gândi. De obicei, când ne gândim la clustering, vorbim în principal despre metode nesupravegheate. Adică, unde lăsăm cu adevărat datele să ne spună ce au de spus, ce produse de expresie genetică merg împreună. Într-o posibilă alternativă sau [INAUDIBILĂ] la asta ar fi să întrebăm, putem folosi acele descoperiri într-un sens pentru a supraveghea clasificarea? Deci, în loc să descoperim ce produse genetice merg în sus și în jos împreună, întrebați-i pe cei care merg în sus și în jos împreună să folosească-- pentru a ne permite să clasificăm diferitele condiții din care a fost constatată expresia genei. Deci clasificate ca stări patologice, stări infecțioase, stări de cancer și așa mai departe. Așa că acum vom lucra înapoi de la metodele de grupare nesupravegheată și apoi vom trece la metricile distanței și legăturile. Deci, practic, lucrăm de la dreapta la stânga pe această diagramă. În primul rând, cu o privire de ansamblu asupra obiectivelor unor astfel de metode de clasificare cuantitativă, aceasta a fost într-o prelegere anterioară. Dar, practic, putem începe cu datele ARN pe care le-am redus la un tabel în prelegerea anterioară. Vă puteți gândi la el ca un tabel de expresii ARN de-a lungul axei verticale și diferite condiții de-a lungul axei orizontale, unde putem avea o schimbare completă, să spunem rapoarte sau niveluri absolute. Și putem face fie grupare, fie clasificare. Și când ajungem la grupare și descoperire, unul dintre lucrurile pe care le putem face este să folosim motive pentru a ajunge la cauzalitatea directă. Acestea sunt doar câteva cuvinte la modă pe care le veți găsi în această prelegere și setul de probleme și în exterior. Doar exemple ale celor două tipuri de obiective ale analizei expresiei genelor sau chiar mai multe colecții generale de date cantitative. Patru exemple -- patru exemple de grupare nesupravegheată, grupare k-means, hărți de auto-organizare, descompunere cu o singură valoare, analiză cluster [INAUDIBILĂ]. S- ar putea să le fi auzit în diverse contexte. Îmi adun pe toți aici în această categorie. Și vom aprofunda în special în k-means ca un exemplu. Am putea aprofunda în oricare dintre ele, dar trebuie să obținem o oarecare profunzime. Și apoi doar pentru referință, iată câteva exemple de învățare supravegheată dacă urma să intrați în clasificare. Iată câteva exemple de încercări timpurii de grupare. Acestea sunt deosebit de interesante de privit deoarece au fost timpurii și foarte puțină literatură anterioară. Au avut tendința să arunce o privire proaspătă, mai proaspătă decât ați putea vedea în cele mai recente ziare. Mai puține ipoteze și, prin urmare, mai multă expunere despre unde simt că gruparea provine din alte domenii și este aplicabilă acestui domeniu. Principala dihotomie pe care o subliniez aici este cea a grupării după genă. Adică prin ARN sau produs genetic sau proteină ARN. Sau puteți grupa după tipul de celulă de condiție sau chiar cursul de timp. Deci vă puteți gândi la asta ca... după genă ca această axă verticală, cel puțin în formatele în care o vor avea majoritatea articolelor și această prelegere . Și apoi, după condiție, va fi axa voastră orizontală. Sau puteți face prin grupare, care este gruparea de ambele. Și apoi aici este un exemplu de una dintre multele surse de software liber pe care le puteți consulta, atât pentru analiza microarray, cât și pentru clustering. Scopul general al acesteia este de a împărți mostrele în grupuri destul de omogene. În mod clar, din cauza variației biologice care pot fi semnificative sau aleatorii, acestea nu vor fi perfect omogene. Când vom găsi genele coreglate, dar unele dintre metodele despre care am vorbit în clasele anterioare, vom dori să știm care sunt complexele proteice care reglează mecanic și funcțiile din aval ale acestora. Din nou, dihotomia majoră dintre învățarea nesupravegheată este dacă faci ierarhic sau non-ierarhic. Vom arăta un exemplu pentru fiecare. De obicei, ierarhicul este reprezentat de un arbore foarte asemănător cu arborii pe care îi avem pentru asemănarea secvenței și pentru pedigree, filogenie și așa mai departe. Acestea sunt practic ramurile terminale ale copacului sau frunzele copacului sunt speciile individuale de ARN care reprezintă un vector de cuantificare diferită a ARN. Cu cele non-ierarhice, vei avea tendința să fi reprezentat - acestea sunt reprezentări vizuale, precum și algoritmi de bază. Ele vor fi reprezentate mai mult ca un plic multidimensional, de exemplu, o sferă sau o elipsă care încearcă să cuprindă un set de valori legate de expresia genelor. Acum vom folosi diagrame ca aceasta, în principal cele două din partea stângă a diapozitivului nouă, unde veți avea grupuri circulare sau sferice destul de strânse în care este destul de evident modul în care sunt conectate. Sau puteți avea mai multe grupuri alungite sau mai penetrante interioare . Și cum ne descurcăm cu acestea? Termenii cheie pe care vom încerca să îi definim sunt de fapt foarte asemănători cu cei despre care am vorbit înainte. Aveam fie distanță de similitudine. Acestea sunt în reversul aceleiași monede. Cu cât distanța este mai mare, cu atât mai puțină asemănare. Dendrogramele sunt același tip de copaci pe care i-am văzut înainte. Acum, cel mai general mod de a discuta despre măsurarea distanței este metrica Minkowski. Acesta este de fapt un set de valori. Și despre ce vom vorbi aici sunt două obiecte care sunt într-adevăr două-- în scopul discuției, două ARN-uri. Numiți-le RNAx și RNAy, geneX și geneY, au caracteristici cheie. Înseamnă că aveți P condiții diferite, P puncte de timp. Le vei numi uneori dimensiuni. Și astfel, aceasta înseamnă că expresia genică a lui x în condițiile de la unu la P este comparată și cu expresia genică a lui y în acele diferite condiții. Vă puteți gândi la aceștia ca fiind vectori cu P intrări în ei. Și astfel distanța va fi o rădăcină R-a a unei sume la puterea R. Și vom trece prin trei exemple diferite în acest sens. Și cred că veți-- sperăm că, până când vom parcurge acest lucru, veți vedea avantajele acestei forme generale și specifice. Deci, cele trei exemple vor avea R egal cu 2, 1 și infinit pe diapozitivul 12. Acestea sunt cele mai comune valori. Și ar trebui să le vezi ca fiind destul de familiare. Când R este egal cu 2 în acea formulă, acum aveți rădăcina pătrată a sumei pătratelor. Și acest lucru ar trebui să vă reamintească de reprezentarea dvs. carteziană simplă a distanței dintre două puncte pe hârtie milimetrică unde puteți lua orice diagonală, cea mai scurtă cale. Pe de altă parte, dacă navighezi pe străzile din Manhattan, vei avea tendința să nu iei diagonale prin zidurile de piatră. Veți avea tendința de a respecta blocurile și poate fi necesar să mergeți trei blocuri în acest sens și patru blocuri în acest sens, mai degrabă decât rădăcini pătrate. Și apoi, în sfârșit, ultima este distanța maximă pe care s- ar putea să o parcurgeți într- o anumită direcție. Deci, puteți crede că, dacă luați rădăcina R-a a sumei diferențelor dintre aceste două măsuri, x și y-- măsurile celor doi ARN-uri în aceeași condiție-- că, pe măsură ce R merge la infinit, veți așteptați cea mai mare diferență de distanță de-a lungul tuturor axelor diferite. Și apoi vei duce R-ul până la asta. Și atunci va fi practic valoarea absolută a acelei diferențe. Și așa sunt cele trei măsuri. Dar să vedem câteva exemple concrete. Aici avem două puncte. Deci ai... acesta este cel mai simplu caz posibil. Două ARN în două condiții diferite. Și să spunem pe această scară arbitrară, distanța dintre y și x de-a lungul dimensiunilor orizontale, adică condiția orizontală, este de patru și condiția verticală este de trei. Asta e diferența dintre ei. Și acolo unde este absolut relativă, originea nu contează în niciuna dintre aceste trei metrici. Diagonala - distanța directă sau distanța euclidiană va fi rădăcina pătrată a lui 4 pătrat plus 3 pătrat, care va fi 5. Și distanța Manhattan, nu puteți lua asta - nu puteți merge așa cioara zboară. Trebuie să mergi cu patru blocuri la stânga și trei blocuri în sus. Și sunt șapte. Și apoi maximul dintre cele două măsuri, dacă vă gândiți la acestea la fel de multe măsuri diferite, cea mai mare distanță într- o anumită direcție ar fi patru. Acum, iată un exemplu în care distanța Manhattan se numește distanța Hamming când toate caracteristicile sunt binare. Și de ce este asta interesant? Am menționat, cred, în prima prelegere că mulți biologi și oameni de știință în general, atunci când au ocazia, vor clasifica lucrurile ca fiind activate și oprite chiar și atunci când există o anumită natură cantitativă subiacentă . Tranzistorul poate fi pornit sau oprit pentru toate scopurile. Și un circuit de genă sau o expresie a unei gene anume poate fi considerat dezactivat sau activat, 0 sau 1. Și așa că acum, dacă aveți 17 niveluri diferite de expresie genică , acesta poate fi considerat un șir binar de 17 cifre. Și cele două gene, A și B, aici pot fi comparate. Dacă vorbiți mai degrabă despre distanță decât despre asemănare, de fiecare dată când există un conflict de 01 sau 10, atunci adăugați asta la sumă și aveți un total de cinci dintre aceste cazuri în care există o diferență. Deci, distanța Hamming este de cinci în acest caz. Deci, puteți vedea că acest lucru are o oarecare atractie intuitivă dacă veți face această biologie a sistemului boolean. Iată încă una. Aceasta este o a patra măsură a asemănării sau distanței aici. Și am mai adus-o în discuție. Coeficientul de corelație. Aceasta este o modalitate de a compara acest vector de niveluri de expresie a ARN x sub i cu y. Deci, acum, în loc să luăm diferența dintre x și y, sub i, ceea ce făceam cu metricile Minkowski, luăm produsul celor doi. Dar dacă x și y sunt la o scară arbitrară, atunci nu vom avea cu adevărat o modalitate de a compara un experiment cu altul. Acesta este un exemplu de normalizare. Vom folosi normalizarea în câteva moduri diferite în această clasă. Dar toate sunt legate în sensul că doriți să le puneți la o scară care să fie recunoscută universal. De obicei, de la 0 la 1 sau de la -1 la 1. În acest caz, de la -1 la 1. Și, deci, ceea ce faceți este pentru a ajunge în același centru, scădeți mediile atât din x, cât și din y. Așadar, acum centroidul este la 0 în loc de la bara x, care este doar definita mediei, ca de obicei. Și apoi pentru a obține scara aceeași sau pe o scară la care se face referire în mod obișnuit, împărțiți la produsul lor din pătrate. Deci rezultatul acestui lucru, așa cum am discutat anterior despre coeficientul de corelație, este că coeficientul de corelație variază între minus 1 și 1. Dacă este 1 pe slide 16, înseamnă că sunt perfect corelate. Ceea ce, desigur, este rar, dar suportați-ne. Dacă produsele genetice urcă și coboară perfect în toate condițiile și în toate momentele de timp la care te uiți , atunci vor obține un coeficient de corelație liniară de 1. Dacă sunt perfect corelate negativ, atunci vor crește și în jos exact defazat sau exact când unul este la acest maxim, celălalt va fi la minim. Și dacă nu există o corelație liniară, atunci va fi un coeficient de corelație liniară de zero. Acum pot exista tot felul de relații neliniare complicate . Adică, ele ar putea fi foarte, foarte codependente, să zicem, pătratice și încă au un zero pentru coeficientul lor de corelație liniară. Deci exercițiu pentru cititor. Care dintre acestea este 1 minus 1 și 0? Vom începe cu cel din stânga sus. Este 1? Minus 1. Bine. Si acesta? 1 corect. Și zero. Grozav. Și veți vedea că acelea nu au fost normalizate pentru că coeficientul de corelație va face normalizarea pentru noi. Peste un moment, ne vom ocupa de... ne vom întoarce la distanțele euclidiene, dar mai întâi vom face o normalizare. Acum, iată un exemplu de dendrograme de grupare ierarhică - tocmai sa întâmplat să fie făcut pentru tumori și țesuturi normale. Și puteți vedea că tumorile desemnate de T tind să se agrupeze împreună, iar țesuturile normale din partea dreaptă a diapozitivei 18 tind să se grupeze împreună. Dar nu este perfect. Există o oarecare întrepătrundere. Puteți vedea că aceasta ar fi o problemă de clasificare provocatoare . Modul în care a fost derivat acel arbore ierarhic este să începi prin a spune, fiecare obiect -- genă -- și vei măsura expresia genelor, care de obicei este ARN sau proteină. Și vei numi fiecare ARN individual un grup. Este un grup de unul. Este un grup trivial. Și apoi, pe măsură ce vă uitați prin fiecare pas din gruparea ierarhică, foarte similar cu unii dintre algoritmii lacomi pe care îi folosim pentru alinierea secvenței, luați cele mai apropiate două grupuri, chiar dacă sunt un grup de unul și le veți îmbina. Și acum îl numesc noul cluster. Acum este un grup de doi și așa mai departe și așa mai departe. Până în cele din urmă, totul este într-un grup și ai păstrat o serie de tot ce este cel mai aproape de cine . Și asta produce un copac. Acum, pentru a genera acel arbore, aveți alte patru metode de grupare. Aveți posibilitatea de a alege metrica distanței, modul de a pune împreună distanțele pe care le-ați măsurat. Deci distanța pe care am măsurat-o poate fi ceva Minkowski sau coeficient de corelație. Dar le puteți pune împreună fie concentrându-vă pe cel mai apropiat vecin al grupului, fie pe cel mai îndepărtat vecin. Acesta este linkul unic pentru această lungime completă. Și vom vorbi despre asta. Și apoi celelalte metode despre care nu vom vorbi sunt centroide, dacă vă puteți gândi la centrul de masă pentru cluster pe măsură ce acesta apare. Și media, adică doar media tuturor perechilor de clustere încrucișate. Dacă ai două grupuri și faci totul în perechi. Deci, să facem linkul unic versus linkul complet. În primul rând, linkul unic din diapozitivul 21. Și vom folosi exact aceeași matrice de distanță pentru ambele exemple. Deci nu trebuie să schimbați prea mult viteza. Principalul lucru este că singurul lucru pe care îl vom schimba este între simplu și [INAUDIBIL].. Și aici folosim distanța euclidiană, care este suma pătratului rădăcină pătrată. Și aici puteți vedea că AB sunt cele mai apropiate două, iar A și B sunt cele mai îndepărtate. Și astfel distanța euclidiană pentru AB este 2 și AB este 6, de exemplu. Și astfel, în metoda cu o singură lungime, aceasta începe odată ce începeți să prăbușiți prima legătură. Deci faci legătura dintre A și B, asta este evident pentru că este cea mai scurtă distanță. Dar modul în care îl restrângeți depinde de - cum îl comparați cu alte puncte este despre ce este vorba despre metoda legăturii unice. Așa că acum AB va fi tratat ca o unitate-- un cluster. Și veți întreba, cât de departe este AB de C? Ei bine, deoarece aceasta este o singură legătură, ești interesat de cea mai apropiată distanță și aceasta este BC. Și BC, din prima matrice din stânga a fost trei. Deci completați pentru AB la C la trei. Și, în mod similar, D este punctul cel mai apropiat. De la AB la D este cinci. Este diagonala de la B la D și așa mai departe. Și așa ai pierdut rândul de sus, și sunt trei și cinci. Și acum, când le compari , următoarea legătură pe care o vei face va fi cea mai mică din întregul tabel, adică trei. Și se întâmplă că clusterul AB este cel mai apropiat de C. Și, deci, acesta va fi următorul link pe care îl faceți. Și apoi restul jocului s-a terminat. Doar că clusterul ABC este aproape de D. Așa că vă puteți imagina deja în minte cum va arăta acel copac . A și B se apropie cel mai mult, apoi aduci C. Și apoi aduci în sfârșit D. Și s- ar putea să te gândești în acest moment, că este singura modalitate de a face asta. Dar versiunea de lungime completă a acesteia este exact aceeași matrice. Începi în același loc. AB este încă cel mai apropiat, așa că acesta este cel pe care îl veți lega mai întâi. Dar modul în care obții acest punct în timp ce faci această legătură este puțin diferit acum. Pentru că acum ești îngrijorat de toate distanțele de la clusterul AB până, de exemplu, C. Acum B este aproape, dar A este departe. Și ne interesează și acea distanță mai mare. Și astfel întregul grup de AB obține distanța de la A la C, cea mai lungă distanță, cinci. Și astfel cinci merge în acea poziție. Și șase merge atâta timp cât acesta este de la AB la D, care din nou, este de la A la D. Și așa că acum aveți o complet diferită - doar comutați înainte și înapoi între diapozitivele 22 și, 21 și puteți vedea că a trecut de la trei , cinci, patru la cinci, șase patru. Deci, acum, când faci următoarea legătură, prima legătură este evidentă în ambele cazuri, AB. Următoarea legătură este acum CD, deoarece cea mai mică din acea matrice două câte două este patru. Și asta se întâmplă între C și D. Și acum C și D sunt următoarea verigă. Și acum jocul s-a terminat. Conectați CD-ul și AB și legătura este -- așa că acum puteți vedea că veți obține doi arbori foarte diferiți din metoda legăturii unice din partea stângă a diapozitivului 23, AB aduce C și, în sfârșit, D. În timp ce link complet, aveți AB și CD ca două perechi separate și apoi vin împreună. Acum, acesta este cel mai simplu exemplu posibil cu care aș fi putut veni. Dar cred că, în combinație cu următoarele două diapozitive, va arăta importanța metodei de grupare pe care o utilizați. Aici metoda de legătură, o parte din ea. Din nou, concentrați-vă pe partea stângă a unde aveți grupuri circulare sferice mai compacte sau mai alungite. Vom lua trei exemple aici. Sferic, alungit, ceva la mijloc. Un singur link în mijlocul diapozitivului 25. Și apoi link complet în partea dreaptă. Într-o singură lungime, Acum, puteți vedea de ce se numesc link unic și link complet. Acesta este un mod diferit de a le vizualiza. Aici, lungimea unică face o treabă grozavă pentru grupurile de sus și de jos - formele circulare și liniare. Dar când începi să obții ceva care este undeva la mijloc, obții această legătură unică ciudată care, cel puțin pentru ochiul meu, conectează cele două grupuri de-a lungul inferioarei aici și apoi lasă acest grup mic ca al doilea grup. Pe de altă parte, linkul complet, în care măsori toate distanțele dintre clusterele anterioare și noile clustere pe care le vei adăuga, merge bine pe cel de sus. Și cel din mijloc, dar face acest lucru ciudat cu ciorchinii alungiți, unde este nevoie de un grup mic care pare, ochiului meu, să includă lucruri care nu sunt atât de legate. Deci linkul unic se descurcă bine în partea de sus și de jos, iar linkul complet se descurcă bine în partea de sus și din mijloc. Și astfel puteți vedea că, în funcție de cum credeți că vor arăta datele dvs., dacă vor arăta grupuri strâns distanțate, dar compacte, care ar putea avea o singură lungime și mai alungite, dar separate de distanță, atunci s- ar putea să doriți o legătură. Așadar, unde suntem în această foaie de parcurs generală din diapozitivul 26? Ne-am mutat de la dreapta unde am trecut de la metodele de grupare, supravegheate, nesupravegheate, ierarhice, non-ierarhice. Am trecut prin valorile de distanță și valorile de conectare. Acum să vedem cum funcționează cu o anumită metodă non-ierarhică. Ne-am concentrat pe ierarhic. Acum vom merge la k-means non-ierarhici și vom aduce probleme de normalizare a datelor. În acest caz, normalizarea genelor în care încercăm să punem gene care sunt extrem de diferite în ceea ce privește valoarea lor absolută de exprimare la aceeași scară. Deci ar putea fi o fluctuație foarte mică la un fel de nivel mediu. Un altul ar putea fi o fluctuație foarte mare de la linia de bază până la un nivel foarte ridicat. Și doriți să luați în considerare această diferență de referință și această diferență de scară. Și deci ceea ce faci... și asta sunt toate aceste trei mici parcele de expresie normalizate . Reprezintă ele acest tabel, așa cum am menționat, al genelor de-a lungul axei verticale sau al nivelurilor de expresie a genelor-- gene care merg-- unde vom măsura nivelurile de expresie de-a lungul axei verticale și punctele sau condițiile de-a lungul axei verticale? axa orizontală. Și așa avem două reprezentări. Unul este acest tip de reprezentare a plicului de grup de puncte în mijloc, unde aveți, în acest caz, trei dimensiuni. Dar într-un caz care este puțin mai greu de vizualizat, mai multe dimensiuni - 17, 15 dimensiuni. Aceasta este o reprezentare în care originea este în esență media în care o normalizi, media devine zero. Și apoi distanța de la acea origine poate fi fie pozitivă, fie negativă și este numărul de abateri standard de la medie. Așa o vom normaliza. Deci, fiecare dintre aceste diagrame individuale ar fi comportamentul mediu în fiecare dintre aceste clustere. Și vom arunca o privire la asta, media și abaterea de la medie. Dar unitățile de aici în axa verticală a acestor mici parcele vor fi expresie normalizată. Numărul de abateri standard în cadrul clusterului de la media clusterului. Acum, când vom măsura distanțe dintre clustere în care avem același tabel de date cu expresii normalizate - și aceasta este dimensiunea tridimensională - aceasta este reprezentarea tridimensională, în acest caz, sau reprezentarea multidimensională. Unde originea este zero sau media pentru fiecare dintre axe și distanța de la acea medie zero este numărul de abateri standard. Și când vom măsura, aceasta distanță ascunsă va măsura rădăcina pătrată a sumei pătratelor pe toate dimensiunile. Și vreau să subliniez că fiecare dintre aceste clustere nu este un punct -- dacă expresia genelor ar fi reglată de factori de transcripție care se leagă la fiecare site cu exact aceeași constantă de legare, atunci ați putea - și dacă ar exista presiuni de selecție care să forțeze acest lucru. în cazul în care forțarea tuturor să fie precis... totul dintr-un cluster ar fi reglementat cu precizie, atunci aceste grupuri ar fi foarte strânse. Ar fi aproape un punct și nu ar exista nicio suprapunere între ele. Dar, în realitate, nu există astfel de presiuni selective. Și, ca rezultat, factorii de transcripție sunt posibil diverși în mod intenționat. Și obțineți aceste grupuri răspândite. Și astfel aceste mici bare albastre de pe fiecare dintre punctele din aceste grafice de expresie normalizată în serii de timp -- cele trei ori trei diagrame -- acele mici bare albastre nu reprezintă neapărat o eroare experimentală. Ele reprezintă diversitatea expresiei genelor într-un cluster. Acum, dacă ați făcut accidental mai multe-- ați atribuit mai puține clustere decât este numărul natural de clustere, atunci veți obține mai multă dispersie în acel număr decât v-ați dori. Și acesta ar putea fi un indiciu că aveți de fapt nevoie de mai mult cluster - trebuie să îl împărțiți în mai multe clustere și să reduceți acest lucru. Evident, dacă îl despărțiți în prea multe clustere care vor avea un set diferit de patologii, veți avea distanța dintre clustere, unele dintre clustere vor fi anormal de apropiate. Vor fi aproape ca și cum s-ar atinge corect. Și acesta este sfatul că aveți prea multe grupuri. Iar numărul de clustere este ceva pe care fie îl puteți determina în avans, fie îl puteți descoperi pe măsură ce mergeți. Dar acestea sunt exemplele de criterii pe care le puteți folosi. Prea multă dispersie în acele mici bare de aer albastre înseamnă că ați încercat să grupați prea multe lucruri într-un singur grup. Și o distanță prea mică între grupurile adiacente înseamnă că probabil le-ați împărțit prea în final. Acum, cum începem să evaluăm dacă metodele de grupare pe care le folosim sunt optime? Am vorbit despre toate tipurile diferite de metode de grupare pe care le puteți utiliza. Una dintre modalitățile de a evalua dacă sunt optime-- vom vorbi despre multe. Dar una este să privim departe de cutie la o resursă pe care, poate, comunitatea biologică are funcții curate. Acum ar putea să spună asta în moduri foarte vagi și frustrante, dar credem că au făcut o treabă bună. Și cu siguranță o muncă independentă a experimentului care se face. Experimentul care se face este o nouă analiză cuprinzătoare a expresiei genelor. Și așadar, dacă găsiți un cluster dintr-o analiză a expresiei genelor care coincide cu această bază de date complet independentă de categorii funcționale, nu contează ce înseamnă [INAUDIBLE]. Aceasta este o abreviere pentru un Institut. Nici nu contează cu adevărat ce înseamnă aici numele genelor. Dar ceea ce veți găsi este că un anumit set de gene, odată ce îl căutați în baza de date, va declanșa un steag pe care scrie ribozom. Și știi ce înseamnă ribozom. Iar altele vor fi necunoscute. Dar ideea este că acestea vor fi un set ordonat, un set care poate este îmbogățit... îmbogățit în mod neașteptat. Și vrei să ai un fel de surpriză cantitativă de a găsi atât de multe tipuri de funcții în clusterul tău de ARN. Într-un fel, asta este ceea ce speri să găsești. Este o surpriza placuta. Vrei ca clusterele tale să aibă o anumită coerență în funcția lor. Vrei să găsești și câteva surprize, fie necunoscute, fie noi combinații de funcții la care nu te așteptai. Acum acesta este un exemplu de experiment de grupare. Este un mod popular de a-l reprezenta. Iată copacii despre care am vorbit aici, cei mai apropiați... vârfurile, frunzele de aici sunt gene individuale. Abia le poți vedea la această scară. Acesta este un mic subset al genelor umane. Aceasta este o expresie a ARN care a fost măsurată în timp de stimulare a serului. Și având în vedere diapozitivul anterior al diferitelor categorii funcționale, ceea ce doriți pe măsură ce aranjați ierarhic aceste lucruri, aveți timp ca axa naturală pe orizontală. Și apoi ați încercat să le sortați astfel încât să fie apropiate unele de altele în arborele ierarhic. Și ați și ați reprezentat dacă sunt mult induse sau foarte suprimate în timpul acestei stimulări serice. Luați unul din timp - punctul de timp zero este punctul de referință. Și apoi crește sau scade foarte mult reprezentat de roșu și, respectiv, verde. Și apoi, în fiecare dintre aceste grupuri, aveți mici zone în care toate au același tip de model de negru, gri, verde și roșu. Și așa, de exemplu, E din partea de jos în zona roșie aici este vindecarea rănilor și remodelarea țesuturilor. Și acestea sunt genele la care v-ați putea aștepta să fie îmbogățite într-o paradigmă de stimulare a creșterii , cum ar fi cea de aici în care simulați cu stimularea serică a fibroblastelor. Acesta este un exemplu special de cum ați putea-- dar s-ar putea să doriți să cuantificați acest lucru, mai degrabă decât să o arătați aici. Și vom vedea exact cum faci acea cuantificare într-un moment. Acesta este doar o imagine rapidă a cât de departe merge această grupare. De fapt, merge dincolo de biologie. Dar iată ceva care este pentru diapozitivul 32 în afara intervalului de expresie a ARN. Aici avem compuși pe axa verticală și ținte, adică proteine ​​pe axa orizontală. Și puteți vedea toate aceste conexiuni între diferite terapii pentru cancer, diferite linii de celule canceroase și potențiale ținte. Dar acum să revenim la ARN. Și vrem să întrebăm cum evaluăm colectarea datelor matricei ARN , metodele de grupare? Și cum mergem... și cum mergem dincolo de asta în diferite direcții, atât ca validare a aspectelor tehnice, dar ca arătând că de fapt descoperim și ajungem la mecanism. Deci, una dintre diferitele metode pe care le-am folosit -- am menționat deja căutăm categorii funcționale, dar alta caută motive. Dacă găsim un set consistent de motive, acesta este și el o parte a procesului de validare. Și acestea sunt câteva dintre exemplele de algoritmi. Primul care ne vine în minte atunci când matematicienii și fizicienii intră în domeniu și cel pe care l-am folosit un mare avantaj în partea de căutare a secvenței a acestui curs a fost frecvența oligonucleotidelor. Deci, puteți utiliza oligonucleotide scurte ca chei de hashing convenabile sau ca modalități de a efectua căutarea - o căutare foarte rapidă pentru secvențe și în găsirea potrivirilor. Și acest lucru este și mai potrivit aici pentru motivele implicate în reglarea transcripțională, deoarece, dintr-o varietate de studii cristalografice biologice și chimice, motivele sunt în intervalul de la 7 la 10 nucleotide adesea - perechi de baze în ADN dublu catenar. Și astfel puteți folosi frecvențele oligonucleotidice. Cu toate acestea, ele sunt limitate prin faptul că nu sunt la fel de bogate ca matricele de greutate pe care le-am obținut atunci când avem o aliniere cu mai multe secvențe. Și când vorbeam despre alinieri multi-secvențe, am subliniat că a fost greu să facem ca algoritmii să se scaleze dincolo de perechi. Deoarece perechi a fost n pătrat unde n este lungimea secvenței. Și apoi, pe măsură ce treceți la alinierea cu mai multe secvențe, aceasta crește exponențial cu numărul de secvențe. Vrei totuși ca numărul de secvențe să fie mare. Pentru că cu cât este mai mare , cu atât înveți mai multe despre caracteristicile acelei familii de secvențe. Deci, oricum, eșantionarea Gibbs a fost una dintre metodele pe care am spus că o vom amâna pentru o clasă ulterioară. Aceasta este clasa ulterioară. Vom vorbi despre eșantionarea Gibbs ca o modalitate de a - ideea de a eșantiona acest spațiu foarte mare în care numărul mare de secvențe multiple - secvențele multiple pe care le comparați este că nu doriți să rămâneți prins într-un minim local. Poți avea acești algoritmi de coborâre abrupte cu adevărat lacomi , dar vei ajunge la fundul acelei gropi, dar nu vei găsi neapărat globalul. Dacă spațiul de eșantionare este prea mare, nici măcar eșantionarea nu vă va salva, deoarece veți eșantiona o mulțime de puține [INAUDIBILE] locale. Dar, oricum, Gibbs este un exemplu în care folosiți randomizarea pentru a-l găsi. Înseamnă ca exemplu de maximizare a așteptărilor și [INAUDIBLE] și așa mai departe sunt alte moduri de a face acest lucru. Ne vom concentra cu adevărat pe una dintre acestea. Nu pot acoperi totul. Am vorbit despre eșantionarea lui Gibbs. Și vrem să o punem în contextul... și lucrul care ar putea fi atrăgător. De ce nu putem doar... dacă programul pentru reglarea factorului de transcripție este inerent genomului, atunci ar trebui doar să ne uităm la secvența genomului și să putem vedea modele de motive în fața genelor. Și apoi găsiți grupuri de gene care sunt exprimate și așa mai departe. Problema cu acea imagine-- chiar și pentru unul dintre cele mai bune scenarii, [INAUDIBLE], care este de aproximativ 12 mega baze-- așa cum am spus, aceste locuri de control transcripțional sunt aproximativ șapte baze, să spunem, ale inflamației. Iată unul care va fi o vedetă pentru câteva diapozitive aici după acum și am pauză. Acesta este GCM4. Puteți vedea că are cinci baze conservate pe doi biți la scară completă. Și apoi restul bazelor din acest motiv -- celelalte cinci baze s-ar putea adăuga la alte două baze de informații sau 14 biți împreună. Acum 14 biți, vă puteți gândi la asta ca 4 la a șaptea putere aproximativ 1 meci la fiecare 16.000 de baze. Acum, dacă aveți un genom de 12 megabaze și, din moment ce nu este simetric, trebuie să vă uitați la ambele fire. Trebuie să vă gândiți la factorul de transcripție care scanează ADN-ul în ambele direcții. Apoi aveți 24 de megaocteți mega baze de site-uri. 24 de milioane de site-uri. Și la întâmplare, te aștepți la 1 peste 1.600. Deci ai o medie de 1.500. Acum, aici putem aduce în vechiul nostru prieten distribuția Poisson. Și ne vom aminti că media și varianța unei distribuții Poisson sunt aceleași. Și astfel abaterea standard va fi rădăcina pătrată a varianței, așa cum este pentru toate variațiile și toate abaterile standard. Așadar, abaterea standard va fi de aproximativ 40. Deci, dacă vă așteptați să vă convingeți că aveți ceva interesant, atunci doriți să fie cu aproximativ două sau trei abateri standard peste medie. Deci zgomotul tău cu care te lupți este despre-- vrei să obții de 2 ori 1/2 ori 40 sau aproximativ 100 de site-uri. Ei bine, multe fenomene biologice nu au 100 de locuri. Ele nu sunt 100 -- s- ar putea să nu existe 100 de site-uri GCM4 în genom, de exemplu. Și deci, ceea ce ai nevoie este o modalitate de a dezvălui genomurile. Nu ne uităm prin întregul genom, dar ne îmbogățim în diferite moduri. Care sunt diferitele moduri prin care ne putem îmbogăți? Ei bine, primele trei le vom aduna ca modalități prin care le putem grupa biologic. Practic, aceasta a fost tema primelor minute ale acestei prelegeri. Modalități prin care putem pune împreună cinci gene care sunt... în care produsele de expresie a genelor se descompun împreună. Și acestea ar fi, de exemplu, datele întregului genom [INAUDIBILE]. Aceasta este linia de sus a diapozitivului 36. Sau ar putea fi... și am avut un mic diapozitiv despre asta mai devreme despre diferitele moduri prin care genele ar putea arăta că ar trebui să meargă împreună. Ar putea avea un fenotip comun. Ai putea face knockout-uri și au caracteristici biochimice sau morfologice similare. Și așa le pui în aceeași categorie funcțională. Aceasta ar putea fi sursa unora dintre categoriile funcționale despre care am vorbit astăzi. Ele pot fi conservate între diferite specii. Speciile le vor moșteni -- vor tinde să le moștenească ca grup și alții. Deci acesta este exemplul de ce genele ar trebui să meargă împreună. Și apoi vei reduce spațiul de secvență pentru a fi elementele de reglementare care merg cu acele gene și nu cu restul genomului. Și acestea sunt modalitățile de selectare a genelor. Dar apoi selectând secvența în sine lângă acele gene sau în acele gene. S- ar putea să doriți să eliminați regiunile de codificare a proteinelor, secvențele repetitive sau orice altă secvență nu este susceptibilă să controleze site-urile. Acest lucru vă ajută prin reducerea spațiului de secvență. Este un fel de ajutor banal. De fapt, un ajutor important. Dar, pe lângă asta, vrei... ei te ajută prin eliminarea capcanelor în care vei găsi motive, dar că este puțin probabil ca acestea a priori să fie relevante pentru controlul transcripțional. Ceea ce încercați cu adevărat să ajungeți aici pentru a valida și a extinde descoperirile pe care le găsiți din gruparea nesupravegheată. Și de ce spun asta? De ce regiunile care codifică proteinele și regiunile repetitive -- elementele repetitive ar fi o părtinire? Ei bine, regiuni care codifică proteine ​​care, pentru genele care se grupează, dintr-un motiv sau altul, probabil a priori să aibă proteine care au funcții similare. Se grupează pentru că au funcții similare. Ei ar putea împărtăși domenii de proteine ​​în comun. Deci veți găsi motive de acid nucleic care sunt similare între ele, nu pentru că sunt implicate în reglare, ci pentru că codul geniculat se transformă în motive proteice care sunt similare între ele. Deci ei pot îndeplini o funcție similară. Și de aceea, ele și regiunile repetitive sunt cu siguranță destinate să ofere motive în comun datorită proprietăților lor de replicare egoistă. Întreaga secvență repetitivă de la o margine la alta va sări în jurul genomului. Și astfel nu vor exista aceste mici șapte motive de perechi de baze. Vor fi un motiv de bază de 10 kg. Și asta nu vă va spune prea multe despre transcriere. Acestea fiind spuse, ne ocupăm de reducerea spațiului de secvență . Atât primele trei metode, cât și această metodă de jos vor exclude anumite tipuri de descoperiri. Dar odată ce ați găsit motivul limitând sever o secvență, puteți apoi să căutați acel motiv și să alegeți exemplele pe care le- ați fi eliminat în prima trecere într-un mod mult mai puțin zgomotos . Aveți acest motiv adevărat, acum doriți să găsiți toate celelalte exemple. Într-un fel, testezi specificul motivului. Deci, de exemplu, ar putea exista elemente de reglare a ARN în regiunile care codifică proteine. Ar putea fi unele în regiuni repetitive. În prelegerea pe care am susținut-o despre polimorfismele cu un singur nucleotide , am ales în mod pervers unul foarte interesant, care apare într-una dintre cele mai comune repetări dispersate din genomul uman, care este repetiția ALU. Acesta are o semnificație de reglementare, dar îl vom exclude inițial din spațiul nostru de căutare, astfel încât să putem obține o mulțime de exemple bune într-o casetă mică. Deci acestea sunt principalele modalități de reducere a spațiului de căutare. Și vom lumina acest lucru cu un anumit algoritm -- o modificare care oferă eșantionarea motivelor, care este aceasta în care eșantionați stările de aliniere multi-secvențe aleatoriu, astfel încât să nu treceți de minimul local. Și aceasta se numește elemente conservate de acid nucleic [INAUDIBIL] . Accentul pus pe acidul nucleic. Și care sunt avantajele de a oferi o eșantionare profundă [INAUDIBILĂ]? De ce ne concentrăm asupra ei? Ei bine, eșantionarea [INAUDIBILĂ] , așa cum am spus, vă ține departe de minimele locale. Există un număr de site-uri pe secvență de intrare. S- ar putea ca în genele pe care le-ați găsit în grupul dvs., unele dintre ele ar putea avea trei dintre aceste motive în fața sa. Alții vor avea unul sau chiar zero, pentru că s-ar putea ca anumite co-clustere de gene să fie cauzate de un alt set de motive care se întâmplă să aibă aceleași proprietăți ca și motivul pe care îl privești la un moment dat. Deci, puteți avea de la zero la un număr mare de motive. Și asta e important. Acest algoritm se ocupă de asta. Alți algoritmi presupun că există exact un site pe secvență. Și asta introduce zgomot. Puteți distribui conținutul informațional în diferite moduri. Veți vedea, putem regla fin forma unui motiv într-un fel. Unii dintre acești algoritmi s-au bazat pe proteine. Proteinele au o singură catenă. Nu au un Watson și un Crick care merg în sens invers se completează unul pe celălalt. Și deci trebuie să faceți un efort conștient pentru a adapta acel algoritm astfel încât să fie... încât , într-un anumit sens, să recunoască dualitatea și complementele inverse ale catenelor ADN. Și trebuie să... există mai multe motive distincte care diferă de numărul variabil de site-uri pe secvență. Odată ce găsiți motivul numărul unu, acesta poate fi motivul dominant pe care îl găsiți din nou și din nou într-o aliniere cu mai multe secvențe. Trebuie să te întorci și să găsești numărul doi. Pentru că ar putea fi numărul unu, nu este singurul sau nu este motivul major semnificativ biologic. Ar putea fi oricare două sau trei motive care acționează în concert. Deci nu te poți odihni pe lauri când găsești primul motiv. Și pentru fiecare motiv, pot exista mai multe exemple de ele pe secvență. Oriunde de la zero în sus. Deci, să facem acest lucru mult mai concret și să analizăm cu adevărat un exemplu specific. Acest exemplu-- exemplul real-- este luat din genele de biosinteză a aminoacizilor din drojdia saccharomyces. Deci aici am aplicat cele două clase majore pentru reducerea secvenței. Primul este de funcția biologică aici. Acestea sunt toate gene biosintetice de aminoacizi, histidină, aminoacizi aromatici, [INAUDIBIL].. Toate sunt în partea dreaptă a diapozitivului 39. Dar, pe lângă reducerea biologică a doar poate 116 gene care sunt implicate în acest proces, Am făcut, de asemenea, reducerea spațiului de secvență în apropierea genei pentru a exclude regiunile de codificare a proteinei și ne uităm doar la 300 până la 600 de baze în amonte. De ce 300 sau 600? Dacă genele sunt cu adevărat apropiate, nu doriți să treceți cu mult peste 300, deoarece puteți intra în regiunea de codificare a proteinei a unei gene adiacente. Dacă genele sunt foarte îndepărtate în această parte particulară a genomului, nu doriți să obțineți mai mult de 600, altfel veți ajunge în secvențe repetitive sau alte lucruri care sunt alte elemente de reglare care nu au legătură cu proteina dvs. . Sau ați putea ajunge într- o genă care codifică ARN. Deci, 300 până la 600 este bun pentru acest organism special. Dar s-ar putea să ai nevoie de unul diferit pentru, să zicem, uman. Va trebui să te uiți în introni și mult mai departe în amonte, ceea ce o face o problemă mult mai dificilă. Oricum aceasta este faza de reducere a secvenței. Și acum să spunem, ei bine, vezi motivele aici? Adică, cei dintre voi care sunteți buni în calcul ar trebui să puteți face acest algoritm în capul vostru. Dar iată răspunsul. Și apoi vom-- acum vom trece prin și vom spune cum am ajuns la acel răspuns cu algoritmul Gibbs de eșantionare aliniere. Răspunsul aici este GCN4. Acesta este cel pe care l-am folosit pentru a ilustra că avem aproximativ șapte biți de informații aici în acest format de logo Snyder. Și în dreapta jos, are un scor pe hartă pe care îl vom defini destul de curând. Practic, cu cât scorul pe hărți este mai mare, cu atât mai bine. Trebuie să fie mai mare decât 0 pentru a fi non-aleatoriu. Și aici este în partea stângă a diapozitivului 40 alinierea cu mai multe secvențe, la fel ca alinierea cu mai multe secvențe despre care am vorbit în ultima prelegere -- acum două prelegeri. Și aici în roșu sunt toate aceste săgeți. Ele indică fie de la stânga la dreapta, fie de la dreapta la stânga, în funcție de șuvița pe care se află, așa că nu sunt exacte complemente inverse. Deși, acest lucru are un pic de simetrie în el. Dar puteți vedea că aveți oriunde de la una la două dintre acestea în fața fiecăreia dintre aceste gene. OK, deci acum cum ajungem acolo? Să mergem pas cu pas. Și unii dintre voi ar putea găsi acest algoritm contraintuitiv la început, așa că nu fiți surprinși dacă este. Primul pas este să semănăm aleatoriu . Mai dăm jos, să zicem, încă 10 secvențe lungi de 10 nucleotide, am ales-o în mod arbitrar ca lungime și le-am aruncat la întâmplare pe aceste secvențe aici. Așadar, am reprezentat aici șapte dintre cele 116 gene de biosinteză a aminoacizilor din amonte. Și tocmai am evidențiat roșu în mod arbitrar două roșii, 10 [INAUDIBIL] pe cel de sus, apoi niciunul pe al doilea, apoi unul pe al treilea și așa mai departe. Și apoi, deoarece acestea sunt date și care este prima poziție este dată, atunci este o chestiune banală să le aliniați. Doar luați toate primele poziții și luați o sumă, iar aceasta este matricea de greutate. Acum nu te-ai aștepta, deoarece toate acestea au fost alese aleatoriu pentru secvențe reale, nu te-ai aștepta să fie o matrice de greutate uimitor de non-aleatorie. Și nu este. Are un scor pe hărți care este negativ. Și așa cum am spus, asta este practic întâmplător. Câteva baze tind să își ridice capul puțin peste zgomotul aleator de 0,25 dacă acesta ar fi un genom aleatoriu sau oricare ar fi compoziția de bază. Și niciunul dintre ei nu este de 2 biți. Aș spune că niciunul dintre ei nu este perfect reprezentat. Deci acum care este următorul pas? Aceasta este însămânțarea inițială și vă oferă o aromă pentru ceea ce se va întâmpla în continuare. Dar există câteva lucruri interesante pe care le puteți face pentru a crește șansele de a obține un motiv bun. Deci următorul lucru pe care îl faceți este fie să adăugați un alt site. Mai adaugi 10 [INAUDIBIL]. Deci, rândul de sus al părții 42-- secvența de sus are deja două, dar adăugați încă una. Adaugi un al treilea. Numărul secvenței, săgeata patru încă nu are niciuna. Dar ai adăugat un al treilea la întâmplare în partea de sus și acum ai două aliniamente de secvență. Chiar nu ai reușit să faci nimic până acum. Aveți acum două aliniamente multi-secvențe. Și te întrebi, care este mai bun? Ei bine, să presupunem că cea din dreapta este puțin mai bună, cea la care adăugați secvența este puțin mai bună. Acum nu doar orbi programul. Nu acceptă doar orbește acest lucru ca fiind cea mai bună aliniere multisecventă. Este probabil să acceptați acest lucru. Și asta din nou, pentru a te împiedica să treci printr-un algoritm complet lacom. Fiecare îmbunătățire va fi probabilistică. Dar cu siguranță vei avea tendința de a accepta fiecare îmbunătățire. Deci asta a fost adăugarea unei secvențe. Așa s-ar putea să o îmbunătățiți. Sau poți elimina unul. Puteți adăuga și elimina încă două din secvența de sus aici. Adăugați unul, eliminați unul. Și v-am întrebat asta dacă secvența multiplă din dreapta este puțin mai bună. Dacă este, atunci aveți o mare probabilitate de a le accepta pe cele două. Modificările de adăugare și eliminare. Acestea sunt adăugarea sau eliminarea unor secvențe întregi. Continuați, adăugați și eliminați. Un alt lucru pe care îl poți face este să spui, ei bine, poate că bazele importante nu sunt toate la rând - 10 la rând. Poate vrei să o faci puțin mai lung? Poate că motivele ar trebui să fie puțin mai lungi? Poate că unele dintre cele din mijloc nu sunt importante, așa că vom dezactiva una dintre ele și vom muta coloanele. Deci acum motivele sunt puțin mai largi, dar are tot același număr de coloane. Și dacă asta se îmbunătățește-- dacă asta vă oferă un scor mai bun pe hartă, o surpriză mai mare în sensul probabilității pe care o aveți-- că veți avea acest număr de site-uri care sunt partajate la acest grad în acest număr de secvențe, atunci ai o mare probabilitate de a accepta acea schimbare. Acum nu schimbați doar colecția de secvențe despre care credeți că aparțin acelei familii de motive, ci de fapt schimbați structura elementelor pe care le veți numi matricea greutății. Schimbați structura coloanei. Și asta este și probabilist. Și din toată această aleatorie, având în vedere multe cicluri, în cele din urmă obțineți cel mai bun motiv. Acesta ar putea fi cel mai bun motiv pentru acest set special de învățare. Dar acum vrei să obții al doilea cel mai bun motiv. Pentru că acesta nu este neapărat cel mai bun motiv din punct de vedere biologic. Și acesta poate să nu acționeze singur. Poate avea un altul care este, de asemenea, îmbogățit și s-ar putea ca apariția lor concomitentă să fie chiar mai semnificativă decât oricare dintre ele să apară separat. Deci ce facem? Și cred că ceea ce vom face este să luăm o mică pauză. Și atunci când ne întoarcem, curiozitatea ta incredibilă va fi satisfăcută cu privire la modul în care obținem al doilea motiv. Așa că ia o mică pauză.