MARCO RAMONI: Ceea ce voi vorbi după această mică introducere despre microarray este cum să analizez aceste date BLAST. Și principiul pe care încerc să vi-l prezint este că nu există așa ceva ca să vă puneți datele într-o mașină nenorocită și să așteptați să obțineți un răspuns. Tipul de analiză pe care o faci este întotdeauna legat de întrebarea pe care o pui. Acesta trebuie să fie un punct complet stupid. Dar tragedia multor din acest domeniu este că nu este. Și mulți oameni încearcă de obicei să răspundă la aceeași întrebare folosind metode diferite și întrebări diferite folosind aceleași metode, ceea ce este și mai deranjant. Ceea ce încerc să vă spun astăzi este ce fel de probleme puteți aborda cu acest tip de date și ce fel de analiză aveți nevoie pentru a răspunde la fiecare întrebare diferită. Va fi foarte de bază. Voi introduce un fel de noțiuni avansate la final. Dar cea mai mare parte a restului este foarte de bază și este ceea ce fac în mod obișnuit oamenii în lucrări, în centrele genomului și lucruri de genul acesta. Și acest lucru este important pentru tine. Pentru că la final, vă voi spune veștile proaste. Ai o misiune. Și trebuie să utilizați câteva programe care descriu acest lucru. Deci, ceea ce voi face este să încep de la microarrays, să vă spun ce faceți cu clasificarea supravegheată și analiza diferențiabilă, să argumentez predicția și să vă validez rezultatele. Cum faci analize nesupravegheate folosind practic gruparea pentru diferite tipuri de metode și diferite tipuri de experimente? Și apoi, la final, am să vă vorbesc despre rețelele de bază, care sunt acele lucruri despre care unii dintre voi știți că sunt pasiunea mea. Acesta este exact același slide pe care l-am avut săptămâna trecută, acum două săptămâni. Acest lucru este esențial pentru biologia moleculară. Nu o voi recapitula aici, decât pentru a spune că ADN-ul este copiat în ARN. ARN-ul este copiat în proteine. Proteinele fac toată treaba. Deci, săptămâna trecută, am vorbit despre ADN. Astăzi, vorbim despre ARN, bine? Deci toate celulele tale din corpul tău provin din aceeași celulă. Și toate au același cod ADN. Ceea ce face un neuron diferit de o unghie este faptul că proteinele care sunt făcute din aceasta sunt diferite. Așadar, același cod va exprima diferite tipuri de ARN, care la rândul lor vor fi transformate în proteine ​​diferite. Și acestea vor da diferitelor celule natura lor diferită . Ideea de a studia acest lucru se numește genomica funcțională. Ceea ce am vorbit săptămâna trecută a fost genomica structurală. Ne uitam la structura ADN-ului. Acum ne uităm la acțiunea acestui ADN. Și ne uităm la funcția pe care o îndeplinește fiecare celulă diferită în timp ce există. Scopul jocului este elucidarea funcțiilor și interacțiunilor dintre gene. Acum, genomica funcțională este un lucru foarte vechi. Adică, nu ai nevoie de informaticieni pentru a face genomica funcțională. Genomica funcțională înseamnă încercarea de a înțelege ce este exprimat într-o anumită celulă. Și o poți face cu mâna. O poți face o genă la timp. Și oamenii au făcut o genă la un moment dat pentru totdeauna. Ceea ce se schimbă în genomica funcțională modernă este introducerea micromatricelor, care sunt aceste platforme care ne permit să ne uităm la toate transcrierile, tot ARN-ul, fiecare genă dintr-o celulă și să vedem ce este exprimat și ce nu. Aceasta este ceea ce este schimbat. Și de aceea aveți nevoie, în acest moment, de informaticieni. Dar există o mică schimbare diferită în asta. Există o schimbare intelectuală în asta, o schimbare intelectuală foarte dramatică în asta. Dacă trebuie să iau o genă pentru a vedea dacă această genă este exprimată într-o celulă, trebuie să intru și să citesc lucrări și, la un moment dat, să decid cum să-mi aloc următoarele două săptămâni sau doi ani pentru a vedea expresia acestei gene. o anumită genă. Uneori am nevoie de bani. Așa că trebuie să pun în scris - altcuiva care sper să-mi dea bani - de ce este importantă această genă, nu? Acum, cu microarrays, nu trebuie să facă asta. Cu microarray, folosesc un microarray. Și pentru un țesut, ceea ce observă sunt 40.000 de gene. Nu trebuie să justific ce genă mă interesează. Mă uit la toate. Și aceasta este o consecință foarte interesantă. Unul... unul e misto. Unu, pot privi totul în acțiune. Pot încerca să fiu surprins de rezultatele mele. Dar celălalt lucru este că primesc un tip foarte diferit de informații. Adică, să presupunem că am petrecut doi ani să văd dacă o anumită genă este exprimată într-o anumită celulă. Și ceea ce obțineți la sfârșit sunt două imagini - una cu această genă într-o celulă normală și cealaltă în celula de care sunteți interesat - și vedeți dacă există vreun fel de schimbare. Și pe o parte vezi o minge de această dimensiune. Și pe cealaltă parte vezi o minge de această dimensiune. Faceți poze și trimiteți hârtia, nu? Asta fac oamenii. Și, probabil, vei face în-- după ce vei petrece doi ani-- poate chiar dacă mingea nu este chiar atât de mare, vei face un argument foarte lung că această minge este cu adevărat, foarte mare. Și există un motiv special pentru care nu ar trebui să iei această minge atât de mică pe cât este, nu? Acum, când ai micromatrice, măsori toate genele. Deci, chiar dacă mingea nu este atât de mică, poate că există multe alte bile care sunt mult mai mari. Deci, în acel moment, este destul de dificil să spun, știi , gena mea este oarecum interesantă. Pentru că se termină că gena ta este exprimată ca alte 20.000 de gene, nu? Deci, obțineți o altă informație uitându-vă la întregul genom. Obțineți și care sunt cele mai dramatice schimbări. Care sunt cele mai dramatice lucruri care se întâmplă în acea celulă? Și acest lucru este destul de interesant pentru că produci un nou stil intelectual. Noul stil intelectual nu este bazat pe ipoteze și a fost un dezastru pentru cultura cercetării biomedicale -- pentru noi, practic -- și încă este o mare problemă atunci când depuni granturi. Când depuneți granturi, modul în care scrieți granturile înseamnă că aceasta este ipoteza mea. Acesta este motivul pentru care cred că acest lucru este adevărat. De aceea cred că acest lucru este important și interesant. Aceasta este ceea ce alți oameni au văzut -- și eu, am văzut -- pentru a susține această ipoteză. Și asta am de gând să fac. Acum, aici, ipoteza... ce naiba este ipoteza? Nu știu. Am o schemă foarte vagă. Și pot spune, ei bine, știți, ipoteza mea este că genele exprimate în cancerul de prostată sunt diferite de genele care nu sunt exprimate în țesutul normal. Vai, ce ipoteză. Adică, nu trebuie să mergi la liceu pentru a veni cu o ipoteză ca asta, nu? Dar apoi stilurile intelectuale sunt complet diferite. Deci ne îndreptăm spre ceva care are niște statistici simple și o tehnologie simplă, dar care are un impact mult mai larg asupra modului în care oamenii gândesc despre biologie. Una dintre cele mai dragi citate ale mele este de la un fizician din secolul al XIX-lea care spunea că „există două tipuri de știință, fizica și colecția STEM”. Ceea ce înseamnă aceasta este că fizica oferă modele matematice, cantitative ale fenomenelor. Colecțiile STEM circulă și măsoară animalele, pune-le în colecția ta, albumul tău și arată-le prietenilor și poate aranjează-le într-un fel. Ceea ce face acest lucru peisajului intelectual al biologiei moderne este, sperăm, să transforme colecția STEM într-o știință extrem de cantitativă. Personajele care stau în spatele tuturor acestor lucruri sunt tehnologia microarray-- microarrays. Ei sunt capabili să măsoare expresia a mii de gene în același timp. Și acum avem micromatrice care sunt capabile -- pe o bucată mică de plastic de această dimensiune -- sunt capabile să măsoare expresia a 55.000 de transcrieri, care includ toate cele 35.000, 40.000 de gene estimate din genomul uman. Din punct de vedere tehnic, un microarray este -- deși se numește matrice, este de fapt un vector. Deci, pentru fiecare celulă din matricea mea, am o etichetă care îmi spune numele genei de acolo. Și apoi am valoarea expresiei pentru acea celulă anume. Deci, la sfârșit, când le adună împreună, ele devin un vector care se asociază cu fiecare genă - valoarea sa particulară de expresie într-o anumită celulă sau un țesut. Prin urmare, matricele -- pentru că, desigur, dezvăluirea unui vector de 25.000 de gene, a 25.000 de celule mici, este mai puțin convenabilă din punct de vedere geometric decât a pune jos un lucru pătrat. Ocupă mai puțin spațiu. Ele se numesc matrice, dar asta poate induce în eroare. Și există două tipuri de matrice care sunt utilizate în prezent mai frecvent. Unul se numește ADNc, iar celălalt se numește micromatrice de oligonucleotide. Am de gând să vă spun într- o secundă care sunt. Cum funcționează aceste lucruri? Funcționează inversând fenomenul natural al transcripției, nu? Așadar, ideea este că am lipici special în fiecare celulă care are forma exact ca transcrierea pe care doresc să o măsoare. Apoi, voi avea țesuturile mele care merg pe acest microarray. Și printr-o metodă diversă, se vor hibridiza. Se vor atasa de celulele care le sunt specifice. Și apoi, le spăl. Și ceea ce trebuie să facă la sfârșit este pur și simplu să măsoare câte din acest ARN sau cât din acest ARN a rămas dintr-o anumită celulă. Cum o fac practic? Funcționează așa. Primesc o grămadă de șervețele. Să zicem că am doar un șervețel, deocamdată. Eu produc un singur microarray, nu? Îmi iau șervețele. Extrag ARN-ul. Și etichetez acest ARN cu bucăți de ARN transcris cu un colorant fluorescent. Apoi, le-am pus în mașina de spălat vase, stația [INAUDIBLE] , care este de fapt o mașină de spălat microarray. Și îl hibridez. L-am pus acolo. Și apoi îl scanez. Deci, ceea ce s-a întâmplat este că... vă amintiți, acest ARN este lăsat atașat la aceste celule. Și pentru că l-am etichetat-- este etichetat cu un colorant fluorescent-- aș avea mai multă intensitate în acele locuri în care sunt atașate multe lucruri. Așa că, odată ce îl spăl, pot folosi un scaner, ca cel pentru fotografia ta de acasă, exact un scaner. Și acel scaner va veni cu o imagine care arată ca aceasta, în care fiecare bilă reprezintă cât de mult ARN a rămas în acel loc anume. Pentru că eu am creat sau altcineva pe care îl plătesc a creat acel loc anume, știe exact care este transcrierea care este acolo. Și vă pot spune că al treilea loc din stânga este gena [INAUDIBILĂ] [? lucernă. ?] Pot să mă duc să măsoare intensitatea acestei gene și apoi să transform totul într-o bază de date. Știu pentru fiecare sondă ce reprezintă. Și pentru fiecare microarray, pot măsura cât de mult din aceasta este estimată în eșantionul meu. Întrebare? Așa arată. Acestea sunt microarrays ADNc. Microarray ADNc-- Am mințit puțin. Nu puteți folosi scanere pentru asta. Folosești un fel de chestii cu laser pentru a citi aceste puncte. Dar ideea este că în această micromatrice, copiați întreaga transcriere a unei gene. Deci știu cum o anumită genă... care este secvența care este transcrisă pentru o anumită genă. Fac 1.000 de clone sau un milion de clone din asta. Și le-am pus într-un singur loc. Acum acest microarray are două canale pe care le pot citi folosind scanarea laser, OK? Deci voi avea două mostre. Și vopsesc unul în roșu și unul în verde. Și le-am pus pe acest microarray. Și vor concura competitiv-- se hibridizează cu acesta. Deci, dacă ambele lucruri sunt foarte exprimate, ceea ce voi vedea este ceva care este galben. Dacă niciunul dintre ele nu este exprimat, ar fi un fel de lucru negru-cenușiu. Și dacă verdele este mai exprimat decât roșul, va fi verzui. Și dacă roșul este mai exprimat decât verdele, ar fi roșcat. Și puteți vedea aici... vedeți o mulțime de bile galbene, puține bile verzi și puține roșii și foarte multe negre. Ce-i asta? PUBLIC: Doar o întrebare de bază. Ce fel de informații diferite veți obține de la [? matrice?] spre deosebire de intensitatea [INAUDIBILĂ]. Obțineți ceva diferit... MARCO RAMONI: Nu, asta a fost doar pentru că era originalul... originalul a fost făcut astfel. Pentru a folosi un scaner-- ceea ce cred că vei face-- pentru a folosi un scaner, trebuie să folosești tehnologia silicon. Și acestea sunt lame de sticlă. Deci este mult mai ușor să construiești astfel de lucruri. Puteți construi aceste lucruri acasă. Puteți cumpăra un robot care va identifica petele pentru dvs. Micromatricele de oligonucleotide -- vă voi arăta în al doilea rând -- folosesc un alt tip de tehnologie care necesită într-adevăr o linie de producție. Deci nu este ceva ce poți face. Deci aceste lucruri vă oferă de fapt flexibilitate. Dacă sunteți interesat de 1.000 de gene în loc de 40.000, o puteți face. Un alt lucru este că costă mult mai puțin. Problema este că, pentru că copiezi întreaga transcriere, atunci când îți scoți ARN-ul dintr-o celulă, îl blochezi. Apoi îl vopsești. Acum, ceea ce s-a întâmplat este că s-ar putea să plutească o mulțime de prostii care nu au legătură cu gena ta. Pot exista fragmente foarte, foarte mici care sunt hibridizate la o secvență aleatorie în clonele tale, doar pentru că sunt foarte mici pentru a hibridiza acolo. Dar totuși, vor aduce vopsea fluorescentă în acel loc anume. Deci precizia acestei măsurători nu este chiar atât de mare pe cât ar putea fi. Obțineți multă hibridizare aleatorie. Există trucuri pe care le poți juca pentru asta. Deci, dacă doriți să faceți un experiment comparativ, puteți pune o condiție într-una și o condiție în celălalt canal. Dar puteți folosi un fel de supă de ARN care nu ar trebui hibridizată cu nimic și să o puneți pe un canal. Deci, dacă obțineți o mulțime de hibridizare aleatorie pe o parte, aceasta o va prelua și va face punctul dvs., locul dvs., galben. În acest caz, veți trata galbenul și negrul exact în același mod. Nu e ca, nu, sunt indecis. Amandoi sunt sus. Veți spune, ei bine, asta a terminat, dar a terminat din cauza unei posibile hibridizări aleatorii. Rezoluția este de a folosi metode de calcul. Și aceste micromatrice produse de Affymetrix sunt ca Microsoft Office. Este ceva pe care toată lumea îl folosește. Sunt mult mai scumpe decât ar trebui să fie. Și toată lumea urăște Affymetrix. Dar totuși, nu poți trăi fără Microsoft. Nu poți trăi fără Affymetrix. PUBLIC: Ultimul slide a fost o matrice cADN? MARCO RAMONI: Da, a fost. Deci cADN înseamnă că puneți întreaga transcriere. Și de obicei aveți acest colorant cu două canale. [INAUDIBLE] este un mare expert în micromatrice ADNc, care provine de fapt de la unul dintre primele departamente care au făcut microarray ADNc. Si este [? Formica, nu? ?] Deci, micromatricele de oligonucleotide urmează această idee. OK, am întreaga mea transcriere. Și problema mea este această hibridizare aleatorie. Ce pot face? Ei bine, pentru că am genomul uman-- întreaga schiță a genomului uman-- pot să iau această genă și să aflu dacă există o secvență, o secvență mică în această genă, care este unică pentru această genă anume, nu? Deci, în acest caz, chiar dacă secvența este mică, dacă partea ruptă de ARN din proba mea este mică, nu se va hibridiza acolo deoarece această secvență este prea mică și prea specifică. Așadar, ideea aici pentru micromatrice de oligonucleotide este de a spune că îmi voi lua transcrierea -- toată transcrierea, subsecvența transcrierii -- și o voi preleva probe de 20 de ori, între 16 și 20 de ori și află aceste 25 de secvențe mici care sunt specifice acelui lucru. Și, pentru bună măsură, voi crea o altă secvență, o secvență care este exact la această secvență foarte specifică, cu excepția faptului că am baza în mijloc care este răsturnată. Și apoi verificăm că secvența cu acea bază în mijloc nu este specifică nici unei alte gene. Deci am avut un control pozitiv și un control negativ. Și în acest fel, ceea ce voi face este să am o măsurătoare foarte specifică și o măsurători foarte specifice de hibridizare aleatorie. Apoi, odată ce am aceste 20 de măsurători, voi găsi câteva statistici pentru a le pune cap la cap. Nu este ușor pentru că aceste măsurători nu sunt măsurători independente. Dar nu contează. Voi pune aceste lucruri împreună cumva. Și măsura pe care o primesc la sfârșit va fi destul de precisă, nu? Acesta este motivul pentru care costă mulți bani. Acesta este motivul pentru care se lucrează mult în calcul , pentru că trebuie să cauți toate aceste secvențe. Și acesta este motivul pentru care, uneori, aceste micromatrice se încurcă complet. A existat un caz celebru cu câțiva ani în urmă în care au creat un nou microarray de șoarece. Și cineva-- nu-mi amintesc unde-- a reanalizat secvențele microarray-ului lor-- noua ediție a microarray-ului mouse-ului-- și a aflat că aproximativ 25% dintre acestea au fost distruse. Nu erau specifice. Nu urmau designul standard. Buna ziua? Bine, așa arată ele. Acesta este microarrayul de scanare. Acesta este microarray Affymetrix. Așa s-a scanat. Petele mici de aici pe transcrierile mai lungi, dar sunt aceste sonde care prelevează probe pentru o anumită secvență specifică. Și sunt împrăștiați în microarray, astfel încât, dacă s-ar întâmpla ceva rău într-un colț, nu ar afecta altceva. În caz contrar, ați putea avea prejudicii în întregul microarray. Erau unul lângă altul. Întreaga ta microarray va fi distrusă. Și așa ar trebui, teoretic, să arate o sondă atunci când este hibridizată. Acolo sus, toate aceste transcrieri sunt mai mult sau mai puțin hibridizate. Și acolo jos, hibridizarea aleatorie nu este chiar hibridizată. Dar hibridizarea rezultată va fi diferența dintre hibridizarea reală și hibridizarea aleatorie pentru fiecare sondă, pentru fiecare pereche de sonde, negativă și pozitivă, și apoi o măsură globală pentru a le pune împreună, cu care nu vă voi deranja. Deci care este problema? Problema este că aceste lucruri costă 1.000 de dolari pe pop. 1.000 de dolari un pop înseamnă o mulțime de bani. Și îți amintești despre ce vorbeam... lucrul bazat pe ipoteze. Când oamenii desenează bile pentru un singur microarray, de obicei o fac de două ori, cel mult, de trei ori. Dar dacă măsurați 40.000 de gene în același timp... ei bine, măsurarea de două ori va fi și o mică problemă, pentru că nu aveți nicio ipoteză de demonstrat, nu? Deci, aici intervine conflictul cultural major. Atunci când oamenii analizează datele, chiar și în domeniile medicale, baza de date arată așa. Există câteva variabile și o mulțime de cazuri. Setul de date microarrays arată de obicei astfel. Aveți o mulțime de variabile, mii de variabile și foarte puține măsurători. Și este destul de amuzant să-i vezi pe acești oameni care lucrează la genetică și definesc din punct de vedere genomic. Deci, atunci când proiectează un experiment genetic pentru SNP, ei colectează 5.000 de pacienți, 2.000 de pacienți, 3.000 de pacienți, deoarece dimensiunea eșantionului este necesară pentru a analiza câteva SNP. Dar atunci când fac microarrays, se așteaptă să găsească [INAUDIBLE] 5 microarrays din 45.000 de sonde. Sunt exact aceiași oameni. Deci, ce poți face cu asta? Ei bine, permiteți-mi să vă prezint o noțiune care vă va rămâne foarte prețioasă. Când oamenii vor fi confuzi, așa cum sunt unii oameni, veți avea un răspuns foarte ușor și rapid. Care este diferența dintre supravegheat și supravegheat? Este exact diferența dintre un film normal și un film PG. Supravegheat înseamnă că există ceva sau cineva care supraveghează. Îți spun lucruri. Asta face un supervizor , vă spune lucruri. Deci un lucru supravegheat înseamnă că au fie un om, fie un fel de semnal care îmi va spune ce înseamnă o anumită probă, nu? O problemă tipică supravegheată este să încercăm să decidem ce a caracterizat oamenii dintr-o anumită cameră. Obțin măsurători din această cameră și din acea cameră. Și în această sală, acesta este un curs gradat de genomică funcțională. În cealaltă cameră este o clasă de la școala de stomatologie. Și să facem diferențe. Avem proprietăți ale acestor oameni. Să vedem ce este diferit. Dar vă voi spune că oamenii din această cameră sunt diferiți de cei din acea cameră. Și acesta este ceea ce se numește semnalul tău de antrenament, diferența dintre două grupuri. Într-un lucru nesupravegheat, știu că nu am supraveghere. Sunt destul de mare ca să merg la un film cu rating R. Deci întrebarea în acest caz este -- am o grămadă de oameni -- există grupuri printre ei? Sunt oameni care seamănă mai mult cu alții. Sunt oameni care controlează pe alții. Se pare mai degrabă, pot spune, bârfă, găsind povești în aceste lucruri. Dar ei răspund la două întrebări foarte diferite. Prima este, ce este diferit între aceste două grupuri de oameni? Și celălalt este ceea ce este asemănător, sau ce este legat, sau care sunt stratificarea, sau care sunt lucrurile pe care le avem în comun între acești oameni diferiți? Devine clar. Deci, ce putem face cu microarray? Cu cuptorul cu microunde... ei bine, primul lucru pe care îl putem spune este, OK, am două condiții experimentale. Și scopul meu este să văd care gene sunt exprimate mai mult și care gene sunt exprimate mai puțin în această stare, nu? Un exemplu tipic este cancerul. Am o grămadă de oameni cu cancer. Am o grămadă de oameni fără cancer. Rulez microarrays și apoi văd ce este diferit. Ce înseamnă? Ei bine, înseamnă că au țesuturi din celule sănătoase și din celule tumorale. Și pentru fiecare probă, voi crea o microarray. Și așa va arăta, la sfârșit, baza mea de date. Deci prima coloană reprezintă numele genei, numele transcriptului la care se uită direct. Și a doua coloană reprezintă valoarea pentru acea transcriere pentru eșantionul unu, eșantionul doi, eșantionul trei, proba patru și proba cinci. Și apoi, am să vă spun, ei bine, eșantionul unu, eșantionul doi, eșantionul trei aparține unei singure categorii, sunt în această cameră. Și eșantionul patru și cinci sunt în acea cameră. Du-te și găsește ce este diferit între aceste două lucruri. Acum, ce înseamnă cu adevărat... ce este diferit? Amintiți-vă, deci dacă o facem cu mâna, putem face fotografii cu mingi și putem spune că această minge este mai mare decât aceasta. Dar dacă am 50.000, 40.000 de bile, ce o să fac în privința asta? Ei bine, ceea ce vor să facă, în acest caz, este să găsească ceea ce este mai mult exprimat într-o parte decât în ​​alta. Și prevederea valutară-- pe care vă voi spune într- o secundă-- moneda acestor măsurători se numește pliuri. Fold este de câte ori o condiție este mai exprimată decât cealaltă condiție. Acum problema este că acest lucru este bine când ai o singură minge. Dacă am 50 de pacienți, ce naiba fac? Ar trebui să iau media? Sigur. Pot să iau media, dar atunci nu am nicio măsură a variației datelor mele. Poate am două lucruri care mediul sunt foarte îndepărtate. Dar, deoarece variația este foarte mare, acestea se vor suprapune. Deci nu există prea multe dovezi că pot colecta. Deci, alte măsuri sunt lucruri precum diferențele standardizate și fac diferența și le standardizează prin varianță, care va lua cumva în considerare varianța, adică sub presupunerea că aceste lucruri sunt distribuite în mod normal, astfel încât acest tip de varianță are orice statistică. sens. Atunci ce faci? Ei bine, atunci decid pragul. Înțeleg peisajul acestui lucru. Și voi spune că primele 50 de gene sunt ceea ce îmi place de fapt și cele mai inferioare 20 de gene. Primele 50 sunt cele care se schimbă mai mult într-o condiție, iar cele de jos sunt cele care se schimbă mai mult în cealaltă condiție. O să iau chestia asta și să văd dacă există ceva interesant. Ceea ce fac oamenii de obicei este să inventeze povești sau să scoată o proteină - cum fac oamenii cu proiectul lor - să scoată proteina și să văd dacă pot într-adevăr - o genă, să aflu proteina și să aflu de fapt. dacă această proteină face ceva cu fenotipul meu. Acest proiect, care este un proiect despre preeclampsie, investigatorul de acolo... primești doar două micromatrice de la o preeclampsie - preeclampsia este o boală pe care femeile o fac în timpul sarcinii. Este o boală foarte rea-- și placenta normală, comparați- le și scoateți proteina. Puneți proteina în șoareci și am aflat că șoarecii sufereau de preeclampsie. Există astfel de lucruri exploratorii. În acest caz, ceea ce mă interesează este să aflu o nouă ipoteză. Apoi pot testa într-un fel de cadru de laborator. După cum am spus, pentru că, în acest caz, am doar două mostre. Dar să presupunem că am mai mulți pacienți, ce pot face? O altă problemă pe care o avem aici este că nu suntem cu adevărat siguri ce fel de distribuții rulează acest microarray. Deci ceea ce spun oamenii este că, pentru că nu știam distribuția, să folosim o metodă fără distribuție, ceea ce este o idee bună. Dar este o idee care se bazează pe speranța că există un prânz gratuit al vieții. Și nu există prânz gratuit în viață. Nicio metodă parametrică, metoda fără distribuție necesită multe date pentru că trebuie să faci două lucruri. În primul rând, trebuie să decideți ce fel de distribuție aveți, implicit. Și apoi, trebuie să rulați testul. Oamenii folosesc metoda parametrică de obicei pentru că au o idee despre distribuție. Și astfel au nevoie de mai puține date pentru a se potrivi acestui test. Dacă ai puține date și habar n-ai despre distribuție, ești nenorocit. Și executarea unui astfel de test tinde să fie un fel de periculoasă. Unul, pentru că, de obicei, dimensiunea eșantionului este prea mică pentru a rula un test parametric adecvat. Doi, pentru că oamenii frecventiști au aceste lucruri numite valori p. Valorile P sunt animale foarte interesante. Care este valoarea p? Cine îmi dă o definiție a valorii p? PUBLIC: [INAUDIBIL] MARCO RAMONI: Vorbește. PUBLIC: Probabilitatea ca... MARCO RAMONI: Două lucruri sunt diferite? PUBLIC: - că înseamnă [INAUDIBIL] foarte diferit. MARCO RAMONI: OK, așa cred pacienții. Dar pentru a face asta... lucrezi prea mult cu pacienții. Și aceasta este o măsură foarte rezonabilă. Sunt interesat să aflu care este probabilitatea ca aceste două lucruri să fie diferite, nu? Aceasta nu este valoarea p. Valoarea p este probabilitatea ca veți face o greșeală dacă repetați experimentul de N ori și îl calculați ca număr de ori în care veți greși repetarea acestui studiu, care este extrem de [? masturbational ?] masura. Nu există nicio relație cu probabilitatea ipotezei tale. Și este foarte greu de pus în practică. În primul rând, oamenii ar trebui să-mi explice de ce ar trebui să-mi repet experimentul de 100 de ori când deja repet 20. Și asta știu, nu? Restul este ghicire educată sau needucată. Dar valoarea p, în acest caz, are această altă mică problemă. Pentru că repet experimentul de multe ori, uneori lucrurile pot apărea la întâmplare. Deci, dacă spun, OK, voi accepta ceva dacă probabilitatea mea este de 5% -- deci valoarea p este 0,01 -- dacă testez două ipoteze, pentru a menține același nivel de eroare, pentru că am probabilitatea ca ceva să iasă la întâmplare - presupunând că aceste două teste sunt independente - trebuie să înmulțesc probabilitatea acestei valori p, nu? Deci pragul meu real pentru a obține o dovadă de 5% a unei valori p ar fi produsul acestor două 5% pentru a menține același nivel de putere a dovezilor. Acum imaginați-vă dacă trebuie să înmulțiți 0,05 de 40.000 de ori. Ce fel de prag ai? Nimic. Nimic nu va trece testul respectiv. Aceasta se numește corecție Bonferroni. Nimic nu va trece testul. Am un prieten foarte drag de-al meu care este foarte frustrat de acest lucru și a decis să devin biolog după ce a încercat să folosească p-testul pentru acest tip de experimente. Pentru că pragul, dovezile acceptate sunt 0,05%, se vor întoarce împotriva ta atunci când îți testezi ipoteza de 40.000 de ori. În plus, aceasta este în condiția cea mai blândă. Pentru că vei presupune că toate ipotezele tale sunt independente. Dar știm că acest lucru nu este adevărat. Știm că aceste gene se reglează reciproc. Deci probabilitatea să se întâmple ceva nu este independentă de probabilitatea să se întâmple altceva, bine? Deci, chiar și în cea mai simplă condiție, avem o mică problemă cu asta. Deci ce putem face? Ei bine, vă spun într- o secundă ce putem face. Dar ce putem face mai departe, nu pentru experiment, ci în general, așa că odată ce am diferențele... OK, pot să mă întorc în laboratorul meu și să pun proteina în câțiva șoareci și să văd ce s-a întâmplat. Dar nu există ceva mai bun pe care să le pot face folosind aceste diferențe? Ei bine, poate pot face modele predictive. Modelele predictive, mai degrabă decât să utilizeze proteine ​​- o proteină la un moment dat, ceea ce se numesc markeri - sunt capabile să pună laolaltă un lot de proteine și să ofere un profil, o predicție pentru un anumit rezultat. În acest caz, poate pot prezice dacă un anumit țesut este o tumoare sau nu. Pot prezice dacă un anumit țesut este un tip de tumoare sau nu este un tip de tumoare. Poate că acest tip de tumoră necesită terapii diferite. Poate pot prezice cât timp va dura un anumit țesut să revină ca cancer, pentru că găsesc o anumită semnătură. Acum cum aflu semnătura? Trebuie să rulez un joc numit selecția caracteristicilor. Selectarea caracteristicilor este... Am o clasă. Am toți acești predictori împreună. Și voi selecta unii dintre ei ca predictori buni pentru [? C. ?] Nu pot folosi toate astea, nu? De ce nu le puteți folosi pe toate? Pentru că predicția bună vine din specificitate, nu? Mă bucur că ești de acord cu asta, pentru că nu este chiar o afirmație atât de normală de acceptat. Oamenii cred că folosești 40.000 de variabile, vei oferi o predicție mai bună dacă folosești cinci variabile independent de calitatea acestei variabile. Adică, atâta timp cât aceste cinci variabile sunt un subset al celor 40.000 de variabile. Dar suntem cu toții de acord că acest lucru nu se întâmplă, nu? Dreapta? Dacă cineva are o îndoială, am o glumă. OK, nu glumă. Deci ce fac? Ei bine, vreau să identific acele gene care îmi prezic clasa, setul de gene care prezic clasa. Deci, dacă selectez caracteristicile , de obicei măresc acuratețea predictivă. Primesc o prezentare mai competitivă . Pot obține o perspectivă asupra procesului care se poate întâmpla. Deși, amintiți-vă, aceasta nu este doar o analiză diferențiabilă. Este ceva pe care vreau să-l folosesc ca un set de prognostic sau diagnostic de markeri atunci când sunt combinați. Și de ce sunt importante diferențele? Ei bine, pentru că pornim de la presupunerea că, dacă două lucruri sunt exact aceleași în două eșantioane, este foarte dificil ca acestea să poată discrimina între ele. Deci, clasificarea, care este această sarcină în selecția caracteristicilor, seamănă uneori foarte mult cu analiza diferențiabilă, dar nu este. Am o întorsătură la sfârșit. Și scopul jocului meu nu este să aflu ce este diferit. Este găsirea a ceea ce este predictiv. Și exemplul este... se presupune că vă dau două grupuri de oameni. Și nu știți, dar un grup sunt bărbați și celălalt grup sunt femei. Și apoi vă dau o listă cu proprietățile acestor oameni. Și ar fi multe diferențe. Femeile tind să fie puțin mai scunde decât bărbații. Femeile tind să aibă mai mult păr la o anumită vârstă. Femeile tind să câștige mai puțini bani. Dar există câteva diferențe anatomice care sunt cu adevărat buni predictori ai acestor diferențe. Nu înseamnă că nu există altă diferență. Dar înseamnă că această caracteristică anatomică este un predictor perfect între bărbat și femeie. Deci, dacă faci analiză diferențiabilă, s- ar putea să fii interesat și de faptul că acești oameni au diferențe de venit. Dar dacă incluzi acești factori în modelul tău predictiv, poate pentru că sunt scund și nu câștig mulți bani, ajungi să mă clasifici drept femeie, bine? Poate să vă încurce ideile. Deci spuneam că metoda neparametrică are mici probleme cu asta, deoarece nu avem suficiente mostre. Dar avem clasificatori care sunt clasificatori parametrici. În acest caz, facem o presupunere cu privire la distribuția datelor noastre. Și apoi încercăm să ne potrivim datele în această distribuție, economisindu-ne astfel mult efort în colectarea mai multor date. Pentru că datele sunt foarte complicate, iar ipotezele sunt ieftine. Putem de fapt să ne validăm ipotezele după aceea. Deci, așa cum știți mulți dintre voi , acesta se numește Clasificator Bayes Naiv , în care presupun că fiecare genă de acolo este independentă condiționat, având în vedere clasa. Nu înseamnă că este independent, nu? Așa cum făceam înainte... făceam teste independente, vă amintiți? Testele independente presupun că sunt marginal independente. În acest caz, sunt independenți condiționat. Independent condițional este că, odată ce cunosc clasa, nu dau nici un ban despre dependența dintre aceste două gene. Poate că există o relație foarte complicată între gena unu și gena a doua. Dar pentru că interesul meu, în acest caz, este să găsesc o clasificare, nu mă interesează. Pentru că în ceea ce privește clasificarea clasei , aceste lucruri nu sunt legate, nu? Deci este ca o presupunere slabă a independenței în care slab, în ​​acest caz, înseamnă bine. Pentru că nu forțăm o presupunere prea puternică în analiza datelor dvs. Odată ce am asta, fug... lasă-mă să mă întorc o secundă la asta... cealaltă. Vreau cealaltă poză. Haide. Vezi asta? În acest caz, genele mele sunt marginal independente. Săgeata merge în cealaltă direcție, nu? Deci toate aceste gene [? cauza?] clasa mea, dar sunt independente. Și aceasta este structura unui clasificator standard. În celălalt caz, sunt independenți condiționat, având în vedere clasa. Așa că, odată ce am acest model special, am selectat care sunt genele care îmi plac. Am estimat modelul parametric. Apoi, pot face predicții. Deci, dacă aș fi folosit un fel de analiză diferențiabilă folosind un test neparametric, prin definiție, nu am parametri. Este neparametric. Deci nu pot face o predicție cu setul de parametri [? inferior. ?] Ceea ce folosesc oamenii sunt lucruri numite amestec de experți, în care atribuie un fel de greutate arbitrară diferitelor gene. Și fiecare genă va fi ca un expert, judecând dacă acest țesut anume este un cancer sau nu este un cancer. Dar aceste ponderi sunt de fapt încorporate în orice model parametric pe care îl obțineți, care este probabilitatea de a observa acea anumită genă exprimată, dat fiind faptul că aveți o schimbare în clasa dvs., că clasa este tumoră sau nu tumoră. Așadar, puteți aplica teorema lui Bayes și puteți inversa acele erori și puteți obține probabilitatea posterioară ca eșantionul dumneavoastră particular să fie o tumoare sau să nu fie o tumoare. Asa functioneaza. Ei bine, asta tocmai am spus. [INAUDIBLE] a avut-o pe aceasta. Deci am o clasă. Și sunt interesat de probabilitatea clasei, având în vedere profilul molecular al eșantionului , care este noul meu pacient care vine. Și, aplicând regula lui Bayes, pot calcula efectiv. Deoarece probabilitățile pe care le am sunt probabilitatea fiecărei caracteristici având în vedere clasa, care este direcția săgeții. Regula lui Bayes îmi va permite să răsturn această regulă înapoi, să o aplic ca produs și să pun toate aceste lucruri împreună într-o singură probabilitate posterioară. Este doar suma acestei probabilități. Am un alt lucru interesant cu asta... o altă bunătate cu chestia asta pe care chiar îmi pot valida lucrurile. Ei bine, validarea asta ar însemna să mă întorc în laboratorul meu și să mă uit la câteva lucruri. Validare înseamnă să văd cum modelul meu este bun pentru a se potrivi cu toate cele 40.000 de gene. Și cel mai bun mod de a valida ceva este să ai un set de testare independent. Adun pacienți aici, la Harvard. Îmi construiesc modelul. Și apoi, îmi sun pe prietenii mei din San Antonio și spun, ascultă, am acest model. Ai 50 de pacienți? pentru mine pe care le pot clasifica, și știți deja diagnosticul? Și dacă le are, atunci mișto. Pot spune cu adevărat, aceasta este acuratețea modelului meu de aici până acolo. Dar uneori, nu avem aceste lucruri. Ei bine, destul de des nu avem aceste lucruri. Deci, cum putem face asta ieftin? Ieftin-- putem folosi validarea încrucișată. Validarea încrucișată înseamnă că îmi iau setul de date. L-am împărțit în cinci părți. Și folosesc patru părți pentru a-mi învăța modelul. Și apoi, prezic partea a cincea. Și apoi, iau alte patru din aceste cinci părți. Construiesc un alt model. Și prezic partea a cincea rămasă. Acest lucru scade dimensiunea eșantionului pe care o aveam deja inițial. Deci, ceea ce s-a întâmplat este că oamenii folosesc un lucru care se numește validare încrucișată, unde numărul de seturi este egal cu numărul de mostre. Deci, ce înseamnă că scot o probă. Construiesc un model pe celălalt. Încerc să prezic eșantionul care a fost luat din care cunosc clasificarea. Acesta este un exemplu. Unul dintre primele modele predictive care a apărut în 1999. Avem două tipuri de leucemie -- LLA și AML, leucemie limfoblastică acută, leucemie mieloidă acută. Și după cum puteți vedea la microscop, sunt foarte greu de diagnosticat. Deci, ce oamenii ăștia de la [? Wycliffe?] a făcut a fost să spună, ei bine, să colectăm, cred, 27 și 11 pacienți, nu? Și ceea ce au făcut a fost să creeze un vector fals de zerouri și unu și apoi să coreleze expresia genei... îmi pare rău. Coloanele sunt pacienți. Rândurile sunt gene, nu? Și acum nu-mi amintesc dacă albastrul este subexprimat sau supraexprimat. Dar ceea ce înseamnă este că au un fel de medie pentru a reprezenta această imagine. Iar distanța pozitivă a punctului față de această medie este intensitatea roșului. Iar distanța negativă este intensitatea albastrului. Deci, cu cât culoarea este mai intensă, cu atât punctul tău ar fi mai departe în comparație cu media acestor valori. Și în același timp, direcția acestei distanțe ar fi dată de culoare. Deci, dacă este albastru închis, ar fi foarte negativ. Dacă este roșu închis, ar fi foarte pozitiv. Deci, ceea ce au făcut a fost să coreleze aceste gene și să scoată primele 50. Deci cele 50 care au corelat mai mult cu gena, cu acest vector fals cu corelația pozitivă și cu corelația negativă, 50 și 50. Și ceea ce au făcut atunci a fost pentru a face un amestec de predicții experți și pentru a vedea care era exactitatea pe care o puteau obține de la propriii lor pacienți. Și de atunci, au existat miliarde de hârtie scrise așa. Vreau să subliniez faptul că, în acest caz, nu ne interesează, din nou, ceea ce este cu adevărat diferit. Suntem interesați să găsim o clasificare moleculară pentru aceste lucruri. Speranța aici este că într-o zi puteți construi un mic control -- și chiar fac asta pentru literatură -- pe care să puteți pune niște gene specifice și să aveți o clasificare care să vă spună că acest pacient are acest tip special de leucemie. Acest pacient are acest alt tip de leucemie. OK, deci am vorbit despre ceva care este o întrebare [INAUDIBILĂ], este un lucru controversat. Dar m-am gândit aseară să includ chestia asta. Dar apoi mi-am spus , da, atâta timp cât îți spun că ceea ce o să-ți spun ar putea fi destul de controversat. E în regulă dacă îți spun asta, nu? Și de aceea vrei să mergi la școală pentru a fi profesor. Pentru că atunci poți spune lucruri controversate. Nu te pot concedia, sperăm. Unul dintre lucrurile pe care oamenii le fac pentru a identifica diferențele mai ușor, chiar și cu transmiterea lor în jos, tăierea pragului, este dezumflarea varianței, OK? Dacă am două mostre care sunt foarte îndepărtate, dar dacă găsesc o modalitate de a stoarce varianța acestor cazuri, atunci voi avea o variație mult mai mică. Și am mai multe șanse ca schimbările mele să fie semnificative, nu? Pentru că varianța ar fi mai mică. Acum, acesta este ceva care pentru orice alt tip de analiză a datelor, vă va trimite cel puțin în discreditare, uneori în închisoare. Dacă faci asta din bugetul unei companii sau dacă faci asta în cadrul unui studiu clinic, mergi la închisoare. În microarray, oamenii nu merg la închisoare. Pentru că este un lucru original care avea sens inițial. Vă amintiți micromatricele cADN? Micromatricele cADN au două canale. Acum știm că, prin proiectare, există un dezechilibru între aceste două canale. Un canal este mai intens decât altul. Deci, dacă compar cu mostre, ceea ce aș putea găsi este ceva care arată așa. Deci am cele două micromatrice care se află pe două lucruri paralele, nu? Și vezi că există o părtinire. Tot roșul pe o parte și tot albastrul sunt pe cealaltă parte. Deci, ceea ce obișnuiau să facă oamenii de fapt pentru acest tip de platformă, pentru că aveți două canale, este să încercați să reconciliați aceste două canale studiind distribuția acestor două lucruri și să încercați să le puneți unul peste altul. Deci, ca formă de corectare, o faci. Pentru că, prin design, știți că platforma dvs. va introduce anumite părtiniri. Și asta e corect. Asta e bine. Problema este că, atunci când au fost introduse micromatrice de oligonucleotide , oamenii pur și simplu au luat orbește aceste lucruri și încearcă să se aplice la micromatrice. Și începi să ai câteva probleme. În primul rând, micromatricele de oligonucleotide nu sunt două canale. Sunt un singur canal. Deci să presupunem că au 50 de pacienți. Ce fac acolo? Pe ce pacient iau drept referință? Am de gând să împac toți pacienții cu primul pacient la început? Și ce se întâmplă dacă schimb acest pacient? Se vor schimba genele mele? Da, pariezi că da. Așa că acum, dacă chiar vrei să ai o discuție de mare succes cu biologii, du-te și spune-le că nu ar trebui să se normalizeze. Pentru că există aproximativ 100 de metode de normalizare diferite de acest tip. Iar oamenii sunt confuzi. Dar oamenii sunt confuzi pentru că chiar nu este nevoie. Oamenii nu sunt confuzi cu privire la normalizare și ADNc. Oamenii sunt confuzi ca normalizarea să-ți stoarce variația și să obțină rezultate mai bune. Pentru că, în realitate, chiar și atunci când aveți un design cu două canale, deci am o carcasă de pereche și un control cu ​​microarray. Obții de fapt rezultate care arată ca acesta. Acum, acestea sunt microarray-uri care provin de la o instituție din acest [? stradă?] la care nu sunt afiliat și nimeni de aici nu este afiliat. Deci chiar pot vorbi despre ele. Și acesta este un bun exemplu de ce să nu faci normalizare. Deci, aceștia sunt oameni înainte și după tratament, bine? Acestea sunt experimente pereche, deoarece este aceeași persoană care este eșantionată înainte de tratament și după tratament. Deci îți amintești acele replici care parcă mergeau una după alta? Înseamnă că am trasat intensitatea unui canal în raport cu intensitatea celuilalt canal. Deci uite. Complotăm acest microarray în raport cu acest microarray, care este microarray înainte și după, nu? Deci, în acest caz, da, mai mult sau mai puțin, seamănă cu celălalt. Iti amintesti? Acum uită-te la asta. Vă puteți imagina vreo transformare care va pune acele lucruri pe aceeași linie? Da. Uita-te la asta. Deci, în acest caz, ceea ce s-a întâmplat este că există ceva care este foarte dezamăgit. Și, din nou, acestea urmează exact același design pe care l-a urmat ADNc, designul experimental, deși practica finală este absolut diferită. Deci, sfatul meu în ceea ce privește normalizarea este să nu vă schimbați datele care ar putea fi utile. Dar încercați să vă uitați la datele dvs., deoarece acestea pot conține unele informații importante. Acest microarray este complet dezastruos și ar trebui fie eliminat, refăcut sau făcut ceva în privința ei. OK, deci ce am învățat? Am învățat că putem găsi de fapt diferențe între eșantioane în diferite condiții. Putem face predictori. Am aflat ceva interesant despre celulele genomului? Nu chiar. Nu am aflat nimic despre relația dintre gene. Deși le măsurăm pe toate în același timp, le-am ignorat complet, de fapt, ne luptăm împotriva ideii că aceste lucruri ar putea fi legate. Suntem pur și simplu interesați să găsim ceva care să fie diferit în două condiții sau pur și simplu interesați să găsim ceva care, împreună, ar putea prezice această condiție. Asta este. Aici ne aduce clasificarea supravegheată. Dacă vrem să profităm de faptul că am măsurat toate aceste gene și observăm genomul în acțiune pentru a încerca să decodificăm ceva despre genom, atunci avem nevoie de o metodă diferită. Și nu avem nevoie de supraveghere tot timpul. E ca atunci când ești copil. Dacă există supraveghere, este foarte puțină distracție. Deci, cel mai ușor lucru pe care îl putem face este să spunem, bine, bine, uită de supraveghere. Am această grămadă de gene în diferite condiții. Uită de aceste condiții. Nu-mi pasă de aceste condiții. Ceea ce vreau să văd este care sunt genele care se comportă mai similar în toate aceste condiții diferite? E ca și cum ai avea o mașină, nu? Încercați să înțelegeți cum funcționează dând cu piciorul și lovindu-l în diferite puncte ale mașinii, apoi vedeți cum lucrurile merg împreună sub diferite stresuri. Deci, dacă dau cu piciorul în volan, dacă țin portbagajul, dacă dau cu piciorul în ușă, ce se întâmplă? Cum se mișcă aceste lucruri împreună? Care este relația dintre aceste lucruri? A fost o analogie frumoasă în urmă cu ceva timp. Dar tu studiezi aceste lucruri. Și modul în care studiezi aceste lucruri... asta a fost pentru secvențierea genomului. Ei bine, parcă ai avut, în viitor, cineva vine cu Volkswagen. Și descoperă pe undeva un Volkswagen [INAUDIBIL]. Și ei habar nu au ce este. Așa că, pentru a înțelege cum funcționează, iau Volkswagen și îl aruncă de pe stâncă. Și apoi, când este jos, încearcă să pună din nou piesele împreună, nu? Asta este ceea ce încercăm să facem cumva. Defalcăm acest lucru cu un fel de solicitări și încercăm să vedem care părți se comportă împreună. Deci, în acest caz, de parcă am avea 1.000 de Volkswagen-- ei bine, 100 de Volkswagen. Și continuăm să le aruncăm jos. Și la sfârșit, când sunt jos, pentru că nu știm cum să deschidem motorul, când sunt jos, vom vedea că sunt câteva piese care sunt mai apropiate. Și rămân mai apropiați. Și acest lucru este independent de faptul că aceste două lucruri cad în stânga sau în dreapta corpului principal al Volkswagen. Deci, un lucru simplu este să spunem, ei bine, să măsurăm corelația dintre aceste lucruri. Supravegherea genelor [INAUDIBILĂ]. Au o mulțime de solicitări. Ar putea fi diferiți compuși care tratează o anumită boală. Acestea sunt poate diferite tipuri de cancer. Nu-mi pasă. Nu vreau să găsesc o clasificare. Vreau doar să aflu care sunt genele care merg împreună în jurul acestor condiții. Dacă folosesc corelația, singurul lucru pe care îl pot face, totuși, este să mă uit la comparații pe perechi, nu? Pot doar să spun că o genă merge la o altă genă. O corelație este o distanță între două puncte. Nu pot avea grupuri de trei, sau cinci sau 15. Cum pot pune aceste lucruri împreună? Ei bine, pot folosi un alt tip de clustering numit clustering ierarhic. Gruparea ierarhică începe să pună lucrurile cap la cap. Dar când pune două lucruri împreună, creează un fel de genă falsă, care ne face să ne simțim ca media acestor două gene sau ceva de genul acesta. Și apoi încercați să corelați acest profil mediu, această genă medie, cu alte gene. Deci, la final, rezultatul ar fi cam așa. Din nou, este ca albastru și roșu. În acest caz, este verde și roșu. Acestea sunt culoarea Stanford. Wycliffe folosește albastru și roz. Duke, cred, folosește galben. John Hopkins folosește verde și albastru-- ei bine, câteva combinații ale acestora. Dar puteți recunoaște de fapt cel puțin platforma pe care o folosesc după culoarea imaginilor lor. Deci, în acest caz, aceasta este o poză Stanford. Din nou, verdele este în jos și roșul este în sus sau invers. Și, de fapt, prin inspecție vizuală, puteți vedea că există unele puncte care sunt foarte exprimate în afara mediei, sunt expresii foarte scăzute, foarte [? scăzut?] exprimat din medie. Deci acesta este zoom-ul acelei imagini. Și puteți vedea că aceste lucruri creează un arbore sau o diagramă Venn. Și acest copac va aduna grupuri de gene, nu doar două gene. Și problema aici este că nu ai cu adevărat o măsură bună pentru a decide când ai făcut un grup. Pentru că, din nou, aveți un singur arbore care le va combina pe toate în ordine diferită. Deci, din punct de vedere tehnic, acest lucru nu este -- deși se numește clustering -- clustering înseamnă a pune lucrurile împreună și a le împărți. Din punct de vedere tehnic, acesta este un algoritm de sortare prin care pun o anumită ordine -- în acest caz, o ordine parțială -- asupra acestor lucruri. Și apoi vor veni niște biologi cunoscători și vor spune, oh, printre acești oameni din acest grup, văd că există printre acest grup-- Văd că toate aceste gene sunt legate de un anumit proces. Deci, poate și aceste gene care sunt încorporate corect între ele sunt legate de același proces. Și poate este apoptoză. Și acestea sunt cinci gene apoptotice. Și apoi, ei găsesc altceva. Și creăm un alt grup. Dar aceste grupuri, aceste culori diferite - roz, violet și roșu de acolo - sunt făcute manual de cineva cu multă răbdare care le-a pus împreună. PUBLIC: [INAUDIBIL]. MARCO RAMONI: Mai spune. Ce? PUBLIC: Copacii sunt făcuți manual? MARCO RAMONI: Nu, nu. Copacii... scuze. Arborele în sine este construit printr-un fel de metrică. Nu știu de ce nu vine... OK. Deci calculez corelația dintre aceste două puncte, acești doi vectori de valori. Apoi, creez, să spunem, o valoare medie aici. Și apoi, desenez aceste două puncte. Și consideră această nouă valoare pe care am creat-o ca un nou membru al setului meu de date. Nu am văzut cu ce se corelează asta. În acest caz, aceasta se corelează cu aceasta. Deci cel mai înalt lucru corelat este o genă. Și asta creează un nou lucru ipotetic, care este media celor doi și a acestuia. Deci, ceea ce se întâmplă este că, la final, creez o structură ca aceasta. Dar problema este că pentru că toate sunt măsuri, la final, vor avea un singur copac. Deci, cum creez blocuri? Modul în care sunt create blocurile... și eu spun, colorează asta în violet și pe acesta în roz. Acestea au fost lucrate manual. Îți voi spune într- o secundă cum poți evita să faci acest lucru manual. Pot face și ceva mai interesant. Acesta a fost un experiment temporar, [INAUDIBLE] al doilea experiment temporar. Deci știam ordinea acestor micromatrice. Dar uneori, nu mă interesează cu adevărat doar modul în care genele merg împreună. De asemenea, sunt interesat să găsesc o nouă clasă printre pacienți, nu? Aceasta este o lucrare foarte interesantă din 2000 în care ceea ce au făcut acești oameni a fost să încerce să grupeze simultan gene și pacienți. Și au venit cu grupuri. Vedeți acele grupuri acolo sus. Grupurile de acolo sus nu sunt diagrame Venn. Acestea sunt grupuri de pacienți bazate pe o selecție de gene care sunt mai exprimate în cele două afecțiuni. Și apoi ceea ce au făcut a fost să afle că... dacă te uiți la timpul de supraviețuire... câte dintre curba Kaplan-Meier? Toata lumea. Bine, deci dacă te uiți la curbele Kaplan-Meier ale acelor grupuri, vezi că există diferențe foarte semnificative în supraviețuire, OK? Deci, în acest fel, pot descoperi nu ceva care este cu adevărat despre gene, ci ceva despre boala clasificată în general. Aflu o nouă clasificare pentru boli cu consecințe clinice interesante. Din nou, problema este că trebuie să fac această colorare de mână. Există vreo modalitate prin care putem evita de fapt să colorăm aceste lucruri? Da. Există o cale. Și aceasta este ideea. Dacă doriți să vă grupați, înseamnă că trebuie să faceți diferențe între lucruri. Deci puteți decide în mod arbitrar numărul de clustere. Și spuneți, OK, am 50 de grupuri. Și împărți totul în 50 de părți. Dar de ce nu 49, sau 38, sau 15, sau doi. Deci noțiunea centrală a grupării este similaritatea. Dacă avem o definiție a asemănării care este suficient de specifică, atunci această similitudine ne va permite să spunem când putem de fapt grupa fără a crea un prag, doar o definiție conceptuală a similarității. Deci trebuie să postulez această descriere a asemănării. Și am nevoie de o bucată de teologie înainte de asta. Dar permiteți-mi să postulez asta. În statistică, nu crezi că ceea ce ai observat a fost creat direct de Dumnezeu. Ceea ce credeți este că există unele procese pe care nu le observați și care generează datele pe care le observați cu o oarecare aleatorie, o anumită măsură de incertitudine. Acum să facem un exemplu. Să presupunem că luăm electrocardiogramele fiecăruia dintre noi. Și, sper, mai ales pentru mine, toate aceste electrocardiograme ar fi diferite. Dar, sperăm, ar proveni din același proces, care este procesul unei inimi sănătoase, al meu va fi ușor diferit pentru că este mic, dar probabil nu va fi suficient de diferit de al tău pentru a spune că acesta este un lucru complet diferit. Acum să presupunem că mergem la Brigham, la cardiologie la Brigham și luăm electrocardiograme oamenilor de acolo. Acolo, mă aștept ca oamenii să aibă între ei diferențe suficient de mari pentru a fi generate de procese diferite, de diferite patologii ale inimii. Acum o să vă spun că două lucruri sunt similare dacă sunt generate de același proces. Și două lucruri sunt diferite dacă sunt generate de două procese diferite. Și dacă cumpărați această poveste, atunci vă pot oferi o metodă de a calcula când ceva este generat de același proces și când ceva nu este. Cum? Ei bine, știm că aceste procese pe care nu le observăm, dar ele stau la baza datelor pe care le observăm de fapt, generează datele noastre cu un fel de incertitudine, adică un proces aleatoriu care generează date din asta. Un exemplu este îmbătrânirea, nu? Îmbătrânirea are un efect deosebit asupra oamenilor, de obicei te face mai bogat, de obicei, după ce la un anumit punct, te face mai puternic, după un anumit punct, te face mai slab, are efecte asupra stării tale civile. Ai tendința să te căsătorești, apoi să divorțezi, sau să rămâi văduv sau orice altceva. Când este cuplat cu alte variabile, cum ar fi sexul, poate avea alte efecte fizice, cum ar fi să-ți pierzi părul dacă ești bărbat și așa mai departe, nu? Așa că, dacă găsesc pe cineva care la 13 ani este la un pas de al treilea divorț, asta nu este imposibil. Dar aș găsi că este puțin probabil. De ce? Pentru că există un proces numit îmbătrânire care dictează, mai mult sau mai puțin, ca oamenii să fie la al treilea divorț, de obicei, trebuie să aibă cel puțin 35 de ani. Deci, dacă acest tip are 13 ani, este dificil. Nu este imposibil, dar este dificil. Deci avem aceste așteptări generale care decurg din faptul că există aceste procese care generează observația pe care o avem și este constrâns de alte lucruri. Așa cum spunem că pierderea ei este constrânsă de gen, probabilitățile se schimbă în funcție de gen. Dar, în același timp, odată ce observ datele, vă pot spune că ceva este probabil să fie generat de un anumit proces și ceva mai puțin probabil să fie generat de un anumit proces, nu? Și asta vrem să facem. Vrem să calculăm probabilitatea percepută ca un set de procese, ca responsabil pentru datele mele - deci M dat D va fi datele - pentru fiecare clasă pe care o modelăm, pentru fiecare mod de a combina clusterele mele. Și apoi, pot combina scorul și pot afla care este cel mai probabil mod de a combina aceste clustere. Și la final, ceea ce voi avea este o grămadă de ciorchini, nu doar un copac, nu ceva ce trebuie să tai cu pragul. Dar aș putea să vă spun că, dacă două lucruri sunt puse împreună, ele sunt de N ori mai probabil să fie generate de același proces decât să fie generate de două procese diferite. Interesantă lucrare, o vei citi. Asa functioneaza. Probabilitatea modelului dat fiind date prin teorema lui Bayes este egală cu probabilitatea datelor date modelului ori [? furnizarea ?] a modelului pe [? nefurnizarea?] a datelor. Acum nu voi intra în detalii. Dar la sfârșitul zilei, în baza unor ipoteze, cum ar fi ipoteza că, înainte de a analiza orice date, toate modelele sunt la fel de probabile și ipotezele că încercăm modelele noastre pe aceleași date, ceea ce facem de obicei. Avem același set de date de expresie și dorim să găsim cel mai bun model. Ceea ce putem calcula este acea probabilitate, care este probabilitatea datelor date modelului, care este proporțională cu probabilitatea modelului dat date. Și, prin urmare, îl putem folosi ca punctaj. Aceste lucruri sunt oarecum comparate cu acestea pentru a calcula. Se numește probabilitate marginală. Și astfel putem căuta toate aceste combinații și putem afla care este combinația cea mai probabilă, care este cea mai probabilă combinație, de, în acest caz, gene, având în vedere datele pe care le observăm. Acum, lasă-mă să plec... deci acestea sunt câteva subiecte avansate. De acum înainte, aceasta nu este supusă examinării, pentru test. Să presupunem că sunt interesat de ceva de genul controlului. Am învățat până acum ceva despre control? Ei bine, am învățat că lucrurile merg împreună, lucrurile sunt asemănătoare. Dar nu am învățat nimic despre modul în care lucrurile controlează lucrurile. Pentru a vedea cum genele controlează alte gene, avem nevoie de un design de experiment foarte important, care este un experiment temporal. Trebuie să vedem ce s-a întâmplat de la un punct la altul. Și spui, ei bine, e cam ușor. Eu iau această metodă de grupare. Folosesc această metodă de grupare și le-am pus împreună. Și apoi, voi găsi un fel de asemănări. Pot să fac asta? Nu de ce? Deoarece măsuri precum corelația sau măsurarea distanței presupun că toate observațiile pe care le aveți sunt marginal independente. Ce sa întâmplat cu pacientul unu din gena unu nu are nicio legătură cu ceea ce sa întâmplat cu pacientul doi pe gena unu, nu? Dar când este timpul... ei bine, când este timpul, este cu adevărat, cu adevărat diferit. Timpul înseamnă că locul în care sunt acum depinde de locul în care a fost acum cinci minute, acum 10 minute, acum 30 de minute, acum 100 de minute. Deci, dacă voi măsura același sistem mult timp, observațiile mele nu vor fi independente. Să o punem așa. Dacă măsoară lucrurile mult timp, nu am temei să presupun că presupunerile mele sunt independente. Pentru că a presupune că ipotezele sunt independente este o simplificare, nu? Dacă am un model care este capabil să țină cont de dependență, îl pot reduce oricând la un model de independență. Dar nu pot face invers . Și permiteți-mi să vă dau un exemplu practic. Acestea sunt două perechi, două gene în sus și două gene în jos. Deci măsori distanța dintre aceste două gene. Acum, corelația celor două gene de acolo este ceva de genul 0,6. Și corelația genelor de acolo este de aproximativ 0,8, nu? Dar acum luați în considerare amintirea timpului. Și uită-te la prima poză. Cu excepția primului punct, când prima genă merge într-o direcție, a doua genă merge exact în aceeași direcție, nu? Nu se intersectează niciodată. Al doilea punct... merge de la un punct, coboară. A doua genă scade. Al treilea punct - primul urcă și al doilea urcă. Și apoi coboară, coboară și coboară din nou. Iar celălalt coboară din nou. Coboară puțin mai puțin. Merge... uită-te la asta. Acum uită-te la celălalt, care are o corelație mai mare. Aceste gene sunt întotdeauna una împotriva celeilalte. De fiecare dată când o genă crește, cealaltă genă scade. Deci, dacă sunt de fapt interesat de dinamica sistemului meu -- de ce corelația ar asemăna aceste lucruri mai mult cu acelea -- măsura mea bună -- ținând cont că sunt interesat de dinamica schimbării acestui lucru - - ar necesita de fapt o perspectivă diferită, o măsură diferită care să țină cont de ceea ce s-a întâmplat înainte și să le punem pe cei doi împreună, pe cei doi mai apropiați decât aceste perechi. Cum pot modela aceste lucruri? Pot folosi un lucru numit modele autoregresive. Modele autoregressive-- este foarte simplu. Există o mulțime de moduri de a face asta. Acesta este doar un exemplu despre cum să ții cont de trecutul tău. Cum pot face acest lucru? Ei bine, am o serie temporală de observații dependente. Și ceea ce pot spune este că presupun că punctul meu observat , în acest moment, este independent de trecutul îndepărtat, având în vedere trecutul său recent, nu? Deci, ca să știi că sunt aici acum, nu trebuie să știi unde am fost alaltăieri. Trebuie să știi unde am fost acum 10 minute, acum o oră, poate acum două ore. Dar capacitatea de predicție de acum două zile, unde eram la cinci mile de aici, va fi foarte, foarte slabă. Deci, puteți rezuma datele dvs., rezuma așteptările dvs. de a fi cineva aici, uitând trecutul îndepărtat și luând în considerare doar trecutul recent. Cel mai recent ar putea fi un punct. Și, în acest caz, poți crea un model ca acesta în care să-ți complotezi prezentul -- adică timpul meu acum -- cu trecutul tău imediat. Și, în acest caz, presupui că totul... observația mea este independentă de trecutul meu, având în vedere cea mai recentă observație a mea. Acesta este cel mai simplu model autoregresiv. Acum, acest tip de experimente, din nou, ne spun ceva despre asemănarea lucrurilor. De fapt, acesta este un fel de analiză. Datele sunt mereu aceleași. Odată ce avem aceste date temporale, dacă facem niște grupări, putem vedea că lucrurile funcționează în același mod mult timp, dar cu greu ne vor spune că ceva controlează altceva. În acest caz, așa cum spuneam la început, nu sunt de fapt datele despre proiectarea experimentului. Este tipul de analiză pe care o faci. Deci, dacă interesul tău este să afli care sunt grupuri funcționale de gene care lucrează împreună, ei bine, gruparea este soluția ta. Dar dacă sunteți interesat să disecați care este reglarea, mecanismul de reglare între gene, asta nu vă va spune. S- ar putea să am lucruri care se comportă cam la fel, dar nu se comportă neapărat împreună. Ca să fiu extrem, aș considera că ceva care controlează altceva nu va avea exact același comportament temporal, nu? Deci, dacă vreau să te am aici astăzi, trebuie să te sun ieri sau trebuie să fiu aici ieri. Trebuie să fac ceva înainte să fii aici dacă te controlez, nu? Deci o modalitate de a folosi aceste lucruri, de a încerca să disecați acest tip de informații, dacă aceasta este întrebarea pe care o aveți, este să folosiți un lucru numit rețele bayesiene. Rețelele bayesiene reglează genele -- în acest caz, relaționând variabilele în general -- uitându-se la cât de probabil este ca un anumit set de variabile să controleze un alt set de variabile. Inițial, aceste lucruri au fost construite pentru oameni, oameni de la care doriți să clonați informații, cunoștințe de la care. Cumpărați prânzul sau cina prietenului dvs. medic, vă îmbătați și distrageți atenția de la promisiunea care va veni la laboratorul dvs. a doua zi. Și ei vor desena o rețea a acestor cunoștințe spunând această genă față de altă genă față de altă genă și apoi vor adăuga o probabilitate care să descrie funcția prin care o anumită genă controlează o altă genă. Acest exemplu special... Îmi pare rău. Există câteva persoane care au văzut acest exemplu de cel puțin 100 de ori. Nu este vorba despre gene, ci doar despre intuiția a ceea ce este acolo. Această rețea vă spune că vârsta dvs. educația vă afectează venitul. Deci, acest lucru este ușor de desenat. Problema este cum vârsta și educația îți afectează venitul? Acest lucru este specificat de acel set special de distribuții. Și acele distribuții îți spun că dacă ești tânăr și dacă ai o educație scăzută, probabilitatea ta de a avea un venit scăzut este de 0,9. Și pe măsură ce îmbătrânești și devii mai educat, probabilitatea de a avea un venit mai mare crește. Nu este una pentru că poți alege oricând să fii academic. Problema este că nu ne interesează să facem aceste lucruri manual. Suntem interesați să găsim aceste lucruri din date, nu? Și putem juca exact același joc pe care îl jucăm cu chestia cu gruparea. Putem afla care este cel mai probabil set de noduri, care este setul de noduri care sunt cel mai probabil să controleze o anumită genă. Și putem face asta pentru fiecare genă. Deci imaginea finală... a pierdut-o. Oh, poza finală a acesteia este aceasta. Haide. Dă-mi o poză. Iată-l. Fiecare bilă reprezintă o genă, cu excepția acestor trei bile albastre. Bine, deci aceștia sunt aproximativ 40 de pacienți, să zicem, 41 de pacienți, copii și adolescenți cu leucemie. Și pentru acești pacienți, am măsurat câteva fenotipuri. Dar cel mai important lucru care ne interesează este clasificarea moleculară, astfel încât tipul de se numește status oncologic, status oncogene, care este clasificarea moleculară a tumorii. Și aceasta este supraviețuirea lor. Și asta este [? găsesc, ?] sunt câte zile au stat în spital, bine? Și ceea ce îi interesează este să afle dacă există o relație între... îți amintești când analizam celelalte lucruri în condiții diferite? Făceam o analiză pentru fiecare fenotip diferit. Nu am putut pune fenotipurile împreună într-o singură imagine. În acest caz, putem pune cele două fenotipuri într-o singură imagine și putem vedea, de exemplu, dacă există vreo legătură care va merge de la oncogene la supraviețuire și cum acest proces este mediat de alte gene. Și ceea ce putem afla, de asemenea, sunt dependențe între gene și alte gene. Și vezi că există direcții în acele săgeți. Și acele direcții înseamnă de fapt că o genă controlează cealaltă genă. Exemplul pe care îl rulez de obicei este să presupunem că vrem să descoperim care dintre aceste pâlpâiri controlează aceste lumini, nu? Așa că o pot face așa. Pot schimba pâlpâirea. Pot schimba aceste lucruri. Și acest lucru va afecta ca aceste lumini să fie aprinse și stinse. Dar dacă încerc să deșurubesc acele lumini, ele nu vor schimba starea acesteia, nu? Valorile pe care le folosim sunt foarte asemănătoare cu aceasta. Deci, metrica va ține cont de faptul că măsurați influența unei influențe direcționate de la o genă la alta. Nu este doar o simplă distanță. Nu este doar o măsură în pereche. Și, de fapt, nu este pereche pentru că, după cum puteți vedea, puteți avea mai mulți părinți. Acest nod de aici -- doar pentru a face un exemplu -- sunt trei părinți, acesta, acesta și acesta. Nu, mă scuzați. Acesta este un copil. Și acesta este un părinte. Și acesta este un alt copil. Și are și un nepot, aici. Deci, puteți folosi acest tip de informații pentru a crea un peisaj molecular al mecanismului de control al lucrurilor voastre. Și îți amintești ce spuneam despre cât de probabil este? De fapt, pot măsura cât de probabil este ca ceva să fie afectat de unele variabile decât să fie afectat de alte variabile prin ceva cu care nu te voi deranja. Dar se numește practic factor de bază. Factorul de bază este raportul dintre probabilitatea a două modele, care vă spune cât de probabil este un model în comparație cu altul. Și acestea sunt cifrele pe care le obținem. Deci spunem că starea oncogenă, care a avut acești trei părinți, îi alegem pe acești trei părinți - acestea sunt toate celelalte combinații posibile de părinți pe care le-am explorat. Și această imagine vă spune că pe locul secund -- care este și asta acolo jos, al doilea -- este de șapte ori mai puțin probabil decât cel de sus să fie responsabil pentru starea oncogenei. Și al treilea va fi de 56 de ori și [INAUDIBIL] de ori și jos, jos, jos, jos, jos. Și vezi, practic, pe locul secund , care îți spune cât de probabil este modelul pe care îl ai în comparație cu cel mai bun scenariu al oricărui alt model. Deci îți oferă o anumită măsură de încredere. OK, deci acesta este un exemplu de cum poți valida aceste lucruri. De fapt, puteți face validarea încrucișată. Iti amintesti? Spuneam că scoți un caz și faci o predicție. Și prima validare este aici. A fost 100% și ceva de genul acesta. Dar lucrul interesant este că mesajul de azi pentru azi și lucrul care este important este că, deoarece nu există ipoteze aici, modul în care colectați datele este important. Dar modul în care analizezi datele este lucrul care îți va da răspunsul. Deci, dacă sunteți interesat de mecanismul de control, analiza comparativă vă va spune ghemuit. Dacă sunteți interesat de clasificarea moleculară, gruparea nu vă va spune nimic. Dacă sunteți interesat să descoperiți noi tipuri de boli, aceste valori nu vă vor spune nimic. Fiecare tip de analiză, ca un anumit tip de răspunsuri, este conceput pentru a le răspunde. Și acesta este cel mai important lucru pe care doriți să îl luați în considerare. Există o recenzie acolo sus. Dacă vrei să te plictisești până la lacrimi, atunci o poți scoate de pe acel site. Dar era de ultimă generație până acum șase luni, nimic nu s-a schimbat prea mult. Deci, a doua este o carte [INAUDIBILĂ], care face parte din echipamentul școlar, nu? Nu trebuia să cumperi această carte, da, pentru curs? PUBLIC: Nu. MARCO RAMONI: Nu? OK, du-te și-- PUBLIC: Nu despre care știu eu. MARCO RAMONI: --vezi pentru ca el este directorul cursului. Poate vrei să săruți niște fund. Clusterul de gene și SAM sunt membrii dvs. Cele două statistici non-parametrice pe care le descrieam înainte? Vârsta este lucrul care implementează metrica bayesiană și analiza temporală. Și ceea ce o să fac este să trimit o misiune, care probabil va fi o dată [? studiu. ?] Și vei face două analize diferite pentru asta. Nu-mi amintesc dacă trebuie să le faci pe amândouă sau dacă trebuie să alegi pe care vrei să le faci. Și una va fi o analiză supravegheată folosind fie un grup de gene, fie SAM, două statistici diferite. Iar cealaltă va fi o analiză nesupravegheată folosind gena [? calsificare. ?] Clusterul de gene este format din două componente, una care face gruparea și alta face o analiză diferențiabilă supravegheată . Bine, mulțumesc.