ISAAC SAMUEL KOHANE: Așa că permiteți- mi să vă fac un istoric al cazului. Aceasta este munca pe care am făcut-o cu unul dintre foștii mei stagiari, de fapt, care este un om de știință superb la Institutul de Cancer Dana-Farber , David Rowitch, care este și neonatolog cu jumătate de normă. Eu numesc asta găsirea acului în carul de fân. Și este vorba despre studierea cerebelului. Așa că v-am impresionat, sper, la ultima prelegere, cât de proaste sunt microarray-urile. Cât de zgomotoase sunt și cât de dificil este să le interpretezi. Așa că acum, vă voi arăta cum... la naiba... cum, dacă faceți corect calculul, puteți extrage informații biomedicale utile din el. Deci cerebelul este un sistem frumos de studiat, deoarece are această structură frumos stratificată. Cerebelul este această parte a creierului care se află în fosa posterioară, în spate. Și are această structură foarte frumos stratificată, care este detaliată în această secțiune transversală aici, astfel încât fiecare strat să aibă acest grup distinct de celule. Și adesea, acest grup de celule se disting prin gene diferite exprimate în momente diferite, în mod specific, pentru acel tip de celulă sau stratul celular. Iar cerebelul are un rol esențial în locomoție și postură, dar faptul că pot sta aproximativ drept și mă pot mișca este aproape exclusiv o funcție a activității cerebelului. Și datorită structurii sale frumos stratificate, cerebelul a fost subiectul multor neuroștiințe, deoarece este mult mai puțin complex decât celelalte țesuturi neuronale centrale, în acest sens. Deci a existat un anumit sistem de care era interesat David. Sonic Hedgehog, este unul dintre aceste nume presupus amuzante dezvoltate de biologii muștelor, deoarece biologii muștelor pot avea adesea un simț al umorului foarte prost și îl aplică tuturor genelor pe care le descoperă. Sonic Hedgehog este o astfel de genă, se dovedește a fi o moleculă de semnalizare foarte importantă, care este foarte importantă în proliferarea și diferențierea celulelor. Și David vrea să știe care a fost rolul lui Sonic Hedgehog în acest strat exterior al cerebelului, stratul extern de granule A, EGLA. Se știa că ciclina D1 a fost exprimată în acest strat. Și diferite alte gene au fost exprimate în alte straturi. Se știa că Sonic Hedgehog era important într-o varietate de moduri diferite. De exemplu, gene care au fost implicate anterior într-o cale de semnalizare Sonic Hedgehog când o cauză mutantă în modelul de șoarece de aici - o tumoare cerebeloasă posterioară - care este foarte asemănătoare cu meduloblastoamele care sunt o cauză importantă a cancerului cerebral juvenil, și una letală. Și cu siguranță a fost demonstrat că meduloblastoamele sunt implicate în căile Sonic Hedgehog , un procent mare dintre ele. Deci întrebarea a fost, am putea găsi alți vinovați, alte gene care sunt implicate în calea Sonic Hedgehog? Și este un car de fân mare pe care îl căutăm pentru că, de fapt, căutăm în două căți de fân mari . Una este un număr mare de sonde pe microarray. Doi, ne uităm la un cerebel întreg. Un țesut complex -- chiar dacă este unul dintre țesuturile neuronale mai simple -- când, de fapt, încercăm să extragem un semnal dintr-o parte a acestui țesut complex, există un strat foarte superficial de celule numit EGLA. Deci putem găsi semnalul în timp și spațiu? Deci nu căutăm doar numărul potrivit de sonde în locația potrivită, ci și punctul potrivit în dezvoltare. Și aceasta a fost o provocare pentru noi, deoarece David este un prieten personal și fost stagiar. Și m-a auzit pontificând despre importanța bioinformaticii. Și iată acest prieten apropiat care acum se angajează în acest tip de colaborare. Și dacă i-aș fi dat candidații greșiți, asta înseamnă că aș pierde timpul post-doctoralului, din care avea doar unul la acel moment, și aș amâna-l cu șase luni dacă i-aș fi dat niște lucruri greșite de văzut. . Deci a fost un joc cu mize relativ mari. Deci experimentul a fost foarte simplu. Pentru a recolta, inițial, doar în ziua a cincea -- în ziua a cincea postnatală cerebelul, expuneți-l la vehiculul Sonic Hedgehog și mediul de oprire a creșterii. Uită de mediile de oprire a creșterii pentru o secundă. Dar practic, expunându-l la Sonic Hedgehog sau vehicul, hibridizați-l cu matricea de șoareci affymetrix, acum învechită. Matricele de mouse sunt învechite în această generație, nu mai sunt disponibile. Și am făcut ceea ce ne referim în grant ca modele de zgomot în analiza noastră bioinformatică, pe care o voi detalia în scurt timp. Și apoi am dat o listă de nouă gene reglate în mod semnificativ și 10 gene care nu au fost reglate în mod semnificativ și acestea vor fi ulterior analizate cu perspectivă prin hibridizare pentru a vedea dacă, de fapt, aceste predicții au fost corecte. Și ceea ce am făcut a fost un lucru foarte simplu. Dacă îți amintești, ți-am arătat în ultima prelegere că ți-am spus cum zgomotul a crescut dramatic la niveluri mai scăzute de expresie, deoarece ai putea inversa semnul reglajului în sus sau în jos doar în virtutea faptului că ai niveluri scăzute de expresie afectate de niveluri scăzute de expresie. zgomot. Deci, în mod clar, trebuie să aveți o măsură statistică a separării celor două condiții. Deci, în acest caz, semnalul a fost expresia unei gene ca răspuns la semnal, și anume, Sonic Hedgehog. Iar celălalt sunt vehiculele tratate. Și întrebarea este, fiecare astfel de genă, am putea găsi acele gene care au fost clar separate în acele două condiții? Și există o varietate de moduri în care ai fi putut să o faci. Și, de fapt, așa cum promiți, te voi pune să explorezi unele dintre metodele standard care, de exemplu, sunt lucruri ca un test t modificat, cum ar fi analiza semnificației micromatricelor. Dar voi face următorul punct, și anume, încercați să înțelegeți ce faceți uitându-vă la rapoarte. De exemplu, doar să te uiți la un test t, în care te uiți la diferența de mijloace, înseamnă a înțelege greșit în mod fundamental provocarea de calcul într-un mod foarte simplu. Ce medie vrem să calculăm? Și îmi dau seama că nu toți sunteți implicați în calcul, așa că voi încerca să rămân simplu. Există două tipuri de medii pe care le-am putea lua în considerare printre multele calculatoare. Una este media aritmetică simplă, unde luați de unde însumați semnalul și îl împărțiți la numărul de mostre. Și însumați controlul împărțiți- l la numărul de mostre și luați acel raport. Sau iei media geometrică a acestora. Și de ce ai face una sau alta? Ei bine, permiteți-mi să vă întreb următorul lucru. Când m-am gândit prima dată la asta, aveam o ipotecă în apartamentul meu, așa că a fost incredibil de important pentru mine. Dacă aveți patru rate diferite de dobândă pe o perioadă de 4 ani, astfel încât, suma pe care trebuie să o plătiți este de 1 plus R1 ori 1 plus R2, la 1 plus R3, 1 plus R4 și va trebui să plătiți sume diferite pe acel principiu. Cum voi estima rata medie a dobânzii pe care o plătesc pe an? Este media aritmetică a acestor Rs? Nu pentru că se combină. Știu că este un punct simplu, dar puțini oameni își dau seama că este de fapt media geometrică. Și aceeași eroare se face dacă te uiți la media aritmetică versus media geometrică pentru a te uita la rapoarte, deoarece, în principiu, ne uităm la un raport. Și am făcut analiza în ambele sensuri. Și vă pot spune, știam în acest caz, răspunsul este că am făcut insight la hibridizare. Și în primul rând veștile bune. Vestea bună pe care am publicat-o în PNAS cu câțiva ani în urmă a fost că, în esență, 80% din cazurile în care am spus că o genă a fost exprimată în EGLA pe baza acestei medii geometrice simple , desigur, prin percepția colorării, a fost . Și când am spus că nu, nu a fost. Dar ideea este că, dacă folosim acea medie aritmetică, aveam dublul ratei fals pozitive. Așa că înțelegerea a ceva la fel de simplu precum diferența dintre media aritmetică și media geometrică, care este o noțiune neevidentă pentru oricine tocmai a fost obișnuit să facă teste t, strica analiza. Să facem acest lucru mai relevant pentru boala umană. Cum putem valorifica această viziune de dezvoltare a mouse-ului? Vorbim despre șoareci. Cum încercăm de fapt să înțelegem cum se reflectă acest lucru în relevanța sa pentru aceste tumori despre care se vorbește, meduloblastom? Deci am avut, de fapt, niște meduloblastom. Și vreau să spun despre microarrays este că această comunitate, împreună cu comunitatea SNP, a fost unică în a pune la dispoziție gratuit datele comunității sale. Pentru cei dintre noi care au MD-- sau vor avea MD-- să fim conștienți de faptul că și astăzi, majoritatea lucrărilor de cercetare clinică nu publică datele primare din care se fac concluziile. Încă nu. Și, prin urmare, nu puteți verifica în mod independent aceste rezultate sau să obțineți rezultate mai bune sau cu rezultate îmbunătățite. Și de aceea a fost cu adevărat incredibil de important. Îmi pare rău că nu am subliniat acest lucru înainte, că primii practicanți de microarray, cum ar fi Todd Golub. Și Pat Brown a publicat toate datele imediat după publicare. De fapt, acum jumătate de an m-am uitat la lucrarea originală a lui Todd din 1999, despre AML versus ALL. Și cred că au fost 700 de citări ale aceleiași lucrări. Și n-ar fi fost același lucru dacă nu ar fi publicat date pentru că au fost o mulțime de analize secundare și o mulțime de probleme găsite cu hârtie și dimensiunea hârtiei. Stabilește un întreg proces științific de mișcare pe care altfel nu îl aveți. Deci avem aceste date despre o varietate de meduloblastoame umane diferite care au fost publicate cu câțiva ani în urmă. Și apoi, am putea merge la o bază de date numită Omologie - și, apropo, următorul set de probleme, nu cel pe care ți-l descriu, dar următorul set de probleme va fi o vânătoare de comori în care te vom face să sări. în toate bazele de date diferite despre care ar trebui să le cunoașteți ca element de bază - nu biologi de bază, ci consumatori de bază ai tipurilor foarte simple de informații despre SNP-uri și microarrays. Dar vom ajunge la vânătoarea de comori mai târziu. Este suficient să spunem că există o bază de date numită humologie, care vă permite să mapați genele la oameni la cele care sunt prezente la șoareci. Și se dovedește că au fost prezente pe acele două micromatrice, acolo de ordinul a aproximativ 3.000 de gene care sunt omoloage de la șoareci la bărbați. Și atunci ceea ce am făcut a fost să facem o analiză a componentelor principale ale acestor seturi de date. Acum, vă puneți mâna pe cei dintre voi care înțelegeți cu adevărat analiza componentelor principale? Doi, doi dintre voi. Deci, cei care nu o fac, lasă-mă să încerc să vă ofer versiunea simplă a acesteia. Analiza componentelor principale , în esență, încearcă să refactorizeze datele astfel încât să vă uitați la aceste noi variabile care sunt sume liniare ale variabilelor originale. În acest caz, genele. Aceste componente principale sunt versiuni liniare ale acestor măsurători originale care captează, în componente succesive, cantitatea majoră de variație a setului de date. Deci, primele componente principale sunt această combinație liniară care obține cea mai mare cantitate de variație în setul de date. Al doilea principiu al componentelor sunt ortogonale. În esență, în unghi drept față de prima componentă principală și obțineți a doua cea mai mare cantitate de variante. Și așa mai departe. Și, de fapt, aveți atâtea componente principale câte variabile originale. Dar lucrul bun este că, din punct de vedere euristic vorbind, până când ai trecut prin aproximativ două sau trei sau patru componente principale, ai capturat de obicei de ordinul a 70% până la 80% până la 90% din toate variantele din set de date. Cu alte cuvinte, făcând aceste combinații liniare de vectori ortogonali, puteți captura cea mai mare parte a varianței. Și lucrul bun despre asta este pentru seturile de date, cum ar fi expresia genelor, unde aveți o mulțime de comportamente extrem de corelate. Cu alte cuvinte, există un număr mare de gene care nu sunt într-adevăr atât de independente una de cealaltă, acest lucru vă permite să reduceți numărul de variabile pe care trebuie să le priviți la o analiză dintr-un număr foarte mare -- zeci de mii -- pentru a le ajusta o mână - primele componente principale care vă permit să capturați majoritatea variațiilor. Și aceasta este, apropo, intuiția că unele dintre aceste software-uri de recunoaștere a feței despre care poate ați auzit de la Homeland Security a fost inspirată. În esență, luând eigenface, unde se uită la componentele principale care alcătuiesc trăsăturile feței și o reduc -- reduceți complexitatea la aceste componente principale ale feței, astfel încât nu numai să puteți genera o eigenface, această față generică, dar puteți, de asemenea, să mapați oamenii cu care fețe seamănă cel mai mult. Așadar, vă permite să vă jucați puțin și să vă descurcați între diferite unghiuri și moduri diferite în care ați putea arăta într-o zi diferită, deoarece încă surprinde variantele majore ale feței tale. Deci ceea ce am făcut este următorul. Nu numai că a existat ziua a cincea a mouse-ului, dar am capturat de fapt mai multe puncte de timp pe comandă. Nu-mi amintesc exact acum. Poate 15 puncte de timp. Și este un set de date disponibil public, dacă sunteți interesat. 15 puncte de timp, mergând de la zilele embrionare la zilele postnatale. Ziua 60 cred, a șoarecelui. Și apoi, când am făcut componentele principale ale modelului de expresie al genei în această serie de timp, am văzut următoarele când tocmai am trasat genele după acea poziție în acest nou sistem de coordonate, prima și a doua componentă principală. Și le-am colorat în funcție de faptul că au căzut în această secțiune sau în acea jumătate a oului, ca să zic așa. Și de ce l-am colorat așa? Pentru că dacă te uiți de fapt când aceste gene au avut perioada lor maximă, timpul lor maxim de exprimare. Cei din această componentă, din această zonă a celor două componente, au avut un vârf timpuriu, iar genele din această componentă au avut un vârf târziu. Deci, componenta principală târzie... scuze, componenta principală timpurie și setul târziu de componente principale. În limba engleză, doar făcând această simplă descompunere - simpla factorizare în două componente principale, am luat acea serie de timp și am retras genele. Și acum, avem un set de gene care se separă în mod clar de un alt set de gene. Și se caracterizează prin atingerea maximă timpurie versus târzie. Acum, ce? Am luat apoi omologii umani ai acelor gene și am întrebat în meduloblastoame, care gene, în comparație cu non-meduloblastoame, au fost reglate în sus și în jos în tumorile umane? Vă rog? PUBLIC: Descrieți axa x și axa y, care este... ISAAC SAMUEL KOHANE: Aceasta este prima și a doua componentă principală. PUBLIC: Da, dar vreau să spun, numărul 0,1, 2, 3 și... ISAAC SAMUEL KOHANE: Nu pot... Nu cred că este bazat pe zero. Cred că zero este pe undeva pe aici. PUBLIC: Deci este doar... Adică, știu, deci ce înseamnă asta? ISAAC SAMUEL KOHANE: Este conform coeficientului. Dacă poziționați acea genă în funcție de poziția sa de-a lungul celor două componente principale. Deci fiecare dintre acestea este o singură genă. Deci, ceea ce facem este că am trasat acele gene reglate în sus și în jos, în funcție de dacă au căzut în... am luat doar acele gene reglate în sus și în jos fără să știm nimic mai mult. Și spunem, unde se încadrează în această descompunere târzie și timpurie bazată pe analiza componentelor principale? Și răspunsul simplu a fost, în esență, 90% dintre genele care au fost reglate în sens pozitiv au căzut în perioada timpurie de exprimare. Și, în mod similar, aproximativ 90% dintre genele care au fost reglate în jos -- la oameni, ține cont -- au intrat în faza ulterioară de dezvoltare a șoarecelui. Daţi-i drumul. PUBLIC: Am o întrebare despre modul în care prezentați datele nu arată de ce aveți nevoie de a doua componentă. ISAAC SAMUEL KOHANE: Aceasta este o întrebare foarte perspicace. Și răspunsul este că, pentru ceea ce îl descriu, nu pentru că separarea pe care o vezi este doar într-o singură dimensiune și ai perfectă dreptate. Nu adaugă nimic. Se pare că au existat procese diferite pe care nu le descriu aici, care de fapt au fost separate prin intrarea în a doua componentă principală. Dar cred că arăți că înțelegi despre ce naiba vorbesc spunând că pentru această distincție devreme și târziu, tot ce ai nevoie este prima componentă principală. Ai dreptate. Așa că vreau doar să-- cei dintre voi care ați luat patologie de bază la facultatea de medicină-- veți auzi următoarele. Nu știu dacă am un indicator sau un diapozitiv, dar Cohnheim știe și alții de la începutul secolului au speculat că există ceva despre programul embrionar de dezvoltare care este recapitulat de tumori. Că tumorile sunt similare - nu același lucru - sunt similare în esență cu o dezvoltare embrionară slab controlată, deoarece atunci când te uiți la microscop, multe dintre țesuturile din tumori nu sunt la fel de bine diferențiate ca țesutul din care provin. Cancer la ficat, dacă cancerul la ficat ar arăta exact ca țesutul hepatic, nu ar fi cancer la ficat, ar fi ficat. Și deci sunt de fapt versiuni mai primitive. Și acest lucru adaugă de fapt sprijin la asta. De fapt, doar pentru a verifica acest lucru, am făcut următorul experiment, pe care nu îl arăt aici. Deci, ceea ce am făcut aici, doar pentru a plasa asta într-o perspectivă adecvată, a fost să luăm țesut neural de la oameni -- tumori umane -- și să- l proiectăm în raport cu componentele dezvoltării șoarecilor. Și ceea ce noi C este această separare frumoasă dintre genele reglate în sus și faza timpurie. Acum poate că tot ceea ce arătăm sunt markeri generali ai hiperproliferării și nu ceva specific sistemului. Deci, ceea ce am făcut a fost că am luat o pereche similară, și anume, cancer pulmonar și dezvoltare pulmonară. Și cancerul pulmonar și dezvoltarea plămânilor au arătat, în esență, aceeași relație. Dar atunci când ai luat meduloblastom pe fundalul dezvoltării plămânilor, separarea nu a mai fost la fel de bună. Și când ai luat cancerul pulmonar împotriva dezvoltării neuronale, nici nu a fost la fel de bun. Deci, ceea ce ne spune asta, este ceva mult mai nuanțat decât pur și simplu embriogeneza recapitulează generic angiogeneza sau invers ar trebui să spun. Se spune că există o parte a programului de diferențiere a acelui țesut particular, care este recapitulat de tumoră. Și asta este deja interesant pentru că ne oferă câteva perspective și dezvoltare, dar devine mai interesant când începi să te gândești, ei bine, știu multe despre diferitele stadii de dezvoltare. Pot să încep să înțeleg mecanismele care funcționează în diferite stadii de dezvoltare pentru a înțelege ce este diferit la aceste tipuri de cancer? Deci, aceasta vă arată doar în seria cronologică, ceea ce componentele principale v-au arătat înainte. Și în roșu și verde, distingem genele care sunt reglate în sus și în jos. Și vedeți că au, în tumorile umane, au cursuri de timp diferite în datele de șoarece față de -- cursuri diferite ale datelor de șoarece, în funcție de dacă au fost reglate în sus sau în jos în tumorile umane. Și așa cum am spus aici, acesta este diapozitivul pe care l-am vrut să Lobstein și Cohnheim au fost printre primii care au teoretizat asemănări între embriogeneza umană și biologia celulelor canceroase. Și, de fapt, abia acum am obținut dovezi mult mai obiective că acesta este cazul. Și sistemul de clasificare a tumorilor cerebrale care este folosit și care a fost conceput de Daly și Cushing în 1926 -- din care derivă taxonomia noastră modernă -- a subliniat acest lucru. Dar sunt taxonomii foarte brute și taxonomii descriptive. Și aici oferim poate-- și spun că poate-- o clasificare mult mai fină. E adevarat? Ei bine, să întoarcem componentele principale. Să ne uităm la fiecare tumoră ca o funcție a genelor care sunt suprareglate. Ne pare rău, să ne uităm la poziția tumorilor, acum, nu a genelor, după poziția din analiza componentelor principale. Și pentru a scurta povestea lungă, am putut diseca diferite zile de dezvoltare. Deci, acestea sunt mostre diferite de șoareci și proiectate pe diferite tipuri de cancer umane pe aceeași analiză a componentelor principale ale acestor șoareci. Și acest lucru este foarte interesant în mai multe moduri diferite. Unul este că separăm diferite zile de dezvoltare în spațiul său principal . Dar și, separând în același spațiu, tumorile. Acum, asta este fundamental interesant pentru că ne spune și motivul pentru care sunt, aduc acest lucru în clasa de medicină genomică, deoarece unul dintre fundamentele medicinei moderne este taxonomizarea bolii. Și aici, ofer o măsură foarte, foarte cantitativă a diferențierii acestor tumori diferite pe baza poziției lor în spațiul de dezvoltare dintr-un set de date pe care nu îl puteți obține niciodată de la oameni, ci de la șoarece. Și acest lucru este cu adevărat interesant pentru că nu am timp, ei bine, de fapt, nu am un diapozitiv să vă arăt pentru că tocmai am trimis acest lucru-- îmi pare rău, tocmai a fost acceptat la gene și dezvoltare, care este un jurnal important in acest spatiu. Putem separa de fapt meduloblastomul metastatic de cel nemetastatic în același mod. Se separă în același spațiu individual. Deci, ce ne spune asta mai generic? Analiza componentelor principale nu este, evident, un instrument folosit în mod obișnuit pentru medici. Și totuși, aici avem un instrument care creează o taxonomie mult mai bună a bolilor cu putere predictivă care nu ne era disponibilă anterior. Și ne permite să înțelegem... pentru că spunem care sunt genele? Pentru că vă amintiți că am spus că componentele principale sunt o componentă liniară sau combinații liniare de gene? Putem spune de ce se află această genă în această poziție? Care gene au greutățile majore care o fac responsabilă pentru ca tumora să fie în acea poziție. Ar putea să ne ofere câteva perspective asupra mecanismului tumorii de bază. Și aici, avem o bob fin [INAUDIBLE] care nu era disponibilă anterior pentru noi. Și cred că, prin urmare, nu este un salt să ne gândim că -- în tipuri similare de procese -- acea abordare computațională a acestor seturi de date ne va permite să reformulam taxonomiile noastre actuale foarte, foarte zdruncinate. Cred că v-am spus în prima prelegere, cu câteva excepții, cele mai notabile excepții fiind microbiologia, majoritatea clasificărilor noastre de boli nu sunt bazate pe mecanism. În microbiologie, această clasificare se bazează pe mecanism. Numele bolii este organismul care te infectează . Dar majoritatea bolilor precum lupusul, probabil un amestec de boli inflamatorii inflamatorii pe care nu le cunoaștem, bolile ovarelor polichistice, descriem simptome, nu fiziopatologie. Și cred că acest lucru ne permite să ne apropiem mult, mult mai mult și, prin urmare, de o înțelegere mult mai solidă și mai precisă a acestui lucru. Deci, rezumatul meu intermediar aici este că acest calcul ne permite să identificăm unele căi și, mai important, oferă o clasificare naturală a bolii cu o perspectivă suplimentară. Aparent, nu știu cum să-mi deschid cartea. Daţi-i drumul. PUBLIC: Ați încercat să redefiniți bacteriile care au fost [INAUDIBILE] împotriva utilizării optimizate a combinației de gene pe care vă așteptați să fie un program de dezvoltare, sau ceva la acel nivel? ISAAC SAMUEL KOHANE: Deci Jose pune o întrebare foarte interesantă, care răspunsul scurt este nu, dar cred că este o întrebare foarte bună, care este... dar nu aș ști exact de unde să încep. Dar cu siguranță există o modalitate atentă de a răspunde la asta. Ați putea să luați combinații liniare de gene-- și nu aș ști exact care combinație liniară de gene-- dar poate doar folosind acelea ca punct de plecare, poate, gene care au fost implicate în diferite stadii de dezvoltare și folosindu-le pe acestea. Și cred că este o cale bună de urmat. Înțelegerea mea despre biologia dezvoltării este, din păcate, cunoștințe foarte rare în diferite etape. Deci, ar fi greu de știut care gene sunt în general informative. Cu toate acestea, sunt un mare fan al abordării pe care o sugerați, care este o abordare bazată pe cunoștințe. Ceea ce facem aici a fost în mod clar fără cunoștințe. Luam datele și spuneam doar ce explică variația maximă și mergeam de acolo. Dar dacă am putea concepe acel proces sau setul de gene despre care știam că sunt implicate, pun pariu că am avea o rezoluție mult mai bună decât o avem în prezent. Deci cred că este un gând foarte bun, dar nu am făcut asta. Ceea ce mă aduce acum la un alt aspect al calculului. V-am arătat acest diapozitiv. Pare cunoscut? Bun. Așadar, iată fantezia pe care o au majoritatea decanilor școlilor de medicină și a șefilor de spitale. Și, din nou, acesta nu este un punct foarte tehnic. Este mai degrabă un punct sociologic, dar va ajunge să fie tehnic pentru că vă poate spune despre un alt domeniu al biocalculaturii care cred că este pregătit pentru alegere, dar este și un pas de limitare a ratei. Deci toți au fantezia. Acum că au văzut lucruri precum, oh, da, pot prezice rezultate diferite ale diferitelor tumori, să spunem, vreau să pot dezvolta un set de ținte pentru care o companie de medicamente mă va plăti foarte mult. Deci fantezia este că doctorul drăguț vorbește cu pacientul drăguț. Obține consimțământul în spitalul frumos. Au un istoric familial. Ei depozitează țesutul obținut. Ei fac niște analize genomice. Ei fac o adnotare clinică. Ei fac niște bioinformatici mumbo jumbo fanteziste. Și iată, vor avea ținta pentru care o companie de medicamente va plăti mulți bani. Aceasta este într-adevăr... pentru cei dintre voi care sunt mai orientați spre antreprenoriat, aceasta este fantezia care a fost lansată. Multe, multe nave finanțate cu capital de risc, cum ar fi proiectul de decodare și altele. Și problema este următoarea. Este că această piesă centrală, adnotarea fenotipică, ajunge să fie cea mai grea parte. Înțelegerea a ceea ce sa întâmplat cu adevărat cu pacientul. Pacientul chiar avea o tumoare? Câți ani aveau când aveau tumora? La ce medicamente au răspuns? Asta e partea grea. Și oricare dintre voi ați privit vreodată o fișă clinică poate înțelege de ce este asta. Există doar foarte puține date utile capabile de mașină în diagrama clinică. Pentru că de fapt, adevărata fantezie este următoarea. Și cum numesc [? Ratwitchz?] de la Colegiul Medical din Wisconsin... ceea ce fac ei este să ia șobolani, șobolani consomici, unde au înlocuit sistematic un cromozom cu altul. Deci, ceea ce le-ar oferi o eficiență foarte mare în identificarea legăturii cu o trăsătură diferită. Ceea ce fac ei este că iau acești șobolani cromozomici diferiți - tulpini diferite cu genotipuri bine înțelese - și i-au expus la expuneri de mediu foarte bine caracterizate , cum ar fi hipoxia. Le-au pus în echivalentul de oxigen din vârful muntelui timp de câteva săptămâni. Sau le oferă o dietă bogată în sare sau o dietă bogată în grăsimi. Sau le epuizează volumul. Și după această experiență minunată, apoi le reconstruiesc fizic și le smulg inima și își pun inimile pe aceste mașini de pregătire unde pot privi curbele de contractilitate ale inimii în prepararea perfuzată. Și asta este grozav pentru că acum aveți o caracterizare fenotipică a mediului bine definită . Știi genotipul și ai expresia. Și apropo, permiteți-mi să vă spun și să vă îndrept către următorul site, PGA.mcu.edu. Au toate acele date online. Fenotipurile, genotipurile și expresia. Și o fac pentru fenotipuri cardiace, fenotipuri renale, o mulțime de fenotipuri diferite și diferite părți ale medicinei. Și deci aceasta este fantezia. Dar, desigur, probabil că pacienții i-ar fi supus în mod obiectiv la acest tip de tratament. Așadar, este puțin probabil ca această fantezie de fenotip de mare capacitate să se întâmple în curând. Așa că am luat o abordare foarte diferită atunci când am avut de-a face cu această problemă. Și așa a fost cum să obțineți un număr suficient de mostre în cantitatea potrivită. Și trebuie să știți că există companii precum Ardeas, cărora li s-au dat milioane de dolari capital de risc, fără succes, pentru a încerca să rezolve această problemă. Pentru a obține suficiente țesuturi în cantitatea potrivită. Așa că Institutul Național al Cancerului a lansat o cerere de aplicații spunând, ascultă, există mii de țesuturi disponibile în depozitele de patologie ale țării noastre pe care dorim să le putem face studii genomice. Cum să procedez cu asta? Atat de inspirat de Napster si Gnutella-- si pentru cei dintre voi care nu stiu ce-- cei dintre voi care nu sunteti pasionati de partajarea fisierelor, Napster este un serviciu de partajare a fisierelor in care de fapt exista un sistem centralizat. Dar datele în sine sunt descentralizate în mai multe directoare. Guntella, pentru a nu da pe cineva în judecată, este complet descentralizat. Directoarele sunt descentralizate, iar datele sunt descentralizate. Și ceea ce am construit, rețeaua comună de informatică de patologie, SPIN, care este finanțată cu aproximativ 7 milioane de dolari de la NCI, este exact același lucru. Și ceea ce am făcut a fost să profităm de obsesia obsesiilor gemene ale patologilor. Patologii sunt probabil cei mai buni primi taxonomi ai profesiei medicale. De fapt, ei clasifică organele și specimenele mai bine decât oricine altcineva. În al doilea rând, sunt colectori obsesivi compulsivi de țesut. Și păstrează țesutul în jur de ani și ani. Și așa ne-am gândit că dacă am putea profita de acele compulsii gemene, am putea avea succes. Deci, la o vedere de ochi, ceea ce am făcut a fost următorul lucru, care a fost să creăm o rețea prin care un utilizator, cu un browser web, să poată trimite o interogare către compozitorul său de interogări , care ar trimite apoi o interogare la acest lucru nebulos numit SPIN. reţea. Care, folosind această tehnologie peer-to-peer, ar răspunde la care mostre au existat. Mai exact, fiecare bancă de țesuturi sau instituție ar avea propriul nod în rețea, pe internet. Și le oferim aceste trei instrumente open source care le permit să extragă din aceste baze de date de patologie, deoarece există un raport textual cu fiecare probă de patologie. Atât cele anonimizate -- deoarece avem acest program de anonimizare -- raportul textual anonimizat, cât și codifică câteva elemente de date pentru a permite căutarea. Astfel încât, atunci când introduceți interogarea, interogarea se perculează într- un mod complet distribuit. Nu există niciun centru în această rețea. Această interogare se difuzează în întregul sistem. Toate nodurile răspund în cele din urmă, dacă pot, și obțineți înapoi suma tuturor specimenelor implicate. Și cei dintre voi, chiar și în profesia de medic, probabil că nu apreciați următorul punct. Motivul pentru care am creat un sistem peer to peer este că băncile de țesuturi patologice sunt păzite cu gelozie de către patologi și de către chirurgii care le-au construit. Pur și simplu nu vor să partajeze date. Și este practic imposibil astăzi să știi, chiar și dincolo de stradă și de Brigham, ce mostre au. Și, permițându-le să-și controleze pe deplin propriul nod și să controleze ceea ce expun la exterior, suntem capabili să depășim obstacolele sociologice pentru partajarea datelor, astfel încât să putem face acest lucru. Deci, de exemplu, am făcut asta acum, acesta este de fapt un slide depășit, nu numai în Harvard și UCLA, dar acum am intrat în direct cu Pittsburgh și alte câteva site-uri. Astfel încât astăzi, dacă sunteți un utilizator înregistrat, puteți trimite o interogare tuturor acelor instituții pe care le vedeți în dreapta. Și interogarea se răspândește apoi în toată țara. Și această interogare durează de ordinul a 10 secunde într-o zi proastă pentru a se executa. Deci, de exemplu, vrem să știm câte specimene distincte putem avea de la pacienții cu transplant renal? Și asta este de obicei greu de găsit. Și iată un răspuns. Deci aceasta este din șapte noduri, aceasta este o interogare pe care am făcut-o în octombrie anul trecut. Din cele șapte noduri pe care le aveam la acel moment, cu doar două noduri răspunzând, aveam deja 20.000 de exemplare identificate cu o distribuție de vârstă prezentată ca aici. Apropo, sunt îngrozit de faptul că se pare că 34 de exemplare de pacienți cu vârsta cuprinsă între 90 și 99 de ani. Aș vrea să fie adevărat că a fost o eroare, dar m-am uitat la ea și nu este. Așa că unii ciudați transplantează lucruri la pacienți foarte bătrâni. Nu s-ar întâmpla în Anglia. În orice caz, iată distribuția de vârstă. Și dacă faceți clic pe textul complet și aveți privilegiile corespunzătoare, puteți vedea de fapt textul complet anonimizat care arată un raport al pacientului respectiv. Așa că fac acest punct din mai multe motive. În primul rând, exploatăm cu succes caracteristica obsesiv-compulsivă a patologilor. În al doilea rând, v-am sugerat că unele dintre aceste analize de rezultate folosind măsuri genomice funcționale , cum ar fi studiul limfomului, nu sunt în esență bine reproduse în diferite studii. Oricare ar fi motivul, sunt multe. Multe dintre relele din analiză sunt scuzate de un număr mare. Deci, dacă am trece de la 100 de pacienți la 20.000 de pacienți, vă asigur că diferențele dintre diferitele tehnici de învățare automată ar conta foarte puțin. Și așa începem să abordăm, cum valorificăm fenotipurile care sunt acolo și care sunt disponibile, care nu sunt disponibile altfel printr-un tip complet diferit de bioinformatică? Aceasta este mai mult bioinformatică de infrastructură. Dar este pasul de limitare a ratei. Putem lucra la o duzină de mostre până când suntem albaștri la față. Chiar nu vom ști cât de mult ne supraadaptam datele până când nu vom avea mostre mari. PUBLIC: Dar primul lucru pe care îl puteți solicita este pentru [INAUDIBIL]. ISAAC SAMUEL KOHANE: Da, aș vrea să fie atât de simplu. Deci asta arată că ești treaz. Următoarea întrebare este, cum obțin mostrele? Așa că mi-aș dori să fie adevărat că, odată ce ați identificat o probă, să faceți clic pe casetă, să vă puneți cardul de credit și să primiți proba de țesut FedExed. Deci, ceea ce se întâmplă în acel moment este că începeți un dialog cu anchetatorul și Consiliul de examinare instituțional al acelei bănci de țesuturi. Deci asta e vestea proastă. Vestea bună este că am rezolvat o parte a problemei este să aflăm unde sunt specimenele pentru a afla dacă studiul tău este fezabil. Și oamenii sunt deja folosiți ca instrumente chiar acum pentru a scrie granturi, deoarece pot spune, știu că există specimene [INAUDIBILE] și nu au neapărat acces la țesut pentru asta. Dar ei obțin un acord de principiu de la colaboratori că, dacă vor primi finanțare, vor face asta ca o colaborare. Dar ai perfectă dreptate să o faci. Deci, acesta este doar un alt exemplu de modul în care folosim calculul pentru a depăși obstacolele din calea medicinii genomice. Permiteți-mi să vă ofer un ultim istoric de caz și apoi vom trece la setul de probleme. Deci, să vorbim despre cum putem folosi din nou computerul pentru a avea o înțelegere diferită, iar modul în care folosim computerul permite să avem o înțelegere diferită, de exemplu, a reglementării genelor. Deci, acesta este timpul pe axa x. Și aceasta este o valoare arbitrară a expresiei. Aceste două cursuri de timp sunt aceleași? Sunt acele două gene dezvoltate prin același proces? Da sau nu? Ai putea să faci un argument în orice caz, nu? Poate că sunt la fel. Ce zici de asta o? Poate sunt la fel, poate nu. Vă spun că lucrurile erau destul de zgomotoase. Poate că asta e doar zgomot, a priori, cine știe. Acum contează ordinea? Da în analiza noastră. Contează timpul? Da bine. Pentru că ar trebui să fie adevărat că probabilitatea ca eu să fiu aici acum este informată mult mai mult de locul în care am fost acum cinci minute și unde am fost acum o zi, nu? Aceasta este o proprietate fundamentală markoviană a lui Zack și a majorității proceselor fizice. Acum, dacă există un coeficient de corelație, adresați-vă acel proces Markovian. Cu alte cuvinte, dacă luați două acțiuni și amestecați timpul. Să spunem două acțiuni, Apple și Microsoft, să spunem de dragul argumentării, că sunt foarte corelate. Ele au coeficientul de corelație ridicat. Dacă permutați zilele în care mențin aceeași pereche de valori ale stocurilor pentru ziua respectivă împreună, pentru a amesteca zilele, este coeficientul același sau diferit? La fel. Deci, coeficientul de corelație nu surprinde de fapt efectele timpului. Acum, după cum sper că știți din discuțiile noastre anterioare, o mare parte din gruparea care a fost făcută chiar și pe datele din serii cronologice se face pe baza coeficienților de corelație. Oamenii din aceste dendrograme reunesc gene care au același model de expresie măsurat prin coeficientul de corelație. Deci ce consecințe are asta? Să ne întoarcem la un studiu foarte vechi. Acesta este un studiu [INAUDIBIL] din 1999. Un studiu evreiesc clasic în care au tăiat... nu, au luat un fibroblast din prepuți și au măsurat modelul de expresie genetică în timp a transcriptomului acestor prepuți după ce au fost expuși la ser. Deci vedeți aici, fiecare coloană este zero oră, 50 de minute și așa mai departe până la 24 de ore ale fiecărei gene. Și apoi au făcut acest act de creativitate, adică au tras linii lângă dendrogramă și apoi au tăiat blocurile fiecare linie și au spus, o, uite, există o grămadă de aceste gene și par să -- de exemplu, hemostaza coagulării . Există un factor de țesut, un inhibitor al căii și așa mai departe. Acestea sunt implicate în coagulare. Acestea sunt proliferări ale ciclului celular . Aceasta este inflamație. Uite, acestea sunt gene implicate în angiogeneză. Acestea sunt citoscheletice. Și toate par a fi grupate împreună. Și din nou, folosesc această metaforă prea des, dar este atât de adevărată. Acesta seamănă foarte mult cu câinele de la operă. Este un miracol că poate cânta deloc și nu critici cât de bine cântă. Pentru că ceea ce au făcut este acest act de creativitate. De fapt, s-au uitat la datele genelor și au tras aceste linii și spun că acestea aparțin unei bucăți. Acum există și alte linii pe care le-ar putea desena. Și, de fapt, dacă te uiți îndeaproape la lucrarea lor originală, există un număr mare de gene pe lângă care nu trasează acele linii. Nu au nimic de spus. Deci, ce se întâmplă cu adevărat aici? Deci, din nou, aceste clustere sunt definite de coeficientul de corelație. Ce se întâmplă dacă încercăm să profităm de proprietatea markoviană a expresiei genelor, ca orice proces fizic. Și anume că într-o serie de timp. Trecutul recent te informează mai mult decât trecutul îndepărtat. Deci, puteți aproxima probabilitatea condiționată a acestei valori pe trecutul recent, mai degrabă decât pe întreaga serie de timp. Adică, practic, presupunerea este că T0 este independent de trecutul îndepărtat, dat fiind trecutul recent. Și câți pași înapoi și uite este ceea ce bine cunoști drept semnul ordinii. Deci marca de ordine este două, ceea ce înseamnă că te uiți în urmă cu două secțiuni de timp. Ordinea Markov este una, te uiți înapoi un tip de felii. Dacă ordinea în timp nu contează, la fel ca și coeficientul de corelație, atunci ordinea notelor este zero. Trecutul recent de fapt nu te informează deloc. Acum să ne uităm în schimb la clustering ca această problemă de selecție a modelului fiscal. Deci, în loc să căutăm perechi extrem de corelate, vom considera fiecare dintre seriile cronologice ale genelor sale ca fiind exemple de proces. Și procesul va fi reprezentat, prin urmare, de una sau mai multe gene, care conduc acel proces. Și întrebarea este, pentru orice pereche dată de gene, aparțin aceluiași proces? Și, în esență, cu o analiză Markoviană foarte simplă, care este doar o problemă de implementat, aplici teorema lui Bayes și spui, este mai probabil ca aceste două semnături de gene să fi fost generate de același proces sau de un proces diferit. ? Dacă sunt generate de același proces, dacă modelul că au fost generate de același proces are o probabilitate mai mare decât cel, atunci au un proces diferit, atunci le grupați împreună. La fel cum ați face într- o dendrogramă obișnuită. Desigur, pragul pe care îl alegeți -- pragul probabilistic pe care îl alegeți -- va determina exact ce ramuri sunt reunite, care urme de gene sunt reunite. Dar, cu toate acestea, acum aveți un motiv puternic bazat pe probabilitate și bazat pe Markovian pentru a reuni două semnături de expresie genică, deci pe baza probabilității marginale ca aceste două modele de expresie genică să fie generate de un proces față de celălalt. Și astfel le puteți elimina în mod corespunzător. Din moment ce nu mai am timp, permiteți-mi să vă spun că pacienții au o serie de trucuri drăguțe în armament. Care, în esență, depinde de următoarea observație că, dacă folosim aceleași date pentru modele, dacă presupunem că toate modelele sunt inițial la fel de probabile, atunci puteți face acele echivalente foarte frumoase afișate în partea de jos, astfel încât, trebuie doar să calculați probabilitatea marginală mai degrabă decât probabilitatea absolută în calcularea modelelor care sunt cele mai probabile. Și, prin urmare, simplifică multe calcule greșite. Și, de altfel, acest program pe care l-am numit CAGE este disponibil public pentru... dacă te uiți la serii de timp. Dar ce face? Deci, dacă am luat aceeași serie temporală pe care ați analizat-o cu datele de expresie din prepuț prin același program de grupare Markovian , am găsit doar patru clustere. Două grupuri mici și două grupuri mari. Deci ce-i cu asta? Cele două grupuri mici - cele două grupuri mici au fost unul, un grup de citokine și apoi un grup de apoptoză. Cele două grupuri mari aveau o grămadă de gene diferite în ele. Și au conținut, în esență, toate celelalte clustere care au fost obținute în analiza inițială. Deci, ați putea spune în acest moment, ei bine, Zack, voi băieți nu ați făcut o treabă foarte bună pentru că, în ciuda tuturor acestor discuții convingătoare despre natura markoviană a expresiei genelor, ei au fost capabili să descompună cu adevărat o mulțime de procese și ați fost nu. Deci, de unde știm că am făcut o treabă mai bună sau nu? Ei bine, se pare că atunci când au făcut experimentul lor original , Unigene, care este o bază de date despre care Alberta vă va spune, era o etapă anterioară. Și ce vreau să spun cu asta? De fiecare dată când GenBank crește cu o anumită cantitate, ceea ce vreau să spun, mai multe secvențe sunt depuse în baza de date a genomului uman, există o reasamblare periodică a presupuselor gene bazată pe puzzle-ul mai bine și mai bine populat al secvențelor GenBank. Și uneori înseamnă că două lucruri care trebuiau să fie gene diferite, când ai suficiente secvențe de legătură, ajung să fie aceeași genă. Și o genă despre care se credea anterior că este aceeași cu suficiente secvențe distinctive, ajunge să fie împărțită în două. Deci aceste versiuni Unigene sunt diferite. Și, în consecință, când ne uităm înapoi în 1999, 238 din 517 gene erau necunoscute. Și am reetichetat genele conform stadiului actual al tehnicii, moment în care, doar 20 au rămas necunoscute. Și au fost 19 gene care au fost prezente de două ori în setul de date. Și gruparea originală pune patru dintre acestea în grupuri complet diferite. În timp ce, noi am făcut asta o singură dată. Dacă ne punem ordinea marcatorilor înapoi la zero, înseamnă că ignorăm trecutul, obținem exact aceeași clasificare greșită a acestor gene identice. Deci concluzia aici este că ordinea temporală contează. Și a face doar o analiză corelațională simplistă nu va tăia muștarul atunci când chiar încercați să disecați unele dintre procese. Și utilizarea unei măsuri statistice a aglomerației acestor grupuri, mai degrabă decât a unui test de aspect corect, care a fost standardul pentru majoritatea acestor lucrări din 1999 până în 2003, probabil nu este, de asemenea, un lucru sigur de făcut. Deci, se pare că acele două opțiuni pe care ți le-am arătat înainte au fost, de fapt, aceeași genă. Deși, nu se știa să fie cazul când a fost publicat pentru prima dată. Și aceste două urme au fost puse în două grupuri diferite. Și, la fel, aceste două urme au ajuns să fie și ele aceeași genă. Și ei au fost puși în două grupuri diferite. În regulă. Permiteți-mi să închei vorbind despre un alt aspect al medicinei genomice. Cei dintre voi care ați făcut cercetări clinice știu că următoarele sunt adevărate, adică majoritatea studiilor clinice sunt cenzurate. Adică, fie unii pacienți renunță la studiu înainte ca acesta să fie finalizat. Sau pacientul a murit în timpul procesului, dacă mortalitatea este punctul final. Deci, nu este clar dacă, de exemplu, un pacient care tocmai a murit imediat după în studiu ar fi trebuit inclus sau nu. Iar imaginea de ansamblu este că, având un anumit punct de limită în studiu, nu vă permiteți să vedeți evoluția completă a istoriei pacientului. Și, prin urmare, în funcție de natura studiului, este posibil să aveți de fapt o părtinire foarte puternică. Și s-a demonstrat în cercetările clinice din nou și din nou că, dacă această cenzură nu este luată în considerare, veți avea o interpretare greșită a studiilor clinice. Deci asta este bine cunoscut în arena cercetării clinice. Și întrebarea este, este la fel de adevărată în genomică, așa cum este aplicată cercetării clinice? Ei bine, să înțelegem ce fac de fapt majoritatea studiilor publicate. Ei fac adesea următoarele. Ei iau un set de modele de expresie genetică și efectuează o operațiune de grupare, cum ar fi ce [? Eliza?] a făcut-o inițial în ziarul lor. Și ei spun, uite, există două sau mai multe în grupuri reale bazate doar pe profilul expresiei genelor. Și apoi se întreabă după ce au găsit aceste profiluri de expresie, există ceva diferit la aceste populații de pacienți? Și scotocește în jur. Și în acest caz, au găsit o mortalitate minunat diferită între cele două grupuri de pacienți, așa cum este definită de modelul de expresie. Deci haideți să revizuim asta. Mai întâi căutați o diferență în modelul de expresie. Și apoi spui, ce îi face diferiți pe acești pacienți? Și este o publicație foarte impresionantă pentru că nu te uiți la pacient, ci doar spui, mă uit la modelul de expresie genetică. Și atunci când deschid ochii și îmi permit să văd ce este diferit la un pacient din aceste două grupuri, găsesc ceva care este cu adevărat diferit din punct de vedere clinic. Acum care este problema cu asta? Problema cu asta este că s-ar putea să te uiți la lucru greșit pentru un exemplu. Cu 10.000 de gene de analizat, ar putea exista un grup de gene care, de exemplu, să- mi permită, de fapt, înainte de a veni cu un exemplu fantezist, s-ar putea ca motivul pentru care acești pacienți au profiluri de expresie diferite este pentru că ei cântăresc o cantitate diferită. Un grup este mai gras decât celălalt, deoarece un grup este mai bolnav decât celălalt, cu excepția faptului că nu a fost depistat clinic. Dar unul coboară pe tuburi și unul nu. Și ceea ce vedem cu adevărat aici nu este ceva intrinsec al tumorii, ci ceva intrinsec al greutății. Așadar, a ajunge la este o măsură foarte indirectă a mortalității. Și s-ar putea să nu aibă nicio legătură. Ne putem descurca mai bine trecând direct de la modelul de expresie a genei la fenotipul clinic de interes, decât să trecem prin acest proces în două etape în care mai întâi grupăm genele fără nicio cunoaștere a fenotipului și apoi vedem cum este diferit fenotipul. Mai exact, putem găsi direct gene sau gene combinate liniare care sunt foarte corelate cu timpii de supraviețuire? De exemplu, gena A plus de 0,5 ori gena B, plus de 2 ori gena C reprezintă o anumită probabilitate de supraviețuire. putem face asta? Și putem face asta în contextul tipului de cenzură pe care l-am descris? Deci, în rezumat, cum putem folosi direct timpii de supraviețuire pentru a găsi predictori buni? Deci iată problema fundamentală. Avem date despre expresia genelor. Avem date fenotipice. Și vrem să aflăm cum îl prezice unul pe celălalt. Acum, anterior, dacă ți-aș pune această întrebare, ai spune o, Zack, să folosim doar regresia liniară, regresia logistică, de exemplu. Se dovedește cu 20.000 de variabile, se defectează. Pur și simplu nu funcționează. Și deci un răspuns frumos la ceva numit cele mai mici pătrate parțiale. Și ce sunt cele mai mici pătrate parțiale? Ei bine, permiteți-mi să vă ofer sentimentul intuitiv pentru asta. Vă explic care au fost componentele principale. Componentele principale, fiind aceste componente care captează o componentă mare a varianței. Și componentele ulterioare sunt ortogonale între ele. Aceasta este ca și componentele principale, dar deoarece se referă la o variabilă de rezultat specifică, cum ar fi supraviețuirea. Deci acestea sunt componente principale care sunt corelate în esență cu o variabilă de rezultat. Deci e interesant. Dar problema cu cele mai mici pătrate perfecte este că de fapt nu vă permite să utilizați datele senzorului. se presupune că datele sunt complete pe tot parcursul. Și asta vă va modifica imediat datele. Deci, cum profităm de cenzură? Acum, în cercetarea clinică clasică în medicină, ceea ce utilizați este ceva numit modelul Cox, care în esență este un model probabilistic care spune, care este pericolul de a muri pentru această populație de pacienți? Și, în principiu, imputează datele lipsă în mod fundamental. Și pentru un număr mic de variabile sau gene, puteți folosi un model Cox pentru a vă da seama, în esență, ce s- ar fi întâmplat dacă ați fi avut date complete. Dar modelul Cox, la fel ca regresia, nu funcționează bine pentru zeci de mii de variabile. Deci ce vom face? Cum ajungem să folosim cele mai mici pătrate parțiale? Pentru a scurta povestea, cred că voi posta o lucrare pe site-ul myCourses. Ceea ce faci este de fapt să modelezi datele pacientului folosind o regresie Poisson. Astfel încât să transformați efectiv acest set de date dintr-unul cu date lipsă, într-unul cu date complete pe baza acestei regresii Poisson. Dar problema este că acum putem crea în esență mai multe puncte de date, în esență. Și doar pentru a vă oferi o intuiție în spatele ei, deoarece voi rămâne fără timp pentru a intra într-o descriere completă , acest lucru ne va permite să estimăm problemele fine. Deci, să presupunem că un pacient a rezistat până în acest moment și a renunțat la studiu, unde ar fi putut muri? Ce putem presupune, pe baza acestor date anterioare? Deci, folosind un model plus, putem introduce toate aceste noi puncte de date. Și astfel ne putem da seama exact, sau probabil, ar trebui să spun, care au fost valorile diferitelor puncte de timp și complet în acest sens probabilistic, așa că acum putem aplica cele mai mici pătrate parțiale. Deci, ce înseamnă asta, pragmatic? Deci, Bhattacharjee, cum pronunți asta? PUBLIC: Bhattacharjee, da. ISAAC SAMUEL KOHANE: Bhattacharjee și, practic, lucrând cu Todd Golub, a făcut un studiu despre cancerul pulmonar, care avea de fapt date cenzurate. Și fiecare pacient a avut un timp de supraviețuire și s-a marcat dacă au fost cenzurati sau nu. Și întrebarea a fost, ar putea ei identifica rezultate diferite? Și răspunsul scurt este că au putut identifica, de exemplu, metastatic versus non metastatic, dar există o mulțime de alte rezultate pe care nu le-au putut distinge unul de celălalt folosind aceste 125 de mostre. Așa că ne-am pus întrebarea. Dacă am lua în considerare aceste cele mai mici pătrate parțiale de peste acest model Poisson, am putea de fapt să dezactivăm într-un mod de încredere câteva fenotipuri noi. Și răspunsul scurt este că acestea sunt valori P necorectate, ui. Acestea sunt valori P necorectate , dar o zecime din -7, dacă faceți o corecție pentru testarea mai multor ipoteze, puteți vedea că acestea vor fi de fapt foarte semnificative. Am putut obține componente care au fost foarte predictive din analiza pătratelor parțiale. Foarte predictiv al rezultatului clinic. Unde înainte, nu puteai. Și pentru a face acest lucru foarte clar, acestea erau două grupuri de pacienți care anterior nu se distingeau. Dar folosind această metodă, am putut să le distingem cu o valoare P de această sumă. Și oferă o distincție foarte clară între aceste două grupuri de pacienți, care de fapt nu a fost rezolvată folosind analiza standard făcută anterior. Și motivul este că vreau doar să vă aduc această casă , pentru că am putut trece direct de la expresia genelor la rezultatul interesului. Nu ne-am întrebat, să grupăm datele pacienților și apoi să vedem cum sunt pacienții diferiți după fapt. Cine a spus, cunosc diferitele caractere ale pacienților în acest caz mortalitatea. Ce combinație de gene prezice cel mai bine această diferență? Și uitându-ne la acel semnal direct, mai degrabă decât la semnal indirect, cu toate complicațiile de a avea de a face cu datele senzoriale, putem separa foarte, foarte bine aceste subgrupuri de pacienți. Deci, din nou, arătându-vă cum, folosind un calcul puțin mai sofisticat , putem identifica subgrupuri de astfel de pacienți. Așa că acest lucru mă aduce la problemă și vreau să petrec puțin timp pentru a mă asigura că înțelegeți cu toții setul de probleme. Așa că cred că este foarte important să vă murdăriți mâinile cu datele. Deci, există un set de date care este disponibil la următoarea adresă URL. Și dacă căutați doar pe Google Kunkel, Kohane, Haslett, probabil îl veți găsi. Dar aceasta este adresa URL completă. Și voi trimite grupului adresa URL prin e-mailul grupului nostru. Și acesta este un set de date dintr- o lucrare pe care am publicat-o, cred, acum un an sau doi despre distrofia musculară Duchenne. Distrofia musculară Duchenne este o boală degenerativă a mușchilor. Este cauza majoră pentru care Jerry Lewis strânge bani. Și avem date despre mușchii pacienților care au această boală și a persoanelor care nu au acea boală. Și ceea ce vreau să te uiți la acea comparație. Și vreau să identificați acele gene care sunt exprimate diferențiat. Acum, dacă vrei să lucrezi în perechi, e bine. Dar nu mai mult decât perechi de voi. Și aș dori să folosesc cel puțin două teste diferite. Unul este SAM, Semnificația și analiza micromatricelor. Celălalt este testul t, pe care sper că mulți dintre voi îl cunoașteți. Există multe, multe truse de instrumente pe care le-ați putea folosi pentru a face această comparație. Permiteți-mi să vă recomand MEV, vizualizatorul de experimente multiple de la Tiger. Tiger este Institutul de cercetare genomică și la Tiger.org. Deci, dacă Google MEV la Tiger, face mult mai multe lucruri decât doar aceste două teste. Dar ti-l recomand pentru acestia care fac aceste doua teste. Deci, având în vedere aceste date, vreau să răspundeți la următoarea întrebare. Care este diferența dintre primele 50 de gene exprimate diferențial, atât în ​​sus, cât și în jos, prin cele două metode? Și de ce sunt diferite listele de gene? Aș dori să folosesc un alt program numit Map Finder pentru a clasifica aceste gene după funcția lor. Și astfel rezultatul pe care îl aștept de la tine este două seturi de gene exprimate diferențial bazate pe aceste două metodologii diferite, explicația ta de ce aceste seturi de gene sunt diferite și clasificarea acestor două seturi de gene prin adnotare funcțională. Este un exercițiu foarte simplu , dar cred că este important pentru că, dacă am învățat ceva despre acest domeniu, doar dacă îl faceți singur de câteva ori vă deschide ochii asupra cât de proaste sunt datele și care sunt problemele în analizarea lor. Și dacă nu vă simțiți confortabil să descărcați instrumente, atunci asociați-vă cu cineva din grup care este. În regulă. PUBLIC: Cursul dumneavoastră este pe site? ISAAC SAMUEL KOHANE: [INAUDIBLE] va posta asta pe site și voi trimite un e-mail de la această adresă URL. Alte intrebari? PUBLIC: Când este scadența? ISAAC SAMUEL KOHANE: Aceasta este o întrebare excelentă. Acum este 24 februarie. Ce zici... când e 15 martie? Poți să cauți ce zi a săptămânii este? PUBLIC: Este o zi de luni. ISAAC SAMUEL KOHANE: Deci 16 martie. Și vă rog să mă lăsați dacă aveți probleme. Tipul care a construit efectiv MEV este un prieten de-al meu la Tiger, așa că pot să-i dau cu piciorul în fund dacă nu funcționează pentru tine la un moment dat. În regulă.