TODD ​​GOLUB: Așa că am ajuns la asta, de fapt, inițial din perspectivă oncologică pediatrică. Așa că voi începe prin a da exemple de câțiva pacienți pe care i-am văzut în clinica Jimmy Fund de la Dana-Farber, care erau tipici. Deci primul pacient a fost o fetiță de nouă ani care s-a prezentat la pediatru cu... să le dezactiveze? Cu febră și vânătăi. Ea a făcut un test de sânge și apoi un test de măduvă osoasă care a arătat că măduva ei a fost înlocuită cu celule de leucemie acută - celule de leucemie limfoblastică acută sau ALL. Și așa a fost înscrisă pe ceea ce a fost un protocol standard de chimioterapie , care a fost nouă medicamente diferite în rotație și combinație. Ea a intrat în remisie în trei săptămâni și este încă în viață și bine. Și apoi, câteva luni mai târziu, există un al doilea pacient -- acest copil s-a întâmplat să fie un băiat, cam de aceeași vârstă -- aceeași prezentare, același diagnostic -- leucemie limfoblastică acută -- a fost înrolat pe același protocol de tratament. Așa că am primit aceleași medicamente. Aceleași condiții de spital. Deci a fost la fel de aproape de un experiment controlat pe cât s-ar putea face într-o ființă umană, deoarece, desigur, răspunsul la orice fel de intervenție terapeutică nu este doar o măsură a tratamentului în sine, ci și a modului în care este administrat. așa că a fost controlat, dar acest pacient nu a răspuns, din păcate, și a murit aproximativ șase luni mai târziu. Deci, întrebarea generală, pe care sunt sigur că ați abordat-o și în acest curs, este, în general, cum să înțelegeți această variabilitate clinică și să discerneți dacă există o bază moleculară pentru acea variabilitate. Așadar, suntem interesați în mod special de acest pacient care a răspuns deosebit de bine și la fel a făcut ceea ce este destul de simplu, și anume să facem o analiză cromozomială standard , un experiment de cariotipare folosind unele tehnici moleculare cunoscute sub numele de hibridizare fluorescență in situ. Detaliile nu contează cu adevărat, cu excepția faptului că, deși nu a fost evident la analiza morfologică de rutină a cromozomilor, dacă te uiți molecular, era clar că există o translocare între cromozomii 12 și 21 care a fuzionat două gene... - de fapt doi factori de transcripție -- unul numit TEL, unul numit AML -- pentru a face acest lucru să spună translocarea AML1. Și s-a dovedit că, deși nu fusese descoperit anterior, de fapt, majoritatea anomaliilor genetice cunoscute în leucemia copilăriei - cea mai mare parte dintre acestea au de fapt această translocare. Și dintre acești pacienți aflați în analize retrospective și acum în perspectivă, aproximativ 90% dintre acești pacienți supraviețuiesc. Sa dovedit că pacientul numărul doi a avut o translocare diferită-- o translocare 922-- care fuzionează două gene BCR și ABL-- despre care probabil ați vorbit. Și se știe că acești pacienți, le dau același regim terapeutic, au doar aproximativ 10% supraviețuire. Și deci acestea sunt teste moleculare făcute în momentul diagnosticării. Deci, ceea ce cred că creează acest lucru -- care acum este probabil general acceptat, dar era într-adevăr în curs de dezvoltare în acest moment -- a fost ideea că cancerul este o boală genetică, se pare, și că rezultatul clinic este previzibil pe baza moleculară. determinanți în momentul diagnosticării atâta timp cât știi ce să cauți. Da. Publicul: Asta a fost înainte de Gleevec? TODD ​​GOLUB: Acesta este înainte de Gleevec. Se pare că, chiar și cu Gleevec, care vizează BCR-ABL, la acești pacienți, nu este deosebit de eficient. PUBLIC: Care este acela [INAUDIBIL]? TODD ​​GOLUB: Necaracterizat. [AUDIO OUT] echilibrează translocațiile care identifică o singură oncogenă la un punct de întrerupere. Așa că am început să ne gândim la modalități alternative de a încerca să ne gândim la clasificarea moleculară a cancerelor în general. Și acesta este doar experimentul evident - două stări biologice. Ele ar putea fi stări clinice sau stări biologice-- pe care le colectezi un fel de informații genomice, cum ar fi datele microarray, și apoi te confrunți cu această problemă neplăcută de a încerca de fapt să-ți dai seama cum să interpretezi tiparele care apar. Și o să spun destul de multe despre acea parte pentru că este grea. Ați vorbit despre aspectele non-analitice, dar de laborator ale micromatricelor? Lasă-mă să petrec doar un diapozitiv vorbind despre asta. Deci, toate micromatricele se bazează pe principiul de bază al etichetării ARNm-ului sau a derivaților săi dintr-o celulă și hibridizarea cu sonde pe un suport solid, fie că este vorba despre o lamă de microscop, o placă de silice sau ceva de genul. Sunt matrice cADN și sunt matrice de oligonucleotide. Și poți fie să le faci singur, fie să le cumperi din comerț. ADNc-urile iau, în general, forma unor hibridizări în două culori, în care hibridizați simultan o probă de testare și o referință sau un control, în timp ce rețelele de oligonucleotide folosesc în general o singură culoare. Acesta este complet și în întregime un artefact istoric al modului în care au fost dezvoltate aceste lucruri. Nu există nimic intrinsec la matricele de ADNc care să le facă să necesite hibridizare în două culori. Singurul motiv pentru utilizarea hibridizării în două culori este dacă calitatea matricelor este atât de proastă încât aveți nevoie de un control intern pentru fiecare punct. În caz contrar, nu puteți interpreta datele. Și așa a fost cazul celor mai vechi matrice cADN, care au fost primele care au fost realizate. Și m-aș îndrăzni să spun că două matrice, în general, vor deveni învechite foarte repede, în favoarea matricelor de oligonucleotide -- probabil cele comerciale. Genomul este finit. Odată ce ați reprezentat și identificat genomul, probabil că nu aveți prea mult avantaj să vă faceți propriul dvs. Și majoritatea argumentelor care spun, o, le putem reduce mult, făcându-le noi înșine, sunt de obicei practici de contabilitate de tip Enron, în care nu... ei bine, nu am numărat costul tuturor persoanelor implicate în realizarea acestora. lucruri. Nu am inclus faptul că am petrecut trei ani încercând să ne dăm seama cum să facem acestea și nu au funcționat tocmai. Când te începi cu adevărat , de obicei, să le cumperi este mai ieftin și sunt de calitate superioară. De asemenea, ar trebui să menționăm că există metode de profilare a expresiei non-microarray , cum ar fi analiza în serie a expresiei genelor sau ceva numit MPSS, care sunt metode bazate pe numărarea transcripției, în care utilizați în esență, ADN, secvențierea pentru a enumera numărul precis de copii. a unei transcrieri date într-o celulă dată. Iar susținătorii acestei metode spun -- și au dreptate -- acesta este singurul mod de a ști cu adevărat câte copii ale unei anumite transcrieri se află într-o anumită celulă. Aș spune că este absolut adevărat, dar de fapt nu este atât de interesant pentru că, pentru majoritatea întrebărilor biologice, de fapt, nu contează câte copii absolute ale transcripției există. Nu sunt informații atât de utile. Ceea ce este util este să aveți un fel de experiment comparativ care să vă spună că există mai multe cu semnificație statistică - mai multe în acest eșantion decât în ​​acel eșantion. Și rar vrei să știi că există 682 de exemplare, dar este adevărat. Dar aș spune că debitul scăzut și costul acestor metode bazate pe numărare depășesc cu mult beneficiul pe care îl obțineți din această metodă absolută bazată pe numărare. Da. PUBLIC: Dacă aveți mai multe copii ale [INAUDIBLE], despre asta vorbim cu [INAUDIBLE], cu aceeași genă. Sunt copii ale genei? TODD ​​GOLUB: Ei bine, copii ale transcripției, nu ale genei. Deci, ați putea spune... am secvențial... am identificat un milion de transcrieri totale într-o celulă din care 684 au venit... au fost transcrieri din... codificate de gena X. Așa că poate fi informații cantitative utile, dar nu atât de utile pentru... aceste experimente sunt încă multe mii de dolari per probă. PUBLIC: Când vine vorba de o companie farmaceutică care încearcă să descopere mecanismul bolii și, de fapt, cum să intre și să dezvolte un medicament țintă [INAUDIBIL] care ar putea interfera... Presupun că această tehnică ar fi utilă. De exemplu, dacă ați făcut una dintre cele două de mai sus [INAUDIBILE] și nu cunoașteți numărul cantitativ al stenogramelor pe care le aveți prezente, veți ajunge, calitativ, mai mult sau mai puțin în comparație cu starea de boală sau nu sau [ INAUDIBIL] oameni [INAUDIBIL]. TODD ​​GOLUB: Da. PUBLIC: Dacă cunoașteți un număr, nu vă oferă acesta capacitatea de a face speculații despre modul în care sunt procesate acele tranzite și dacă acesta este un proces important și tehnologia devine mai ușoară [INAUDIBILĂ]? TODD ​​GOLUB: Aș spune că nu, de fapt, pentru că dacă îmi spui... dacă Dumnezeu îmi spune că există 684 de copii ale unei anumite transcriere, nu știu ce înseamnă asta. Știu ce înseamnă că-- dacă există de cinci ori mai mult dintr-o transcriere dată într- o stare de boală comparativ cu o stare normală, pot spune cel puțin că a avea o cincime din numărul de transcrieri nu este suficient pentru a vă oferi starea de boală, în timp ce, dacă îmi dai doar un număr absolut fără un lucru comparativ, nu știu ce înseamnă asta, și nu sunt sigur că spun, sunt 600 în această stare și 3.000 în acea stare... Eu, asta nu este o informație mai utilă decât cunoașterea abundenței relative. PUBLIC: Deci este într-adevăr o întrebare care este rezoluția, în termeni de [INAUDIBIL] obișnuit. Când obțineți un număr exact de jos [INAUDIBIL] până sus, obțineți o diferență suficient de rezolvată între mostre pe care o puteți spune- - TODD GOLUB: Așa este. Asta e corect. PUBLIC: 104 până la 500. TODD GOLUB: Așa este. Și aș spune, pentru majoritatea aplicațiilor biologice și clinice , știind că raportul este de 1 la 5, vă oferă aproximativ 95% din informațiile utile, în comparație cu a spune că este 500 față de 100. S- ar putea să vă gândiți la câteva experimente speciale. unde chiar vrei să știi numărul. Dar, de obicei, nu te ajută prea mult, după părerea mea. Există tot felul de surse de variabilitate pe care nu le vom discuta. Numai că există doar unul care contează. Și aceasta este variabilitatea biologică și clinică care intră în aceste experimente. Există o mulțime de oameni care petrec mult timp strângând mâinile peste aceste lucruri foarte tehnice și niciunul dintre ei nu face nicio diferență, într-adevăr, din câte îmi pot da seama, deoarece sunt copleșiți de variabilitatea biologică. Așadar, realizarea de microarrayuri care sunt ceva mai precise sau mai precise în măsurarea lor nu va afecta de fapt problema atât de mult, deoarece această variabilitate este depășită atât de mult de variabilitatea biologică. Atât voi spune despre asta. Deci, permiteți-mi să dau câteva exemple de aplicare a acestui lucru. Și știu că ai discutat despre aceste metode generale înainte, dar asta e în regulă. Deci, iată un experiment în care suntem interesați de rezultatul clinic diferențial al copiilor cu o tumoare pe creier numită meduloblastom. Ați discutat despre acest exemplu concret? PUBLIC: [INAUDIBIL], dar nu acesta. TODD ​​GOLUB: OK. Deci am avut 60 de biopsii pre-tratament ale pacienților cu această tumoare pe creier. Tumorile au fost biopsie. Și știam rezultatul clinic pe termen lung al acestor pacienți - indiferent dacă au supraviețuit din cauza bolii sau au murit în ciuda terapiei. Au fost îndepărtate tumorile și au fost tratați cu chimioterapie și radiații. Și știam că unii dintre pacienți au supraviețuit, iar alții nu. Și pe baza asta, am spus, ei bine, poate că există două clase - subclase ale bolii. Așa că am grupat datele. Asta a fost, cred, peste 6.800 de gene pe un microarray. Deci fiecare punct reprezintă un eșantion diferit de pacient. Am spus, ei bine, dacă sunt două clase, să ne grupăm în două grupuri pentru că avem o suspiciune clinică că există două clase. Și, desigur, dacă îi cereți algoritmului să se grupeze în două grupuri, în acest caz, este ceva numit o hartă de auto-organizare. Dar nu contează. Puteți lua cele două ramuri majore dintr-o dendrogramă dintr-o dendrogramă de grupare ierarhică. Tot ceea ce. Primești același lucru. Primești două clase. Și pacienții sunt arătați acolo, aproximativ egal distribuiti. Și acum, dacă completăm etichetele pacienților-- adică dacă supraviețuitorii lor-- s-au dovedit a fi supraviețuitori sau nu supraviețuitori-- obțineți această imagine, unde-- nu aveți nevoie de un statistician care să vă spună că nu există nicio corelație între această structură de clasă și supraviețuire. Deci ce iei? Ce parere aveti de acest experiment? PUBLIC: Ce părere aveți despre asta? TODD ​​GOLUB: Ce poți concluziona? PUBLIC: Ce faci cu asta? Cum ai de gând să salvezi asta? Vrei să spui că [INAUDIBIL] a fost semnătura [INAUDIBILĂ] că supraviețuirea [INAUDIBILĂ]? Ce zici? PUBLIC: Există o diferență, dar este posibil să nu aibă legătură cu [INAUDIBIL]. PUBLIC: Dar poate că [INAUDIBLE] ar funcționa în altă parte. [INAUDIBIL] TODD GOLUB: Corect. Cred că amândoi ajungeți la punctul relevant aici, și anume că algoritmul de grupare a învățării nesupravegheate a găsit o structură-- structură dominantă care a făcut aceste două clase. Pur și simplu nu se întâmplă să aibă nimic de-a face cu întrebarea care ne interesează, care era una a supraviețuirii. Și, așadar, ajungem la această noțiune de bază a două abordări generale ale analizei datelor, despre care probabil ați discutat, dar cred că adesea devine confuză. Deci, învățarea nesupravegheată, care nu este tocmai sinonimă cu gruparea, dar este o primă aproximare rezonabilă sau o clasificare a învățării supravegheate . Deci, aici, sunteți interesat să găsiți o structură dominantă definită numai de tiparele intrinseci de expresie a genelor dintr-un set de date dat , indiferent de orice știți despre probe, cum ar fi rezultatul clinic al acestora. Aici, vrei să spui, orice. Poate mai există o altă structură biologică interesantă . Dar nu mă interesează asta acum. Vreau să știu dacă există un model de expresie genetică care este corelat cu ceea ce îmi pasă în acest exemplu de rezultat. Deci luăm același set de date - aceeași matrice de mostre de date în funcție de valorile expresiei genelor și acum aplicăm abordări de învățare supravegheată . Acesta se întâmplă să fie un clasificator K cel mai apropiat vecin. Din nou, nu are nicio diferență ceea ce folosești aici. Și acesta se întâmplă să fie un model cu opt gene. Clasificați eșantioanele folosind o abordare de validare încrucișată cu excludere, astfel încât să nu -- încercați să nu supraadaptați datele -- modelul la setul de antrenament inițial. Și apoi întrebați, ei bine, despre cele două clase care sunt prezise, cum se descurcă de fapt acești pacienți? Și iată o diagramă de supraviețuire în termeni de luni-- luni de supraviețuire pentru acei pacienți despre care se prevede că vor fi în viață față de cei despre care se prevede că vor fi morți. Deci ce crezi despre asta? PUBLIC: Asta? Deci vom alege acele gene? TODD ​​GOLUB: Este acest lucru semnificativ? Deci, dacă te uiți într-un manual de biostatistică de bază despre cum să calculezi semnificația statistică a unei curbe de supraviețuire Kaplan-Meier, cum este aceasta, ei vă vor spune să faceți testul de rang de log. Și dacă ai face asta, ai obține o valoare p care, dacă te-ai uitat la multe dintre aceste lucruri, s- ar potrivi cu intuiția ta pentru acest grad de separare. Deci ar arăta cam așa. Este rezonabil? Ei bine, asta pare destul de semnificativ. Dar ar trebui să întrebați, ei bine, cum de acest model are opt gene, de exemplu? Cum ai ales acel număr? Ei bine, este destul de ușor. Am ales asta pentru că am lucrat cel mai bine. A funcționat mai bine decât șase, a funcționat mai bine decât 10 sau 50. Așa că a trebuit să plătim o penalizare pentru supraadaptarea unui model, potențial, la acest set de date. Deci modalitățile prin care ați putea testa cu adevărat semnificația statistică a acestui model ar fi să-l aplicați unui alt set de date. Acesta este standardul de aur. Dar, pe scurt, un lucru rezonabil de făcut pentru a aproxima mai bine semnificația este să luați în considerare faptul că există o serie de parametri ai acestui model care au fost optimizați pentru a se potrivi cu acest set de date. Și puteți face acest lucru făcând un test de permutare, în care nu amestecați valorile expresiei genelor în sine, ci randomizați etichetele clasei în ceea ce privește, sunt pacienții vii sau morți și treceți prin aceeași procedură de a încerca să construiți un clasificator optim și inclusiv alegerea numărului de... număr optim de gene pe care să le întrebați, dacă chiar încercați din greu cu aceste metode de învățare automată, cât de des puteți face un clasificator care funcționează la fel de bine ca acesta? Și când am făcut asta de 1.000 de ori, de 9 ori din 1.000, am putea face asta bine sau mai bine. Așa că am estimat aici importanța acestui model, care este încă decent. Dar puteți vedea că am luat o lovitură de câteva ordine de mărime pe această valoare p. Deci, dacă ați avea o valoare p nominală de 0,05 sau ceva, acel rezultat ar dispărea complet atunci când încercați în mod corespunzător să corectați pentru o astfel de testare a ipotezelor multiple. Și acesta este independent de ce anume clasificator ai folosit. Deci, aș spune că o mare parte din literatură - și toată lumea își dă seama cum să facă asta pe măsură ce mergem. Dar o mare parte din literatură și îngrijorările cu privire la eșecul de a reproduce un model inițial se datorează problemei supraestimării semnificației unui model inițial din cauza acestor tipuri de probleme de supraadaptare. Așa că permiteți-mi doar să fac câteva comentarii generale despre învățarea supravegheată. Și unele dintre ele pot părea evidente, dar se dovedesc a fi de fapt problematice. Și acesta este un exemplu. Deci primul pas -- stabiliți etichetele de clasă a ceea ce încercați să clasificați. Deci, într-unul dintre primele noastre experimente în care am încercat să clasificăm cele două tipuri de bază diferite de leucemie acută -- leucemie limfoblastică acută sau leucemie mieloidă acută -- modul în care construiești un clasificator este să alegi exemple dintr-o clasă, exemple dintr-o altă clasă. , și apoi găsiți modele de expresie genetică care sunt corelate cu aceasta. Ei bine, cine să spună că avem dreptate, nu? Ce ar trebui să folosiți ca standard de aur pentru aceste lucruri? Nu este întotdeauna evident, în special pentru lucrurile pentru care dorim să construim clasificatoare moleculare mai bune, deoarece diagnosticele clinice actuale sunt atât de slabe. Nu prea se simte ca un standard de aur bun să te întorci, să te bazezi pe etichetele clinice ca standard de aur. Și deci acesta este, în general, a. Problemă reală pentru studiile de supraviețuire, dacă forțați întrebarea într- o simplă problemă de două clase - supraviețuitor sau non-supraviețuitor - ei bine, toată lumea nu este un supraviețuitor la un moment dat. Deci, în ce moment declari că un pacient este un supraviețuitor al tumorii lor, de exemplu? Acest lucru necesită o anumită judecată în ceea ce privește recipientul în care să puneți mostrele. Și aș spune că cel puțin o mare parte din efortul și timpul nostru s-au dedicat încercării de a descoperi cum să facem acest lucru corect. Și există câteva abordări pe care le- ar putea lua pentru a nu fi atât de rigid cu privire la modul în care atribuiți aceste etichete, dar este o provocare. Deci, al doilea pas general în realizarea clasificatorului este selectarea caracteristicilor pe care le veți alimenta într-un model - caracteristicile în acest caz fiind genele. Detaliile nu contează, toată lista lor lungă de moduri prin care poți clasa genele. Acesta este unul simplu care se bazează pe nivelul mediu de expresie în cele două clase și pe abaterea standard a acestora. Este o modalitate relativ nesofisticată de a selecta genele, deoarece presupune că există un comportament uniform al acestor gene marker în cele două clase, ceea ce, în multe cazuri, nu este deloc așa. Există și multe alte metode. Și apoi sunt sigur că ai vorbit pe larg despre acestea. Așa că cred că o să omit peste asta, că apoi iei aceste lucruri și clasifică. Deci, pentru învățarea nesupravegheată, există toate aceste metode. Și cred că, practic, nu contează - că, fie pentru metodele de învățare automată supravegheată , fie pentru gruparea în cluster, dacă obțineți un rezultat care poate fi obținut doar cu un singur algoritm magic -- cu adevărat special al unei persoane , mi-ar face griji profund că există un problemă cu... există o scurgere de informații cumva sau ceva nu este în regulă pentru că, cel puțin din experiența mea, atunci când există o structură cu adevărat semnificativă din punct de vedere biologic sau clinic , o puteți găsi cu o serie de abordări diferite. Și, de fapt, aceasta este o verificare rezonabilă pentru a vă asigura că puteți recupera structura, indiferent dacă utilizați învățare automată sau algoritmi de clustering nesupravegheați - că o puteți recupera cu mai multe metode diferite. Există câteva exemple în acest sens care pot fi interesante. Dar, în ansamblu, sunt încrezător că spun că nu contează cu adevărat și că este într-adevăr intrarea în aceste seturi de date care contează cel mai mult - adică, eșantionați cu adevărat diversitatea, de exemplu, a procesului bolii care studiați cu eșantioanele care sunt în setul dvs. inițial de date? Ceea ce este mai dificil este, cum evaluezi rezultatul acestor clustere în ceea ce privește biologia lor, în ceea ce privește cunoașterea cu adevărat cât de robustă este structura, având în vedere orice algoritm? Și atunci de unde știi de fapt când... după ce ai văzut o dată o structură dată, cum o aplici de fapt unui alt set de date pentru a ști dacă o vezi și acolo? Nu este evident. Aveți întrebări despre chestiile astea generale? Nu aveam de gând să spun mai mult pentru că știu că ai acoperit-o. Permiteți-mi să dau alte câteva exemple de aplicare a acestor principii la unele seturi de date. Ai vorbit despre asta? PUBLIC: Nu. TODD GOLUB: OK, deci aici-- din nou, concentrându-ne pe leucemia copilăriei-- majoritatea copiilor cu ALL din copilărie răspund la chimioterapie. V-am spus despre acest subgrup de pacienți BCR-ABL care nu. Un alt grup care nu răspunde bine sunt sugarii cu vârsta mai mică de un an, care în general nu răspund. Se pare că majoritatea acestor pacienți au translocații într-o genă numită MLL. Dar este de interes din punct de vedere clinic, deoarece acești pacienți nu răspund la chimioterapia convențională, iar acest lucru vă arată doar că, folosind criterii clinice standard, ei sunt greu de distins. Deci, ce se întâmplă dacă luăm TOATE mostre convenționale, aceste leucemii MLL rearanjate pentru sugari și unele AML - leucemiile mieloide și aplicăm o abordare de învățare nesupravegheată ? Aceasta se întâmplă să fie analiza componentelor principale, dar ar putea fi algoritmul dvs. de clustering preferat. Ce vezi aici? PUBLIC: Ce vezi? PUBLIC: Trei clase diferite. TODD ​​GOLUB: Trei clase diferite. De ce spui asta? PUBLIC: Jose, vorbește. PUBLIC: Vreau să spun, maximizați separarea, astfel încât să vedeți o anumită separare-- ceva MLL [INAUDIBIL].. TODD GOLUB: OK, deci chiar aici. Deci, da, vezi trei clase, dar numai dacă ai culorile completate. Deci, dacă îți imaginezi că acesta este doar un grup de leucemii, s- ar putea să ai senzația că se întâmplă ceva aici. Dar dacă îți imaginezi că acestea sunt toate negre, poate că nu este atât de evident. PUBLIC: [INAUDIBIL] a fost analizat sau a fost optimizat [INAUDIBIL]? TODD ​​GOLUB: Nu, acest lucru este complet nesupravegheat. Deci, acesta este primul punct, este că aceste lucruri par adesea mai clare atunci când le impuneți de fapt cunoștințe. Chiar dacă structura de aici este realizată într-un mod nesupravegheat, ai impresia că este un rezultat cu adevărat curat dacă suprapuni cunoștințe ulterior. Acesta este primul lucru. Dar să spunem că da, sunt trei clase. Și cred că poți aprecia asta. O întrebare a fost, ei bine, poate acești sugari cu MLL-- genom rearanjați în verde-- poate că nu răspund la terapie pentru că sunt bebeluși și știți că aceasta este o problemă metabolică post-metabolism . Și leucemiile lor sunt aceleași cu ALL convenționale afișate în albastru închis. Acest lucru ar argumenta că de fapt nu este cazul, că sunt fundamental diferite leucemii. Este de ajutor? Deci este util, poate, din perspectiva taxonomiei, dar vă spune ce să faceți pentru acești pacienți? Deci, ce se întâmplă dacă ați dori să obțineți o perspectivă biologică asupra a ceea ce a fost diferit la aceste leucemii verzi MLL la sugari ? Ce ai putea face? Ai aceste date. Vedeți că acei pacienți definesc o clasă diferită. Ce ai putea face? PUBLIC: Are vreunul dintre voi idee? Ce ai face cu asta? PUBLIC: Inspectați componenta? Căutați lucrurile care au o greutate mai mare? Încercați să definiți funcția biologică legată de [INAUDIBIL]? PUBLIC: Deci genele ale căror greutăți explică cel mai mult este separarea. TODD ​​GOLUB: Așa este. Ai putea să faci asta. După cum se dovedește, în acest caz, există o mulțime de gene care au de fapt o greutate relativ egală. Deci mai aveți o listă mare. Și cele trei componente principale nu separă perfect clasele. Deci, ați putea să vă întoarceți și să spuneți, ei bine, acum cred că aceste leucemii MLL sunt o entitate distinctă. Asta ar fi rezonabil. Este un lucru rezonabil de făcut. Dar celălalt mod pe care îl poți face este să spui, ei bine, acum asta îmi spune că cred că aceste leucemii MLL sunt o entitate distinctă. Acum să folosim tipuri de metode de învățare supravegheată pentru a identifica genele care sunt cel mai corelate cu clasa de interes - de exemplu, în clasa MLL față de celelalte. Ar fi un lucru simplu de făcut. Deci ai putea clasifica genele în funcție de această distincție. Așa că am făcut asta și am făcut ceea ce cred eu... da. PUBLIC: [INAUDIBIL] În primul caz, [INAUDIBIL] compară între diferitele clasificări-- diferența-- diferitele gene-- [INAUDIBIL] expresie sau orice altceva? Și al doilea caz, te gândești doar să compari singura clasificare? Este corect? Publicul: Nu. TODD GOLUB: Nu, cred că este mai mult asta, dacă nu ai avut aceste culori la care să te uiți și ai spus, ah, există o structură aici. Nu știu ce este. Care este baza biologică a acestei structuri? Privind greutățile genelor care conduc această distincție ar fi un lucru rezonabil de făcut. În acest caz, am avut o întrebare specifică. Aceste leucemii sunt unice sau sunt amestecate cu celelalte? După ce am stabilit că sunt unice, este puțin mai curat să spunem, în regulă, să folosim metode supravegheate pentru a găsi genele care disting o clasă de alta. Desigur, dacă ai avea o separare perfectă, s- ar reduce la același experiment. Dar pentru că este imperfect, există câteva avantaje în utilizarea etichetelor de clasă aici. Ar trebui să menționez și că... îl vezi pe acest tip albastru aici stând într-o mare de verde? Deci, acesta este un pacient pe care, pe baza expresiei genelor, s-ar putea prezice că va fi rearanjat MLL. Dar dosarul clinic pentru acest studiu pacient nu a fost. Dar când ne-am întors și ne-am uitat efectiv la asta, sa dovedit că a existat o translocare ratată în gena MLL pe care ați putea-o recupera prin FISH. Deci aceasta nu este o amenințare pentru sănătatea publică - diagnosticarea corectă a acestor leucemii. Dar există exemple de diagnostice ratate care cred că pot fi... Cred că privirea la aceste citiri ale expresiei genetice cu mai mulți parametri poate servi ca unificator, un integrator al multor activități genetice din amonte. Și deci cred că puterea de a detecta acele evenimente din amonte va fi mai mare atunci când te uiți la un model din aval, cum ar fi un model ARN, spre deosebire de dezvoltarea unor teste specifice pentru fiecare dintre anomaliile genetice individuale care ar putea cauza același fenotip, deoarece , până la urmă, tot ce îți pasă este să știi dacă programul molecular a fost activat. Așa că clasați genele în funcție de această distincție și începeți doar din partea de sus a listei -- iată o genă care a fost în fruntea listei de 12.600 sau orice altceva ne aflăm pe listă. Și de fiecare dată când o tirozin kinază își ridică capul într-o clasificare a cancerului -- experiment de biologie a cancerului, îi acordați atenție, mai ales având în vedere povestea Gleevec. Deci ce crezi despre asta? Îți spun, o, uită-te la asta. Nivelul de ARN al unei kinaze, deci un receptor tirozin kinază numit FLT3 este în mod caracteristic ridicat în MLL, în comparație cu celelalte. Ce părere aveți despre asta, în termeni de potențială semnificație terapeutică? PUBLIC: Ce ai face cu asta? PUBLIC: [INAUDIBIL]. Sau poate că a apărut deja, dar nu poți verifica nivelurile din celelalte două clasificări? PUBLIC: Pentru că acestea [INAUDIBILE] mai lente. TODD ​​GOLUB: Corect. Deci definim această listă în virtutea faptului că este mare în MLL-uri în comparație cu celelalte două combinate. PUBLIC: Deci cum scoatem K terapeutic din asta? PUBLIC: Pentru pacienții, pacienții sunt receptivi [INAUDIBIL] Sunt clasificați în ceea ce privește răspunsul, inhibitorul FLT3? TODD ​​GOLUB: La un inhibitor FLT3. PUBLIC: Da. TODD ​​GOLUB: Deci vrei să tratezi pacienții cu un inhibitor FLT3? Ei bine, acesta nu este un medicament aprobat de FDA , așa că nu poți face asta. PUBLIC: OK, deci ce mai avem? PUBLIC: [INAUDIBIL] TODD GOLUB: Deci există. Ipoteza ar fi că celulele de leucemie MLL sunt dependente de activitatea kinazei FLT3 pentru supraviețuire. Dacă nu este cazul, atunci nu-ți pasă. Dacă nu este cazul, supraexprimarea acestui lucru este total irelevantă din perspectivă terapeutică. Așa că ai putea face asta genetic -- de exemplu, folosind interferența ARN pentru a distruge expresia, sau ai putea face asta din punct de vedere farmacologic, dacă ar exista un compus în dezvoltare -- nu încă un medicament -- dar un compus în dezvoltare care inhibă kinaza activitate. Și așa este acest experiment. PUBLIC: Deci [INAUDIBIL] A face interferență ARN-- este ceva ce poți face într-o persoană? TODD ​​GOLUB: Nu o poți face in vivo la o persoană, dar o poți face în linii celulare derivate de la om. PUBLIC: Deci din punct de vedere clinic, asta nu ar fi [INAUDIBIL].. PUBLIC: Ai putea testa ipoteza că vrei să mergi pe acea cale. PUBLIC: Înțeleg. TODD ​​GOLUB: Așa este. Acum, poți argumenta că, ei bine, a face aceste lucruri în linii celulare la șoareci... asta nu este o boală reală. Și deci nu-mi pasă ce arată toate aceste lucruri. Dar totuși, dacă ipoteza ta este că o anumită genă - supraexprimarea unei anumite gene este importantă și faci experimentele pentru a elimina expresia acelei gene și nu se întâmplă nimic, asta ar trebui să-ți dezumfle puțin entuziasmul. Deci iată experimentul, totuși. Iată, acum, luând celule umane derivate de la pacient care au fost proiectate pentru a exprima genele luciferazei de licurici, astfel încât acestea să strălucească - și puteți monitoriza in vivo sarcina tumorală. Așadar, iată, șoareci pe care, în săptămâna întâi, îi injectați în vena cozii celule tumorale derivate din leucemie la sugari. Și vezi, peste 4 săptămâni, cantitatea de activitate a luciferazei crește pe măsură ce celulele cresc și șoarecii încep să moară în jurul săptămânii 4. Și iată o cohortă de șoareci injectați, dar tratați cu un medicament o dată pe zi, care funcționează. ca inhibitor al kinazei FLT3 . Și puteți vedea că dezvoltarea leucemiei este semnificativ abrogată, ceea ce, cel puțin la prima noastră aproximare, validează ipoteza că supraexprimarea FLT3 nu este doar un marker de diagnostic al acestei clase, ci este de fapt o potențială țintă terapeutică. Și așa, pe baza acestor date și a altor date preclinice, studiul clinic pe care ați vrut să-l faceți cu un inhibitor FLT3 este planificat pentru a trata pacienții. Da. PUBLIC: [INAUDIBIL] TODD GOLUB: Deci celulele sunt infectate cu un retrovirus care conține ADNc pentru gena luciferazei de licurici, astfel încât, dacă injectați acești șoareci cu compusul luciferină, ei vor emite aceeași enzimă pe care o fac și licuricii. va străluci. Deci, de obicei, acest lucru se face in vitro în eprubete. Dar aici, îl introduci în celule și în animal, astfel încât să poți monitoriza. Ceea ce trebuia să faci era să injectezi o grămadă de șoareci, să omori pe unii dintre ei aici, pe unii dintre ei aici și apoi să examinezi măduva osoasă pentru a evalua evoluția bolii. Ceea ce este frumos aici este că poți urmări o cohortă de șoareci în mod neinvaziv. PUBLIC: Permiteți-mi să pun o întrebare stupidă, pentru că nu am făcut niciodată asta. Când te uiți la acești șoareci, poți să-ți dai seama că sunt fluorescenți? TODD ​​GOLUB: Nu. Nu. Publicul: Ei de fapt nu arată... nu. TODD ​​GOLUB: Nu, trebuie să folosiți un dispozitiv special care să măsoare, cred, în domeniul infraroșu apropiat. Există șoareci cu proteine ​​​​verzi fluorescenți care chiar strălucesc. Și poți spune că sunt verzi. PUBLIC: Șoarecii pe care îi folosim... sunt imuni [INAUDIBILI], ceea ce înseamnă că nu aveți un răspuns imun masiv? TODD ​​GOLUB: Așa că trebuie să faci asta la șoarecii imunodeficienți, astfel încât să nu respingă tumorile umane. PUBLIC: Are acest lucru un factor în determinarea dvs. cu privire la gradul propus-- răspândirea celulelor tumorale și nu pentru că sunt doar acolo? Sistemul imunitar poate direcționa atacurile împotriva... așa că atunci când luați în considerare aceste experimente și spuneți, OK, văd că acest lucru se răspândește pe întregul mouse și acest nivel de [INAUDIBIL] cum luați în considerare asta? TODD ​​GOLUB: Nu. Luați în considerare acest lucru spunând că există multe lucruri care se întâmplă în aceste modele care nu recapitulează ceea ce se întâmplă cu mouse-ul. Majoritatea oamenilor nu fac cancer prin injectarea intravenoasă a unei tumori în ei. Majoritatea pacienților au un sistem imunitar. Așadar, cred că este doar una dintre limitările că... nu ar merita timpul și cheltuielile pentru a avea un proiect de dezvoltare a medicamentelor în jurul fiecărei bănuieli care iese dintr-un experiment cu microarray. Așa că trebuie să faci ceva, chiar dacă este deficitar din multe puncte de vedere - și te-ai lovit de unele dintre ele - să spui, este interesant sau nu? Cred că nu sunt încă în punctul în care se poate face acest lucru complet computațional și să aibă orice fel de încredere. Acestea fiind spuse, aceste așa-numite modele de xenogrefă, în care ați introdus o tumoare umană într-un model de șoarece, nu predică în mod deosebit eficacitatea unui medicament în studiul clinic uman. Dar, în absența a ceva mai bun, este tot ceea ce fac majoritatea oamenilor mai întâi. PUBLIC: [INAUDIBIL] mai robust, cu alte cuvinte, dacă nu există niciun efect asupra xenogrefelor, atunci ești cu adevărat un învins dacă te duci la uman [INAUDIBIL]? TODD ​​GOLUB: Nu. Dacă ceva, este opusul, că, dacă arătați ceva activitate în xenogrefe, vedeți adesea activitate. Dar eșecul de a vedea activitatea - eșecul de a vedea activitatea în xenogrefe nu este în mod deosebit - în special pentru terapiile țintite molecular , unde este posibil să arăți cu mouse-ul că ai închis calea. Să presupunem că ai inhibat FLT3 complet. Companiile de medicamente încep să folosească grafice în acest fel pentru a spune, tot ce este mouse-ul este o eprubetă, astfel încât să pot întreba--am inhibat activitatea enzimatică a FLT3? Da sau nu. Dacă am și cred că FLT3 este o țintă bună, nu-mi pasă dacă tumora este de fapt micșorat sau nu. Îl voi aduce înaintea unui studiu clinic. Dar ai nevoie de ceva care să te convingă că ținta este rezonabilă, da. PUBLIC: Un [INAUDIBIL] interesant. Deci micile puncte din cele trei mouse-uri [INAUDIBILE] sunt... cele violete sunt xenografii, nu? Petele violete sunt xenografiile. PUBLIC: Sunt tumorile. TODD ​​GOLUB: Da. PUBLIC: Dar asta înseamnă că petele sunt toate foarte fixate în anumite zone ale mouse-ului. TODD ​​GOLUB: Da, cred că le vezi acolo pentru că celulele-- sunt injectate intravenos în vena cozii, dar ele adăpostesc măduva osoasă și vezi cavități mari ale măduvei osoase , motiv pentru care le vezi peste. flancul de acolo. Cred că voi sări peste asta. OK, ai vorbit despre asta? PUBLIC: Nu. TODD GOLUB: Bine. Deci, atunci când faceți aceste experimente, datele vă prezintă de obicei două -- fie aveți una sau două probleme după ce faceți toată această corecție adecvată pentru testarea ipotezelor multiple despre care v-am spus. În ciuda faptului că ați făcut asta, aveți încă o listă de gene care este prea lungă pentru a aduce înțelegere biologică, sau ați corectat totul și aveți impresia că de fapt nu există nimic care să fie exprimat diferențiat în cele două cazuri. Așadar, permiteți-mi să vă arăt câteva dintre abordările mai recente de a trata acest lucru, deoarece ne schimbă într-adevăr în mod substanțial gândirea despre cum să facem acest tip de experimente. Deci, acesta nu este un exemplu de cancer, ci un experiment de diabet în care au existat pacienți care fie erau -- pacienți adulți care fie aveau diabet de tip 2, fie erau normali, așa cum este definit prin efectuarea unui test normal de toleranță la glucoză. Și au suferit biopsii voluntare ale mușchilor scheletici sub o clemă euglicemică. 18 dintre acești pacienți, 17 dintre acești pacienți... este o problemă simplă de două clase. Obțineți datele de expresie pentru a identifica acele gene care sunt exprimate diferențial în aceste două clase. Efectuați testarea de permutare adecvată pentru a vă asigura că corectați pentru testarea mai multor ipoteze . Și iată rezultatul. Nimic nu întrunește semnificația. Deci, din cele 20.000 de gene de pe matrice, chiar și gena de top nu îndeplinește semnificația statistică. Posibil ca acesta să fie cazul. Dar întrebarea este, există și alte modalități prin care ați putea recupera o poveste biologică aici? Așadar, modul în care Vamsi Mootha și studentul absolvent, Arvind Subramanian au luat-o la asta a fost să definească grupuri de gene sau seturi de gene a căror activitate ca o colecție de gene ar putea fi interogată în aceste seturi de date. Și am putea avea o discuție bogată despre cum se definește astfel de seturi de gene? Ai putea să o faci pe baza literaturii de specialitate. Așa că întreabă-l pe Zach ce gene sunt importante într-o cale despre care știe ceva. Asta ar putea fi o listă. Sau ai putea spune că nu avem încredere în asta... asta va aduce părtinirea lui Zach. Nu ne interesează asta sau intuiția altcuiva. Să obținem doar experimental liste de gene într-un fel sau altul - perturbăm celulele, obținem modificarea expresiei genelor și asta face un set de gene. Și poți strânge cât mai multe dintre acestea. Pentru aceste experimente, am realizat 150 dintre aceste seturi de gene. PUBLIC: Înainte de a continua, [INAUDIBLE] de două ori pe diapozitiv. TODD ​​GOLUB: Oh, da. PUBLIC: Deci el este unul îmbogățit. TODD ​​GOLUB: El este îmbogățit. Da, ar trebui să fie. Atunci cum faci asta? Deci, primul lucru pe care îl faceți este să clasați toate genele din matrice -- de la 1 la 20.000 -- în funcție de cât de bine sunt corelate cu distincția. Ți-am spus deja că acesta de top... nici măcar acela nu are semnificație ca o singură genă. Și apoi interoghezi fiecare dintre aceste seturi de gene și întrebi, sunt ele îmbogățite? Și aici ar fi un exemplu de set de gene ipotetice, deci fiecare genă din setul de gene de o duzină de gene sau orice altceva, care nu este îmbogățită în partea de sus a acestei liste de seturi ordonate , în timp ce aici este un set de gene ipotetic. Nu este perfect. Dar este distribuit non-aleatoriu pe această listă de ordine de rang . Este îmbogățit spre vârf. PUBLIC: Vedeți asta ca o operațiune similară cu următoarea-- există o grămadă de proteine ​​pe care ei le-ar uita [INAUDIBLE] care dă rezultate în micromatrice la ontologia genelor și ar spune, ce clase de ontologie a genelor sunt suprareprezentate, având în vedere... - în acest set de gene? TODD ​​GOLUB: Da. Deci, puteți defini aceste seturi de gene pe baza unei adnotări de ontologie a genelor . Acesta este un exemplu. Partea importantă este să vă asigurați că corectați în mod corespunzător pentru a testa toate seturile de gene. Deci acum, în loc de 22.000 de gene, avem 150 de seturi de gene. Dar că ar trebui să te gândești la 150 de ipoteze. Deci, ar trebui să faceți același tip de testare de permutare și să spuneți, dacă randomizez-- în acest caz-- distincția diabet versus normal, este clasa mea preferată de ontologie genetică încă îmbogățită? Și asta nu fac unele dintre abordările actuale ale acestui tip de adnotare. Și astfel puteți codifica acest lucru în ceva numit statistică Kolmogorov-Smirnov . Nu contează. Puteți veni cu un scor de îmbogățire pentru aceste lucruri. Și dacă faci asta în acest exemplu, obții în esență 1 set de gene care îndeplinește-- PUBLIC: [INAUDIBIL] TODD GOLUB: Care capătă o semnificație statistică destul de mare pentru un set de gene. Deci cum reconciliezi asta? Cum reconciliezi chestia asta cu chestia asta? Cum ar putea fi asta? PUBLIC: Acesta este punctul meu de vedere. Vreau să înțeleg ce ai încercat să explici. Deci primul lucru-- spui că nu ai observat nicio diferență în expresie-- PUBLIC: Genă cu genă. TODD ​​GOLUB: Așa este. PUBLIC: Dar atunci, când grupați câteva dintre ele , dintr-o dată, există o diferență. TODD ​​GOLUB: Corect. Deci cum ar putea fi asta? PUBLIC: Cum ar putea fi asta? [VOCI INTERPUSE] PUBLIC: --obține mai multe informații din asta. Poate un semnal slab [INAUDIBIL] eșantionează [INAUDIBIL] coerența. PUBLIC: [INAUDIBIL] câteva lucruri combinate [INAUDIBIL]. Fă-l unul în sus și unul în jos. [INAUDIBIL] TODD GOLUB: Deci micromatricele în sine -- precizia acestor matrice nu este atât de fantastică. Și așa vă puteți imagina dacă există un semnal subtil. Genă cu genă, este dificil să o detectezi. Dar dacă luați în considerare reglarea coordonată a unui grup de gene, toate în aceeași direcție, ca grup, acest lucru ar putea fi destul de izbitor. Și acest lucru este afișat chiar aici, ceea ce este cu adevărat uimitor când te gândești la asta. Așadar, uitați-vă la nivelul mediu de exprimare al tuturor pacienților diabetici față de toți pacienții normali. Toate genele din matrice sunt afișate cu gri. Și așa te-ai aștepta să nu existe valori aberante. Nu există nimic departe de diagonală. Dacă ar fi, acestea ar apărea ca gene unice care au fost exprimate diferențiat. Bineînțeles, ai putea avea o valoare anormală masivă care te-ar putea încurca să te uiți la mijloace. Dar totuși, înțelegi punctul meu de vedere. Și aici sunt aceste fosforilări oxidative - setul de gene care a fost definit de acele gene care sunt implicate în fosforilarea oxidativă. Și puteți vedea că, cu doar câteva excepții, toate sunt aliniate chiar sub diagonală. Schimbarea lor în expresia genelor este de doar aproximativ 20% față de normal, dar totul este în aceeași direcție. Deci, modificarea de 20% a acestui număr de gene este destul de semnificativă. PUBLIC: Înțelegi asta? Lasă-mă să încerc să... pentru că este un punct incredibil de important. Șansa-- dacă te uiți la orice punct, ce înseamnă să fii 1-- lângă diagonală, pe o parte sau pe cealaltă. Nu voi face o poveste [INAUDIBILĂ]. [INAUDIBIL] despre. Va fi una rapidă-- faptul că este pe o parte sau pe cealaltă. Și apoi, doar dintr-un noroc prost, toți sunt pe o parte a diagonalei dacă sunt puse în diagonală. Va fi incredibil de puțin probabil. Și astfel fiecare genă individuală este o parte a diagonalei. Faptul că toate genele pe care le-am prealocat în prealabil de celălalt tip-- în acest caz, fosforilarea [INAUDIBILĂ]-- care vor ajunge pe o parte a diagonalei-- este foarte puțin probabil, faptul că poți doar, cu ceva noroc, pune-le pe toate pe o parte a diagonalei. PUBLIC: Deci, este mai puțin legat de îmbogățirea [INAUDIBILĂ] a probabilității de a defini [INAUDIBIL], având în vedere că ați spus că acestea sunt gene care ar trebui să fie legate de unele [INAUDIBILE]. PUBLIC: Da. PUBLIC: Asta are sens. TODD ​​GOLUB: Așa este. PUBLIC: [INAUDIBIL] împreună, clasele pot fi formate. TODD ​​GOLUB: Așa este. Pentru că dacă te uiți... dacă iei acest punct izolat, nu există nicio posibilitate ca asta să fie semnificativ pentru că este chiar la mijloc... în chestia asta. Deci, acesta este un experiment revelator și ne determină să revenim și să reanalăm, folosind această metodologie numită analiza de îmbogățire a setului de gene, câteva seturi de date vechi. Permiteți-mi să vă dau alte câteva exemple de exemple nepublicate care într-un mod ușor diferit -- le folosesc într-un mod ușor diferit. Așa că ți-am spus despre experimentele noastre de predicție a rezultatului meduloblastomului înainte. Și cam în același timp, a fost publicată o lucrare care a analizat, în esență, aceeași întrebare. Meduloblastom non-metastatic versus metastatic - pacienți diferiți, matrice diferite, grupuri diferite, indiferent. Ei au creat un clasificator care a fost centrat în jurul genei receptorului PDGF alfa - a fost un predictor și, de asemenea, un număr de jucători din aval ai receptorului PDGF alfa. Și așa am întrebat dacă vreun o-- când ne uităm la clasificatorul nostru de rezultate, despre care v-am arătat că este destul de decent, unde este calea receptorului PDGF alfa acolo? Și nici receptorul PDGF alfa și nici genele din acea cale nu au fost printre cei mai buni predictori – primele 50 de gene din setul nostru de date, una care cred că ar face să cred că unul sau ambele seturi de date sunt greșite sau modelele derivate din ei gresesc. Dar dacă luați aceste gene legate de receptorul PDGF alfa ca un set de gene și întrebați dacă este îmbogățit în setul nostru de date folosind această metodologie prezentată schematic aici, este îmbogățit. Această listă are aproximativ 12.000 de gene. Deci, puteți vedea că nu sunt toate stivuite, ca de la 1 la 50, dar sunt distribuite nealeatoriu, ceea ce considerăm că, de fapt, cele două seturi de date sunt consecvente. Dacă ați avea seturi de date de dimensiune infinită, atunci ați începe să vedeți convergența markerilor care se suprapun în partea de sus a listei. Dar cu aceste seturi de date mai mici și variabilitatea clinică-- PUBLIC: Acest lucru pune un oarecare formalism în jurul a ceea ce [INAUDIBLE] flutura mâinile și țipa despre. Timp de cinci ani, oamenii au spus, ei bine, acest microarray [INAUDIBIL]. Nu poți face diferența dintre ele. TODD ​​GOLUB: Da. PUBLIC: Acesta este modelul. Este modelul general. Acesta este un mod mult mai formal -- un model care a fost lansat pentru a alege [INAUDIBIL].. TODD GOLUB: Deci iată un alt exemplu al acestui lucru. De asemenea, este nepublicat. Așa că ne-am uitat la cancerul pulmonar -- adenocarcinomul uman în plămân și am identificat câteva -- am trasat linia la 50 pentru că este un număr frumos -- predictori de rezultat la pacienții cu cancer pulmonar din Boston. Universitatea din Michigan a făcut același experiment, publicat cam în aceeași perioadă. Suprapunerea în gene a acestor două-- enumerate 50 de gene-- zero-- referitor. Dar dacă te uiți în spațiul setului de gene și întrebi, ce seturi de gene sunt îmbogățite într-un singur set de date? Ce seturi de gene-- pe care le poți considera liber ca căi. Nu sunt chiar căi, dar este rezonabil să ne gândim la ele în acest scop. Există o suprapunere destul de semnificativă în spațiul setului de gene. Deci, cred că ceea ce se spune este că Botstein are dreptate, că există mai multă coerență biologică în aceste seturi de date. Doar că nu am fost suficient de deștepți pentru a ști cu adevărat cum să-l vedem. PUBLIC: Cum ți-ai ales setul de gene? [INAUDIBIL] Ce folosiți-- Funcția [INAUDIBILĂ] sau este o cale? Sau cum faci de fapt [INAUDIBIL]?? TODD ​​GOLUB: Acum avem aproximativ 450 de astfel de seturi de gene, dintre care unele sunt bune, altele nu sunt deosebit de utile. Acestea includ unele adnotări go. Nu cred că acestea sunt deosebit de utile, deoarece granularitatea nu este suficient de bună. Cred că, în cele din urmă, cele mai utile tipuri de seturi de gene vor fi cele care sunt derivate experimental. Dar acesta este un amestec dintre acestea și nu suntem încă în punctul în care am început să încercăm să înțelegem -- dintre aceste 35 de seturi îmbogățite de gene, care sunt ele și care este povestea biologică? PUBLIC: L-ai aruncat de ordinul a 60 de seturi de gene? TODD ​​GOLUB: Nu. Publicul: Nu? TODD ​​GOLUB: Nu. Am aruncat asupra lui seturi de 400 de gene și ceva și am întrebat, câte dintre acestea sunt îmbogățite în setul de date din Boston? Și răspunsul este 35 plus 18. Și 35 plus 12 au fost îmbogățiți aici. Și astfel majoritatea seturilor îmbogățite într-unul au fost îmbogățite și în celălalt. PUBLIC: E de ajutor. PUBLIC: Acestea sunt specifice cancerului sau doar biologice? TODD ​​GOLUB: Nu, nu sunt specifice cancerului. PUBLIC: Și acele seturi de gene sunt adnotate manual de grupul lor, sau este [INAUDIBIL]? TODD ​​GOLUB: Există o combinație, așa cum am spus. Unele sunt aceste căi [INAUDIBILE] care sunt adnotare așa-așa. Unele sunt complet derivate din punct de vedere computațional. Adică, sunt genele vecine cele mai apropiate ale unei anumite gene index dintr-un set de date. Sunt diverse lucruri. Și cum ar arăta de fapt colecția definitivă de seturi de gene nu este evident pentru mine. PUBLIC: [INAUDIBIL] aflați din ce în ce mai multe despre mecanism. TODD ​​GOLUB: Așa este. Pe de o parte, cred că va fi util să nu vă supărați prea mult și să vă îngrijorați exact cum să definiți aceste lucruri. Doar du-le acolo. Lucrul frumos despre această metodologie GSCA pe care nu am trecut cu adevărat în detaliu este că este îngăduitor -- modul în care calculezi aceste scoruri de îmbogățire este iertător pentru definiția seturilor de gene pentru că cauți îmbogățit -- non-aleatoriu îmbogățirea genei. Setați astfel că faptul că o treime sau o jumătate din setul de gene ar putea fi de fapt inadecvat acolo nu face nicio diferență, deoarece există încă suficient de îmbogățit semnificativ pentru a-l detecta. PUBLIC: Și tu [INAUDIBIL]? TODD ​​GOLUB: Poți. Nu s-a întâmplat să o facem aici, dar poți. Din nou, ca oricare dintre aceste alte lucruri, vor exista o serie de valori diferite pe care le puteți aplica pentru a măsura îmbogățirea semnificativă. Cel mai important lucru este să vă asigurați că corectați posibilitatea oricărei valori pe care o utilizați -- că detectați ceva dincolo de ceea ce v-ați aștepta întâmplător. PUBLIC: Așa că am două întrebări despre [INAUDIBIL].. Una ar fi-- deci presupun că puteți detecta și-- aveți un [INAUDIBIL] a unei anumite gene, pe care nu ați menționat-o până acum. Așa este [INAUDIBIL] un exemplu de [INAUDIBIL]. Este ceva pe care l-ai găsi revenind la mostrele tale sănătoase și comparând-- căutând îmbogățire în raport cu boala ta? PUBLIC: Un scor pozitiv? TODD ​​GOLUB: Deci, de fapt, modul în care calculezi aceasta este valoarea nu caută în mod special îmbogățirea spre vârf. Acesta caută o distribuție non-aleatorie. Ai găsi epuizare. Ceea ce ați putea găsi, ceea ce cred că este... acest scor va capta și nu este de dorit - ar fi ceva concentrat la mijloc, ceea ce este foarte neinteresant. Deci există niște fals pozitive acolo. PUBLIC: S-ar putea să nu fie chiar atât de interesant -- de exemplu, în activarea celulelor T, devii normal [INAUDIBIL]. Obțineți o reglare în sus a anumitor proteine și obțineți o reglare în jos a altora. Și, deci, ceea ce nu am auzit încă este cum explicați , probabil, îmbogățirea unei părți din genele voastre [INAUDIBIL], creșterea altora cu asta... TODD GOLUB: Deci există o altă versiune a acestui lucru care încearcă să disece seturile de gene în acele componente care se mișcă coerent într-o direcție față de cealaltă, pentru că ai perfectă dreptate. PUBLIC: [INAUDIBIL] TODD GOLUB: Da. Dacă, de exemplu, luați o -- folosiți adnotarea GO sau ceva de genul acesta, sau o cale, dacă jumătate din genele din cale merg în sus și jumătate din gene coboară, ar putea părea deloc o îmbogățire , în timp ce, dacă le separă cumva, puteai să-l vezi. Cum ne descurcăm pentru timp? PUBLIC: Ei bine, ai 20 de minute-- 18 minute. TODD ​​GOLUB: OK. Așa că permiteți-mi să împing acest lucru -- nu pentru clasificare, ci pentru câteva direcții mai noi la care ne gândim -- cum puteți folosi aceste semnături pentru lucruri utile, în special pentru a vă gândi la ceva care este mai aproape de descoperirea medicamentelor. Deci, așa ar arăta conducta obișnuită de descoperire. Aveți o boală sau un proces biologic la care vă interesează. Faceți niște experimente cu microarray. Și atunci ar trebui să se întâmple un miracol prin care să dezvolți suficientă înțelegere moleculară a ceea ce îți spun datele, pentru a putea identifica ținta armei fumigene. Și apoi parteneriți cu o companie de medicamente și spuneți, căutați o moleculă mică care inhibă această țintă terapeutică critică. Problema este că această parte este cu adevărat dură. Așadar, la ce ne-am gândit este că ați putea ocoli partea de înțelegere, cel puțin inițial, prin care selectați molecule mici pe baza capacității lor de a perturba pur și simplu o semnătură de interes. Și apoi, odată ce le ai în mână, le poți folosi pentru a diseca în continuare biologia sau, dacă ai noroc, te gândești la ele ca la droguri. Și astfel, experimentul de dovadă a conceptului este prezentat aici, unde - aici sunt două stări biologice, de exemplu - o celulă leucemică, care este nediferențiată, și o celulă sanguină normală, care este complet matură și este diferențiată de-a lungul mieloidului. cale -- un neutrofil din sângele periferic. Nu se știe care sunt țintele critice ale acestei căi. Așa că este greu să faci un screening cu molecule mici pentru a induce acest proces, ceea ce ar fi bine dacă ai putea pur și simplu să induci celulele tale leucemice să se transforme în celule normale. Deci întrebarea este, am putea defini o semnătură a acestei stări, o semnătură a acestei stări și apoi să selectăm compușii care declanșează semnătura? Deci detaliile nu contează aici, dar conceptul este, definiți semnăturile celor două stări de interes. Așadar, numim acest lucru GEHTS, pentru screening-ul cu randament ridicat bazat pe expresia genelor. Definiți semnăturile-- acum standarde-- despre ce am vorbit-- micromatricele noastre, unde ar fi experimentul-- tratează celulele cu diferiți compuși chimici și întrebați dacă vreunul dintre acești compuși declanșează semnătura de interes. Și pentru a face acest lucru fezabil, simplificăm aceste semnături complexe într-o mână de gene pe care le puteți măsura prin PCR multiplexată. PUBLIC: Am citit ziarul. A fost doar o problemă de cost, spre deosebire de a merge direct la microarrays? TODD ​​GOLUB: Este o problemă de cost și de debit. Da, deci dacă ai vrut să... PUBLIC: Suntem buni. [INAUDIBIL] TODD GOLUB: Dacă ați vrut să verificați zeci de mii de compuși, nu este chiar fezabil dacă vă costă 500 de dolari o dată în problema debitului. Deci da, aici este o chestiune practică. Această parte nu contează. Este suficient să spunem că există o metodă pentru a măsura o semnătură simplificată la un randament ridicat. Așa că am analizat câteva mii de compuși și am întrebat, declanșează vreunul dintre ei această mică semnătură a genei? Și unii dintre ei au făcut-o. Detaliile nu contează. Dar atunci întrebarea ar trebui să fie, ei bine, poate aceste lucruri declanșează doar aceste cinci gene care sunt... Îmi pare rău, acești compuși declanșează cele cinci gene, dar de fapt nu fac nimic. Așa că o modalitate prin care ai putea stabili dacă realizează ceva biologic este să te dai înapoi și să te uiți din nou peste întregul genom , să preiei celule, să le tratezi cu acești compuși candidați și să te întrebi dacă ai recapitulat de fapt programul molecular global, nu doar din aceste cinci gene, ci din întregul lucru... al întregului program molecular? Deci, dacă vă întoarceți la rețele la nivel de genom, puteți vedea că un număr dintre acești compuși au recapitulat programul molecular de diferențiere. Are sens? Așadar, utilizați testul simplificat de mare debit doar ca o citire a faptului dacă ați declanșat semnătura sau nu. Și apoi, cu acei candidați în mână, te întorci și îi interoghezi. PUBLIC: Toată lumea urmărește asta? TODD ​​GOLUB: Deci genele din această mică semnătură în sine... PUBLIC: Nu o facem dacă de fapt fac ceva restului celulei. TODD ​​GOLUB: De fapt, sunt destul de încrezător că nu. Dar este irelevant. Deci definiți aceste semnături nu pe baza faptului că sunt importante sau cineva crede că, o, asta este o țintă bună și asta este important pentru leucemie sau diferențiere sau orice altceva. Pur și simplu... PUBLIC: Reprezintă clasa. TODD ​​GOLUB: Reprezintă clasa. Tot ce îți pasă. Și că o poți măsura bine. Deci, uneori, găsiți un marker candidat bun care, dintr-un motiv oarecare, nu se comportă bine în acest test, așa că îl aruncați și îl înlocuiți cu altceva. Așadar, iată doar un exemplu pentru a spune că atunci, așa cum v-ați aștepta, atunci când tratați celulele leucemice cu acești compuși candidati, descoperiți exclusiv pe baza modificărilor exprimării lor genice, ele fac lucrul -- celulele fac lucrurile pe care celulele leucemice în curs de maturizare ar trebui. fac, cum ar fi... devin fagocitare. Încep să înghită-- PUBLIC: [INAUDIBIL] mult mai diferențiat ca în comportamentul lor. TODD ​​GOLUB: Da, deci este o idee promițătoare. Acesta este un exemplu nepublicat care spune că, bine, se știe că diferențierea celulelor sanguine este în mare măsură guvernată la nivel transcripțional. Deci, poate de aceea puteți defini aceste semnături transcripționale ale procesului de diferențiere și puteți verifica lucrurile. Dar iată un exemplu de definire a semnăturii expresiei genice . Din nou, semnătura în sine este lipsită de orice semnificație biologică reală, altfel decât citește, în acest caz, activarea unei căi de transducție a semnalului. Deci modul obișnuit de a gândi la asta este, ei bine, dacă vrei să te uiți la transducția semnalului - proteinele vorbesc între ele, ARN-ul nu are locul în asta. Profilul ARN nu are loc în asta. Dar aici ideea este că, dacă stimulăm o cale de semnalizare -- în acest caz, prin stimularea celulelor cu factor de creștere derivat din trombocite și apoi capturarea răspunsului transcripțional la nivel de ARN, am putea folosi o semnătură ARN ca citire pentru receptorul PDGF activare și un ecran pentru inhibitori ai căii de transducție a semnalului folosind ARN ca citire? Și aici, aceasta este lucrarea unui student absolvent al MIT - student absolvent la chimie, care a scos un compus numit acid aurintricarboxilic ca exemplu, care se dovedește a fi un inhibitor necunoscut anterior al receptorului PDGF în sine. Dar a fost descoperit uitându-se aici jos la o semnătură. Așadar, cred că acest lucru va fi util pentru diverse -- a putea verifica lucruri pentru care altfel nu le puteți verifica. Deci, aceasta este o structură chimică care nu este în prezent explorată la oamenii care știu mult mai multe decât mine despre inhibitorii de kinază, deoarece nimeni nu s-a gândit să se uite la ea. Și a fost descoperit pur și simplu folosind ca semnătură, ca citire. Așa că în ultimele cinci minute, permiteți-mi să împing ideea semnăturii poate mai departe decât ar trebui. PUBLIC: Dar este sfârșitul orei. TODD ​​GOLUB: Dar este sfârșitul cursului și sunt încântat de idee. Dar are mai puține date în jurul lui. Și aceasta este ideea de a folosi aceste semnături-- ca să puteți vedea, cel puțin în-- gândirea mea s-a schimbat în ultimul an și ceva, mult departe de a găsi, oh, care este acul-- folosind aceste tipuri de microarray de experimente pentru a găsesc un ac într- un car de fân... care este gena care este responsabilă pentru ceva la care îmi pasă? Să ne gândim la puterea acestor semnături ca citiri pentru diverse lucruri. Deci, ideea aici este să folosiți semnăturile - semnăturile ARN ca vehicul pentru stabilirea conectivității între componentele genomului și unele altele, pe care le manipulați prin perturbare. Cred că este puțin diferit față de rețelele de relevanță, dar este similar din punct de vedere conceptual. PUBLIC: [INAUDIBIL] TODD GOLUB: Stabilirea de legături între droguri și droguri și droguri și gene. Deci, ideea ar fi că, dacă puteți defini o semnătură a expresiei genelor , să spunem -- cuprinzător pentru toate medicamentele -- există doar aproximativ 2.000 de medicamente aprobate de FDA. Este de fapt uimitor că acestea nu sunt informații disponibile public , ceea ce se întâmplă cu celulele când le tratezi cu medicamentele pe care le dăm pacienților. Dacă ai avea asta și, de exemplu, ai avea o semnătură care a fost rezultatul ablației secvenţiale a fiecărei gene din genom-- doar 26.000 de gene din genom, iar acum există reactivi care vin online cu interferenţă ARN, unde poți face asta. experiment -- atunci ai avea o matrice sistematică de perturbări prin care folosești aceste semnături de expresie genică ca biotest universal pentru a conecta genele cu genele, genele cu medicamentele și medicamentele cu medicamentele. Are sens? Ai o intrebare? PUBLIC: [INAUDIBIL] Cum putem preveni de la [INAUDIBIL] la [INAUDIBIL] celulele canceroase [INAUDIBILE] celulele canceroase. Dar din cauza [INAUDIBIL]-- din cauza [INAUDIBIL]. TODD ​​GOLUB: Ei bine, susținem că... nu vă deranjați să faceți asta în organisme inferioare pentru că puteți face experimentul în celule umane. Așa că o vom face în celule umane. Și aș spune... ideea, din nou, pentru stabilirea acestor conexiuni este să nu fii capabil să... PUBLIC: Să fii perfect. TODD ​​GOLUB: Cred că oamenii care cred că poți crea o schemă de cablare și poți face ingineria inversă a unei celule sunt înnebuniți pe baza acestor date. Doar că nu este fezabil. Deci întrebarea este, puteți găsi... puteți găsi, de exemplu, îmbogățire în același tip de gândire GSCA? Puteți găsi îmbogățirea unei semnături în alta, stabilind astfel conectivitatea, caz în care da, veți greși o parte din ea deoarece contextul nu este corect sau cartografierea speciilor nu este corectă. Dar veți putea vedea suficiente conexiuni pentru a stabili conectivitatea? PUBLIC: [INAUDIBIL] TODD GOLUB: Da. PUBLIC: Sigur. TODD ​​GOLUB: Da, cu siguranță unele. Constatăm că, de fapt, vă voi da câteva exemple că, deși acest lucru este sigur că va fi, dependența de context este sigur că va fi cazul... PUBLIC: Sunt multe care sunt împărtășite. TODD ​​GOLUB: Sunt multe care s-au împărtășit. Și așa, când am început să vorbim despre acest proiect, au existat o mulțime de obiecții la idee-- oh, încă mai sunt, asta, oh, ce se întâmplă dacă nu alegi linia celulară potrivită în care să faci asta? În mod ideal, ați face-o în aproximativ 100 de tipuri de celule diferite. Dar apoi devine, apoi devine un experiment serios. Chiar și într-o singură linie celulară, este un experiment uriaș. PUBLIC: Cred că i-am spus acestui grup că am văzut același lucru în relațiile [INAUDIBILE]. Multe, multe tipuri de celule pe care oamenii nu le-ar crede că vor fi acolo. Doar sunt acolo. TODD ​​GOLUB: Da, exact. Așa că permiteți-mi să dau câteva exemple și apoi vom încheia. Și, de asemenea, din nou, revine la această idee de îmbogățire, căutând îmbogățirea folosind un test de îmbogățire Kolmogorov-Smirnov . Așadar, iată un experiment care a fost publicat nu de noi, ci de un grup de la Abbott Laboratories, unde sunt interesați de această clasă de medicamente numite inhibitori ai histonei deacetilazei. Au luat... ce este? Cinci dintre aceste lucruri, celulele tratate, au luat un set comun de gene care au fost reglementate, au definit o semnătură a 22 de gene. Este un set de gene. Este setul de gene inhibitoare HDAC. Am luat celule de cancer de sân -- nu tipul de celule pe care l-au folosit -- și le-am tratat cu o grămadă de medicamente diferite, inclusiv unul, acidul valproic, care este de fapt folosit pentru a trata crizele, după cum se dovedește. Ulterior s-a descoperit că acidul valproic are de fapt activitate inhibitoare a histon-deacetilazei. Este slab, dar este acolo. Și ne întrebăm, putem vedea îmbogățirea acestei semnături în oricare dintre acești compuși? Și răspunsul este, da. Deci tricostatina A a fost de fapt... unde este? Iată cel de sus... a fost unul dintre medicamentele pe care le-au folosit pentru a defini semnătura. Așa că l-am recuperat... nu este surprinzător. Dar este puțin înșelătorie pentru că nu a fost un exemplu nou. Dar aici, vedeți valproatul de sodiu, pe locul trei și al patrulea pe listă, care nu a fost folosit pentru a defini semnătura, ci pur și simplu bazat pe conectivitatea semnăturii. Dacă nu am fi știut, am fi putut redescoperi că... am fi putut descoperi că valproatul de sodiu era un inhibitor al extractului din cauza acestei conectivitati. De asemenea, puteți vedea aici-- Trichostatin A-- deci semnătura este definită-- Nici nu-mi amintesc-- într-un singur tip de celulă. Și vedem că declanșează semnătura-- semnătura inhibitorului HDAC în celulele canceroase de sân și în celulele leucemice. Deci, este un context robust [INAUDIBIL]. Interesant este că am rulat și mica noastră conectivitate - mini hartă de conectivitate peste semnătura de fosforilare oxidativă pe care o definim. PUBLIC: Proteaza [INAUDIBILĂ] provoacă hipoglicemie? TODD ​​GOLUB: Da. Noi nu știam asta. Am crezut că am descoperit ceva nou. PUBLIC: Este o specialitate greșită. TODD ​​GOLUB: În specialitatea greșită. Da, s-a raportat acum aproximativ 20 de ani că valproatul provoacă hiperglicemie și modulează fosforilarea oxidativă - activități separabile, separabile de activitatea anti-convulsii, separabile de activitatea inhibitorului HDAC și declanșează seturi de gene separate. Deci, un ultim exemplu - o semnătură definită a unui medicament numit rapamicin, care se află în această cale simplificată aici de PI3 kinaza AKT și o proteină numită mTOR. Și se dovedește că, dacă definiți semnătura tratamentului cu rapamicina aici, celulele T definitorii ale acestuia publicate de David Sabatini și aplicați acea semnătură pe matricea noastră de conectivitate, vedeți că rapamicina în sine este recuperată în două tipuri de celule diferite . Dar, de asemenea, chestia asta-- LY294002-- nu știam ce era inițial. Dar apoi te uiți la asta. Este de fapt un inhibitor al kinazei PI3, care se află în amonte de mTOR. Deci pune, pe aceeași cale, două medicamente care acționează împreună și declanșează aceeași semnătură. | din nou, nu cred că va fi posibil pe termen scurt să reconstruim efectiv căile de transducție a semnalului în întregime. Dar, cred că va fi posibil cu această abordare să poți pune gene sau medicamente împreună într-o cale despre care nu se știa anterior ca fiind în aceeași cale . Așa că ne-am hotărât să descoperim cum să lansăm ceea ce ar fi un proiect de hartă de conectivitate în domeniul public la scară largă, unde am face aceste perturbări și am pune datele în domeniul public, astfel încât oamenii să poată folosi datele pentru a-și găsi propriile conexiuni. PUBLIC: [INAUDIBIL] Există o bază de date care înregistrează unele molecule [INAUDIBIL]. Care va fi diferența majoră între acest proiect și celălalt? TODD ​​GOLUB: Nu sunt sigur că știu ce-- PUBLIC: Cred că ea vorbește despre [INAUDIBIL].. O expresie, nu? PUBLIC: Da, foarte expresie când condițiile pe molecule... TODD GOLUB: Cu privire la răspunsul la molecule. Acesta este răspunsul real la molecule. Deci acel set de date este expresia de repaus, netratată a liniilor celulare, pe care apoi o puteți corela cu modul în care acestea răspund. Acestea sunt schimbările acute ale răspunsului, pentru că lucrul plăcut la acel experiment este că trebuie să măsurați fiecare linie celulară doar o dată și apoi o puteți corela cu toate acele lucruri. Aici, de fapt, trebuie să faci o microarray pentru fiecare... PUBLIC: Punct de timp pentru condiție. TODD ​​GOLUB: Da. OK, deci ultimul slide. Hopa, să omitem asta. Sunt câteva provocări viitoare. Doar să ne amintim că aceste semnături de prognostic pe care le dezvoltă toată lumea sunt într-adevăr o funcție a terapiei. Este posibil să fie utile doar dacă continuați să utilizați aceeași terapie. Deci, în acest exemplu de meduloblastom, putem prezice lucrurile destul de bine atâta timp cât încercăm să prezicem răspunsul la terapia care a fost dată acum 10 ani. Dar terapia a evoluat și nu este sigur că clasificatorul nostru va ține în continuare. Acest lucru va fi o provocare, deoarece studiile clinice sunt, în general, mici și insuficiente pentru a face acest tip de lucru. Încă nu este clar cum, odată ce aceste semnături sunt de fapt verificate și validate, ce formă vor lua atunci când vor merge efectiv la clinică? Vor fi un microarray? Pot fi. Ți-am dat câteva idei despre cum s-ar putea face o descoperire chimică bazată pe semnături. Dar transformarea unei substanțe chimice într-un drog este o mare problemă și nu este ușoară. Din acest motiv, companiile farmaceutice nu renunță la abordarea actuală a descoperirii de medicamente în favoarea acestui lucru. Și, în general, cum să integrăm acest tip de semnături în procesul de dezvoltare a medicamentelor este încă ceva de gândit. Dar în continuare cred că această noțiune de a folosi aceste instrumente -- orice înseamnă medicina personalizată -- dar pentru a obține mai multe informații despre detaliile bolii unui anumit individ pentru a le potrivi mai bine cu un tratament terapeutic existent sau nou este probabil să rămână aici, chiar dacă nu există încă multe exemple în care să se întâmple. Asta e tot ce am.